Que sont les jetons dans llm ?

Quand un modèle de langage comme GPT ou Claude traite une phrase, il ne lit pas des mots. Il manipule des fragments appelés jetons, dont le découpage varie selon l’algorithme utilisé et la langue du texte. Comprendre ce que sont les jetons dans un LLM, c’est saisir l’unité de mesure qui conditionne la vitesse de réponse, le coût d’utilisation et la capacité de mémoire du modèle.

Tokenisation BPE et SentencePiece : ce que le découpage change concrètement

Deux familles d’algorithmes dominent la tokenisation des LLM actuels. BPE (Byte-Pair Encoding), utilisé par GPT-4 et Claude, construit son vocabulaire en fusionnant les paires de caractères les plus fréquentes dans le corpus d’entraînement. SentencePiece, adopté par de nombreux modèles open source, fonctionne sur un principe voisin mais traite le texte brut sans pré-segmentation par espaces, ce qui le rend plus adapté aux langues sans séparateurs comme le japonais ou le chinois.

A voir aussi : Quel pourcentage d'OpenAI est détenu par Microsoft

Le choix de l’algorithme a un effet direct sur le nombre de jetons générés pour un même texte. Un mot court en anglais (« the », « is ») forme un seul token. Un mot français plus long comme « intelligence » peut être découpé en deux tokens (« intelli » + « gence »). Les chiffres, la ponctuation et les espaces consomment eux aussi des jetons.

En pratique, pour du texte en français ou en anglais, un jeton correspond en moyenne à trois ou quatre caractères, soit environ trois quarts d’un mot. Les langues non latines (arabe, chinois, japonais) consomment davantage de jetons par mot, ce qui a un impact direct sur les coûts d’utilisation dans ces langues.

Lire également : Quelle est la différence entre un mouvement circulaire et un mouvement de rotation ?

Professeur universitaire expliquant le concept de tokenisation des LLM devant un tableau blanc rempli de segments de texte annotés

Coût par jeton selon les modèles LLM : tableau comparatif

Les fournisseurs de LLM facturent à l’usage, et l’unité de facturation est le jeton. Deux prix distincts s’appliquent : un pour les jetons d’entrée (le prompt envoyé au modèle) et un pour les jetons de sortie (la réponse générée). Les écarts entre modèles sont considérables.

Modèle Jetons d’entrée Jetons de sortie
GPT-4.1 (OpenAI) 2,00 $ / 1M tokens 8,00 $ / 1M tokens
GPT-4.1 mini (OpenAI) 0,40 $ / 1M tokens 1,60 $ / 1M tokens
GPT-4.1 nano (OpenAI) 0,10 $ / 1M tokens 0,40 $ / 1M tokens
Claude Sonnet 4 (Anthropic) 3,00 $ / 1M tokens 15,00 $ / 1M tokens
Gemini 2.5 Pro (Google) 1,25 $ / 1M tokens 10,00 $ / 1M tokens
Gemini 2.5 Flash (Google) 0,15 $ / 1M tokens 0,60 $ / 1M tokens

Les jetons de sortie coûtent systématiquement plus cher que les jetons d’entrée, souvent d’un facteur quatre à cinq. Ce ratio s’explique par le coût computationnel de la génération : produire chaque token de réponse mobilise le modèle de façon séquentielle.

Ce que ce tableau révèle sur le marché

L’écart entre GPT-4.1 nano et Claude Sonnet 4 en sortie est de l’ordre de 1 à 37. Ce n’est pas une anomalie : les modèles les plus performants (raisonnement avancé, suivi d’instructions complexes) facturent leur puissance de calcul. En revanche, les modèles compacts comme GPT-4.1 nano ou Gemini Flash visent les cas d’usage à fort volume où le coût par requête doit rester marginal.

Fenêtre de contexte : les jetons comme mémoire de travail du LLM

La fenêtre de contexte d’un modèle désigne le nombre maximal de jetons qu’il peut traiter en une seule requête (entrée + sortie combinées). Cette limite conditionne la quantité d’information que le modèle peut « garder en tête » pendant une conversation.

Des modèles récents gèrent plus d’un million de jetons de contexte. Cela représente l’équivalent d’un roman entier ingéré en une seule requête. Les jetons deviennent un proxy de mémoire de travail, pas un simple compteur de texte.

Cette extension massive du contexte modifie les usages. Là où un modèle à quelques milliers de jetons de contexte obligeait à résumer et tronquer les documents, un modèle à un million de jetons permet d’analyser un dossier juridique complet ou une base de code entière sans perte d’information. Le compromis reste le coût : chaque jeton de contexte consommé est facturé.

Gouvernance et quotas de jetons en entreprise

Au-delà de la facturation, les jetons servent de métrique opérationnelle pour la gouvernance des LLM en entreprise. Azure API Management permet de définir des politiques de limite de jetons par consommateur d’API, pour contrôler l’usage des modèles au niveau des équipes, des applications ou des services internes.

Chaque déploiement reçoit un quota en jetons par minute (TPM), réparti ensuite entre les différents usages. Ce mécanisme transforme le jeton en unité de pilotage comparable à la bande passante réseau : on alloue, on surveille, on arbitre.

  • Les équipes de développement reçoivent un quota TPM adapté à leurs besoins de test et de prototypage.
  • Les applications en production se voient attribuer un quota supérieur, avec des alertes en cas de dépassement.
  • Les services internes à faible priorité peuvent être bridés pour préserver la capacité des usages critiques.

Cette approche par quotas explique pourquoi le jeton est devenu l’unité de mesure centrale de la DSI pour tout ce qui touche à l’intelligence artificielle générative.

Vue aérienne d'une table de travail avec des feuilles de texte annotées par couleur illustrant les tokens dans un modèle de langage LLM

Texte français et surcoût linguistique des tokens

Un même message coûte plus cher en français qu’en anglais. Les vocabulaires de tokenisation des principaux LLM ont été entraînés majoritairement sur des corpus anglophones. Le français, avec ses accents, ses mots plus longs et sa morphologie plus riche, génère davantage de tokens pour exprimer la même idée.

Ce surcoût linguistique n’est pas anecdotique pour les entreprises francophones qui déploient des LLM à grande échelle. À volume de requêtes équivalent, la facture peut être sensiblement plus élevée que pour un usage en anglais. Quelques modèles récents tentent d’élargir leur vocabulaire pour mieux couvrir les langues non anglophones, mais le biais anglophone de la tokenisation reste structurel.

Le jeton n’est donc pas une abstraction technique réservée aux chercheurs. C’est l’unité qui détermine ce qu’un modèle peut lire, ce qu’il peut répondre, ce qu’il coûte et comment une organisation contrôle son usage. Toute décision autour des LLM, du choix du fournisseur à l’architecture des prompts, passe par une question de jetons.

Ne ratez rien de l'actu