Chaque fois que vous posez une question à ChatGPT, Claude ou Gemini, votre message ne lui parvient pas tel quel. Avant même que le modèle ne réfléchisse, votre texte est découpé en centaines de petits fragments, invisibles, silencieux, mais absolument fondamentaux. Ces fragments s'appellent des tokens.
Derrière ce mot technique se cache l'une des idées les plus importantes pour comprendre comment fonctionne l'IA générative d'aujourd'hui : comment elle lit, comment elle pense, combien elle coûte, et pourquoi elle atteint parfois ses limites. Que vous soyez développeur, étudiant, entrepreneur ou simple curieux, maîtriser la notion de token change radicalement la manière dont vous interagissez avec ces outils.
Dans cet article, vous découvrirez ce qu'est un token, comment la tokenisation transforme votre texte en données exploitables, pourquoi cette mécanique influence directement vos coûts et vos résultats et comment l'utiliser à votre avantage.
L'IA générative est devenue en quelques années l'une des technologies les plus adoptées de l'histoire de l'informatique. Et toute cette industrie repose sur une unité de mesure commune : le token. Les fournisseurs comme OpenAI, Anthropic ou Google facturent leurs API au million de tokens. À titre d'illustration, un cabinet de dix personnes utilisant l'IA quotidiennement peut consommer entre 30 et 150 millions de tokens par mois, soit entre 50 et 1 500 euros selon les modèles choisis.
Cette réalité économique fait des tokens bien plus qu'un détail technique : c'est la monnaie de l'ère IA.
La notion de token n'est pas née avec ChatGPT. Elle puise ses racines dans des algorithmes de compression de données développés dans les années 1990. L'algorithme Byte Pair Encoding (BPE), qui sous-tend la tokenisation de la famille GPT, a été décrit pour la première fois en 1994 par Philip Gage comme méthode de compression de texte. C'est en 2016 que des chercheurs l'ont adapté pour le traitement du langage naturel, et depuis, il est devenu la norme de facto pour les grands modèles de langage.
Un token est la plus petite unité de texte que traite un modèle de langage. Ce n'est pas nécessairement un mot entier : ça peut être un mot, une partie de mot, un espace, un signe de ponctuation, ou même un seul caractère. Les modèles de langage ne lisent pas des mots, ils lisent des tokens.
Analogie : Imaginez que vous deviez épeler un texte à voix haute à quelqu'un qui ne comprend pas votre langue. Vous ne pouvez pas dire les mots entiers. Vous les découpez en syllabes ou en sons reconnaissables. C'est exactement ce que fait la tokenisation : elle traduit votre texte dans un langage que la machine peut traiter mathématiquement.
En anglais, 1 token correspond en moyenne à 4 caractères ou 0,75 mot. La phrase "Hello, how are you?" donne environ 6 tokens. En français, le ratio est moins avantageux. Environ 1 token pour 3 caractères car les accents, les mots composés et la morphologie plus riche consomment davantage. Des langues à écriture non latine comme l'arabe, le japonais ou le coréen sont encore plus coûteuses en tokens, car les tokeniseurs ont été entraînés majoritairement sur des corpus anglophones.
Diagramme horizontal montrant la phrase "L'intelligence artificielle transforme notre monde" découpée en tokens surlignés de couleurs alternées (bleu/or), avec le numéro d'identifiant de chaque token affiché dessous
La tokenisation repose sur un processus appelé tokenisation par sous-mots. L'approche la plus répandue est le Byte Pair Encoding (BPE), utilisé par les modèles GPT d'OpenAI et plusieurs autres.
Son fonctionnement en quatre étapes :
Initialisation : on commence avec les caractères individuels comme vocabulaire de base.
Comptage : on identifie la paire de tokens adjacents la plus fréquente dans le corpus d'entraînement.
Fusion : cette paire est fusionnée en un nouveau token et ajoutée au vocabulaire.
Répétition : on répète jusqu'à atteindre la taille de vocabulaire cible.
Concrètement, si t et h apparaissent très souvent côte à côte, ils fusionnent en th. Puis th et e fusionnent en the. Les mots courants émergent naturellement ; les mots rares restent découpés en sous-unités fréquentes. C'est élégant et efficace.
Le vocabulaire de GPT-3.5 et GPT-4 atteint ainsi 100 258 tokens (100 000 issus du BPE plus 258 tokens spéciaux).
Selon les modèles, d'autres approches sont utilisées :
WordPiece : développé par Google pour BERT, il utilise la vraisemblance statistique du corpus plutôt que la simple fréquence pour décider des fusions.
SentencePiece : développé par Google, il fonctionne directement sur le texte brut sans pré-découpage par espaces, idéal pour des langues sans séparation explicite des mots comme le japonais ou le chinois. Il est utilisé par les modèles Llama de Meta et Mistral.
Byte-level BPE : variante qui opère sur les octets plutôt que les caractères Unicode, garantissant que n'importe quel texte peut être encodé, y compris les emojis ou les caractères rares. C'est l'approche utilisée par Claude d'Anthropic et GPT-4.
Une fois découpé en tokens, chaque token reçoit un identifiant numérique unique dans le vocabulaire du modèle. C'est sous cette forme numérique, une séquence d'entiers, que le modèle reçoit l'entrée, la traite via son architecture Transformer, et produit sa sortie. La sortie est ensuite reconvertie en texte lisible par le processus inverse.
Chaque modèle de langage possède une fenêtre de contexte : le nombre maximal de tokens qu'il peut traiter en une seule fois, incluant à la fois votre prompt et la réponse qu'il génère. Tout ce qui dépasse cette limite est simplement invisible pour le modèle, il ne peut ni y faire référence, ni en tenir compte.
Cette fenêtre fonctionne comme la mémoire de travail du modèle : elle délimite ce qu'il « voit » à un instant donné.
Les premiers modèles GPT travaillaient sur quelques milliers de tokens. Les modèles actuels ont franchi des caps impressionnants : GPT-4o propose 128 000 tokens de contexte, Claude atteint 200 000 tokens, et des architectures expérimentales annoncent des fenêtres de plusieurs millions de tokens.
Attention cependant : la taille affichée ne correspond pas toujours aux performances réelles. Des recherches montrent que la précision des modèles se dégrade bien avant la limite théorique pour les informations placées au milieu d'un long contexte, un phénomène documenté sous le nom de "lost in the middle". En pratique, mieux vaut concentrer les informations cruciales en début ou en fin de prompt.
Les développeurs qui utilisent des API comme OpenAI ou Anthropic doivent maîtriser les tokens pour trois raisons principales :
Contrôle des coûts. La facturation est entièrement basée sur le nombre de tokens en entrée (input) et en sortie (output). Les tokens de sortie coûtent généralement 3 à 5 fois plus cher que les tokens d'entrée. En 2025-2026, les prix varient selon les modèles : les options économiques comme Claude Haiku ou GPT-4o mini démarrent autour de 0,15 à 1 dollar par million de tokens en entrée, tandis que les modèles de pointe peuvent atteindre plusieurs dizaines de dollars par million.
Optimisation du prompt. Chaque token compte. Réduire la verbosité d'un prompt système, éviter les répétitions inutiles, limiter la longueur maximale des réponses (max_tokens), autant de leviers directs sur la facture et la vitesse de traitement.
Gestion du contexte. Pour des applications utilisant la Retrieval-Augmented Generation (RAG), la granularité du découpage en chunks dépend directement de la tokenisation. Un mauvais calibrage peut fragmenter du sens ou dépasser la fenêtre de contexte.
Pendant l'entraînement, les LLM apprennent à prédire le token suivant dans une séquence, à partir de milliards d'exemples. La qualité du découpage initial influence directement la stabilité et la pertinence des prédictions. C'est pourquoi chaque grand modèle développe son propre tokeniseur, adapté à ses données d'entraînement et à ses langues cibles.
Comprendre les tokens permet d'améliorer concrètement ses résultats :
Un prompt plus structuré mais plus court est souvent plus efficace qu'un long paragraphe verbeux.
Les questions en anglais consomment moins de tokens que les mêmes questions en français ou en arabe.
Pour les tâches répétitives avec un prompt système constant, le cache de prompt (proposé par Anthropic et OpenAI) peut réduire les coûts jusqu'à 90 % sur les tokens en entrée.
La tokenisation par sous-mots représente un équilibre remarquablement efficace. Elle permet de gérer un vocabulaire de taille raisonnable (30 000 à 100 000 tokens) tout en couvrant n'importe quel mot, y compris les néologismes, les noms propres ou les termes techniques, en les décomposant en sous-unités connues. Elle capture également des structures morphologiques utiles : le préfixe in-, le suffixe -tion, la racine commune entre courir, coureur et course.
La tokenisation n'est pas parfaite pour autant. Quelques écueils importants :
Le désavantage multilingue. Les tokeniseurs entraînés principalement sur des corpus en anglais sont moins efficaces sur d'autres langues. Un même texte en français nécessitera plus de tokens qu'en anglais, ce qui augmente les coûts et réduit la quantité d'information que le modèle peut traiter dans sa fenêtre de contexte.
Les chiffres et le code. Les modèles ont parfois des difficultés avec les valeurs numériques, car les chiffres sont souvent découpés en tokens de manière non intuitive, sans correspondance directe avec leur valeur mathématique.
Le "lost in the middle". Plus on charge de tokens dans le contexte, plus le risque que le modèle perde le fil augmente. Charger un PDF de 500 pages dans un prompt peut faire ignorer l'information cruciale de la page 250. Mieux vaut résumer ou extraire les passages pertinents avant l'appel.
Les tokens "orphelins". Certains tokens existent dans le vocabulaire mais n'ont jamais été vus dans les données d'entraînement, des tokens sous-entraînés qui peuvent provoquer des comportements erratiques si on les utilise dans un prompt.
Un token est la plus petite unité de texte traitée par un modèle de langage, ni un mot, ni un caractère, mais quelque chose entre les deux.
L'algorithme BPE (Byte Pair Encoding) est le plus utilisé : il fusionne itérativement les paires de caractères les plus fréquentes pour construire un vocabulaire efficace.
En anglais, 1 token ≈ 4 caractères ou 0,75 mot ; le ratio est moins favorable en français et dans les langues non latines.
La fenêtre de contexte détermine combien de tokens le modèle peut « voir » en une seule requête, de quelques milliers pour les premiers GPT à 200 000 tokens pour Claude.
Toute l'économie des API IA repose sur les tokens : mieux les maîtriser, c'est directement réduire ses coûts et améliorer ses résultats.
Le phénomène "lost in the middle" rappelle que plus la fenêtre est grande, moins le modèle est précis sur les informations centrales.
Les tokens de sortie coûtent 3 à 5 fois plus cher que les tokens d'entrée, optimiser max_tokens est l'un des leviers les plus efficaces.
Q1. Un token, c'est exactement un mot ? Non. Un token peut être un mot complet, une partie de mot, un espace, un signe de ponctuation ou un caractère seul. En anglais, un mot courant comme "cat" est souvent un seul token, mais "tokenization" peut être découpé en deux ou trois tokens selon le modèle utilisé.
Q2. Pourquoi certaines langues consomment-elles plus de tokens ? Les tokeniseurs ont été entraînés majoritairement sur des textes en anglais. Les autres langues, notamment celles avec des systèmes d'écriture non latins (arabe, japonais, coréen) ou une morphologie plus riche (français, espagnol), sont représentées moins efficacement. Le même texte peut nécessiter deux à trois fois plus de tokens en japonais qu'en anglais, ce qui augmente les coûts et réduit la capacité effective du contexte.
Q3. Est-ce que je peux voir les tokens de mes propres textes ? Oui. OpenAI propose l'outil Tokenizer en ligne (platform.openai.com/tokenizer) qui permet de visualiser exactement comment votre texte est découpé avec le tokeniseur de GPT. La bibliothèque open source tiktoken permet de faire la même chose dans vos propres scripts Python.
Q4. Le cache de prompt, ça marche vraiment ? Oui, et c'est l'une des optimisations les plus efficaces disponibles. Quand votre prompt système dépasse 2 000 tokens et reste stable entre les requêtes, le cache réduit le coût des tokens en entrée de 75 à 90 % selon les fournisseurs. Anthropic propose un cache pouvant aller jusqu'à 5 minutes gratuitement ou 1 heure avec une légère surcharge.
Q5. Quelle est la différence entre tokens en entrée et tokens en sortie ? Les tokens en entrée sont ceux que vous envoyez au modèle (votre prompt, votre historique de conversation, vos documents). Les tokens en sortie sont ceux que le modèle génère en réponse. Les seconds coûtent systématiquement plus cher, de 3 à 5 fois selon les modèles, car leur production est computationnellement plus intensive.
Q6. Faut-il toujours utiliser le modèle le plus puissant ? Non, et c'est même souvent une erreur. Pour des tâches simples (reformuler une phrase, classer un texte, répondre à une question directe), un modèle économique comme GPT-4o mini, Claude Haiku ou Gemini Flash donnera des résultats équivalents à une fraction du coût. Réserver les modèles de pointe aux tâches qui le nécessitent vraiment, raisonnement complexe, code avancé, analyse multi-étapes, peut réduire la facture de 60 à 80 %.
Les tokens sont à l'IA générative ce que les bits sont à l'informatique classique : invisibles, omniprésents, et fondamentaux. Comprendre cette mécanique élémentaire, c'est accéder à une meilleure lecture des capacités et des limites des modèles, une maîtrise des coûts qui devient critique à l'échelle, et une capacité à écrire des prompts plus efficaces.
À mesure que les fenêtres de contexte s'étendent, que les prix par token continuent de baisser et que de nouvelles architectures émergent, la tokenisation elle-même est en train d'évoluer, avec des approches comme la tokenisation au niveau des bytes ou des méthodes hybrides qui pourraient à terme réduire les biais linguistiques actuels.
Alors, après cette lecture, comment allez-vous repenser la manière dont vous rédigez vos prompts ? Partagez votre approche en commentaire.
Liens internes suggérés :
"Qu'est-ce que le prompt engineering ?" (article connexe)
"RAG : comment augmenter vos LLMs avec vos propres données"
"Comparatif des modèles IA : GPT-5, Claude, Gemini"
Claude Mythos, le modèle d'Anthropic dédié à la cybersécurité, redessine les rapports de force numériques. Architecture, enjeux et controverses expliqués.
Claude MythosProject GlasswingAnthropicAI Securityvulnérabilités zero-day IA
Des milliers de travailleurs filment leurs propres gestes pour apprendre aux robots à les remplacer, une révolution silencieuse qui redéfinit le sens du travail humain