La tokenización es el primer paso que cualquier texto sufre antes de entrar a un LLM: se trocea en unidades discretas llamadas tokens —palabras, partes de palabra o caracteres— que el modelo aprende a representar y predecir. Los modelos modernos usan subword tokenization (Byte-Pair Encoding, SentencePiece, Tiktoken en GPT/Claude) que equilibra vocabulario razonable y manejo de palabras desconocidas: "consultoría" puede dividirse en "consult", "oría", y palabras frecuentes ("hola", "Python") suelen ser un solo token.
Entender la tokenización es importante por dos razones prácticas. Primero, costes: las APIs de LLMs cobran por token (input y output, a precios distintos), así que un prompt mal estructurado o repetitivo encarece la operación. Segundo, límites: cada modelo tiene una ventana de contexto máxima (4K, 8K, 32K, 128K, 200K, 1M tokens) que limita cuánto se puede meter en un prompt. Para texto en español la conversión aproximada es de unas 0.7 palabras por token, así que 100K tokens equivalen a unas 70K palabras (unos 250 folios).
Cada familia de modelos usa su propio tokenizer: tiktoken (cl100k_base, o200k_base) en OpenAI; el de Claude no es público pero hay aproximaciones; SentencePiece en Llama, Mistral, Qwen. Las librerías oficiales (tiktoken para OpenAI, transformers para HF) permiten contar tokens exactamente sin tener que llamar a la API. Para estimación rápida, dividir caracteres por 4 (inglés) o por 3 (español) suele ser suficiente.
En 10Code monitorizamos el consumo de tokens como cualquier otra métrica de coste: alertas por uso anómalo, presupuestos por tenant, dashboards de tokens/segundo y coste por respuesta. Pasos prácticos: precomputar embeddings de chunks (no se cobra por ellos al consultar), usar prompts compactos, comprimir contexto irrelevante y elegir modelo en función del coste por token y de la dificultad real de la tarea.
En 10Code llevamos más de una década aplicando estas tecnologías a productos reales. Si quieres comentarnos tu caso, escríbenos y te respondemos personalmente.
Hablar con un ingeniero