El CORPES supera los 445 millones de registros y refuerza su valor como gran mapa del español actual
La Real Academia Española (RAE) ha dado a conocer la versión 1.4 del Corpus del Español del Siglo XXI (CORPES), una de las herramientas lingüísticas más completas para el estudio del español contemporáneo. La actualización, publicada el 22 de diciembre de 2025, eleva el volumen del corpus hasta los 445 millones de formas ortográficas, tras incorporar más de siete millones de nuevas entradas respecto a la versión anterior, lanzada en julio de este mismo año.
El crecimiento del CORPES no solo se refleja en cifras. La base de datos reúne ya más de 412.000 documentos, procedentes tanto de textos escritos como de transcripciones orales, lo que permite analizar el uso real de la lengua en contextos muy diversos y actuales.
Revisión técnica y mejora de la calidad textual
Junto al aumento cuantitativo, la RAE ha llevado a cabo una actualización de los manuales de codificación de textos escritos y orales. Además, se ha realizado una revisión exhaustiva de las coincidencias textuales, un proceso de depuración que sigue en marcha y que busca mejorar la fiabilidad del corpus como fuente de análisis lingüístico.
Un corpus equilibrado entre ficción y no ficción
El Corpus del Español del Siglo XXI mantiene su vocación equilibrada en cuanto a géneros y tipologías. Más de 112 millones de formas corresponden a obras de ficción —novelas, relatos, guiones y teatro—, mientras que los textos de no ficción superan los 327 millones, con contenidos relacionados con ciencias sociales, salud, política, tecnología y cultura.
Los libros aportan más de 198 millones de formas, y las publicaciones periódicas cerca de 231 millones. A ello se suman más de 10 millones de formas procedentes de contenidos digitales como blogs, entrevistas en línea, redes sociales y textos misceláneos, reflejo del peso creciente del entorno digital en el uso del español.
Representatividad temporal y diversidad geográfica
Desde el punto de vista cronológico, el CORPES recoge el español utilizado en las últimas décadas, con una mayor concentración entre los años 2001 y 2010. El periodo más reciente, de 2021 a 2025, ya supera los 56 millones de formas, lo que garantiza la actualidad de los datos.
En el plano geográfico, el corpus conserva el reparto previsto del 30 % de textos de España y 70 % de América, con más de 281 millones de formas generadas en el ámbito americano. Esta distribución consolida el carácter panhispánico del proyecto, que desde sus inicios también incluye textos procedentes de Filipinas y Guinea Ecuatorial.
Un recurso clave para el estudio del español
Con cada nueva versión, el CORPES refuerza su posición como una herramienta esencial para el análisis del español contemporáneo. Su acceso a través del portal de la RAE lo convierte en un recurso de referencia para lingüistas, traductores, docentes, periodistas y cualquier persona interesada en comprender cómo evoluciona y se utiliza la lengua en la actualidad.
La RAE refuerza sus recursos académicos de apoyo para el lenguaje claro y accesible







