La lengua española no deja de evolucionar, y el Corpus del Español del Siglo XXI (CORPES XXI) es uno de los testigos más privilegiados de ese constante cambio.
La actualización 1.2 del Corpus del Español del Siglo XXI (CORPES XXI): Un paso más en la evolución del español contemporáneo
Guadalajara, 13 de enero de 2025
El pasado 12 de noviembre de 2024, durante la segunda sesión plenaria del XVII Congreso de la Asociación de Academias de la Lengua Española (ASALE), el académico de la Real Academia Española (RAE) y director del CORPES, Guillermo Rojo, presentó la actualización 1.2 de este monumental corpus.
Un avance que no solo aumenta el volumen de datos, sino que abre nuevas posibilidades para el estudio de las formas lingüísticas, la fonética y los contextos culturales en los que se produce el español contemporáneo.
Esta nueva versión del CORPES supera ya los 390,000 documentos y contiene más de 425 millones de formas ortográficas. En comparación con la versión anterior, lanzada en abril de 2024, el incremento es impresionante: más de 15 millones de formas adicionales, de las cuales más de 5 millones provienen de textos orales. Este crecimiento se debe en parte a la incorporación de transcripciones orales de diversos textos y situaciones, lo que añade una nueva dimensión al corpus. Además, ahora es posible escuchar los archivos de audio alineados con las transcripciones, o incluso ver vídeos cuando el texto tiene una fuente visual, lo que enriquece notablemente la experiencia del investigador.
Ficción, no ficción y una mirada hacia el futuro
Una de las áreas que ha visto una ampliación significativa es el bloque de ficción, que incluye novelas, guiones de cine, relatos y obras de teatro. Con más de 109 millones de formas, esta sección del corpus sigue siendo una de las más valiosas para el análisis de la creatividad lingüística y los giros narrativos que definen la literatura en español. Desde las tramas más complejas de la novela contemporánea hasta los diálogos de los guiones de cine, el CORPES XXI ofrece un muestrario incomparable de cómo el español se utiliza en el mundo de la ficción.
En paralelo, el bloque de no ficción sigue dominando en términos de volumen. Con más de 309 millones de formas en textos académicos, científicos, políticos, tecnológicos y culturales, CORPES XXI se convierte en un recurso imprescindible para entender la terminología especializada en áreas clave. Los libros contribuyen con más de 193 millones de formas, mientras que las publicaciones periódicas (que incluyen desde diarios y revistas hasta artículos en línea) aportan unos 215 millones de formas. Además, blogs, entrevistas digitales, redes sociales y textos misceláneos suman casi 10 millones de formas adicionales, ampliando el espectro de datos a los nuevos medios de comunicación, donde el español se expresa de manera más rápida y dinámica.
Evolución temporal: ¿cómo ha cambiado el español?
La actualización 1.2 también aporta una perspectiva temporal crucial para los estudios lingüísticos. Más de 4 millones de formas de 2024 se incorporan al corpus, lo que permite observar en tiempo real cómo se está utilizando el español en la actualidad. Además, se incluyen más de 9 millones de formas de 2023, y otros 12 millones correspondientes a 2022. Las formas correspondientes a los años 2021 y anteriores son igualmente relevantes, con más de 14 millones registradas, y destacan especialmente los períodos 2016-2020, que aportan más de 76 millones de formas.
El análisis por lustros también revela patrones significativos: el período 2006-2010 destaca con más de 109 millones de formas, mientras que los años 2001-2005 siguen muy de cerca, con 103 millones de formas. Esta evolución temporal refleja no solo los cambios lingüísticos, sino también los desarrollos culturales, sociales y políticos que influyen en la forma en que se habla y escribe el español.
Equilibrio geográfico: un corpus que refleja la diversidad del mundo hispano
El equilibrio geográfico sigue siendo un principio clave en el diseño de CORPES XXI. La distribución de las formas de texto entre España y América sigue el esquema planteado inicialmente, con un 30% de las formas procedentes de España y un impresionante 70% de América. Esto refleja la distribución geográfica del mundo hispanohablante y permite una representación más completa de las diversas variedades del español, tanto en su forma escrita como oral.
El corpus incluye textos de España, México, Argentina, Colombia, Chile, Perú y otros países de habla hispana, además de Filipinas y Guinea Ecuatorial, lo que asegura que se cubran todas las variaciones dialectales y regionales del español contemporáneo. Este enfoque global no solo enriquece la diversidad del corpus, sino que permite un análisis más profundo de cómo se utilizan las formas lingüísticas en diferentes contextos socioculturales.
CORPES XXI: más que un corpus, una herramienta de investigación fundamental
El Corpus del Español del Siglo XXI no es solo una recopilación de datos lingüísticos; es una herramienta de investigación esencial para cualquier estudio sobre el español contemporáneo. Este corpus está diseñado para facilitar el acceso a un gran número de textos de todos los géneros y variedades, desde la literatura hasta los medios digitales. Su tamaño y variedad lo convierten en el recurso ideal para estudios en áreas como la lexicografía, la semántica, la sintaxis, la sociolingüística, y la pragmática, entre otras.
El diseño del corpus está orientado a permitir investigaciones sobre una amplia gama de fenómenos lingüísticos, con un sistema de codificación único que facilita la recuperación de datos desde diferentes parámetros: tiempo, espacio geográfico, tipo de texto, entre otros. De esta manera, CORPES XXI se adapta a las necesidades de una investigación moderna y digitalizada, permitiendo no solo el análisis de la lengua en términos de palabras y frases, sino también la exploración de formas orales y audiovisuales, enriqueciendo la comprensión del español en su totalidad.
Un proyecto que continúa creciendo: el futuro del CORPES XXI
El CORPES XXI, creado por la Real Academia Española en colaboración con las Academias de la Lengua de América, Filipinas y Guinea Ecuatorial, sigue creciendo y adaptándose a las nuevas realidades lingüísticas y tecnológicas. Desde su inicio en 2007, este corpus ha sido clave para construir una representación precisa y dinámica del español en el siglo XXI. Con su constante actualización, se garantiza que el CORPES continúe siendo un reflejo fiel de cómo se usa el español, no solo en sus formas escritas tradicionales, sino también en su manifestación en los nuevos medios digitales.
Este corpus no solo es un recurso invaluable para académicos e investigadores, sino que también se convierte en una herramienta de consulta para cualquier persona interesada en comprender el español en su estado actual. Para acceder a esta vasta base de datos, los interesados pueden consultar la página oficial del CORPES XXI en la web de la ASALE: CORPES XXI.
En GuadaRed te invitamos a sumergirte en el CORPES XXI, una herramienta clave para entender el pulso de la lengua española. Con cada actualización, se afianza como un recurso indispensable para lingüistas, investigadores y todos los apasionados del español. Desde sus dinámicas actuales hasta su proyección futura, el CORPES XXI te ofrece una ventana única al español en su máxima expresión.