En liña o CORGA 3.0: 36,8 millóns de palabras, agora tamén con mostras do rexistro oral da lingua galega

Ferramenta lingüística en liña representativa do uso lingüístico do galego actual.

O CORGA é un corpus documental desenvolvido no Centro Ramón Piñeiro para a Investigación en Humanidades (CRPIH), por medio dun convenio de colaboración coa USC, e integrado por distintos tipos de textos -xornais, semanarios, revistas, ensaios e textos de ficción (novela, relato curto e teatro)- que abrangue temporalmente desde o ano 1975 ata a actualidade e que está codificado no estándar XML (eXtensible Markup Language). A amplitude de documentos que o configuran e os criterios empregados na súa selección, permiten considerar este corpus representativo do uso lingüístico do galego actual.

A nova versión ampliada, versión 3.0, dispoñible na rede no enderezo http://corpus.cirp.es/corga consta de case 36,8 millóns de palabras, das que algo máis de 570.000 son formas diferentes. Presenta, entre as novidades máis destacadas a incorporación dunha pequena mostra representativa do rexistro oral da década dos 90 con transcricións nas que se aliña o texto coa voz e a etiquetaxe automática a través do Etiquetador/Lematizador do Galego Actual (XIADA).

COMPARTIR

Deixar un comentario

Por favor, introduce o teu comentario!
Por favor, introduza o seu nome aquí

*