Analizan los errores que se cometen en euskera para aplicarlos en correctores automáticos y programas de aprendizaje
Publicado en Formacion el Marzo 15, 2010 por bizkaia formacion
Analizan los errores que se cometen en euskera para aplicarlos en correctores automáticos y programas de aprendizaje
El grupo IXA de la Facultad de Informática de la UPV/EHU lleva años investigando el desarrollo de sistemas (semi)automáticos beneficiosos para el euskera. Entre estos sistemas, se encontrarían el tratamiento automático de los errores en euskera y las herramientas que permiten el aprendizaje de la lengua con medios informáticos. Larraitz Uria, miembro del grupo IXA, ha fijado en su tesis doctoral presentada en la UPV/EHU las bases para el desarrollo de estos dos sistemas, mediante el establecimiento de varios criterios de análisis de errores y desviaciones.
La tesis doctoral de Uria se titula Euskarazko erroreen eta desbideratzeen analisirako lan-ingurunea. Determinatzaile-erroreen azterketa eta prozesamendua (Entorno de trabajo para el análisis de errores y desviaciones en euskera. Evaluación y procesamiento de errores con determinantes). En primer lugar, se han diferenciado los errores y las desviaciones, y ésta es una de las aportaciones de la investigación. Los errores son fallos en la ortografía o la gramática. Las desviaciones son palabras gramaticalmente correctas pero inapropiadas para un contexto determinado; están relacionadas con el registro o el dialecto. El objetivo es que los sistemas automáticos del futuro diferencien los dos conceptos, por lo que la distinción es relevante.
Uria informa sobre dos bases de datos en las que ya se han comenzado a recopilar ejemplos sobre errores y desviaciones. Han sido puestas en marcha por el grupo IXA, y están adaptadas a dos aplicaciones. En la primera se almacena la información necesaria para desarrollar los tratamientos automáticos de los errores en euskera (correctores, marcadores de variaciones dialécticas, etc.). En la segunda, se recopilan los datos que faciliten la creación de herramientas para el aprendizaje de la lengua con medios informáticos. Es totalmente inusual fusionar estas dos líneas, pero muchos de los datos para el tratamiento automático de errores son útiles para el aprendizaje con medios informáticos, y viceversa. Ésta es una de las aportaciones de este trabajo.
Imprescindible para desarrollar un detector de errores
Otra de las aportaciones de la tesis es el corpus, el cual está ya en funcionamiento y es el principal soporte en el que se apoyan las bases de datos. De ahí se están empezando a extraer los primeros ejemplos de errores y desviaciones, los cuales son imprescindibles para desarrollar un sistema que sea capaz de detectarlos. Se ha formado ya un corpus de 113.290 palabras, derivadas de la recopilación de textos de estudiantes de euskera de varios niveles. De la misma manera, se han incluido algunos textos de estudiantes de euskera técnico y de hablantes comunes. En este primer paso, se ha establecido una cantidad de información importante para comenzar el análisis, y se han definido los criterios para crear el corpus.
El próximo paso a seguir es el etiquetado. En esta tesis doctoral, y como punto de partida de la investigación, se han etiquetado mayoritariamente los errores cometidos con determinantes. Como los fallos con determinantes en euskera son poco comunes, pero a su vez son muy graves cuando se cometen, Uria ha considerado que es un ejemplo adecuado para realizar una primera prueba. De todas maneras, su intención en un futuro es desarrollar la detección de todo tipo de errores y desviaciones. Para el proceso de etiquetado se ha valido de EtikErro, un editor creado por el grupo IXA. Además de etiquetar errores, exporta a las bases de datos los ejemplos etiquetados, incluyendo también la información lingüística necesaria para el análisis.
En cuanto a la fase de clasificación -justo después del etiquetado- se ha hecho una gran aportación. Se ha definido la estructura principal de la clasificación, desarrollando especialmente la categoría referente a los errores con determinante. Finalmente, y después de cumplir las fases ya mencionadas, se ha procedido a la creación de las dos bases de datos. Ambas almacenan los mismos ejemplos e información lingüística, pero también tienen diferencias. La base de datos para el tratamiento automático de errores en euskera incluye información técnica. En cambio, la base de datos para el aprendizaje del idioma con medios informáticos almacena información psicolingüística.
Primeros resultados del tratamiento automático
Uria ya ha realizado, junto al grupo IXA, las primeras pruebas para comprobar los resultados que da el tratamiento automático de errores basado en los instrumentos mencionados. Mediante una técnica y una serie de reglas adecuadas para los errores cometidos con determinantes, ha medido la precisión del tratamiento. Es decir, ha comprobado la eficacia del tratamiento con un programa informático. En un principio, la precisión fue sólo de un 45,5 %. Sin embargo, si previamente se eliminan los errores que no están etiquetados, el “ruido” desaparece y la precisión se eleva al 80 %. Uria ha concluido también que cuanto más extenso sea el corpus, mayor será su eficacia. La aportación que supone su tesis no es más que un primer paso para un reto de futuro.
Sobre la autora
Larraitz Uria Garín (Hernani, 1977) es licenciada en Filología Inglesa y Magisterio de Educación Primaria. Ha redactado la tesis bajo la dirección de Igone Zabala Unzalu y Montse Maritxalar Anglada, profesoras del Departamento de Filología Vasca y de la Facultad de Informática, respectivamente. Actualmente es investigadora en el grupo IXA de la UPV/EHU y en el grupo IKER de la Universidad de Baiona.
OFICINA DE COMUNICACIÓN DE LA UPV/EHU (688673679 / prentsa@ehu.es)
Euskaraz egiten diren akatsak aztertu dituzte, zuzentzaile automatikoetan eta euskara ikasteko programetan aplikatzeko
UPV/EHUko Informatika Fakultateko IXA taldeak urteak daramatza ikerketa-lanetan, euskararen onurarako liratekeen sistema (erdi)automatikoak garatzeko. Sistema horien artean egongo lirateke, esaterako, euskarazko akatsen tratamendu automatikoa eta ordenagailuz lagunduta euskara ikastea ahalbidetzen duten bitartekoak. Larraitz Uria IXA taldeko kideak bi sistema horiek garatzeko zenbait oinarri ezarri ditu UPV/EHUn aurkeztu duen doktore-tesian, euskarazko akats eta desbideratzeen analisirako irizpide batzuk finkatuta.
Euskarazko erroreen eta desbideratzeen analisirako lan-ingurunea. Determinatzaile-erroreen azterketa eta prozesamendua izena du Uriaren doktore-tesiak. Akatsak eta desbideratzeak ondo bereizi nahi izan ditu lehenik eta behin, eta hori da ikerketaren ekarpenetako bat. Akatsak ortografia edo gramatika bezalako kontuei lotuta daude. Desbideratzeak, berriz, gramatikalki zuzenak baina testuinguru jakin batean desegokiak diren hitzak dira; erregistroari edo euskalkiari lotuta daude. Etorkizuneko sistema automatikoek bi horiek desberdintzea da asmoa, eta bereizketa garrantzitsua da, beraz.
Euskarazko akats eta desbideratzeei buruzko adibide eta xehetasunak biltzen hasi dira bi datu-basetan, eta horren berri eman du Uriak bere tesian. IXA taldeak jarri ditu martxan, eta bi aplikazio zehatzetarako egokitu. Euskararen akatsen tratamendu automatikoa (zuzentzaileak, dialektoen markatzailea…) garatzeko behar den informazioa biltzeko da lehena, eta ordenagailuz lagundutako hizkuntza-i(ra)kaskuntzarako tresnak sortzeko datuak jasotzeko bigarrena. Bi ikerketa-alor horiek uztartzea erabat ezohikoa da, baina Uriak dioenez euskararen akatsen tratamendu automatikorako balio duten datuetako asko erabilgarriak dira ordenagailuz lagundutako hizkuntza-i(ra)kaskuntzarako, eta alderantziz. Horixe da lan horrek aurkezten duen nobedade eta ekarpen nagusietako bat.
Akatsen detektagailua garatzeko ezinbestekoa
Tesiaren beste ekarpenetako bat dagoeneko abian den corpusa da, datu-basearen oinarria, alegia. Bertatik ari dira ateratzen akatsen eta desbideratzeen lehen adibideak, horiek detektatzeko gai den sistema bat garatzeko ezinbestekoak. 113.290 hitzeko corpusa osatua dago jada, hainbat mailatako euskara-ikasleen testuen bildumarekin. Euskara teknikoko ikasleen eta hiztun arrunten testu batzuk ere txertatu dira bilduman. Lehen urrats honekin, analisiarekin hasteko informazio garrantzitsua finkatu ez ezik, corpusa osatzeko irizpideak ere definitu dira.
Corpusetan dauden adibideen etiketatzea da hurrengo urratsa. Doktore-tesi honetan, eta ikerketaren abiapuntu gisa, mugatzaileei lotutako akatsak etiketatu dira gehienbat. Euskaraz mugatzaileei dagokienez akatsak egitea ez da oso ohikoa, baina aldi berean egiten denean oso akats larria izaten da. Horregatik, adibide egokitzat jo du Uriak lehen proba moduan. Hala ere, gerora akats eta desbideratze guztiak detektatzeko gaitasuna garatzea da asmoa. Etiketatze-prozesurako EtikErro editorea izan du lagun, IXA taldeak berak sortua. Akatsak etiketatzeaz gain, etiketatutako adibideak datu-baseetara esportatzen ditu, hizkuntza-azterketa egiteko informazio linguistikoa eta guzti.
Etiketatzearen ondoren datorren sailkapen-fasean ere ekarpen garrantzitsua egin du ikerketak. Sailkapenaren egitura nagusia definitu du, bereziki mugatzaileei buruzko akatsei dagokien kategoria landuz. Aurreko fase horiek beteta ekin zaio bi datu-baseak osatzeari. Adibide eta informazio linguistiko bera gordetzen dute biek, baina desberdintasunak ere badituzte. Euskarazko akatsen tratamendu automatikorako datu-baseak informazio teknikoa ere badu. Ordenagailuz lagundutako hizkuntza-i(ra)kaskuntzari dagokionak, bestalde, informazio psikolinguistikoa biltegiratzen du.
Tratamendu automatikoaren lehen emaitzak
Uriak, IXA taldearekin batera, eginak ditu lehen probak, bitarteko horiek erabilita akatsen tratamendu automatikoak ematen dituen emaitzei dagokienez. Mugatzaileekin egindako akatsetarako bereziki egokitutako teknika eta erregela-multzoa erabilita, tratamenduaren doitasuna neurtu du. Hau da, programa informatiko baten bidez tratamendua zenbateraino den eraginkorra ikusi du. Doitasuna % 45,5ekoa besterik ez zen izan hasiera batean. Hala ere, etiketatu gabeko beste akatsak aurrez kenduta, “zarata” desagertu egin zen, eta doitasuna % 80ra igo zen. Horrenbestez, finkatutako irizpideek eraginkor izateko zantzuak erakutsi dituzte. Corpusa handituta, eraginkortasuna handiagoa izango dela uste du Uriak. Bere tesiaren ekarpena lehenengo urratsa besterik ez da, etorkizuneko erronka bati begira.
Egileari buruz
Larraitz Uria Garin (Hernani, 1977) Ingeles Filologian eta Lehen Hezkuntzako irakasle-ikasketetan lizentziatua da. Igone Zabala Unzalu Euskal Filologia Saileko irakaslearen eta Montse Maritxalar Anglada Informatika Fakultateko irakaslearen zuzendaritzapean egin du tesia. Gaur egun, ikertzailea da UPV/EHUko IXA taldean eta Baionako Unibertsitateko IKER taldean.
UPV/EHUko KOMUNIKAZIO BULEGOA (688673679 / prentsa@ehu.es)
























Dejar un comentario
Comentarios (0)