News

El futur de les llengües minoritzades també es decideix en les tecnologies digitals

Activistes i lingüistes repassen la importància dels avenços a internet per al català, l’occità, l’amazic i l’aragonès

Alp Öktem i Aziz Baha, en una de les ponències del seminari.
Alp Öktem i Aziz Baha, en una de les ponències del seminari. Author: David Forniès
L’occità s’està dotant d’un bon nombre d’eines tecnològiques per a garantir el futur digital de la llengua. El projecte Araina —que en la seva primera marató de veus, aquest 17 de desembre a Vielha, ha recollit la parla d’un centenar de persones— i els recursos que ofereix Lo Congrès en són mostres destacades. Igual que per a l’occità, la presència digital és un objectiu estratègic per a totes les llengües minoritzades: una idea que han compartit els lingüistes i els activistes participants en el seminari “Sobirania digital-tecnològica, pobles i llengües minoritzades” que el Departament de Filologia Catalana i Comunicació de la Universitat de Lleida, el CIEMEN i la Fundació pels Drets Col·lectius dels pobles han organitzat els dies 13 i 16 de desembre a la capital del Segrià, amb coordinació dels lingüistes Jordi Suïls i Helena Torres Purroy.


Ser conscients del desequilibri per a capgirar la situació

“Avui, el 95% de les llengües no tenen la capacitat de pujar digitalment”, cosa que significa que no poden mantenir la seva versió de Viquipèdia, no tenen classes de llengua i no estan creant dades de tecnologia lingüística. Ho ha dit Alp Öktem, lingüista computacional de Col·lectivaT, cooperativa especialitzada en el desenvolupament d’eines lingüístiques digitals. Aquest, ha valorat el lingüista, és un aspecte a considerar en els processos d’extinció de les llengües. Segons la UNESCO, al final del segle XXI el 90% de les llengües del món podrien quedar substituïdes per un grapat d’idiomes dominants.

Öktem ha destacat que el desequilibri també es dona entre les llengües més parlades, i fa anys encara era més acusat. L’anglès, llengua en què es troba gairebé el 59% del contingut del web mundial, només és parlat pel 18% de la població del planeta. Un salt enorme respecte de la segona llengua al web, el rus, que es queda al 5,3%. Només l’espanyol, el francès, l’alemany i el japonès superen el 3%.

Per a les llengües menys difoses, la presència digital és fonamental, ha dit Öktem: “Quan la gent veu que el seu idioma està en línia, canvia la seva perspectiva. La gent s’adona que pot continuar usant-lo. I el fet que hi hagi persones que hi creen continguts pot servir de base per a desenvolupar noves tecnologies lingüístiques”, entre les quals, ha explicat el lingüista, eines de traducció automàtica, reconeixement automàtic de la parla, generació de textos, síntesi de text a veu... amb usos com la traducció assistida, la subtitulació automàtica, l’escriptura assistida, el doblatge automàtic o l’aprenentatge assistit d’idiomes.

Per a fer-ho possible, “tot passa per la disponibilitat de dades. Per a fer traductors automàtics, per exemple, necessitem milers i milers —de fet, milions— de frases traduïdes en paral·lel. Perquè la intel·ligència artificial decideixi traduir d’una forma o d’una altra, entren en joc el càlcul de probabilitats, el context del text... Això ara està molt avançat i amb les xarxes neuronals encara més, però per a aquestes ens cal introduir encara més dades”.

L’occità: maratons i ‘youtubers’

Un exemple d’avenços recents com els que esmenta Öktem és l’occità. La novetat més recent és el llançament del projecte Araina o, cosa equivalent, la construcció d’un corpus de veus en occità aranès a través de la plataforma Common Voice. La primera gran fita ha estat la marató de veus de Vielha aquest 17 de desembre, en què un centenar de persones han donat les seves veus per a enregistrar vora 4.000 frases, amb una durada total de vuit hores de gravacions. Col·lectivaT explica que cal enregistrar 100 hores per a poder desenvolupar els primers prototips de sistemes de la parla en aranès.

L’activista per la revitalització lingüística de llengües minoritzades Mariona Miret ha repassat altres recursos que es despleguen avui a Occitània. Entre els més destacats hi ha els de Lo Congrès, com ara el traductor automàtic Revirada —construït sobre la base del sistema de codi obert Apertium, desenvolupat a la Universitat d’Alacant— o Votz, de síntesi de veu. A Lo Congrès també es poden trobar el diccionari Dicod’Òc, un corrector ortogràfic, una base terminològica i aplicacions per a telèfons mòbils, entre altres eines. “Avui podem ser més optimistes que fa un any”, ha valorat Miret.

Gabrièu Pelisson, Mariona Miret i Helena Torres. / Imatge: D. F.

Aquesta feina se suma a la que fa temps que diverses entitats occitanes duen a terme. Una de les associacions actives en aquest camp és Chambra d’Òc. Miret, que hi col·labora des de fa anys, n’ha destacat la feina en toponímia i, actualment, el desenvolupament d’un diccionari en línia de l’occità alpí que recull materials actualment existents en paper. “Tots els operadors de la Chambra hi estan bolcats ara mateix”, ha explicat Miret, que també ha avançat que l’entitat té previst fer una tasca similar per a posar en línia un diccionari de francoprovençal. Per Miret, “és important saber quines són les necessitats dels parlants, per a no fer productes tecnològics perquè sí. Afinar què fas, perquè tingui utilitat”.

Una altra contribució digital, en aquest cas més enfocada a la documentació, és la proposta de Niccolò Fantini i Guglielmo Diamante a De Vulgare, un web que recull i difon talls de veu en multitud de llengües minoritzades —entre les quals l’occità— i varietats locals d’Itàlia. “Ho fem amb l’esperança que la preservació d’aquest patrimoni promogui una major conscienciació” respecte del valor de la diversitat lingüística, ha explicat Fantini. De Vulgare usa el seu compte d’Instagram per a crear stories atractius a partir d’aquests talls.

Justament, un camp de batalla essencial és el de l’atractiu de l’idioma: “El màrqueting és extremadament important per a les nostres llengües”, ha dit l’activista. I s’ha referit a casos d’èxit com el del youtuber niçard Gabrièu Pelisson, que manté el canal Parpalhon Blau amb més de 6.000 subscriptors. Pelisson ha intervingut al seminari en vídeo: “El meu canal”, ha explicat, “ha demostrat que hi havia una certa quantitat de gent que tenia l’expectativa de veure continguts en occità”. “I a mi”, ha conclòs el youtuber, “m’ha servit per a no haver-me de fer segons quines preguntes: ho faig en occità perquè és la meva llengua”.

L’aragonès treu el cap a la ‘tele’

També amb un canal de YouTube —sobre cuina vegana en aragonès— va començar a fer-se coneguda Silvia Cebolla, activista d’aquesta llengua pirinenca. “Quan vaig llançar el canal, molta gent em deia: ‘I per què no el fas en castellà?’. ‘Doncs perquè l’objectiu és l’aragonès!’, els contestava”.

El 2019, Cebolla va passar a presentar el programa Charrín Charrán, a la televisió pública Aragón TV. “Gràcies a aquest programa —i al fet que estigui disponible a internet— molta gent a Aragó s’ha adonat que l’aragonès existeix i que podem parlar de qualsevol cosa en aquesta llengua”, ha dit Cebolla al seminari. “Si la llengua surt a la tele, existeix, li dona prestigi i més persones s’hi interessen”.

Helena Torres i Silvia Cebolla. / Imatge: D. F.


L’aragonès encara avui ha de fer front a prejudicis dins mateix d’Aragó, fruit d’un procés secular d’aculturació i opressió lingüística. En aquest context es donen situacions ambivalents, explica l’activista: “Molta gent no està disposada a anar a una escola a aprendre aragonès. Per contra, l’aragonès transporta aquesta mateixa gent a un enyor del poble, de la família, de la tieta... perquè en el castellà popular d’Aragó s’han preservat moltes paraules de l’aragonès”. Cebolla pensa que la gent més jove ara veu l’aragonès com un tret “més normal” del país: “Potser no tenen interès a aprendre’l, però manifesten actituds més receptives; la gent més gran ho tendeix a veure d’una forma més negativa, perquè ho perceben com una cosa polititzada”.

Impuls digital per a l’amazic des de Catalunya

Com a contribució a la sobirania digital i tecnològica de l’amazic, la Casa Amaziga de Catalunya (CAC), Col·lectivaT, el CIEMEN i la Fundació pels Drets dels Pobles desenvolupen des dels primers mesos de 2022 un traductor automàtic d’aquesta llengua nord-africana. Més endavant, aquesta feina —que s’insereix dins del projecte Som Part— veurà també el desenvolupament d’eines de text a veu i completarà altres recursos ja existents fruit de la col·laboració de la CAC i el CIEMEN, com les unitats didàctiques Tc wawjdm per a l’aprenentatge de l’amazic.

L’amazic és parlat per 25 milions de persones pel cap baix, sobretot al nord d’Àfrica i també a la diàspora —a Catalunya es compten per desenes de milers—, però això no l’allunya del perill de la substitució lingüística. Ho ha recordat Aziz Baha, de la CAC, que ha recordat que diverses varietats de la llengua ja s’han extingit. La resta pateixen la pressió de l’àrab i el francès: “Quan els francesos van ocupar el Marroc, van trobar que el 90% de la població parlava amazic. Avui estem al voltant del 30%”, ha explicat Baha. “I tot i que la llengua ha tingut recentment un reconeixement oficial i s’estandarditza, el procés de substitució no s’ha aturat pas”.

En l’àmbit digital, l’amazic disposa d’eines fonamentals com fonts compatibles amb unicode (l’amazic disposa de l’alfabet tifinag que ara guanya terreny, però també té l’alfabet llatí que s’ha usat des de fa dècades a Algèria, amb caràcters específics), un teclat propi, diccionaris en línia (els dos més destacats, ha dit Baha, són Amazic.cat i el de l’Ircam), aplicacions d’aprenentatge i cursos i, cada cop més, presència en diferents xarxes. Un dels exemples més reeixits és el que impulsa l’activista lingüística catalanoamaziga Ghizlan Baryala al compte Amazigh Talks d’Instagram, amb més de 20.000 seguidors.

Softcatalà, un exemple consolidat en llengua catalana

L’associació Softcatalà treballa des de 1998 per a “crear eines pròpies, promoure un ús real de la llengua i fer-ho des del treball col·laboratiu”. Ho ha explicat Belén Ivars, una de les persones que formen part del grup nodrit de treballadors que fan possibles aquestes eines i la seva difusió.

“Els primers anys”, ha explicat Ivars, “Softcatalà es dedicava a traduir programari i recursos: no hi havia pràcticament res fet. Una de les traduccions a què tenim més estima és la del LibreOffice, un programa que empra molta gent. Aquest és el nostre èxit: hem elaborat coses que gasta la gent corrent”.

Altres projectes menys visibles, com l’Abril o l’Ela Geminada, són fonamentals. “Que les coses estiguin correctament escrites és summament important per a les persones que tenen diversitats auditives o visuals. I també per a les persones que troben un text i el volen traduir: si no està ben escrit, no es podrà traduir bé”.

Softcatalà també té cura d’oferir la majoria de les seves eines tenint en compte la diversitat interna de la llengua, de la qual molts parlants —especialment els del català central— no en són prou conscients: “A mi m’han arribat a acusar d’escriure en catanyol pel fet d’haver usat accentuacions diferents que tenim en valencià i que són igualment correctes. Em va sorprendre que un poble amb tanta consciència de la llengua com el català al mateix temps desconeguera tant el que passava en els altres territoris on es parla l’idioma”, ha relatat Ivars.

En l’etapa més recent de Softcatalà es desenvolupen eines com el corrector, el comptador de síl·labes, el conjugador de verbs i els traductors, incloent-hi el neuronal. “La més utilitzada és el corrector. I les eines les usen no només catalanoparlants, sinó que una bona part d’usuaris o no parlen català, o no el parlen gaire bé i les usen per a aprendre’n”.

Finalment, Softcatalà és des de 2018 l’entitat col·laboradora per al català de Common Voice, un projecte de la Fundació Mozilla que persegueix l’objectiu que la tecnologia que funciona amb ordres de veu reconegui totes les llengües del món. En el cas de Common Voice en català, els catalanoparlants poden donar talls de veu que queden enregistrats en una base de dades que els emparella amb els corresponents textos escrits. Aquesta base de dades, que és lliure, es pot emprar per a entrenar intel·ligències artificials per al reconeixement de la parla o la síntesi de veu.