Tartu Ülikooli masintõlkemootor tõlgib nüüd 23 soome-ugri keelt

kõrval admin
0 kommenteerida

Tehnoloogia rubriigi toob teieni

Tartu Ülikooli arvutiteaduse instituudi teadlased on ülikooli masintõlkemootorisse lisanud liivi, komi, mansi ja veel 14 soome-ugri keelt.

Enamik neist keeltest muutus avalikus tõlkemootoris kättesaadavaks esimest korda, kuna need ei kuulu Google’i tõlke ega sarnaste teenuste hulka, teatas ülikool.

Kokku toetab tõlkemootor 23 soome-ugri keelt: lisaks enam toetatavatele eesti, soome ja ungari keeltele on nüüd sees liivi, võro, päriskarjala, liivi karjala, ludi, vepsa, põhjasaami, lõunasaami, inari keel. saami, koltasaami, lulesaami, komi, komi-permjaki, udmurdi, mägimari ja niidumari, ersa, mokša, mansi ja handi.

Uurimisrühm kutsub nende keelte kõnelejaid ja uurijaid panustama parandatud tõlgetesse, et parandada tõlke kvaliteeti. Seda saab teha tõlkeid redigeerides aadressil translate.ut.ee. Nendes keeltes olevad tekstid, nagu luuletused, artiklid, raamatud jms, on samuti suureks abiks ja neid saab saata aadressile [email protected].

Tartu Ülikooli arvutiteaduse instituudi loomuliku keele töötlemise teadur Lisa Yankovskaja ütles, et tõlkekvaliteedi parandamiseks on vaja tagasisidet, sest paljudel neist keeltest on tõlkesüsteemide loomiseks äärmiselt napid ressursid.

Rühm mari, soome-ugri etniline rühm, kes on traditsiooniliselt elanud Venemaal Volga ja Kama jõe ääres. Pilt on illustratiivne. Foto Petr Vasiliev, jagatud Creative Commons CC BY-SA 4.0 litsentsi alusel.

Ohustatud keelte säilitamine

See tähendab kahte asja – esiteks võib tõlke kvaliteet olla väga erinev ja madala ressursiga keeltesse tõlkimisel võib see olla eriti madal. Teiseks vajavad arendajad nende keelte kõnelejate abi platvormil õigete tõlgete panustamiseks.

Ta ütles, et vähese ressursiga keelte masintõlke väljatöötamiseks on mitu põhjust. Näiteks filoloogid ja teised vajavad masintõlke võimalust, et mõista tekste ilma keelt õppimata.

Nendesse keeltesse tõlkimine on ka üks viis ohustatud keelte säilitamiseks ja nende keelte kõnelejate toetamiseks. Seetõttu on tõlkesüsteem avatud kõigile kasutajatele ning tarkvara ja loodud mudelid on avatud lähtekoodiga.

Arendajad alustasid tööd soome-ugri keeltega 2021. aastal, esimene süsteem toetas võro, põhjasaami ja lõunasaami keelt, ütles arvutiteaduse instituudi teadusprogrammeerija Maali Tars. Samal aastal lisandus liivi keel, mis on äärmiselt ohustatud keel, kus kõneleb peaaegu 20 peaaegu emakeelt. Nad kavatsevad jätkuvalt parandada masintõlkesüsteemi kvaliteeti ning kaasata rohkem soome-ugri keeli ja murdeid.

Arendajad tegid koostööd Läti Ülikooli Liivi Instituudiga, Võro ​​Instituudiga, Ida-Soome Ülikooliga, Ida-Soome Ülikooli karjala keele taaselustamise programmiga ja Norra Arktika Ülikooliga.

Kaart, millel on soome-ugri keele kõnelejad.

Soome-ugri maailm hõlmab 25 miljonit inimest, kes elavad peamiselt Kirde-Euroopas üle Põhja- ja Baltikumi ning Venemaal. Neli arvukamat soome-ugri rahvast on ungarlased (13-14 miljonit), soomlased (6-7 miljonit), eestlased (1,1 miljonit) ja mordvlased (740 000). Esimesed kolm asustavad iseseisvaid riike – Ungari, Soome ja Eesti –, Mordva on aga vabariik Venemaa koosseisus.

Related Posts

Jäta kommentaar