VALSTYBĖS LAIKRAŠTIS. ĮSTEIGĖ DR. J.BASANAVIČIUS 1917 M. VASARIO 28 D..

Švietimas ir mokslas

11.07. Kalbos technologijos – būtina sąlyga kalbai gyvuoti

Vytauto Didžiojo universiteto Kompiuterinės lingvistikos centras

Vis labiau populiarėjančios kalbinės technologijos, naudojamos vertimuose, išmaniuosiuose automobiliuose, virtualiuose asistentuose ir kitur būdas užtikrinti, kad kalba išvengs išnykimo grėsmės ir nepatirs skaitmeninės atskirties. Lietuvoje šioje srityje jau 25 metus dirba Vytauto Didžiojo universiteto Kompiuterinės lingvistikos centras, tarp kurio pasiekimų Dabartinės lietuvių kalbos tekstynas ir pirmoji lietuviška automatinio anglų ir lietuvių kalbų vertimo sistema, pasirodžiusi anksčiau už populiarųjį „Google Translate“.

„Dabartinės lietuvių kalbos tekstynas jau tapo puikiai žinoma lietuviškojo interneto dalimi. Centre pirmiausia ėmėmės

rengti būtent šį kiekvienos kalbos kompiuterizavimui svarbų išteklių, nes tik sukaupus tekstyną buvo galima siekti pagrindinio centro tikslo parengtų išteklių (tekstynų, duomenynų) pagrindu kurti lietuvių kalbai reikalingas kalbos technologijas“, paaiškino Kompiuterinės lingvistikos centro įkūrėja, VDU profesorė Rūta Petrauskaitė.

Pasak centro mokslininkų, plačiajai visuomenei kartais trūksta suvokimo, kuo svarbūs kalbiniai ištekliai ir kalbos technologijos, kodėl į tai verta investuoti lėšas ir laiką. Išaugus kompiuterių galimybėms, šiandieniame pasaulyje jau galima pamatyti nemažai kalbos technologijų pasiekimų. Be visiems žinomo automatinio vertimo, tai ir „kalbantys“ išmanieji automobiliai, automatiškai aplinką stebinčios ir automobilių numerius fiksuojančios stebėjimo kameros, į klausimus atsakantys virtualūs asistentai, diktavimo sistemos ir kt.

„Jau greitai nieko nestebins žmonės, smagiai besišnekučiuojantys su savo automobiliais, šaldytuvais ar kitais prietaisais. Vis dėlto neužmirškime, kad nors šiandieniai vis tobulėjantys mokymosi algoritmai jau sukurti ir prieinami, tačiau, norint juos toliau tobulinti, t. y. išmokyti kalbėti, rašyti ar skaityti tiksliau, reikalingi kalbiniai ištekliai“, – pasakoja dabartinis Kompiuterinės lingvistikos centro vadovas docentas dr. Andrius Utka.

Šie ištekliai tai įvairios duomenų bazės, kuriose kaupiami tekstai, garsai, kiti kalbos elementai, taip pat programinė įranga. Mokslininkai pabrėžia, kad aukštas tam tikros kalbos kompiuterizavimo lygis taip pat yra ir tos kalbos išlikimo sąlyga. Vartojant ją mažiau, ne visomis funkcijomis arba jos nevartojant, kyla grėsmė kalbai išnykti. Lietuvos vartotojai turi teisę naudotis šiuolaikinėmis technologijomis, kurios „kalba“ lietuviškai, todėl itin svarbu ginti ir užtikrinti lietuvių kalbos statusą technologinėje terpėje, kad ji netaptų trečios lygos kalba arba, kitaip sakant, nepatirtų skaitmeninės atskirties.

Aplenkė „Google Translate“

Visuomenei gerai žinomas kalbos technologijų pavyzdys yra automatinis vertimas. Mažai kas nebandė „Google Translate“, bet už ją anksčiau pasirodė anglų ir lietuvių kalbų automatinio vertimo sistema. Ši sistema, bendradarbiaujant KLC ir partneriams, buvo sukurta naudojant taisyklėmis pagrįstus automatinio vertimo metodus, kai originalo kalbos tekstas „išnarstomas“ žodžio ir sakinio dalimis ir vėl „sudedamas“ kitoje kalboje. Ilgą laiką, kartais net ir dabar, šis vertimo metodas fleksinėms kalboms (tokia yra lietuvių kalba) laikomas geriausiu, nes mažiausiai iškraipo sakinio struktūrą.

2007 m. pabaigoje pasirodžiusi anglų ir lietuvių kalbų automatinio vertimo sistema sulaukė didžiulio susidomėjimo, nes užtikrino palyginti kokybiškus rezultatus ir padėjo vartotojams suprasti teksto turinį. Po pusmečio pasirodžius „Google Translate“, vartotojų srautas nuslūgo, tačiau VDU vertimo sistema ir toliau naudojamasi, net ir šiandien, nors ji jau nėra aktyviai palaikoma. „Kiek iš jūsų dar naudoja savo 10 metų senumo kompiuterius?“ retoriškai klausia buvęs automatinio vertimo projekto vadovas Vaidas Repečka.

 CLARIN-LT komanda 2017 metų konferencijoje Budapešte: Jurgita Vaičenonienė, Tomas Krilavičius, Jurgita Kovalevskaitė ir Andrius Utka

Moksleiviai Kompiuterinės lingvistikos centre. mokslolietuva.lt nuotraukos

Pasak jo, šiandien geriausią vertimo kokybę užtikrina neuroniniais tinklais ir mašininiu mokymusi pagrįstos vertimo sistemos. Tačiau jų naudojimas problemiškas, nes taip iškraipoma fleksinių kalbų struktūra, klaidingai išverstos teksto dalys perkeliamos į kitus tekstus ir t. t. „Būtina įpareigoti didžiąsias įmones spręsti šias problemas, nes pokyčiai gali tapti negrįžtami. Tai būtina spręsti visoje Europos Sąjungoje, nes ir didžiosios Europos kalbos internete yra „mažosios“, lyginant su anglų kalba. Kol kas labai sunku sukurti gerą vertimą, nes žmogus vertėjas turi daug kontekstinės informacijos ir gali ją panaudoti versdamas, o kompiuteriams reikia tai sukaupti. Tačiau paieškos sistemose vartotojo asmeninių duomenų kontekstas jau naudojamas, taigi automatinis vertimas toliau tobulės“, reziumuoja V. Repečka.

Tekstynuose – milijardai autentiškų tekstų

Kalbos technologijos dažnai integruoja bendresnius išteklius, kurie suteikia kuriamiems įrankiams kalbos žinių apie žodyną, gramatiką, fonetiką. Labai dažnai šias žinias galima įvairiais būdais surinkti iš tekstynų didžiulių elektroninių tekstų sankaupų, kuriose sukaupiami milijonai ar net milijardai įvairių autentiškų tekstų. Tekstynuose sukauptus duomenis naudoja ne tik įrankiai, bet ir žmonės. Pavyzdžiui, Dabartinės lietuvių kalbos tekstynas patikimas šaltinis dabartinės kalbos žodžių reikšmėms ir vartosenai suprasti. Dvikalbiai lygiagretieji tekstynai (anglų–lietuvių, lietuvių–anglų, latvių–lietuvių, lietuvių–latvių ir kt.) yra ypač naudingi studijuojantiems užsienio kalbas, vertėjams (teoretikams, praktikams), taip pat redaktoriams.

KLC vykdyto projekto „Semantika.lt“ metu buvo pradėtas kaupti ir milžiniškas, daugiau nei 1 milijardą žodžių turintis bendrasis lietuvių žiniasklaidos tekstynas. Jame kaupiama visa informacija iš 40 lietuviškų naujienų portalų. Tiesa, mokslininkai pabrėžia, kad tokios didžiulės apimties tekstinei medžiagai, kurią jau galima vadinti didžiaisiais duomenimis (angl. Big Data), dar sunku suteikti kokybišką, sklandžią internetinę prieigą, nes tai reikalauja didžiulių techninių išteklių.

Tekstynai puiki priemonė leksikografams bei terminologams ir žaliava žodynams. Kompiuterinės lingvistikos centre parengti keli žodynai tekstynų pagrindu, pavyzdžiui, Lietuvių kalbos daiktavardinių frazių žodynas, Švietimo ir mokslo terminų žodynas.

Kalbos technologijos būtinos tobulėjimui XXI amžiuje

KLC projektuose dirbantys tyrėjai įsitikinę, kad kuo daugiau dėmesio Lietuvoje bus skiriama kalbos technologijoms, tuo daugiau galimybių lietuvių kalba ir Lietuvos visuomenė turės toliau vystytis XXI a. „Kompiuterinė lingvistika, kalbos technologijos tai sritis, kurioje yra puikios galimybės bendradarbiauti universitetams, verslui ir politikai. Tokio bendradarbiavimo rezultatai gali būti aktualūs tiek teoriškai, moksle, pavyzdžiui, sudaryti geresnes sąlygas lietuvių kalbos analizei, tiek praktiškai, viešajame sektoriuje kuriant naujus įrankius, kurie galėtų išplėsti Lietuvos vartotojų galimybes arba optimizuoti verslo ir valstybės administravimo procesus“, sako VDU Kompiuterinės lingvistikos centro darbuotojai.

Per 25 metus KLC sėkmingai įvykdyta daugiau nei 15 nacionalinių ir tarptautinių projektų, publikuota aktualių mokslinių straipsnių ir reikšmingų monografijų. Tarp svarbesnių KLC pasiekimų: dalyvavimas europinėje TELRI infrastruktūroje, kuriant pirmąją lietuvių kalbai skirtą anglų–lietuvių automatinio vertimo sistemą; vadovavimas kuriant lietuvių kalbos sintaksinės ir semantinės analizės informacinę sistemą. Šiuo metu KLC kartu su partneriais atstovauja Lietuvai tarptautinės kalbos technologijos infrastruktūros konsorciume CLARIN ERIC.

 

Atgal