Sećate li se kako u naučno-fantastičnim filmovima protagonisti obično razgovaraju sa svojim računarom (najpoznatiji od njih je Hal iz Odiseje u svemiru)? To što ljudi pričaju mašinama i nije neko čudo, verujem da većina nas svakodnevno upućuje reči (obično pune pokude i besa za nešto što smo prouzrokovali mi, a ne uređaji) raznim spravama – od kompjutera, preko televizora, do automobila. Ono o čemu želim danas da govorim je situacija u kojoj je uređaj sposoban da izrečeno razume i da odgovori, bilo željenom akcijom ili čak glasom (srećom retke su situacije u kojima nam uzvraća psovke).
Ova tehnologija, nimalo nova, naziva se automatsko prepoznavanje govora (eng. Automatic Speech Recognition, odnosno ASR) i omogućuje da računari i slični uređaji snime naš glas i pretvore ga u razumljiv signal. Takav signal uređaj zatim u većini slučajeva pretvara u set instrukcija koje može da izvrši. Deluje jednostavno ali i nije toliko jer bismo već bili na nivou brzine i kvaliteta glasovne komunikacije iz pomenutih SF ostvarenja sedme umetnosti. Uređaj mora da snimi glas, da analizira zvučne talase, normalizuje brzinu govora i otkloni pozadinski šum. Tako pročišćen signal se onda razdvaja na foneme, glasove od kojih su sastavljene reči i da u ugrađenom rečniku pronađe reči koje su sastavljene od detektovanih glasova. Broj fonema varira od jezika do jezika, a u engleskom, na primer, ima ih oko 40. Kod nas je, zbog fonetskog pravila, broj fonema jednak broju slova u azbuci. Sistem je još uvek neotporan na nejasno izgovorene reči, buku i više glasova koji govore istovremeno. Primena je višestruka, a najnapredniji sistemi koriste se u vojnoj avijaciji za glasovno upravljanje sistemima u avionu. Takođe se ASR mnogo koristi u zdravstvu, za automatsko prepoznavanje diktiranih nalaza lekara i pretvaranje u pisani dokument. Bez obzira što se neka vrsta AVR-a ugrađuje odavno u mobilne telefone, ova tema ponovo je popularizovana pojavom novog iPhone modela.
Nedavno sam bio u prilici da kod prijatelja u inostranstvu vidim kako to u praksi izgleda i bio oduševljen. Deluje banalno pošto mobilni telefon koji je on koristio u automobilu može da se nabavi i kod nas, a čak nije ni najnoviji model. Štos je u tome što uređaj poseduje softver koji je prilagođen njegovom maternjem jeziku, pa je prepoznavanje komandi mnogo lakše. Uglavnom, dok smo se vozili njegovim automobilom, on je davao instrukcije telefonu koji je bezbedno bio smešten u nosaču na vetrobranskom staklu. Uspeo je da isključivim korišćenjem glasa, upiše belešku i podsetnik vezan za ono o čemu smo razgovarali, da pozove osobu kod koje smo pošli i proveri da li dogovor još važi, kao i da pokrene audio plejer i pusti pesmu o kojoj mi je pričao.
Na žalost, kod nas se ova mogućnost još uvek retko koristi, najpre zbog jezičke barijere. Čak i ako dovoljno dobro govorite neki od svetskih jezika koji su ugrađeni u softver, prepoznavanje određenih komandi, poput srpskih imena u imeniku, praktično je nemoguće. Ipak, verujem da će i ovi problemi biti prevaziđeni, tako da ćemo brže nego što mislimo i mi imati priliku da čavrljamo sa svojim računarima.
Zanimljivost: Jezik Ksu koji se govori na prostoru pustinje Kalahari u južnoj Africi, poseduje 141 fonemu, što je više nego u bilo kom drugom jeziku.
Ostavi komentar