Galvenais tehnoloģija

Runas atpazīšanas tehnoloģija

Runas atpazīšanas tehnoloģija
Runas atpazīšanas tehnoloģija

Video: Tildes Balss stāsts - mākslīgais intelekts latviešu valodā! 2024, Jūlijs

Video: Tildes Balss stāsts - mākslīgais intelekts latviešu valodā! 2024, Jūlijs
Anonim

Runas atpazīšana, ierīču spēja reaģēt uz runātajām komandām. Runas atpazīšana ļauj brīvroku vadīt dažādas ierīces un aprīkojumu (tas ir ļoti noderīgs daudziem invalīdiem), nodrošina ievadi automātiskajā tulkošanā un rada drukāšanai sagatavotu diktātu. Starp pirmajiem runas atpazīšanas lietojumiem bija automatizētas tālruņu sistēmas un medicīniskās diktēšanas programmatūra. To bieži izmanto diktēšanai, datu bāzu meklēšanai un komandu piešķiršanai datorizētām sistēmām, jo ​​īpaši profesijās, kuras paļaujas uz specializētām vārdnīcām. Tas arī ļauj personīgajiem palīgiem transporta līdzekļos un viedtālruņos, piemēram, Apple Siri.

Pirms jebkura mašīna var izskaidrot runu, mikrofonam jāpārveido cilvēka balss vibrācijas viļņveida elektriskajā signālā. Sistēmas aparatūra, piemēram, datora skaņas karte, šo signālu savukārt pārveido digitālā signālā. Tas ir digitālais signāls, ko analizē runas atpazīšanas programma, lai atpazītu atsevišķas fonēmas, kas ir galvenie runas elementi. Tad fonēmas tiek apvienotas vārdos. Tomēr daudzi vārdi izklausās līdzīgi, un, lai izvēlētos atbilstošo vārdu, programmai jāpaļaujas uz kontekstu. Daudzas programmas izveido kontekstu, izmantojot trigramanalīzi - metodi, kas balstīta uz biežu trīs vārdu kopu datu bāzi, kurā tiek piešķirtas varbūtības, ka visiem diviem vārdiem sekos dotais trešais vārds. Piemēram, ja runātājs saka “kas es esmu”, nākamais vārds tiks atpazīts kā vietniekvārds “I”, nevis līdzīgi skan, bet mazāk ticams, ka “acs”. Neskatoties uz to, dažreiz ir nepieciešama cilvēka iejaukšanās, lai labotu kļūdas.

Dažu atsevišķu vārdu atpazīšanas programmas, piemēram, tālruņa balss navigācijas sistēmas, darbojas gandrīz katram lietotājam. No otras puses, nepārtrauktas runas programmas, piemēram, diktēšanas programmas, ir jāapmāca atpazīt indivīda runas modeļus; apmācībā lietotājs skaļi nolasa teksta paraugus. Mūsdienās, pieaugot personālo datoru un mobilo ierīču jaudai, runas atpazīšanas precizitāte ir ievērojami uzlabojusies. Kļūdu līmenis ir samazināts līdz aptuveni 5 procentiem vārdnīcās, kas satur desmitiem tūkstošu vārdu. Vēl lielāka precizitāte tiek sasniegta ierobežotajās vārdnīcās specializētiem lietojumiem, piemēram, radioloģisko diagnožu diktēšanai.