Parolrekonado
Parolrekonado (ankaŭ nomata 'Aŭtomata Rekonado de parolo' aŭ 'voĉrekonado') estas subfako de la komputa lingvoscienco kiu evoluigas metodojn kaj teknologiojn kiu ebligas la rekonon kaj tradukon de lingva parolo al teksto pere de komputiloj. Ĝi estas ankaŭ konata kiel aŭtomata voĉrekono, komputila parolrekonado aŭ elparolo-alteksto. Ĝi inkluzivas sciojn kaj esplorojn de la kampoj lingvistiko, komputiko kaj elektrotekniko.
La Parolrekonado 'estas distingebla de la voĉo aŭ parolanto-rekono, metodo biometria por persona identigo. Tamen, la realigoj de ĉi tiuj proceduroj estas similaj.
Kelkaj parolrekonaj sistemoj postulas "trejnadon" kie individua parolanto legas tekston aŭ individuajn vortojn al la sistemo. La sistemo analizas specifan voĉon de la persono kaj uzas ĝin por agordi la rekonon de la parolado de tiu persono, pliigante precizecon. Sistemoj kiuj ne uzas trejnadon estas nomitaj "parolanto-sendependaj" sistemoj. Sistemoj kiu uzas trejnadon estas nomataj "parolanto-dependaj" sistemoj.
Parolrekonado en Esperanto
[redakti | redakti fonton]La projekto Common Voice de la Mozilla-Fondaĵo celas krei liberan datumbazon en Esperanto por trejni estontajn parolrekonadojn. Nuntempe ekzistas kelkaj eksperimentaj parolrekonadaj sistemoj en Esperanto, la plej bonkvalita estas la sistemo "Vosk" de la firmao Alpha Cephei kun erarofteco de 7.24%. [1] La android-a apo "Esperanta Parolrekono" de Jacob Nordfalk uzas vosk por krei voĉan klavaron en Esperanto en poŝtelefonoj. [2]
Historia evoluo
[redakti | redakti fonton]La esplorado pri aŭtomata rekonado de parolo komenciĝis en la 1960-aj jaroj, sed plejparte malsukcesis tiutempe: La sistemoj disvolvitaj de privataj kompanioj ebligis la rekononon de pluraj dekduoj da individuaj vortoj sub laboratoriaj kondiĉoj. Ĉi tio unuflanke ŝuldiĝis al la limigita scio en ĉi tiu nova kampo de esplorado, sed ankaŭ al la limigitaj teknikaj eblecoj tiutempe.
Ĝi ne estis ĝis la mezo de la 1980-aj jaroj ke evoluo progresis. Kompilante kaj taksante statistikon pri la ofteco de iuj kombinaĵoj de vortoj, oni povis decidi per similaj aŭ egalaj voĉaj vortoj, kiujn oni celis. Ĉi tiuj nomataj N-gramaj statistikoj, poste fariĝis grava komponanto de ĉiuj parolaj rekonaj sistemoj. En 1984, IBM enkondukis unuan parolan sistemon de rekono kapabla agnoski ĉirkaŭ 5.000 anglajn vortojn. Tamen la sistemo bezonis plurajn minutojn da komputila tempo sur mainframe por rekono-procezo. Kontraŭe, sistemo disvolvita de Dragon Systems pli progresis: ĝi povis esti uzata sur portebla komputilo.
Inter 1988 kaj 1993, la eŭropa projekto SUNDIAL [3] ankaŭ montris la lingvan rekonon de trajnaj horaroj en la germana. [4] SUNDIAL ankaŭ studis rangajn trajtojn pri parola rekono. [5] [6] [7]
En 1991, IBM enkondukis voĉan rekonan sistemon por la unua fojo ĉe CeBIT, rekonante 20.000 ĝis 30.000 germanajn vortojn. Tamen la prezento de la sistemo nomata TANGORA 4 devis okazi en speciale ŝirmita ĉambro, ĉar la bruo alie malhelpus la sistemon.
Fine de 1993, IBM enkondukis la unuan amas-merkatan parolan sistemon de rekono de la mondo: La sistemo nomata 'IBM Personal Dictation System' funkcias norme ĉe personaj komputiloj kaj kostis sub $ 1,000. Kiam ĝi estis prezentita ĉe CeBIT 1994 sub la nomo IBM VoiceType Dictation System , ĝi altiris multajn interesojn de vizitantoj kaj komerca gazetaro.
En 1997, liberiĝis ambaŭ la programoj IBM ViaVoice (posteulo de IBM VoiceType) kaj la versio 1.0 de la programaro "Dragon NaturallySpeaking". En 1998, Philips Parolaj Rekonaj Sistemoj lanĉis FreeSpeech 98, voĉa rekona sistemo por PC-uzantoj, kies kontroloj estis adaptitaj al sia propra cifereca voĉa registrilo SpeechMike, sed maldaŭrigis la produktan linion post la dua versio de FreeSpeech 2000 , En 2004, IBM liberigis partojn de siaj parolrekonaj aplikaĵoj kiel Malferma Fonto. Industriaj fakuloj suspektis kiel kialo taktikojn kontraŭ la kompanio Microsoft, kiu ankaŭ aktivas en ĉi tiu areo kaj ekde 2007 kun sia operaciuma komputilo Vindozo Vista kiel integra parto por la parolaj rekonaj funkcioj por la kaj ankaŭ por la diktado, kiu estis pluevoluigita en Windows 10.
Dum la ĉesigo de la disvolviĝo de IBM ViaVoice, Dragon NaturallySpeaking fariĝis la plej vaste uzata laŭparola parolad-rekona programaro por Vindozo komputiloj kaj estis fabrikita kaj distribuita de Nuance Communications ekde 2005.
Nuance ankaŭ akiris la rajtojn al la Software Development Kit (SDK) en 2008 per la akiro de Parolaj Rekonaj Sistemoj (Philips),
Referencoj
[redakti | redakti fonton]- ↑ Vosk modelo en Esperanto en la retejo de la rusa firmao Alpha Cephei
- ↑ Esperanta Parolrekono ĉe Google Play Store
- ↑ http://cordis.europa.eu/project/rcn/8371_en.html
- ↑ Peckham, Jeremy: ' 'Parolada Kompreno kaj Dialogo per la telefono: superrigardo de la ESPRIT SUNDIAL-projekto.' 'LDS. 1991.
- ↑ Danieli, Morena; Elisabetta Gerbino: Metrikoj por taksado de dialogaj strategioj en parolata lingvosistemo. Procedoj de la 1995a AAAI-printempa simpozio pri Empiriaj Metodoj en Diskreta Interpreto kaj Generacio. Vol. 16. 1995.
- ↑ Ciaramella, Alberto: Raporto pri prototipo. Amaskunveno 8000 (1993).
- ↑ Charpentier, F., Micca, G. , Schukat-Talamazzini, E., Thomas, T. (1995): La Rekono-Komponento de la projekto SUNDIAL. En: 'Parola Rekono kaj Kodigado' (pp 345-348). Springer Berlin Heidelberg.
Vidu ankaŭ
[redakti | redakti fonton]- Parolsintezo - la mala procezo