Inteligentné Rečové Komunikačné Rozhranie

        

 

 


Home

IRKR konzorcium                 

Výsledky projektu

Monitorovacia stránka

Kontakt

 

 

 

Inteligentné rečové komunikačné rozhranie (IRKR) je hlasová platforma určená na poskytovanie hlasových dialógových služieb cez telekomunikačnú sieť. V zahraničnej literatúre sa takéto systémy zvyčajne nazývajú Spoken Language Dialogue Systems (SLDS) alebo Interactive Voice Response systémy (IVR).

 

IRKR komunikátor tiež môžeme vnímať ako rozhranie medzi telekomunikačnou a internetovou sieťou, ako je to zrejmé z nasledujúceho obrázku.

 

High-level architecture

 

Z pohľadu spôsobu riešenia ide o softvérovo-hardvérovú platformu, kde hardvérovú časť tvorí analógová telefónna karta Intel Dialogic D/JCT40-LS. Softvérová časť je vybudovaná na Galaxy Hub architektúre. Platforma umožňuje budovať nové služby pomocou W3C Speech Interface Framework.

Platforma je

  • modulárna
  • nezávislá od druhu poskytovanej služby.

 

Základom IRKR komunikátora je Galaxy infraštruktúra, na ktorej sú vybudované servery komunikátora. Pod pojmom server máme na mysli samostatne spustiteľný komponent s implementovaným  Galaxy rozhraním, ktorý poskytuje špecifické služby pre ostatné servery architektúry vo forme obslúžnych funkcií. IRKR komunikátor pozostáva zo siedmych procesov. Ide o päť serverov, ktoré sú nositeľmi obslužných funkcií, jedného externého wrappera (DM wrapper) a hub procesu. Bloková schéma IRKR komunikátora je zobrazená na obr. 1.1.

 

Obr. 1.1.IRKR komunikátor

 

Architektúra IRKR komunikátora využíva štandardné mechanizmy komunikácie medzi servermi navzájom a hub procesom a tým umožňuje výmenu jednotlivých komponentov, bez zásahu do ostatných častí systému. Wrapper predstavuje rozhranie, ktoré slúži na transformáciu štandardných správ daného servera na správy vo formáte Hub architektúry. Ak je súčasťou servera, znamená to, že server využíva Hub knižnice umožňujúce priamo komunikovať s hub procesom.

 

Komponenty IRKR komunikátora

 

 

Audio server

Audio server tvorí vstupno/výstupné rozhrania umožňujúci komunikáciu počítača s telekomunikačným prostredím.

Hardvérová časť je realizovaná s využitím telefónnej karty INTEL DIALOGIC umožňujúca simultánne vytvorenie 4 telefónnych spojení. Toto rozhranie priamo spolupracuje s digitálnou ústredňou PABX, ktorá rozširuje možnosti pripojenia do iných typov telekomunikačných sietí a komunikáciu s ľubovoľným typom terminálu (PSTN, VoIP, mobilný telefón).

Softvérová časť je kompatibilná s architektúrou IRKR a umožňuje priamu komunikáciu s blokmi syntézy reči a rozpoznávania reči.

Softwarová časť Audio servera podporuje telefónne karty Intel Dialogic so "springware" architektúrou.

 

Audio server poskytuje tiež tzv. desktop mód pre komunikáciu so systémom pomocou sady slúchadiel a mikrofónu.
 

Rozpoznávač reči - ASR

ASR (Automatic Speech Recognition) server predstavuje systém automatického rozpoznávania reči pre slovenčinu vyvinutý pomocou vývojových prostriedkov HTK/ATK a Sphinx4.

Oba systémy sú nezávislé od hovoriaceho, určený na rozpoznávanie postupností izolovane vyslovovaných slov (stredne veľký slovník) a spojito vyslovovaných číslic.

Pri rozpoznávaní sa používajú akustické modely na báze kontextovo závislých alebo kontextovo nezávislých skrytých Markovových modelov fonetických jednotiek slovenčiny (foném, trifón) so zmesami gaussovských funkcií hustoty pravdepodobnosti. Akustické modely sú získané v procese trénovania pomocou databázy rečových nahrávok SpeechDat-Sk a Mobildat.

 

Syntetizátor reči - TTS

TTS (Text-to-Speech) server transformuje textové odpovede systému do akustickej podoby a posiela ich Audio serveru, ktorý zabezpečí ich prehratie na výstupné zariadenie ( telefónna linka).

Syntetizátor je založený na spájaní – konkatenácii predpripravených jednotiek, väčšinou difón. Syntetizátor nemá obmedzenia vzhľadom na tematickú oblasť použitia (unlimited domain). Syntetizátor obsahuje blok slovenskej výslovnosti, blok prozódie a editovateľný slovník výnimiek. Je schopný pracovať vo viacužívateľskom režime. Je otvorený rozšíreniu pre ďalšie jazyky (overené pre maďarčinu).

 

Manažér dialógov

Dialógová riadiaca jednotka - tzv. manažér dialógov riadi chod interaktívneho rečového komunikačného rozhrania a tým aj celú interakciu s užívateľom. Je založená na interpretácií jazyka VoiceXML 1.0. 

Základnými komponentami manažéra dialógov je interpreter jazyka VoiceXML, XML parser a ECMASkript jednotka.

 

Informačný server

Informačný server zabezpečuje on-line vyhľadanie požiadovanej informácie na Internete a jej poskytnutie riadiacej jednotke dialógu. Informačný server je optimalizovaný najmä na vyhľadávanie informácií pre dve pilotné aplikácie projektu IRKR, a to „POČASIE“ a „CESTOVNÝ PORIADOK“, je však otvorený pre ďalšie oblasti použitia.
 [stanislav.ondas@tuke.sk].
Poslední aktualizace: 03. 11. 2008