Shakti Prasad Rath

SHAKTI PRASAD RATH, PH.D.

Projekt: DETONATION - Diskriminativní trénování modelů normalizovaných na mluvčího pro automatické rozpoznávání řeči

Školitel:doc.Dr.Ing.Jan Černocký

Hostitelská instituceÚstav počítačové grafiky a multimédiíFakulta informačních technologií VUT

Země původu:Indie 

Země vědeckého působení: Indie

Délka projektu: 24 měsíců

Panel: Engineering

Abstrakt:

Navrhovaný projekt se zabývá automatickým rozpoznáváním řeči. Je postaven na žadatelových zkušenostech s normalizací na mluvčího v rozpoznávání řeči a na zkušenostech skupiny Speech@FIT s akustickým modelováním a diskriminativním trénováním v rozpoznávání řeči. Projekt se bude zabývat výzkumem disktriminativního trénování modelů normalizovaných na mluvčího, které umožní vyvinout přesnější systémy pro rozpoznávání řeči s pokročilou adaptací na cílové uživatele. Zvláštní pozornost bude věnována aplikaci diskriminativně trénovaným adaptacím na mluvčího v případě sub-space modelování řeči.

Related links:

http://speech.fit.vutbr.cz/

http://www.superlectures.com/

Hostitelská instituce (English):

Brno University of Technology (BUT)  https://www.vutbr.cz/en/

BUT is the second largest technical university in the Czech Republic. It comprises 8 faculties with

more than 20,000 students and 2,000 staff members.

The Faculty of Information Technology (FIT:http://www.fit.vutbr.cz/.cs)

provides education in the Bachelor and Master Study programs in Computer Science and Engineering and the Doctoral study program in Information Technology. Research activities include multimodal interaction, speech recognition, natural language processing, human-computer interaction, knowledge representation and reasoning, semantic web technologies, information extraction, knowledge mining, and technology enhanced learning. FIT is involved in the international cooperation with more than 30 research and education centres in Europe, USA, India and China. It has a strong support from leading industrial companies involved in IT development (Siemens, IBM, Microsoft, ScanSoft, etc.).

There are five research groups at the Department of Computer Graphics and Multimedia of FIT (http://www.fit.vutbr.cz/units/UPGM/index.php.en), which are led by 5 senior researchers and are staffed by about 15 post-docs and more than 50 postgraduate students. There are very few teams in the world that combine the cutting-edge research and development in speech recognition, video processing, and semantic technologies. The group has achieved excellent results in various internationally-recognized research competitions and challenges in these fields, it has participated in many European as well as national projects. The most relevant ones include: AMIDA - Augmented Multiparty Interaction with Distance Access, DIRAC – Detection and Identification of Rare Audiovisual Cues, WeKnowIt – Emerging, Collective Intelligence for personal, organisational and social use, TA2 – Together Anywhere, Together Anytime, Caretaker – Content Analysis and Retrieval Technologies to Apply Knowledge Extraction to massive Recording, KiWi – Knowledge in Wiki, M-Eco – Medical Ecosystem, and Mobio – Mobile Biometry. The group cooperates with a wide range of industrial partners (

The team has a significant track in developing advanced speech processing solutions. In the strong competition of IBM, BBN and other key players in the field, it achieved excellent results in various tracks of recent evaluation campaigns organized by the Multimodal Information Group of NIST (http://nist.gov/itl/iad/mig/). The group organizes scientific workshops attended by the top-most researchers in their respective domains (see, e.g., http://speech.fit.vutbr.cz/en/workshops/bosaris-2010) and develops software that is widely used by the research community as well as integrated into various commercial solutions (http://speech.fit.vutbr.cz/software). In the area of video processing, the group is regularly among the top teams participating in the TrecVid competitions. It has also a long list of commercial applications employing the advanced image and video analysis tools developed by the group members.

Person in charge

Jan Cernocky (Dr. 1998 Universite Paris XI) is an associate professor and the Head of the Department of Computer Graphics and Multimedia, FIT BUT. He has been involved with several European projects: SPEECHDAT-E (4th FP, technical coordination), SpeeCon and Multimodal meeting manager (M4, both 5th FP), and Augmented Multimodal Interaction (AMI, 6th FP), leading the efforts of FIT in speech recognition, keyword spotting and multimodal-data recordings and annotations. He authored more than 40 papers in journals and at conferences. He has served as reviewer for conferences and journals, including IEEE Transactions on Speech and Audio Processing. He is on the scientific board of FIT, scientific board of Text-Speech-Dialogue conference, editorial board of the journal Radio engineering and on the board of Czechoslovak section of IEEE. In 2011, he served as co-chair of major signal processing conference: IEEE ICASSP 2011. 

Dosavadní průběh projektu:

Cílem projektu je navrhnout nové techniky diskriminativního trénování modelů normalizovaných na mluvčího pro rozpoznávání řeči: položit matematické základy těchto technik, implementovat je ve formě algoritmů a důkladně testovat na standardních řečových datech. To povede k přesnějším systémům pro rozpoznávání řeči, které jsou dokonaleji adaptované na cílového mluvčího, a současně vyžadují méně parametrů než současné systémy, a tedy k jejich efektivnější implementaci a většímu potenciálu pro praktické využití.

Stručné shrnutí aktivit, které byly v rámci projektu realizovány za příslušné období od začátku projektu

Hlavním cílem projektu bylo vyvinout nové metodologie pro adaptaci na mluvčího v kontextu automatického rozpoznávání řeči. Zaměřili jsme se především na výzkum a vývoj algoritmů pro adaptaci založenou na diskriminativně určených třídách dat.

Výzkum v roce 2011 zahrnoval:

1.         Vyvinuli jsme nový přístup pro adaptaci na mluvčího, který je založen na lineární transformaci akustických příznakových vektorů. Tuto metodu nazýváme Regional Feature-space Maximum Likelihood Linear Regression (R-FMLLR). Základem R-FMLLR je fakt, že efekt variability mezi mluvčími se může podstatně měnit v závislosti na řečové jednotce, která je mluvčím právě vyslovována. R-FMLLR kompenzuje tuto „třídně závislou“ variabilitu pomocí sady lineárních transformací, které jsou specifické pro dané třídy. Vyvinuli jsme nový model pro transformaci příznakových vektorů a pro odhad třídně-specifických transformací, který je atraktivní jak z teoretického, tak z výpočetního hlediska.

Na úloze rozpoznávání spojité řeči s velkým slovníkem (LVCSR), která zahrnovala konverzační telefonní data (CTS), jsme experimentálně ukázali, že tato metoda poskytuje podstatně lepší výsledky než jedna globální transformace.

Práce bude zaslána do časopisu IEEE Signal Processing Letters pod titulem:

“Acoustic region-specific feature space transformation for speaker adaptation using quantized Gaussian posteriors,” by Shakti P. Rath, Lukas Burget, Martin Karafiat, Ondrej Glembek and Jan  Cernocky

Současná verze článku je připojena k této zprávě, a zahrnuje detailní matematické odvození, algoritmizaci a experimentální výsledky. Některé z výsledků jsou také uvedeny v další sekci.

2.         Vyvinuli jsme novou metodu pro odhad lineárních transformací pro adaptaci na mluvčího. Navrhujeme použít omezení (constraint) struktury lineárních transformací, což je motivováno faktem, že tyto lineární transformace pak mohou být faktorizovány pomozí QR-dekompozice. Ukázali jsme, že pro takovéto transformace existuje analytická forma jejich odhadu. Proto je navržená transformace atraktivní a předpokládáme, že bude výpočetně efektivnější než F-MLLR, která pro svůj odhad používá numerické (iterativní) algoritmy.

Naše úvodní experimenty s touto metodou přinesly slibné výsledky. V současné době pokračujeme na rigorózním hodnocení úspěšnosti této techniky.

Počítáme se zasláním publikací s výsledky této metody na konferenci Interspeech (Portland, USA) pod tituly:         

3.         Vyvinuli jsme schéma pro multi-parametrickou normalizaci célky hlasového ústrojí (VTLN), opět s pojmem akustických tříd (akustických regionů), které obsahují specifickou úpravu frekvenční osy. Pro tuto úpravu jsme vyvinuli jsme výpočetně efektivní přístup a ohodnotili jsme ji na úlohách rozpoznávání řeči. Akustický prostor jsme rozdělili na třídy podle Gaussovských komponentů obsažených v sadě HMM modelů rozpoznávače. Pro každý region je odhadnut specifický koeficient pro úpravu frekvenční osy, takže úprava této osy je pak závislá na pozici v celkovém akustickém prostoru. Pro spolehlivý odhad transformací v případě mnoha tříd používáme regresní rozhodovací stromy.

Počítáme s brzkým zasláním této práce do časopisu IEEE Signal Processing Letters pod titulem:

“A Computationally Efficient Approach for Acoustic-class specific VTLN- warping using Regression Class Tree”. Experimentální výsledky jsou stručně shrnuty v následující sekci.

4.         Kromě adaptace na mluvčího jsme se rovněž věnovali vlastnostem lineárních transformací popsaných v bodech 1 a 2 pro úlohu rozpoznávání mluvčího. Podle získaných výsledků uvažujeme o zaslání článku na konferenci Odyssey 2012 v Singapuru.