Články odjinud

Vyvíjí umělou inteligenci, která porozumí lidské řeči. Jan Černocký pracuje pro Facebook i DARPA

Vyvíjí umělou inteligenci, která porozumí lidské řeči. Jan Černocký pracuje pro Facebook i DARPA

Když se řekne analýza řeči, odpověď je Brno. Konkrétně brněnská řečová skupina docenta Jana Černockého na Fakultě informačních technologií VUT. Právě před jejími dveřmi totiž stojí ve frontě Facebook, americké vládní agentury DARPA a IARPA, světová call centra nebo česká policie. „V tom, co děláme, jsme jedni z nejlepších na světě,“ tvrdí vedoucí Ústavu počítačové grafiky a multimédií Jan Černocký. „Ale za tím je spousta let tvrdé práce a pořádná dávka štěstí,“ dodává. Zveřejňujeme on-line další text z prvního čísla magazínu InfoLab, který připravila redakce INFO.CZ.

„To, co děláme, má k vyřešení ještě daleko,“ říká na úvod Černocký. „Mnoho lidí si myslí, že už aplikace na přepis řeči do textu existuje, a diví se, na co zde potřebujeme desítky výzkumníků a serverů,“ dodává. Tak jednoduché to samozřejmě není. Dneska již takový software na trhu je — pokud na něj hovoříte, tak on vaši řeč rozpozná a dokáže s ní dále pracovat.

„Jenže jenom v ideálních podmínkách. Často ale chcete tento program přenést do jiného prostředí, na které nebyl trénovaný. Například místo čisté americké angličtiny chcete najednou rozpoznávat jazyk zulu. Anebo převádět a analyzovat záznamy z pětivteřinových „štěků“ do vysílačky na bojišti. A tam už se začínají systémy, které jsou k dispozici na trhu, rozpadat. A právě tady začíná naše práce,“ říká Černocký. Umělá inteligence, kterou jeho skupina vyvinula, dokáže rozpoznávat jazyk za ztížených podmínek. Zjistí, zda hovoří konkrétní člověk, nebo dokáže převést řeč do textu a s ním dále pracovat.

Brňák, na kterého se stojí fronta
„Pokud budeme dobří, podaří se nám sem přilákat šikovné lidi z celého světa a pro výzkumníka na VUT už konečně přestane platit ta trochu nudná charakteristika – běloch, muž, Čech,“ řekl během svého docentského projevu v roce 2003 Černocký. Po téměř patnácti letech si může tento úkol – alespoň na svém ústavu – s klidem označit jako: „Mise splněna.“

Prestižních projektů, na kterých se Černockého ústav na fakultě informatiky VUT podílel, je celá řada. Brněnští výzkumníci se společností Raytheon BBN spolupracovali například na projektu RATS, podporovaném americkou agenturou ministerstva obrany DARPA. Ta požadovala, aby aplikace dokázala rozpoznávat řeč, konkrétního řečníka či klíčová slova ve ztížených bojových podmínkách — například z amatérských vysílaček. „Brněnští řečaři“ pak spolupracovali i s další americkou vládní agenturou IARPA, konkrétně na programu Babel zaměřeném na rozpoznávání jakéhokoliv lidského jazyka; nyní spolupracují vývojovým centrem umělé inteligence Facebooku FAIR. Je však i mnoho dalších menších projektů, nezřídka z bezpečnostní či zpravodajské oblasti.

Přísně tajné!

Právě tam je spolupráce se zadavateli již ustálená. „Základní scénář je vždy velmi podobný — přijde za námi někdo z této komunity a řekne, hele, potřebuju rozpoznávat určitá data z nějakého kanálu. My mu řekneme, ok, tak nám ale ty data dej, ať máme jejich vzorek. Ne, nedám. Jsou tajná, odpovídá. Tak nám dej alespoň nějakou jejich část, ať můžeme aspoň testovat, trváme na svém. Ne nedám, opakuje se objednatel. Tak nám alespoň řekni, jak to zhruba zní, rezignujeme nakonec,“ popisuje vyjednávání při zadávání projektů Černocký. Výzkumný tým následně obdrží alespoň nějaké specifikace. Například aby naučili program analyzovat řeč na určité frekvenci, rušenou určitým typem radiové komunikace. „My se pak zavřeme do laboratoře, kde se snažíme nasimulovat trénovací data blízká těm cílovým, která jsme ale nikdy neslyšeli,“ popisuje překážky výzkumných projektů docent.

S daty je podle Černockého většinou problém, ostatně jako i u většiny jiných aplikací strojového učení. Na internetu je jich sice ke stažení mnoho, ale ne vždy jsou vhodná. Pro analýzu telefonních hovorů se například nedají použít uživatelská videa ze serveru YouTube, navíc při strojovém učení většinou platí jednoduchá úměra — čím více dat na začátku, tím lepší výstup. „Proto nás vždycky dojímá, když přijdeme na konferenci a lidi z Googlu tam prezentují výsledky systému natrénovaného například na třiceti tisících hodinách přepsaných dat. To všichni skřípeme zubama,“ směje se Černocký.

Brněnští „řečaři“ ale nedostatek vstupních dat pro svůj software řeší po svém. „Buď se dostupná data z YouTube stejně stáhnou a ohnou tak, aby zněla, jak potřebujeme, nebo například procházíme archivy rozhlasových stanic, kam volají lidé. To jsou potom pro telefonní aplikace krásné vstupy. Nějaká další data se pak dají nakoupit nebo vytvořit,“ vypočítává možnosti vedoucí výzkumné řečové skupiny.

S dostatkem dat přichází na řadu jejich aplikace do konkrétních modelů. „Máme tu základní schéma jakéhokoliv strojového učení. Začínáme sběrem dat, pak ta data musíme popsat a vymyslet parametry. 
Pak už jen zbývá nadefinovat modely a dořešit, jak tyto modely natrénovat. Nakonec se pomodlíme a celé to spustíme. Výsledky ale nejsou nikdy tak dobré, jak chceme, takže se můžeme vrátit do libovolného z předchozích bodů a jet znova,“ popisuje proces vývoje umělé inteligence na analýzu řeči docent VUT.

Pozor. Váš hovor bude nahráván

Tento postup například výzkumníci použili při vývoji projektu BISON, který se zaměřuje na datovou analýzu v call centrech. Kontaktní call centra jsou totiž malý paradox — ač jsou největším civilním producentem řeči, fungují i jako černá skříňka — nikdo pořádně neví, co se během hovorů děje. „Jistě, je tam vždy nějaký supervizor, který má pod sebou třeba dvacet operátorů a jejich hovory poslouchá. Ovšem on dokáže zaznamenat jen mizivé procento z nich. Takže například v 98 procentech hovorů se něco děje, ale nikdo neví co,“ vypočítává Černocký. Vývoj softwaru BISON se proto zaměřuje právě na analýzu těchto hovorů. „Jenom z informace, jak dlouho hovořil zákazník a jak dlouho prodejce, se dá odvodit spousta věcí,“ doplňuje docent.

Kromě call center pracuje Ústav počítačové grafiky a multimédií i s českými a zahraničními zpravodajskými a bezpečnostními složkami.
„Je zajímá mnoho našich technologií, například odposlechy telefonních hovorů nebo prostorové odposlechy v místnostech. Ale třeba i to, zda jejich agent může na základě analýzy hlasu zjistit, že osoba před ním je skutečně ta, za níž se vydává,“ vysvětluje Černocký, ale do přesných detailů zabíhat nehodlá. „My řešíme čistě technologii, její konkrétní přizpůsobení a aplikace už je na institucích, které je využívají. Na co konkrétně ji využívají, se jich neptám a ptát nebudu,“ naznačuje docent.

Komisař Moulin je mimo

Podle něj je policejní práce u veřejnosti do značné míry značně zidealizovaná. „Člověk si tu jejich práci občas představuje tak, že si jako komisař Moulin jezdí na motorce po Paříži a zatýkají padouchy. Realita je úplně jiná. I proto jsme si nedávno nechali zpracovat průzkum, pomohl nám v tom i Interpol, a vyšlo nám, že detektivové na analýze nahrávek stráví až 70 procent svého času. A to jsou přece strašná čísla,“ vysvětluje Černocký.

Realita je podle výzkumu taková, že policisté sedí se sluchátky na uších, mají před sebou desítky hodin záznamu policejních odposlechů a snaží se najít, kdy někdo pro jejich případ řekne něco podstatného. „Oni potřebují najít půl minuty, kdy se kriminálníci domlouvají třeba na předání drog, a místo toho musejí celé hodiny poslouchat všechny ty manželky, milenky a babičky… To je šílené,“ tvrdí Černocký. Umělá inteligence z Brna proto umožňuje detektivům výrazně zkrátit čas, po který musí v nahrávkách hledat. „Netvrdíme, že tato naše technologie je perfektní, ale i když tomu policistovi náš software na 50 hodinách záznamu ukáže deset či dvacet míst, na která by se měl zaměřit, je to pro něj obrovská úspora času,“ tvrdí brněnský docent. A o úsporu času jde u využití umělé inteligence při analýze řeči především — ať již v aplikaci pro bezpečnostní složky, nebo při uplatnění pro call centra a vojenské využití.

V tom je i jedna z hlavních výhod umělé inteligence — při analýze velkých objemů dat je schopnější podat výstupy levněji, rychleji a často lépe než člověk, který se tak může věnovat podstatnějším záležitostem.

Že by umělá inteligence mohla za to, že operátoři v call centrech přijdou o práci, si ale Černocký nemyslí. „Kontaktní centra tu budou ještě dlouho, ti operátoři jen díky umělé inteligenci budou dělat svou práci lépe,“ uzavírá docent Černocký.

InfoLab

 
Přejít na homepageVíce z kategorie

Články odjinud