Vyhledávání

Archiv

sponzorováno

Nejnovější zprávy

Masky padají, uprostřed bouře, nová měna – vysvětlení Riccarda Bosiho
Jill Bidenová zatčena
Americká ekonomika se řítí do propasti i přes dalšího Trumpova nástupce
EU schválila nová pravidla pro prodej GMO potravin

Související zprávy

Šéf ruského kosmického programu: Rusko chystá konkurenci Starlinku
V Rusku byl vyvinut motor pro družice s prakticky neomezenou životností
První čínský meziměstský vlak na vodíkový pohon dokončil testování
Magnetické pole Země se před 42 000 lety oslabilo. Následky byly dramatické

Vědci vytvořili jazykovou neuronovou síť, která se přibližuje člověku. Je tak dobrá, že se ji bojí zveřejnit

6. 5. 2019

anna

čtení 7 min.

Experti z americké neziskovky OpenAI nezaháleli a po robotické ruce Dactyl, která se 100 let učila otáčet kostičku, se na blogu pochlubili dalším technologickým úspěchem – jazykovým modelem GPT-2 (PDF).

Provoz OpenAI sponzoruje vedle Elona Muska třeba i Microsoft nebo Amazon a za cíl si klade rozvíjet technologie umělé inteligence takovým způsobem, aby jednou pomohly celému lidstvu.

[wp_ad_camp_2]

40 GB textu

GPT-2 je už podle svého názvu nová verze modelu, který organizace poprvé představila loni v červnu a od té doby na něm usilovně pracovala. Výsledkem je software, který se na základě analýzy 40 GB textů z 8 milionů webových stránek naučil číst, chápat a syntetizovat anglický text.

Podobných neuronových sítí nejrůznější kvality dnes na GitHubu najdete desítky, přičemž si je můžete zkusit vycvičit na vlastních datech – třeba na blogu, který jste plnili zápisky dlouhé roky. Pokud se bude jednat o dostatečně univerzální techniku, která se učí znak po znaku, takže je jí úplně jedno, jestli je text anglický, nebo český, začne pak na přání syntetizovat text, přičemž může zachovat styl vašeho psaní.

Když se neuronová síť učí znak po znaku

Postupným učením nejprve přijde na to, že znaky poměrně často tvoří jakési shluky – slova, no a tyto shluky se podle určitého vzorce stále opakují. Pokud neuronová síť během učení tyto vyšší vzorce jazyka pochopí (statisticky namodeluje) dostatečně dobře, mohla by pak podle nich na náš povel vygenerovat nějaký vlastní text, který by dával smysl.

Stačí vytvořit balík studijních dat – třeba vlastní články ze Živě.cz nebo blogu, no a pak už můžete začít experimentovat s vlastním textovým generátorem.

Problém spočívá v tom, že potřebujete opravdu velmi dobrou neuronovou síť, ohromné množství kvalitních studijních dat, no a co je nejdůležitější – superpočítač.

Když jsem tedy před pár lety jedné takové neuronové síti předložil malý vzorek svých vlastních článků – textový soubor s pěti miliony znaků, po deseti hodinách učení na běžném laptopu se stárnoucím procesorem Intel Core i5 jsem docílil tohoto:

Se seze dom mych pre mybori a vsetejte pristostem c propocat strobci, to jsot jak prax a uteho firdma svedslaci ze pocpit jejzna ale shby formi i mul shottware.

Nu, s podobným automatem na články bych u nadřízených asi nepochodil, a tak budu muset i po neděli vyrazit do práce, ale na stranu druhou, zhruba v první hodině moje neuronová síť generovala toto:

Ceprre nrkhrecruu gur prrhnrch prdrk prrktrdrk trge ku.ckprrcdc mrdrprchh prprkudurkk.

Ten rozdíl je ohromný, i když je zřejmé, že moje neuronová síť skončila v chápání jazykových vzorců uvnitř souvislého textu kdesi v polovině. Tedy že znaky se shlukují do slov, slova oddělují mezery a občas z nějakého (zatím nepochopeného) důvodu také tečky, za kterými následuje slovo s velkým písmenem na začátku. Víc ale nic.

[wp_ad_camp_2]

Model je tak dobrý, že jej raději nezveřejní

Tak, zpět do Ameriky k novému modelu GPT-2. V nadpisu článku píšu, že se jej prý autoři obávají publikovat. Leckdo se možná zašklebí, že jsem se jen pokusil o laciný clickbait, ale ono tomu tak skutečně je.

Namísto plné verze totiž vědci z OpenAI zveřejnili na GitHubu jen velmi ořezanou verzi modelu, která má demonstrovat základní funkci. Důvod? Model dosahuje na dnešní poměry skvělých výsledků a při porovnání s ostatními softwary je hravě strčil do kapsy. Autoři se proto obávali možného zneužití.

Také GPT-2 se učil analýzou ohromného množství anglických textů (oněch 40 GB, proti kterým jsou moje články jen kapkou v moři) a během mnoha dnů na mašinách s armádou grafických karet postupně chápal (korektněji: statisticky modeloval), sled znaků, slova a nakonec i jejich význam. Tedy význam, to je totiž ošemetná věc. Význam slov pochopil jako kontext k celému studijnímu textu.

GPT-2 chápe význam slov podobně jako strojový překladač

Mohli bychom to srovnat třeba se strojovým překladačem Googlu, který nemusí používat klasický slovník, kde jednomu slovíčku v angličtině odpovídá jedno v češtině. Strojový překladač měl naopak při učení k dispozici ohromné množství bilingválních textů: stejných textů v angličtině a češtině a statisticky se tedy naučil, že slovu, nebo klidně i sledu slov X v angličtině odpovídá vždy s největší pravděpodobností sled slov Y v češtině.

[wp_ad_camp_2]

Strojové překladače, stejně jako neuronová síť, vůbec nemusejí rozumět skutečné podstatě informací, se kterými pracují.

Podobně GPT-2 analýzou textu zjistil, že k určitému slovu se vážou nějaká další, která vyjadřují, oč se jedná, ale sám vlastně vůbec nemusí tušit jejich skutečný význam, stejně jako strojový překladač Googlu nikdy nechodil do jazykové školy.

Člověk napíše nadpis a GPT-2 dopíše na dané téma celý článek

Díky těmto schopnostem toho umí hotový model GPT-2 mnohem více než jen generovat náhodný text, to by totiž bylo vlastně úplně k ničemu. Zvládne tedy i kondicionální generování textu a určitou formu dialogu nad textem.

Nejprve to kondicionální generování textu. Jak to funguje? Dejme tomu, že napíšete nadpis nějakého neexistujícího článku, anebo jeho celý první odstavec. Poté dáte generátoru příkaz, ať prostě pokračuje.

Stroj napsal článek o stádu jednorožců

GPT-2 v takovém případě neexistující článek na dané téma skutečně napíše, přičemž autoři tvrdí, že hotové dílo dávalo s 50% pravděpodobností smysl. Jinými slovy, každý druhý pokus byl čitelný – alespoň jeho první strana, což je rozsah běžného kratšího zpravodajského článku.

V Cincinnati někdo ukradl vlak s nukleárním materiálem, napsal člověk. Stroj dopsal celý článek na stejné téma, který si vymyslel.

Už asi tušíte, proč se autoři příliš nemají k tomu, aby kompletní technologii zveřejnili třeba na zmíněném GitHubu. Obávají se zneužití, podobný generátor by totiž dokázal v mžiku zahltit Facebook a další zdroje třeba fake news a nejrůznějšími hoaxy na objednávku.

Zpravidla se jedná o poměrně krátké slohové útvary, čili výstupy by byly přinejmenším optikou cílové skupiny dostatečně kvalitní a uvěřitelné. Stačí do textu vložit pár hrubek, hromadu vykřičníků a vše napsat velkými písmeny. A samozřejmě doplnit dnes už ikonické: „Sdílejte, než to smažou!“

Miley Cyrus kradla v obchodě. I v tomto případě stroj napsal zprávu o zpěvačce-zlodějce.

Na stranu druhou, stejně tak by dokázala podobná technologie vytvářet třeba krátké textové souhrny z nejrůznějších dat – ať už digitalizovaných knih, sportovních výsledků, burzovních zpráv aj. Ostatně toto není nic nového a softwary s různou mírou autonomie to už dávno dělají třeba i na Forbesu.

Stroji, proveď rozbor následujícího textu

Možná ještě zajímavější než generování textů na objednávku je ale schopnost jejich rozborů, zde se totiž už dostáváme do sféry nejrůznějších variací na slavný Turingův test.

Dnes jich existuje celá řada, třeba Winograd Schema Challenge, ve kterém dosavadní neuronové sítě dosahovaly skóre okolo 60 % a člověk pro srovnání nad 92 %. GPT-2 výrazně posunul laťku na 70 % a ostatní programy pokořil i v dalších testech.

GPT-2 dosáhl v benchmarcích ve srovnání s ostatními skvělého výsledku. Kvality člověka sice zatím nemá, to ale mnohdy není ani třeba.

Pojďme si jeden takový test, který připomíná rozbor textu z hodin češtiny na ZŠ, ukázat, chlubí se jím totiž i autoři na blogu, kde najdete více ukázek. GPT-2 nejprve dostal k dispozici text o dvou hutných odstavcích, ve kterém se píše o olympijských hrách v Pekingu v roce 2008 a také o pochodni, která putovala z Řecka až do místa konání her.

My, jako přísný učitel češtiny, pak můžeme programu pokládat nejrůznější dotazy a sledovat, jak odpovídá – tedy jak chápe psaný text. Jak vidno z přepisu níže, GPT-2 dosahuje opravdu obdivuhodných výsledků.

Ukázka chápání psaného textu GPT-2 pomocí datasetu CoQA určeného pro konverzační systémy:

Naše technologie by mohla pomoci, ale i ublížit

Autoři z OpenAI doufají, že i jejich model pomůže třeba v tvorbě lepších A.I. asistentů a diskusních agentů/chatbotů, ale stejně tak již zmíněným strojovým překladačům textů, které by díky lepšímu chápání slov mohly nabízet realističtější překladové varianty. Nakonec by se mohly zlepšit i systémy rozpoznání řeči.

[wp_ad_camp_2]

Na stranu druhou, před nástupem nové generace jazykových modelů autoři experimentu zároveň varují, neboť se nabízí jejich zneužití třeba pro mnohem schopnější generátory malwaru, spamu, oněch fake news, hoaxů a dalšího odpadu, který dnes tvoří nemalou část informací poletujících po internetu.

Zdroj: 9

Líbí se vám článek? Pošlete ho dál

Předchozí článek

Následující článek

sponzorováno

Pravidla diskuze

Diskuze je pouze pro registrované čtenáře a je moderovaná. Budou uveřejněny jen takové komentáře, které nejsou urážlivé, vulgární, neobsahují reklamu, projevy náboženského fanatismu, návody k násilí, ezoterické bludy a jsou k tématu.

Není dovoleno vkládat celé články z jiných webů a strojové překlady z cizích jazyků.

Veškeré odkazy v komentářích musí být uvedeny s krátkým popisem, čeho se týkají, jinak jsou považovány za spam.

Komentáře jsou automaticky posuzovány antispamovým systémem, a pokud jsou zadrženy, musí je posoudit administrátor. Opětovné odeslání komentáře nebo psaní stížnosti nic neurychlí.

Celé znění pravidel najdete ZDE.

1 Komentář

martin

15.5.2019 06:59

Znie to zaujimavo

Vyhledávání

Archiv

Nejnovější zprávy

Masky padají, uprostřed bouře, nová měna – vysvětlení Riccarda Bosiho

Jill Bidenová zatčena

Americká ekonomika se řítí do propasti i přes dalšího Trumpova nástupce

EU schválila nová pravidla pro prodej GMO potravin

Související zprávy

Šéf ruského kosmického programu: Rusko chystá konkurenci Starlinku

V Rusku byl vyvinut motor pro družice s prakticky neomezenou životností

První čínský meziměstský vlak na vodíkový pohon dokončil testování

Magnetické pole Země se před 42 000 lety oslabilo. Následky byly dramatické

Vědci vytvořili jazykovou neuronovou síť, která se přibližuje člověku. Je tak dobrá, že se ji bojí zveřejnit

40 GB textu

Když se neuronová síť učí znak po znaku

Model je tak dobrý, že jej raději nezveřejní

GPT-2 chápe význam slov podobně jako strojový překladač

Člověk napíše nadpis a GPT-2 dopíše na dané téma celý článek

Stroj napsal článek o stádu jednorožců

V Cincinnati někdo ukradl vlak s nukleárním materiálem, napsal člověk. Stroj dopsal celý článek na stejné téma, který si vymyslel.

Miley Cyrus kradla v obchodě. I v tomto případě stroj napsal zprávu o zpěvačce-zlodějce.

Stroji, proveď rozbor následujícího textu

GPT-2 dosáhl v benchmarcích ve srovnání s ostatními skvělého výsledku. Kvality člověka sice zatím nemá, to ale mnohdy není ani třeba.

Naše technologie by mohla pomoci, ale i ublížit

Líbí se vám článek? Pošlete ho dál

Pravidla diskuze

Zůstaňte s námi ve spojení

Hledej

Obnovení zapomenutého hesla

Registruj se na tadesco.org

Přihlaš se ke svému účtu