Fun met AI

OpenAI, een non-profit onderzoeksinstelling die zich specialiseert in het ontwikkelen van toegankelijke AI-toepassingen, kondigde in februari al aan een AI toepassing te hebben ontwikkeld die teksten kan schrijven op basis van een zeer beperkte input.

Pas nu, begin november werd de toepassing ook volledig vrijgegeven. Men had in eerste instantie schrik dat het zou kunnen worden misbruikt voor het creëren van ‘fake news’ maar er kon geen bewijs van misbruik worden vastgesteld van de beperkte, minder complexe versies die wel vrijgegeven werden.

Om het AI model te trainen werden 8 miljoen documenten gebruikt die werden binnengehaald vanop het internet. Dat gebeurde niet helemaal random, om toch een minimale datakwaliteit te bekomen werd rekening gehouden met de menselijke reacties, zoals likes en dergelijke, om te bepalen welke linken werden gescraped.

Eigenlijk was het de bedoeling dat het model bij de ingegeven tekst, het eerst volgende woord zou kunnen voorspellen, en daar werd het ook op getrained, maar het bleek uiteindelijk ook langere aanvullingen te kunnen maken.

Je kunt de tool nu ook zelf proberen via een online versie:

https://talktotransformer.com/

Tik een paar Engelse woorden of een korte zin en laat de magie zijn werk doen.

Hilariteit verzekerd!

Toch zit het puur grammaticaal allemaal wel juist en ook inhoudelijk gaat het soms verrassend goed maar vaker lijkt het erop dat het programma wel ‘iets’ weet, maar van de gegevens zo’n bizarre mix maakt, dat het uiteindelijk wal noch kant raakt. Hoe langer de tekst, hoe vreemder het wordt.

“Facebook does not work!” levert een tekstje dat zomaar een melding op een support forum zou kunnen zijn.

“Bats and caves” gaf een korte paragraaf op die inhoudelijk wel leek te kloppen, maar dit tekstje opnieuw in het systeem laden leverde volgende conclusie op: “ Some bats are tarantulas.”

Gedicht, forumpost, artikel,… je weet niet op voorhand welk type tekst je voorgeschoteld gaat krijgen.

8 miljoen documenten zijn duidelijk nog te weinig om een allround tekstgenerator te voeden, maar deze generator geeft wel al een idee van wat er mogelijk kan zijn.

Met Nederlands werkt het ook, maar dan krijg je enkel onzin, ook grammaticaal klopt het resultaat dan niet. Maar de taal wordt wel herkend, het wordt geen mix met Engels of zo.

En wat als hetzelfde aantal documenten maar met een beperkt aantal onderwerpen en documenttypes wordt geladen? Dan wordt het resultaat waarschijnlijk ook veel accurater, en zul je het onderwerp goed moeten kennen om onregelmatigheden te kunnen detecteren.

Maar zelfs als het duidelijke onzin blijft, als het internet met dergelijke teksten wordt overspoeld kan het moeilijk worden om echte en fake berichten van elkaar te scheiden.

Meer info:

https://openai.com/blog/better-language-models/

In het nieuws:

https://www.smartbiz.be/nieuws/180681/schrijf-tekst-gevaarlijk-ai/

https://www.theverge.com/2019/11/7/20953040/openai-text-generation-ai-gpt-2-full-model-release-1-5b-parameters

Dit bericht werd geplaatst in Artificial Intelligents, Internet en getagged met , , . Maak dit favoriet permalink.

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit /  Bijwerken )

Google photo

Je reageert onder je Google account. Log uit /  Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit /  Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit /  Bijwerken )

Verbinden met %s