Hoe houd je het hoofd boven water in een stortvloed van teksten?

Het automatisch analyseren van nieuwsberichten is dagelijkse business bij Monalyse. Vooralsnog kunnen we er vanuit gaan dat al die teksten geschreven zijn door journalisten. Maar hoe lang nog? Emiel Krahmer, hoogleraar aan de afdeling Cognition & Communication aan de Universiteit van Tilburg, vertelde mij en de andere aanwezigen op het SWOCC symposium dat het in 2025 zomaar anders kan zijn. Dan zijn 90% van de nieuwsartikelen volgens Krahmer automatisch gegenereerd. Dit betekent niet dat journalisten minder gaan schrijven, maar wel dat er heel veel tekst bijkomt die geproduceerd is door computers. Die hoeveelheid is geen doel op zich. De snelheid waarmee algoritmes in de toekomst teksten kunnen produceren is wel heel voordelig.

Robotjournalistiek, zoals deze vorm van ‘schrijven’ ook wel wordt genoemd, is het automatisch genereren van tekst op basis van andere teksten, beeld of data. Als voorbeeld noemde Krahmer het samenvatten van tientallen of honderden posts op een forum. Dat biedt fantastische mogelijkheden. Niemand is immers in staat om al die posts door te nemen. Hoe mooi is het dan als een computer even voor je samenvat wat al die mensen op jouw forum hebben gezegd? Zo zie je in no-time de belangrijkste discussiepunten, niet alleen in statistieken maar gepresenteerd in een verhaal.

Onze klanten willen vaak weten of nieuwsberichten beelden bevatten waarin zij herkenbaar zijn. Begrijpelijk: op dat beeld valt het oog van de lezer het eerst, daarmee trek je dus ook de aandacht van een potentiële klant. Deze informatie brengen wij in kaart onder de term branding*.

Machine learning
Krahmer laat met onderzoek zien dat computers in staat zijn om beelden te beschrijven. Ze herkennen het beeld niet alleen, maar kunnen het beeld met behulp van machine learning ook van een samenhangende tekst voorzien. Zo worden losse entiteiten als een hond, een man en strand in een foto automatisch voor je samengevat als ‘De man laat de hond uit op het strand’ en niet als ‘De hond laat de man uit op het strand’.

“Zodra een computer bepaalde vaktaal beheerst, kan hij net zo schrijven als een journalist.”

Emiel Krahmer

Teksten gegenereerd op basis van data gaan volgens mij voor de grootste toename van ‘robotteksten’ zorgen. Krahmer gaf als voorbeeld teksten gebaseerd op voetbaluitslagen, maar ik zie ook mogelijkheden voor het weerbericht; voor elke plaats – hoe groot of klein ook – een eigen tekst. De techniek ontwikkelt zich zo snel dat dit geen saai verhaal hoeft te zijn. Zodra een computer bepaalde vaktaal beheerst, kan hij net zo schrijven als een journalist.

Robottweets
Futuristisch, zegt u? Dan wist u vast nog niet dat er al algoritmes zijn die Haiku’s produceren en twitter-accounts die ‘robottweets’ versturen . Een mooi voorbeeld uit die laatste categorie is @DeepDrumpf. Dit account verstuurt tweets die genereerd zijn op basis van teksten van Donald Trump. Hieronder een voorbeeld.

Het algoritme achter @DeepDrumpf is gemaakt door Bradley Hayes van het Massachusetts Institute of Technology’s Computer Science and Artificial Intelligence Lab. Deze computer heeft het taalgebruik van Trump geleerd op basis van een aantal van Trump’s speeches. De patronen die daarin ontdekt zijn, vormen de basis voor de gegenereerde tweets.

De grote vraag blijft: wat moeten we met al die nieuwe teksten? Gaan we de weg door al dit nieuws en dit steeds grotere woud aan schrijfsels nog wel vinden? Het antwoord laat zich raden: Ja, natuurlijk. Want daar zijn wij voor!

*NB: onder een goede branding verstaan wij een artikel waarmee de klant positief in beeld komt of waarin hij in de titel of eerste alinea positief wordt genoemd.