Moet je scrapers van AI-bedrijven blokkeren?

Om AI-modellen, zoals GPT van OpenAI en Gemini van Google, te trainen, gebruiken techbedrijven onder meer teksten die ze op internet vinden. Volautomatisch gaan hun systemen, crawlers genaamd, alle openbare websites af en worden teksten gekopieerd en gevoerd aan de AI-modellen. Daar kunnen auteursrechtelijk beschermde werken zoals journalistieke artikelen, maar ook alle online video en audio-aanbod (en metadata) van omroepen in zitten.

Naast het scrapen voor het trainen van AI-modellen gebruiken veel techbedrijven crawlers om informatie van een website te halen om een vraag van een gebruiker te beantwoorden. De informatie die deze crawlers ophalen wordt geen onderdeel van het taalmodel door te dienen als trainingsdata, maar wordt gebruikt als (actuele) kennis om een vraag te beantwoorden. Veel chatbots doen dit, maar ook Google voor de AI-overzichten die je tegenwoordig bij een deel van de zoekresultaten ziet. Als je site gebruikt wordt om een vraag te beantwoorden, wordt er een bronlink toegevoegd. Klikken hierop is echter voor een grote groep mensen niet nodig, omdat hun vraag al is beantwoord door het gegenereerde antwoord.

Sommige partijen staan crawlers bewust toe, omdat ze bijvoorbeeld verwachten dat de AI daarmee beter gaat functioneren en dat ‘hun boodschap’, al dan niet aangepast, op die manier meer aandacht krijgt. Dit is een belangrijke reden dat de NLPO haar advies op het gebied van scrapers heeft aangepast.

Advies aangepast
Het advies was in eerste instantie om scrapers te blokkeren, maar in een paar jaar tijd zijn taalmodellen een belangrijk onderdeel geworden van hoe informatie zich verspreidt. Ondanks de bezwaren over het gebruik van het journalistieke werk van omroepen zonder dat daar een eerlijke vergoeding tegenover staat, moet ook het belang van het beschikbaar maken van betrouwbare informatie voor het publiek worden meegenomen. Daarom adviseert de NLPO lokale omroepen om de voor- en nadelen af te wegen en vervolgens een keuze te maken over hoe men hiermee omgaat.

Een belangrijk punt om daarbij mee te nemen is dat er verschil wordt gemaakt tussen het toestaan van het verzamelen van trainingsdata en het ophalen van informatie om een gebruikersvraag te beantwoorden. Het is nog niet helemaal duidelijk wat de potentiële negatieve effecten van de laatste zijn op termijn. Wel zie je dat het verkeer naar websites vanuit zoekmachines als Google onder druk komt te staan.

Het is belangrijk om een afgewogen keuze te maken of je crawlers toelaat en dus ook welke. Dit kan door middel van het aanpassen van de gebruikersvoorwaarden van de website. Dat helpt niet direct tegen het scrapen, maar kan wel helpen bij eventuele juridische stappen. Je kunt techbedrijven daarnaast vertellen dat ze geen gebruik mogen maken van de content op je website door die aan te geven in een bestand genaamd robots.txt. Techbedrijven vragen namelijk niet vooraf toestemming, maar bedrijven die netjes werken checken wel of je hebt verboden dat crawlers je site mogen bezoeken.

Blokkeren van AI-crawlers
Robots.txt is een tekstbestand dat je in de hoofdmap van je website plaatst en dat al jarenlang wordt gebruikt om instructies mee te geven aan crawlers, ook vaak bots genoemd. Dit zijn computerprogramma’s die automatisch het internet af gaan en bijvoorbeeld ook door Google worden gebruikt om je website te indexeren voor je zoekmachine. Je kunt hiermee bijvoorbeeld aangeven dat bepaalde delen van je site niet vindbaar mogen zijn in Google, maar ze worden dus ook gebruikt voor het blokkeren van AI-bots.

Elk bedrijf en elke dienst heeft eigen instructies die je in robots.txt kunt opnemen. Belangrijk om daarbij te weten: als je wilt dat Google de inhoud van je site niet gebruikt voor AI-overzichten, zul je Google moeten verbieden je site te indexeren in haar zoekmachine. Dan ben je dus ook niet meer vindbaar in Google. Je kunt het bedrijf wel verbieden om de inhoud van je site te gebruiken als trainingsdata voor AI-modellen zonder dat dit invloed heeft op je vindbaarheid.