AI in de praktijk: Scrapers van AI-bedrijven blokkeren via robots.txt

feed Nieuws
edit_note 05 mei 2024

Om AI-modellen, zoals GPT van OpenAI en Gemini van Google, te trainen, gebruiken techbedrijven onder meer teksten die ze op internet vinden. Volautomatisch gaan hun systemen alle openbare websites af en worden teksten gekopieerd en gevoerd aan de AI-modellen. Daar kunnen auteursrechtelijk beschermde werken zoals journalistieke artikelen, maar ook alle online video en audio-aanbod (en metadata) van omroepen in zitten.

Sommige partijen staan het scrapen bewust toe, omdat ze bijvoorbeeld verwachten dat de AI daarmee beter gaat functioneren en dat ‘hun boodschap’, al dan niet aangepast, op die manier meer aandacht krijgt. Het is tegelijkertijd nog niet helemaal duidelijk wat de potentieel negatieve effecten zijn op termijn.

Totdat er beter zicht is op de negatieve effecten, adviseert de NLPO aan lokale omroepen om data niet te laten scrapen door commerciële partijen voor het trainen van AI-modellen. Dit kan door middel van het aanpassen van de gebruikersvoorwaarden van de website. Dat helpt niet direct tegen het scrapen, maar kan wel helpen bij eventuele juridische stappen. Je kunt techbedrijven daarnaast vertellen dat ze geen gebruik mogen maken van de content op je website door die aan teven in een bestand genaamd robots.txt. Techbedrijven vragen namelijk niet vooraf toestemming, maar elk bedrijf checkt wel of je hebt verboden dat je site mag dienen als trainingsdata.

Blokkeren van AI-bots

Robots.txt is een tekstbestand dat je de hoofdmap van je website zet en dat al sinds jaar en dag wordt gebruikt om instructies mee te geven aan zogeheten webcrawlers, ook wel scrapers genaamd. Dit zijn bots die automatisch het internet af gaan en bijvoorbeeld ook worden gebruikt door Google om je website te indexeren voor je zoekmachine. Je kunt hiermee bijvoorbeeld aangeven dat bepaalde delen van je site niet vindbaar moeten zijn in Google, maar ze worden tegenwoordig dus ook gebruikt voor het blokkeren van AI-bots.

Elk bedrijf en elke dienst heeft eigen instructies die je in robots.txt kunt opnemen. Als je geen toestemming geeft om jouw content te gebruiken voor het trainen van taalmodellen, heeft dat geen effect op je vindbaarheid in Google. Let op dat er wel instructies bestaan om Google te vertellen dat je site niet geïndexeerd mag worden in Google. Het advies is om deze níét toe te voegen aan robots.txt en deze komen verder ook niet aan bod in dit artikel.

Vergelijkbaar

Wellicht interessant