Die rasanten Fortschritte in der Welt der Künstlichen Intelligenz, angeführt von Plattformen wie OpenAI’s ChatGPT, Microsoft’s Bing Chat und Google’s Bard, haben die digitale Landschaft revolutioniert. Diese Entwicklung stellt jedoch auch neue Herausforderungen dar, insbesondere hinsichtlich des Umgangs mit Daten und Urheberrechten von Rechteinhabern.
In der heutigen digitalen Landschaft sind Begriffe wie „Künstliche Intelligenz“ (KI), „Maschinelles Lernen“ und „Neuronale Netzwerke“ in den Vordergrund gerückt, besonders seitdem Plattformen wie OpenAI’s „ChatGPT“, Microsoft’s „Bing Chat“ und Google’s „Bard“ allgemein zugänglich geworden sind. Die durch Large Language Models (LLMs) wie diese erzielten Fortschritte zeigen trotz einiger anfänglicher Schwierigkeiten und Herausforderungen – wie zum Beispiel den sogenannten „Halluzinationen“ – ein enormes Potenzial für zahlreiche Anwendungsbereiche in Gesellschaft, Wissenschaft und Wirtschaft. Die Interaktion mit KI-Technologien wird zunehmend unausweichlich, auch für diejenigen, die Tools wie ChatGPT nicht direkt verwenden. Viele Dienstanbieter integrieren künstliche Intelligenz in ihre Produkte, beispielsweise plant Google, KI in seine Suchergebnisse einzubinden, Microsoft entwickelt den „CoPilot“ für alle Windows 11-Nutzer und Amazon verleiht seinem Sprachassistenten Alexa durch KI-Integration zusätzliche Fähigkeiten.
Diese Entwicklung bringt jedoch auch Herausforderungen mit sich. Um effektiv zu funktionieren, müssen KI-Systeme mit umfangreichen Datenmengen trainiert werden. Schätzungen zufolge basiert ChatGPT 3.5 – die zu diesem Zeitpunkt kostenfrei verfügbare Version – auf einem Trainingssatz von über 570 Gigabyte Textdaten. Dieser Datensatz enthält Millionen von Internetseiten, die durch sogenannte „Crawler“ – Computerprogramme, die Inhalte aus dem Internet automatisch sammeln und speichern – zusammengetragen wurden. Diese gesammelten Daten dienen als Grundlage für das Training der KI, um ihr Verständnis und ihre Antwortfähigkeit zu verbessern.
Was kann man dagegen tun?
Angesichts der zunehmenden Verwendung automatisierter Verfahren zur Datensammlung für das Training von Künstlicher Intelligenz ist es eine berechtigte Frage, ob und wie Webseiteninhalte für diesen Zweck legal genutzt werden dürfen. In diesem Zusammenhang ist es wichtig, auf die rechtlichen Rahmenbedingungen hinzuweisen, die in Deutschland durch den § 44b des Urheberrechtsgesetzes (UrhG) geschaffen wurden, der die Thematik des „Text und Data Mining“ (TDM) zum Inhalt hat.
Gemäß dieser Regelung ist es grundsätzlich erlaubt, rechtmäßig zugängliche Werke zu vervielfältigen, um sie für die automatisierte Analyse, was das Crawlen von Websites für KI-Training einschließt, zu nutzen. Dennoch besteht für Rechteinhaber die Möglichkeit, sich gegen eine solche Nutzung zu entscheiden. Durch einen sogenannten Nutzungsvorbehalt können sie spezifizieren, dass ihre Werke nicht für kommerzielles Text und Data Mining vervielfältigt werden dürfen (sog. Opt-out Modell). Damit ein solcher Vorbehalt für online verfügbare Werke wirksam ist, muss er in einer „maschinenlesbaren Form“ erfolgen.
Obwohl der Gesetzgeber dieses Opt-out für Rechteinhaber vorsieht, bleibt die genaue Definition von „maschinenlesbarer Form“ durch das Gesetz offen und bietet somit Raum für Interpretationen und Diskussionen über die praktische und rechtsverbindliche Umsetzung.
Ausschluss in Impressum, AGB oder Nutzungsbedingungen
Nach den Gesetzgebungsmaterialien (BT-Drs. 19/27426, 89) geht der Gesetzgeber davon aus, dass der Nutzungsvorbehalt im Impressum, den AGB und Nutzungsbedingungen erklärt werden kann, soweit der Ausschluss dort maschinenlesbar ist.
Der Gesetzgeber verkennt dabei jedoch, dass ein Nutzer der Homepage nicht zwingend an die AGB bzw. Nutzungsvereinbarungen gebunden ist, die auf einer Homepage (meist zu Informationszwecken) hinterlegt wurden, da es hierzu meist an einer wirksamen Einbeziehung fehlt. Zudem ist wohl eine Erklärung in geschriebener Sprache keine maschinenlesbare Form im Sinne der Vorschrift, weil es keine einheitliche Formulierung gibt, die ein automatisiertes System prüfen kann und auch gar nicht klar ist, welche Sprache dafür maßgeblich sein sollte.
Es ist daher davon auszugehen, dass „maschinenlesbar“ im Sinne der Vorschrift insofern nur eine in Computersprache codierte Information sein kann, wie sie automatische Crawler verarbeiten können.
Ausschluss durch robots.txt
Eine andere Möglichkeit besteht darin, den Ausschluss in der sogenannten „robots.txt“-Datei aufzunehmen (aufrufbar in der Regel via www.beispielwebseite.de/robots.txt). Die „robots.txt“-Datei ist Teil des „Robots Exclusion Protocol“ und bietet eine standardisierte Methode, um Suchmaschinen und anderen Webcrawlern Anweisungen zur Indexierung von Webseiteninhalten zu geben. Laut diesem Protokoll konsultiert ein Webcrawler zuerst die „robots.txt“-Datei im Hauptverzeichnis der Domain, um sich über die vom Betreiber festgelegten Crawling-Richtlinien zu informieren.
Es ist jedoch anzumerken, dass die Einhaltung dieser Richtlinien auf dem Prinzip der Freiwilligkeit basiert. Crawler sind rechtlich nicht dazu verpflichtet, die in der „robots.txt“ festgelegten Anweisungen zu befolgen. Darüber hinaus kann eine ungenaue Konfiguration in der „robots.txt“-Datei unbeabsichtigt dazu führen, dass die Webseite von Suchmaschinen nicht mehr korrekt indiziert wird, was ihre Auffindbarkeit beeinträchtigen könnte. Daher müssten theoretisch spezifische Anweisungen für jeden einzelnen Crawler festgelegt werden, was angesichts der unüberschaubaren Vielzahl eher unmöglich sein dürfte.
Zumindest OpenAI hat sich zur Einhaltung des Robots Exclusion Standards bekannt. Der Webcrawler für ChatGPT („GPTBot“) kann also geblockt werden (mehr Informationen dazu finden Sie unter https://platform.openai.com/docs/gptbot). Für andere Crawler müsste eine ähnliche manuelle Anpassung in der „robots.txt“ vorgenommen werden, es sei denn, man entscheidet sich für einen allgemeinen Ausschluss, der wiederum eigene Nachteile mit sich bringen kann.
Ausschluss über das TDM Reservation Protocol
Um den Vorbehalt für Text und Data Mining in einer maschinenlesbaren Form zu artikulieren, bietet sich das „TDM Reservation Protocol“ an. Diese Methode ermöglicht es, den Vorbehalt direkt in den HTML-Quellcode einer Webseite zu integrieren. Ein Beispiel für die Implementierung könnte wie folgt aussehen:
<meta name=“tdm-reservation“ content=“1″>
<meta name=“tdm-policy“ content=“URL“>
Das „TDM Reservation Protocol“ schafft durch diese Einbettung in den Quellcode eine klare, maschinenlesbare Erklärung des Nutzungsvorbehalts. Es ist allerdings zu beachten, dass auch dieses Protokoll – ebenso wie bei der „robots.txt“-Datei – keine rechtliche Bindungswirkung entfaltet. Dennoch wird es zunehmend als eine „Best Practice“ angesehen und gewinnt somit an Popularität unter Webseitenbetreibern, die den Umgang mit ihren Inhalten im Rahmen von Text und Data Mining-Prozessen steuern möchten. Diese Entwicklung deutet auf eine steigende Akzeptanz und möglicherweise auf eine künftige Standardisierung dieses Verfahrens hin.
Fazit
Für diejenigen, die unter Berufung auf § 44b UrhG nach deutschem Recht einen rechtsverbindlichen und durchsetzbaren Nutzungsvorbehalt etablieren möchten, ist die Lage momentan herausfordernd. Dennoch ist es ratsam, den Nutzungsvorbehalt als präventive Maßnahme an so vielen Stellen wie möglich zu manifestieren. Es empfiehlt sich, diesen Vorbehalt in das Impressum, die Allgemeinen Geschäftsbedingungen (AGB), die Nutzungsvereinbarungen, die „robots.txt“-Datei und über das TDM Reservation Protocol einzubinden.
Der Fortschritt in diesem Bereich ist atemberaubend. Es ist daher wichtig, sich fortlaufend zu informieren und sich Gedanken über den Umgang mit diesen neuen Technologien zu machen. Wir bleiben daher für Sie dran, um Sie bei Fragen zum Thema KI zu unterstützen.