Ein bisschen angedockt ans Cccamp23, aber doch andere Baustelle: Wikidata. Man weiß ja, ich bin ein wenig getriggert von Knowledge Graphen und Wissensorganisation, und ich behaupte mal, Wikidata ist die größte und zugänglichste Plattform zu diesem Thema. Insbesondere im Kontext der aktuell gehypten konversationalen/stochastischen AI-Bots kommt mir das Thema massivst zu kurz, weil man aus Knowledge Graphen halt ableitbare Wahrheiten generieren kann, während die stochastischen Modelle prinzipbedingt auch beliebigen Quatsch generieren können. Mehr dazu und zu meiner „Irgendwer, hoffentlich auch Google, baut KI-Modelle auf Basis von Knowledge Graphen“–Theorie nebenan.
Um dieser Theorie wie ein ordentlicher, hart rockender Wissenschaftler die Gelegenheit zu geben, an der Realität zu scheitern, stiefelte ich wie ebenfalls nebenan beschrieben zu Wikimedia und landete in einem allerliebsten Quizabend, der angenehm, aber der Theorieprüfung nicht förderlich war. Weshalb ich tags drauf nochmal hinging, ein längeres Gespräch führte und anschließend leider nicht bedeutend viel mehr wusste. Ein bisschen was gibts aber zu erzählen.
Ob denn der eine oder andere Big Player bekannt wäre, der Wikidata-Inhalte scraped bzw. eine größere Menge Queries absetzt? (Man muss dazusagen, einer meiner Gesprächspartner war Dev des SPARQL-Tools zur Query-Abfrage). Nein, nichts auffälliges. Ja, dass archive.org wegen KI-Training gescraped wurde, habe man mitbekommen, aber nichts in der Art auf Wikidata. Was wiederum aber auch eher unwahrscheinlich sei, weil die Datenmengen angesichts der starken Definitions/Verknüpfungsausrichtung vergleichsweise um Größenordnungen kleiner sei. In Sachen Queries sei damit auch nicht zu rechnen – bevor man massiv Wikidata mit Queries zuschießt, hat man schneller einfach den kompletten Objektbestand gespiegelt und trainiert mit dem Datensatz auf der eigenen Hardware. Weiterlesen