Wikidata/Knowledge Graphen und mein KI-Theoriesteckenpferd

Ein bisschen angedockt ans Cccamp23, aber doch andere Baustelle: Wikidata. Man weiß ja, ich bin ein wenig getriggert von Knowledge Graphen und Wissensorganisation, und ich behaupte mal, Wikidata ist die größte und zugänglichste Plattform zu diesem Thema. Insbesondere im Kontext der aktuell gehypten konversationalen/stochastischen AI-Bots kommt mir das Thema massivst zu kurz, weil man aus Knowledge Graphen halt ableitbare Wahrheiten generieren kann, während die stochastischen Modelle prinzipbedingt auch beliebigen Quatsch generieren können. Mehr dazu und zu meiner „Irgendwer, hoffentlich auch Google, baut KI-Modelle auf Basis von Knowledge Graphen“Theorie nebenan.

Wikidata-Broschüre (und ein Fahrgastrechteformular) vom Cccamp23

Um dieser Theorie wie ein ordentlicher, hart rockender Wissenschaftler die Gelegenheit zu geben, an der Realität zu scheitern, stiefelte ich wie ebenfalls nebenan beschrieben zu Wikimedia und landete in einem allerliebsten Quizabend, der angenehm, aber der Theorieprüfung nicht förderlich war. Weshalb ich tags drauf nochmal hinging, ein längeres Gespräch führte und anschließend leider nicht bedeutend viel mehr wusste. Ein bisschen was gibts aber zu erzählen.

Ob denn der eine oder andere Big Player bekannt wäre, der Wikidata-Inhalte scraped bzw. eine größere Menge Queries absetzt? (Man muss dazusagen, einer meiner Gesprächspartner war Dev des SPARQL-Tools zur Query-Abfrage). Nein, nichts auffälliges. Ja, dass archive.org wegen KI-Training gescraped wurde, habe man mitbekommen, aber nichts in der Art auf Wikidata. Was wiederum aber auch eher unwahrscheinlich sei, weil die Datenmengen angesichts der starken Definitions/Verknüpfungsausrichtung vergleichsweise um Größenordnungen kleiner sei. In Sachen Queries sei damit auch nicht zu rechnen – bevor man massiv Wikidata mit Queries zuschießt, hat man schneller einfach den kompletten Objektbestand gespiegelt und trainiert mit dem Datensatz auf der eigenen Hardware.

Andererseits: ich war mit meiner Denke mitnichten allein. Klar, wenn man wen von Wikidata fragt, wird man einigermaßen sicher auf die Ansicht stoßen, dass der Wikidata/KG-Ansatz zur Wissensorganisation und -strukturierung der sinnvollere ist. Allerdings ist da einmal eine ganze Latte Knowhow in eben dieser Organisation und dem Informationsretreaval vorhanden, weiter denke ich, gibts dort auch ganz gute Einsichten dahingehend, wie massiv eben Wikipedia von den einschlägigen Agenten gescraped wird (es ist überall eine Haupt-Trainingsinstanz) und stellt Wikidata eben in allerliebster Weise die Relationen zwischen den gleichen Begriffen in verschiedensprachigen Wikipedias her, plus Wiktionary-Begriffsdefinitionen und Bebilderung via Wikimedia.

Es ist da einiges noch in Bau, aber was sich da an Potential und bereits auch Umsetzung und Vereinfachung der Pflege von Informationssenken auftut, ist wirklich beachtlich. Es läuft alles dort zusammen, die Wikidata-Plattform ist eines der zentralen verbindenden Elemente mit erstaunlicher Anschlussfähigkeit, und alle holen sich ihre Fuhre Grundlagenwissen folglich im Wikiversum ab.

It's a match!

It’s a match!

Whatever. Was ich noch durchaus spannend fand, war die Diversität der Datenquellen. Es ist recht einleuchtend, dass die Definition von Entitäten, Attributen und Relationen jetzt nicht so ein Nobrainer sind wie „Du weißt was? Schreibs belegt in den passenden Wikiartikel“, und entsprechend das reine Crowdsourcing da eine untergeordnete Rolle spielt. Tatsächlich werden halt alle Datenquellen, die man kriegen kan, halt so strukturiert angezapft, wie es geht. Ob ich frage, weil mich die astronomischen Objekte oder wissenschaftlichen Artikel nerven? Nein, mitnichten, dass die sich häufen, ist mir aber beim Wikidata-Entitäten-Verknüpfspiel aufgefallen, das ich manchmal nebenher betreibe. Das seien jedenfalls aber zwei der größeren Datenpipelines, die grade für eine Menge an Objekten sorgen. Aufgefallen waren mir auch noch indische Postämter, aber das führt jetzt ein wenig zu weit.

Jedenfalls: falls das je mal „nur“ eine Verknüpfungsplattform für verschiedensprachige Wikipedias zu gleichen Themen/Begriffen war: da sind wir lange nicht mehr. Die Eskalation brachte ihre diversen Erstaunlichkeiten mit sich, aber im Großen und Ganzen sehe ich da grade was hochinteressantes wachsen, was einmal mehr schon wieder so unwahrscheinlich ist, wenn mans sich genauer überlegt, dass man eigentlich wieder ein wenig Glauben an die Menschheit kriegen sollte.

Kategorie: Allgemein Tags: , , . Permalink.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert