Wie KI schlau wird

Unstrukturierte Daten – damit kann Künstliche Intelligenz (KI) nicht arbeiten. Vektordatenbanken wie die des deutschen Startups Qdrant sortieren und schaffen Abhilfe.

Das Problem

KI ist nur so gut wie die Daten, mit denen sie gefüttert wird. Gibt man ihr unstrukturierte Daten – Rohdaten wie Texte, – kann sie nicht direkt damit arbeiten. Erst wenn alle Wörter in Tabellen aufbereitet werden, ist die Grundlage für KI-Modelle geschaffen. Mithilfe von neuronalen Netzen – Modellen, die dem menschlichen Gehirn nachempfunden sind – können sie große Datenmengen verarbeiten, zum Beispiel einer großen Anzahl journalistischer Texte Kategorien zuordnen wie Reportage, Bericht oder Essay. An unstrukturierten Daten wie den eingangs erwähnten besteht kein Mangel. Bis zum Jahr 2025 soll die globale Datensphäre auf 163 Zettabyte anwachsen – genug, um 660 Milliarden Standard-Blu-rays zu füllen. Bei 80 Prozent davon wird es sich aber wohl um unstrukturierte Daten handeln.

Die Lösung

Die Transformation unstrukturierter Daten in strukturierte heißt Vektorisieren. Dabei werden komplexe Datenobjekte wie Bilder und Texte mathematisch bearbeitbar gemacht, indem sie in geordnete Listen von Zahlen konvertiert werden. Vektoren ermöglichen das, was wir unter Intelligenz verstehen: vergleichen und Ähnlichkeiten erkennen, Prognosen erstellen, Schlüsse ziehen und vieles mehr. Gespeichert werden sie in speziellen Datenbanksystemen. Kein Wunder, dass diese Vektordatenbanken aktuell hoch im Kurs stehen. Die Lösung des Berliner Startups Qdrant etwa wird von bekannten Unternehmen wie Kaufland, Bayer und Hewlett Packard genutzt. Im geschäftlichen Kontext sind zahlreiche Anwendungen möglich wie Empfehlungssysteme, Bild- und Spracherkennungsdienste sowie semantische Suchen. Im E-Commerce kann das sein: „Suchen Sie nach einem ähnlichen Kleidungsstück, das günstiger ist als 20 Euro?“ Das Benutzerverhalten kann als semantischer Vektor auf ähnliche Weise wie Text oder Bilder dargestellt werden. Eine andere Anwendungsmöglichkeit ist die Überwachung von Prozessen, wo mithilfe von Qdrant Anomalien gefunden werden können.

Vektordatenbanken lösen ein weiteres Problem, erklärt Qdrant-Gründer Andre Zayarni. „Die Grenzen von Künstlicher Intelligenz bestehen immer dann, wenn ein Modell etwas gefragt wird, das nicht in den Daten vorhanden war, mit denen es trainiert wurde.“ In Qdrant würden so viele Daten zusammenlaufen, dass dort eine größere Aktualität herrsche. Qdrant ist als Open-Source-Software verfügbar und wird von zahlreichen Firmen als solche verwendet. Das Unternehmen bietet zusätzlich auch einen eigen Cloud Service mit zusätzlichen Funktionalitäten.

Die Anwendung

Das französische Startup Dust nutzt Qdrant seit einem Jahr, um große Sprachmodelle (Large Language Models, LLMs) zu verbessern. Sie kommen als KI-Assistenten zum Einsatz und sollen Beschäftigten Arbeit abnehmen. Die LLMs unterstützen etwa als Sales-Kollege und schreiben Angebote oder erklären als Onboarding-Buddy neuen Mitarbeitern Arbeitsabläufe. „Wir arbeiten mit Millionen von Vektoren, welche die Teilinformationen repräsentieren, die notwendig sind, um solche Aufgaben schnell und zuverlässig zu bewältigen“, sagt Dust-Mitgründer Stanislas Polu, der bei OpenAI zu LLMs und mathematischen Denkfähigkeiten geforscht hat. „Die Tatsache, dass es sich bei Qdrant um eine Open-Source-Software handelt, macht Entwicklern den Einstieg einfach.“ Qdrant sei die beste, flexibelste und resilienteste Lösung, die er kenne – und „vermutlich auch die schnellste“.


 

Quelle: Magazin "Creditreform"
Text: Tanja Könemann
Bildnachweis: Creditreform intern



Creditreform Villingen-Schwenningen