Klassifizierung, Trainingsdaten und KI
Künstliche Intelligenz (KI) kann nur so gut sein, wie die Daten, auf die sie trainiert wurde. Kaum ein Satz steht öfter auf diesem Blog. Wenn die Daten unvollständig, ungenau oder nicht gut kategorisiert sind, werden die Ergebnisse, die KI liefert, ebenfalls ungenau sein. Über unvollständige und ungenaue Daten haben wir schon oft berichtet. Unsere B2B Data Platform zeichnet aus, dass sie nicht nur vollständige und genaue Daten hat. Die Daten sind auch hervorragend klassifiziert, damit wir mit KI arbeiten können und so z.B. unsere Smart Feature erstellen können.
Aber was heißt Klassifizierung eigentlich?
Klassifizierung bedeutet, dass Daten in bestimmte Kategorien eingeteilt werden. In unserer Dataplatform ist die zentrale Kategorie das Unternehmen, um das sich herum viele Unterkategorien wie z.B. Ansprechpartner, Branche, Keywords, Kommunikationsdaten etc. strukturieren. Diese Strukturierung in Kategorien ist wichtig, um sicherzustellen, dass die Daten, die für das Training von KI-Modellen verwendet werden, relevant und aussagekräftig sind.
Ohne korrekte Klassifizierung kann ein KI-Modell nicht lernen, welche Merkmale einer Kategorie zugeordnet werden sollen und welche nicht. Oder anders formuliert: Um sinnvolle und verwendbare Informationen aus großen Datenmengen zu extrahieren, benötigt ein KI-System eine sinnvolle Struktur. Ohne würde es einfach nur unzusammenhängende und oft falsche Daten erhalten. Eine besondere Herausforderung stellen hierbei die Trainingsdaten dar: Sind diese strukturiert, aber unausgewogen, kann es zu fehlerhaftem Lernen kommen.
Am einfachsten erklärt sich das durch ein Beispiel:
Wir wollen einem KI-Modell beibringen, Hunde von Katzen zu unterscheiden. Wenn das KI-Modell aufgrund von unausgewogenen Trainingsdaten lernt, dass zum Erkennen von Hunden zentral ist, dass sie immer vier Beine haben, weil bei Katzenbildern z.B. immer nur Bilder dabei waren, die drei erkennbare Beine zeigten, dann wird dieses KI-Modell alles mit vier Beinen als Hund identifizieren - auch jede Katze, die mit vier Beinen gezeigt wird. Umgekehrt würde es einen Hund, dem ein Bein fehlt oder dessen Bein nicht zu sehen ist, nicht als Hund identifizeren.
Im Bereich B2B-Daten ist es noch ein bisschen komplexer. Wer einen Deep Dive machen möchte, kann das in unserem Video Ab ins Trainingslager! KI im Arbeitsprozess tun.
Unausgewogene Trainingsdaten führen schlimmsten Falls zu gesellschaftlich relevantem Bias. Bias ist eine Verzerrung in den Entscheidungen und Vorhersagen eines KI-Modells, die durch ungleichmäßige Verteilung von Merkmalen in den trainierenden Daten verursacht wird. Sehr bekannt ist der Chatbot Tay. Er startete 2016 auf Twitter, um für Microsoft zu testen, wie KI im Alltag lernen kann. Dieser Chatbot wurde gezielt von Twitterusern mit Hassbotschaften gefüttert - oder anders ausgedrückt: die Trainingsdaten waren unausgewogen. Tay musste binnen weniger Stunden wieder vom Netz genommen werden, da er jede Menge rassistische und frauenfeindliche Tweets absetzte.
Und jetzt stellen Sie sich das ganze in einem System vor, das Geschäftsentscheidungen unterstützen soll. Das kann dramatisch werden für Unternehmen, wenn z.B. Prognosen für Investitionen in eine bestimmte Richtung völlig falsch eingeschätzt wird, weil die grundlegenden Trainingsdaten nicht ausgewogen waren.
Fazit
Um Bias zu vermeiden, müssen die Daten ausgewogen und repräsentativ sein. Dies erreichen wir, indem wir sicherstellen, dass die Daten korrekt kategorisiert und ausgewogen über die verschiedenen Kategorien verteilt sind. Bei BDS sind gute Trainingsdaten und ständiges Überwachen und Anpassen eines neu anzulernenden KI-Systems zentrale Bestandteile unserer Arbeit.