Wie wird eine Datenbereinigung durchgeführt?
Bereinigung und Anreicherung eines Adressdatenbestandes
Es kommen häufig Nachfragen dazu, wie eine Adressdatenbereinigung eigentlich abläuft. Im Folgenden erklären wir das exemplarisch an einem Beispiel aus dem letzten Jahr.Ein mittelständische Unternehmen hat sich vor zwei bis drei Jahren rund 64.000 Datensätze von potenziellen Interessenten gekauft und mit diesen Daten gearbeitet. Im Laufe der Zeit fiel auf, dass sich in dem Datenbestand sehr viel geändert hatte und bestimmte weitergehende Informationen wie z.B. die Betriebsgröße eine sinnvolle Ergänzung wären.
Statt sich neu 64.000 Adressen zu kaufen und damit die wertvollen Bearbeitungsinformationen der alten Daten zu verlieren, entschied sich das Unternehmen dazu, die vorhandenen Daten durch uns bereinigen und anreichern zu lassen.
Audit
Zunächst wurde ein Datenaudit vereinbart. Bei einem Audit stellen wir fest, wie gut die postalischen Daten formal gespeichert sind (Gültigkeit, Vollständigkeit). Danach wird geprüft, wie gut wir die Daten unserer Kunden mit unserem Datenpool treffen und finden fehlerhafte Daten sowie Aktualisierungs- und Anreicherungspotenziale.Im Falle dieses Unternehmens kam folgendes heraus:
Bei der Betrachtung der postalischen Adressen ergab sich ein Berichtigungspotenzial von etwas über 60 %. Hier geht es um normierte Schreibweisen, Schreibfehler in Adressen, korrekte Orte und Straßen etc.
Danach wurden die Unternehmensdaten mit unserem Bestand abgeglichen und geprüft, wie viele wir identifizieren können. In diesem Fall haben wir knappe 70 % in unserem Bestand identifiziert.
Hier ein kurzer Einschub dazu, warum wir nicht 100 % getroffen haben, wo wir doch einen Datenpool haben, der nahezu alle wirtschaftsaktiven Unternehmen Deutschlands abdeckt. Dafür gibt es in der Regel drei Gründe:
- Es sind ausländische Unternehmen dabei - die können wir naturgegeben nicht treffen.
- Es sind Privatpersonen. Diese werden unter Umständen bei Aktualisierung von Firmendaten nicht berücksichtigt.
- Die Daten in der Datenbank sind unvollständig und uneindeutig. Anders formuliert: Treffer können nicht eindeutig zugeordnet werden. Wenn dort z.B. als Unternehmensname “Franzi Mustermann” steht, könnte das genauso eine Privatperson sein wie ein Unternehmen. Wenn dann z.B. nur eine Ortsangabe dabei steht, kann man bei den besten Referenzdaten der Welt keinen Treffer bekommen. Jetzt kommt das nächste “wenn”: Wenn jetzt noch Filial- und Niederlassungsadressen ins Spiel kommen, wird es mit der eindeutigen Zuordnung richtig tricky. Solche Beispiele gibt es viele. Wie wir damit umgehen, steht unter dem Punkt “Der Rest”.
In diesem Abschnitt geht es aber um das Audit. Alle folgenden Angaben in diesem Abschnitt beziehen sich deshalb auch auf diese knapp 70% der Daten, die wir mit unserem Datenpool getroffen haben.
Hier haben wir weiteres Verbesserungspotenzial gesehen:Außerdem konnten wir zu 90% der getroffenen Unternehmen Mitarbeiteranzahlen liefern.
Der Auftrag
Für den Auftrag bekamen wir eine Datenbank mit etwas weniger Adressen. Das ist nicht unüblich, häufig unterscheiden sich die tatsächlich zu bereinigenden Daten von den Auditdaten. Da in der Regel die Qualität einer Datenbank recht homogen ist, lassen sich die Schätzdaten prozentual übertragen - so auch hier.Die Rücklieferung der mit unseren Bestand getroffenen Daten erfolgte wie immer für verschiedene Bereiche (Löschungen, Löschungsankündigungen, Verschmelzungen, Insolvenzen, Verstorbenen, Werbeverweigerern und Dubletten) mit Markierungen. An dieser Stelle muss der Kunde für sich entscheiden, wie er mit den von uns gelieferten Informationen umgehen möchte. Mit gelöschten Firmen wird anders umgegangen als mit Dubletten oder Verschmelzungen etc.
Der Rest
70 % der Datenbank ist jetzt bereinigt. Aber was passiert mit dem Rest, den wir nicht getroffen haben? Die Antwort ist im Grunde simpel, die Umsetzung jedoch ohne unsere Ressourcen schwierig: Wir machen eine maschinelle Onlinerecherche. Hierfür durchsuchen wir z.B. Google, Google My Business, schauen uns Webseiten an und gehen teilweise tief in den Quellcode hinein. Die Bewertung der gefunden Informationen wird je nach Fundstelle unterschiedlich stark gewichtet. So bekommen wir ziemlich genaue Unternehmensinformationen.In diesem Fall konnten wir weitere 11.000 Unternehmen bestätigen und liefern.
Zusammenfassung
Zielsetzung festlegen:
Was genau soll mit den Daten gemacht werden? Viele Fragen kommen erst im Projektablauf auf
Analyse der Daten
Sie erhalten im Audit einen aktuellen Überblick über den Istzustand.
Bereinigung
Waschabgleich und Bereinigung von: Dubletten, Versteckte Dubletten, Insolvenzen, Umzüge, Umfirmierungen, Handelsregisterliche Änderungen
Anreicherung
Anreicherung um weitere Merkmale, wenn gewünscht (aus Smart Select oder Select, konkrete Beispiele siehe unten)
Bei Bedarf nach sehr spezifischer Anreicherung siehe Score
Regelmäßige Datenpflege
Regelmäßiges Monitoring und Anreichern der Daten möglich (siehe sonstige Datendienstleistungen)
Step 01: Zielsetzung definieren
Wenn man sich den Text bis hierhin durchliest, könnte man meinen, dass so eine Datenaufbereitung und -bereinigung locker flockig in kurzer Zeit durchläuft. Ein Unternehmen muss aber schon mit einem größerem Zeitbudget rechnen, auch wenn alles absolut vorbildlich läuft. Im Vorfeld müssen wir viele Fragen gemeinsam klären:
Bei dem obigen Beispiel war es die Mitarbeiteranzahl.
Eine ganz wichtige Frage, die vor einer Datenbereinigung geklärt werden muss ist auch:
Viele Fragestellungen kommen häufig erst im Projektablauf ans Licht - es ist ein iterativer Prozess. Je besser die Vorstellung und Vorbereitung des Unternehmens zu diesen Fragen ist, um so schneller kann eine Datenbereinigung laufen.
Step 02: Datenaudit
Jetzt kommen wir erst zum Datenaudit: Wir lassen die Kundendaten durch unser Systeme laufen und bekommen die Veränderungspotenziale. Bis alles individuell für ein Unternehmen aufbereitet ist und durchgesprochen werden kann, dauert es in Etwa eine Woche.
Step 03 Bereinigung
Ab jetzt lässt sich keine Prognose über die Dauer mehr treffen. Wenn der Kunde sich für eine Bereinigung entscheidet kommt es sehr stark auf die Kundenanforderungen an. Von Datenanlieferung bis zur Rücklieferung hat es im Beispiel oben inklusive aller weiterer Absprachen einen knappen Monat gedauert. Das kann schneller gehen, aber auch länger dauern. Das ist so individuell wie unsere Kunden und lässt sich realistisch erst nach einem Datenaudit einschätzen.
Step 04: Anreicherung
Nach der Bereinigung können weitere Daten angereichert werden. Im obigen Fall waren das z.B. die Mitarbeiterzahlen. Mit unseren Smart Features sind hier fast unbegrenzte Anreicherungsmöglichkeiten vorhanden.
Step 05: Regelmäßige Datenpflege
Hier lässt sich ein regelmäßiger oder unregelmäßiger dauerhafter Aktualisierungsprozess implementieren.
Fazit
Eine Datenaufbereitung und - bereinigung ist für ein Unternehmen kein Luxus, sondern pure Notwendigkeit. Aber auch mit Datendienstleister kostet eine Datenbereinigung einem Unternehmen immer Zeit. Allerdings rechnet sich diese Zeit: der Vertrieb kann tatsächlich erreichbare potentiellen Kunden zielgerichtet ansprechen. Unabdingbar ist eine Datenbereinigung bei der Einführung neuer Software wie CRM-Software oder KI - Anwendungen. Hier heißt die Devise: Shit in, Shit out. Arbeitet man mit schlechten Daten, bringt einem die beste Digitalisierungsbestrebungen nichts. Lesen Sie mehr dazu in unserem Beitrag Datenqualität und Datenhygiene