Use Case: CRM Datenbanken zusammenführen und bereinigen
Die Anfrage
Das Unternehmen Aarsleff Rohrsanierung GmbH kam im Mai 2021 auf uns zu mit der Frage: können Sie Daten aus unterschiedlichen Datensilos bereinigen und überschneidungsfrei zusammenführen? Grund der Anfrage war die Einführung der neuen unternehmensweiten einheitlichen ERP-Software RIB, die die bisher verwendeten unterschiedlichen Systeme ablösen sollte.
Die Herausforderung
Die Ausgangsdatenbanken waren jeweils in unterschiedlichen Formaten gespeichert, die beide auch nicht dem Zielformat entsprachen. Diese Datenbankbestände mussten überschneidungsfrei zusammengeführt und anschließend ins Zielformat überführt werden. Das Zielformat wiederum beinhaltetet eine Vielzahl von Merkmalen, die zu berücksichtigen waren.
Zudem benötigte Aarsleff schon während der Bereinigungszeit Testdaten im richtigen Format zur Erprobung des neuen Systems.
Audits
Schnell kam die erste Datei aus dem Marketing mit einer 5-stelligen Anzahl an Datensätzen. Die Ausgangsbasis dieser Datensätze waren die Ansprechpartner aus Firmen. Da unsere Basis das Unternehmen ist, mussten wir die Daten erst einmal in eine für uns prüfbare Form bringen.
Es erfolgte ein Audit inklusive aller Analysen (Dubletten, Branche, Betriebsgröße, Region etc.). Das Ergebnis entsprach einer gut gepflegten Datenbank ohne größere Bereinigung in letzter Zeit. In den letzten fünf Jahren ergaben sich bei ca. 20 % der Unternehmensdatensätze, die wir herausgefiltert haben, eine Veränderung von außen wie Namensänderungen, Insolvenzen, Verschmelzungen. Die genaue Verteilung können Sie in der Tabelle sehen. Das ist ein völlig normaler Wert, den wir bei intern gut gepflegten Datenbänken normalerweise finden. (Wer genauere Zahlen wissen möchte: Datendemenz? Bitte was? (Datendemenz Teil 1) )
Der zweite Datensatz aus der Buchhaltung enthielt ebenfalls Datensätze im 5-stelligen Bereich und war bereits auf Basis von Unternehmensdaten aufgebaut. Diesen konnten wir direkt prüfen. Auch hier war das Ergebnis das einer gut gepflegten Datenbank ohne größere Datenbereinigung in den letzten Jahren.
Auf Basis dieser Audits konnten wir die Datenbereinigung planen.
Bereinigung
Vor, während und nach der Bereinigung müssen wir uns eng mit unseren Kunden abstimmen. Bei der Datenbereinigung für Aarsleff lief die Kommunikation insgesamt sehr glatt und gut. Der größte Anteil der Kommunikation und Arbeit ging über den Themenbereich Dubletten.
Was sind Dubletten?
Dubletten finden sich nach einer Weile in nahezu jeder Datenbank, egal wie gut gepflegt sie intern wurde. Wer mehr dazu wissen möchte, kann sich hier informieren: Was sind Dubletten? – Kurz erklärt von Business Data Solutions.
Herausforderungen
- Bei maschinell und automatisiert bearbeiteten Daten gibt es immer eine gewisse (sehr geringe) Fehlerquote. Je nachdem, wie sehr sich die Dubletten unterscheiden, kann es auch sein, dass nicht 100%ig alle erkannt werden. Das kommunizieren wir im Vorfeld immer sehr klar. Im Nachhinein gibt es dazu – verständlicherweise! – Nachfragen.
Ein Beispiel:
Eine Bearbeiterin von Aarsleff hat nicht erkannte Dubletten gefunden. Wie kam es dazu?
Name: AG Muster, Adresse: Musterstr. 40, 12345 Musterstadt
Name: AG Muster Sanierung, Trockenbau und Verputzerarbeiten, Adresse: Hauptstr. 5, 12345 Musterstadt
Der Algorithmus hat eine Wert von 52 % Ähnlichkeit festgestellt – was unter unserem Cutoff für Dubletten liegt.
- Es gibt unendlich viele Fragen rund um Dubletten: Ist die identifizierte Dublette eine echte Dublette? Oder vielleicht eine bewusst angelegte Dublette? Es könnte tatsächlich nur eine andere Firma sein, die zufällig viele Übereinstimmungen aufweist? Das sind Fragen, die nur Aarsleff selbst beantworten kann.
Wir haben Aarsleff unser Dublettentool zur Verfügung gestellt. Mit dem Tool konnten sie die Dubletten sehr effizient bearbeiten. Die Dubletten stehen sich gegenüber. Man sieht auf den ersten Blick die Gemeinsamkeiten und die Unterschiede und man hat genau drei Möglichkeiten: Dublette, keine Dublette, keine Bewertung. Bei letzterem verbleiben die betreffenden Datensätze im Dublettenpool bis zur fertigen Bearbeitung.
Auf diese Art und Weise konnten die Dubletten sehr intuitiv und schnell bearbeitet werden.
Nach der Dublettenbearbeitung lag der Ball wieder bei uns: Die bearbeiteten Daten wurden wieder in die jeweiligen Datenbänke zurückgeführt. Jetzt kommt der große Augenblick: Die Datensilos werden zusammenführt!
Und was muss man mit einer Datei, die aus zwei unterschiedlichen Datensilos gewonnen wurde machen? Genau. Ein Audit mit Dublettenprüfung.
Das Spiel ging also wieder von vorne los: Aarsleff bekam die neu gefundenen Dubletten, bearbeitete sie und wir haben die Daten in die Gesamtdatei eingebaut.
Nach der Bereinigung der Datei wird standardmäßig noch ein Dublettensuchlauf gemacht, um noch die letzten versteckten Dubletten zu finden.
Ok, das Thema Dubletten haben wir jetzt aber wirklich durch, versprochen!
Zusammenführung der Silos
Aarsleff hat uns eine Merkmalsmatrix als Vorlage für die Zieldatei zur Verfügung gestellt. In dieser Merkmalsmatrix befanden sich alle geforderten Merkmale. In den beiden Datenbanken waren sich teils überschneidende Merkmale. Die Gretchenfrage bei der Zusammenführung von Datenbänken lautet:
Welcher Wert soll von wo übernommen werden?
Und wieder ist gute Kommunikation gefragt. Am besten lässt sich die Problematik anhand eines Beispiels erklären:
Wenn es in beiden Datenbanken einen Wert für “Internetadresse” gibt – welcher sollte gewählt werden?
>Es gibt mehrere Möglichkeiten:
- Es muss immer der Wert aus Datenbank A gewählt werden. Wenn in dieser nichts steht, wird auch nichts in dieses Feld gefüllt.
- Es muss immer der Wert aus Datenbank A gewählt werden. Wenn in dieser nichts steht, wird der Wert aus Datenbank B genommen. Wenn dort nichts steht, wird das Feld nicht gefüllt
- Es muss immer der Wert aus Datenbank A genommen werden. Außer der Eintrag aus Datenbank B ist z.B. jünger. Dann wird der Wert aus Datenbank B genommen.
- Die Werte aus Datenbank A und B werden verglichen. Wenn sie sich unterscheiden, wird der Wert aus Datenbank A genommen, der Wert aus Datenbank B wird als “Internetadresse_2” gespeichert
Sie können sich vorstellen, dass es bei einer Migrationsvorlage mit zahlreichen Merkmalen jede Menge Abstimmungsbedarf gibt. Hier ist es unsere Aufgabe, gemeinsam mit unseren Kunden auf eine gute Lösung zu kommen.
Aarsleff hat sich für die zweite Möglichkeit entschieden.
Testdaten
Da war ja noch was. Während wir die Datensilos zusammengeführt haben, hat Aarsleff bereits Testdaten im korrekten Format gebraucht, um die Software auf Herz und Nieren prüfen zu können. Konnten wir auch kurzfristig liefern. Kurz und knapp dazu: die Daten haben funktioniert.
Rücklieferung
Die Rücklieferung erfolgte wie jede Datenübermittlung bei uns über einen gesicherten sftp – Server. Aarsleff hatte jetzt 6 Wochen Zeit, unsere Daten im neuen System zu prüfen.
Fazit
Auch wenn Aarsleff die Datenbereinigung an uns als Dienstleister gegeben hat, bleibt noch einiges an Arbeit übrig. Da wäre die Bearbeitung der Dubletten – die wir so einfach wie möglich gestaltet haben – oder die sorgfältige Abstimmung vor bzw. während der Bereinigung. Aber auch danach ist die Arbeit nicht zu Ende. Alle Mitarbeiter müssen im neuen System geschult werden. Hier ist es elementar wichtig, Akzeptanz zu schaffen. Für das Unternehmen als Ganzes ist die Einführung eines ERP – Systems ein großer Fortschritt. Nur mit guten Daten und weiterhin guter Datenpflege kann das Potenzial der Digitalisierung voll ausgeschöpft werden. Soweit wir das beurteilen können, ist Aarsleff da auf einem sehr guten Weg!
Wir von BDS bedanken uns herzlich bei Aarsleff für die großartige Zusammenarbeit!
Die Aarsleff Rohrsanierung GmbH mit Hauptsitz in Röthenbach an der Pegnitz ist innovativer Branchenpionier, erfahrener Generaldienstleister und europaweiter Marktführer im Bereich der umweltschonenden, grabenlosen Kanalsanierung.