Vermutlich hat niemand per se die Idee, seine Stammdaten auf Vordermann zu bringen, nur um der Stammdaten willen. Wahrscheinlich gibt es einen Hintergedanken: Die Stammdaten enthalten wichtige Meta-Informationen, die benötigt werden, um aussagekräftige Business-Intelligence-Reports zu erzeugen oder – wie wir es häufig erleben – um fundierte Vorhersagen zu generieren, z. B. für die Nachfrage nach zu produzierenden Artikeln. Erst wenn man die Stammdaten verwenden möchte fällt auf, wenn etwas nicht passt und wie entscheidend ein konsolidierter Stammdatensatz wäre. Doch muss es so weit kommen?
Muss es nicht: Auch proaktiv kann man seine Stammdaten pflegen und so für kommende Anwendungen fit und unmittelbar verwendbar machen. Und zwar mit Hilfe von Data Analytics und künstlicher Intelligenz.
Ausgangsbasis Wie macht man Stammdaten fit für Analysen?
Eine hohe Datenqualität ist die Grundvoraussetzung, um Mehrwert aus Daten zu generieren. Sobald maschinelles Lernen zum Einsatz kommt ist eine gute Datenqualität zudem der Schlüsselfaktor, um aus den Daten sinnvolle Muster zu erlernen und verwertbare Ergebnisse zu erzeugen. Wie können Inkonsistenzen in Stammdaten erkannt und behoben werden?
Was zu tun ist Lösung: Anomalien erkennen und automatisiert beheben
Wir beraten bei der Konsolidierung des bestehenden Datenbestands und zeigen Inkonsistenzen in den Daten auf. Mit Hilfe von datenanalytischen Methoden werden Anomalien in den Daten erkannt und Korrekturen vorgeschlagen, die den Data Ownern vorgelegt werden. Das Datenmodell kann hierbei hinterfragt und gegebenenfalls überarbeitet werden im Hinblick auf seine Tauglichkeit für analytische Use Cases. Auf diese Weise entsteht ein vereinheitlichter, vollständiger und konsolidierter Datensatz.
Ihre Vorteile Benefits: Datenqualität lässt Daten zu Datenschätzen werden
Was man dadurch erreichen kann?
- Inkonsistenzen werden behoben,
- inaktive Positionen werden entfernt,
- neu auftretende Positionen werden hinzufügt,
- unplausible Einträge und Ausreißer werden identifiziert,
- Unregelmäßigkeiten werden erkannt,
- Auffälligkeiten in der zeitlichen Struktur werden identifiziert,
- Schreibweisen werden zusammengeführt.
Weitere Informationen Beispiel: Datenbasierte Unterstützung bei der Identifikation von Anomalien in den Daten
Anomalien der folgenden Art werden identifiziert und bei Bedarf korrigiert:
Ausreißer:
- Ein ungewöhnlich hoher Wert in einer Spalte: 100.123 statt 100,123 (z. B. durch Buchungs- oder Eingabefehler bei der Eingabe)
- Fehlende Werte
Unregelmäßigkeiten von den ansonsten gültigen Zusammenhängen:
- Wenn in Spalte A ein Eintrag steht, so gibt es für gewöhnlich auch in Spalte D einen Eintrag bis auf wenige Ausnahmen.
- Die Werte in Spalte B sind gewöhnlich doppelt so hoch wie diejenigen in Spalte C bis auf wenige Ausnahmen.
Auffälligkeiten in der zeitlichen Struktur:
- Für Kunde A ist im Dezember 2018 keine Buchung verzeichnet.
- Abweichend niedriger Bedarf von Kunden in einem bestimmten Monat durch plötzlichen Wechsel von Monats- auf Wochenbasis.