iteratec Blog

Data Engineering: Was ist das eigentlich?

Geschrieben von Dr. Felix Böhmer | 19.01.2023 08:14:10
Data Engineering schafft die Grundlage der KI-basierten Datenanalyse. Denn egal ob Produktionsprozesse analysiert, Kundenverhalten untersucht oder Preisentwicklungen prognostiziert werden – nichts geht ohne geeignete Datenbasis. Das dafür notwendige Sammeln, Aufbereiten und Ausliefern von Daten ist der Kern des Data Engineering. Doch wie genau sieht das in der Praxis aus? Und wie aufwändig ist das? Wir geben Antworten.

 

Inhalt

  1. Definition: Was versteht man unter Data Engineering?
  2. Wie werden Daten gespeichert? Data Warehouse vs. Data Lake
    2.1 Data Warehouse: Spezifisch und strukturiert
    2.2 Data Lake: Flexible Rohdaten
  3. Wo werden Daten gespeichert? Cloud vs. On-Premise
  4. Fazit und Ausblick

 

Definition: Was versteht man unter Data Engineering?

Wer an Big Data und Datenanalyse denkt, der sieht vor seinem inneren Auge wohl vor allem abstrakte Modelle und komplexe mathematische Gleichungen. Falsch ist das nicht. Es ist aber auch nur die halbe Wahrheit. Das amerikanische Wirtschaftsmagazin Forbes¹ hat vor einiger Zeit herausgefunden, dass Data Scientists einen Großteil ihrer Arbeitszeit mit der Organisation und Formatierung ihrer Daten verbringen. Gearbeitet wird also vor allem AN den Daten, statt MIT den Daten. Administration statt Erkenntnisgewinn.

Genau diesem Problem widmet sich der Bereich des Data Engineering. Das Ziel: Daten aus unterschiedlichen Quellen zusammentragen und so aufbereiten, dass diese im nächsten Schritt von einem entsprechenden Algorithmus sofort weiterverarbeitet werden können – etwa zum Erstellen von spezifischen Analysen oder Prognosen.

 

Wie werden Daten gespeichert? Data Warehouse vs. Data Lake

Das Sammeln und Aufbereiten der Daten geschieht selbstverständlich nicht manuell, sondern zu 100 % automatisiert. Dazu entwickelt der bzw. die Data Engineer eine sogenannte Data Pipeline. Dabei handelt es sich um Softwarekomponenten, die alle gewünschten Daten aus den verschiedenen Quellen an einem zentralen Speicherort zusammenführen. Je nach Umfang des Projekts handelt es sich in der Regel nicht um „die eine Pipeline“, sondern man kann sich vielmehr ein komplexes System mehrerer Versorgungslinien vorstellen. 

Wie genau nun die gesammelten Daten gespeichert werden, dazu gibt es im Data Engineering verschiedene Ansätze. In den meisten Fällen steht entweder ein sogenanntes Data Warehouse oder ein Data Lake im Zentrum des Pipeline-Netzwerks. Welche dieser beiden Methoden eingesetzt wird, hängt sehr stark vom spezifischen Anwendungsfall ab.

 

Data Warehouse: Spezifisch und gut strukturiert

Data Warehouses sind Datenbanken, die in der Regel immer im Hinblick auf einen bestimmten Use Case konstruiert werden. Das bedeutet: Die hier gespeicherten Daten sind so strukturiert und aufbereitet, dass sie von einem spezifischen Analyse-Algorithmus optimal verarbeitet werden können.

Dementsprechend basieren Data Warehouse auf der klassischen ETL-Logik:

  1. Extract: Aus vorab definierten Quellen werden Daten in den unterschiedlichsten Formaten „rausgezogen”. Entsprechende Quellen sind zum Beispiel Sensoren, Produktionsmaschinen, aber auch bestimmte Dokumente oder schlicht Excel-Tabellen.

  2. Transform: Die so gesammelten Daten werden weiterverarbeitet und strukturiert. Dazu gehört unter anderem das Bereinigen von Datensätzen um fehlerhafte Daten, Duplikate oder Ausreißer. Auch das Anreichern von Datensätzen mit Informationen aus anderen Quellen ist möglich, etwa das Hinzufügen von Zeit- oder Ortsangaben.

  3. Load: Ablegen der aufbereiteten Daten im Data Warehouse.

Das Data Warehouse funktioniert demnach wie ein gut sortierter Supermarkt: Es enthält genau die Daten in genau dem Format, in dem sie benötigt werden. Das ist sehr effizient, aber auch sehr unflexibel.

 

Data Lake: Flexible Rohdaten

Data Lakes kommen vor allem in der Explorationsphase eines Datenprojekts zum Einsatz. Anders als beim Data Warehouse gibt es also noch keinen definierten Use Case. Dieser soll mithilfe der zusammengetragenen Daten erst noch gefunden werden. Der Data Lake ist damit so etwas wie die Spielwiese der Data Scientists, die mithilfe der hier abgelegten Daten verschiedene Modelle ausprobieren und durchrechnen können.

Der explorative Charakter des Data Lake hat natürlich ganz praktische Auswirkungen: Zum einen umfassen Data Lakes in der Regel deutlich größere Datenmengen als Data Warehouses. Solange noch kein Anwendungsfall definiert ist, sind schließlich alle Daten potenziell wichtig. Zum anderen werden Daten vor dem Speichern nicht aufbereitet, sondern direkt in Rohform abgelegt.

Unterm Strich bieten Data Lakes dem Anwender deutlich mehr Flexibilität als Data Warehouses. Angesichts der großen Masse an Daten besteht jedoch immer die Gefahr, dass Data Scientists früher oder später die Übersicht verlieren: Der Data Lake wird zum undurchsichtigen Datensumpf.

 

Wo werden Daten gespeichert? Cloud vs. On-Premise 

Egal ob Data Warehouse oder Data Lake, die gesammelten Daten müssen irgendwo physisch gespeichert werden. Das passiert entweder im unternehmenseigenen Rechenzentrum oder auf einem gemieteten Server der großen Cloud-Anbieter wie etwa AWS, Microsoft Azure, Google Cloud und Co. 

Auch wenn einige Unternehmen und vor allem Behörden derzeit noch auf On-Premise Lösungen setzen, geht der Trend ganz klar in Richtung Cloud. Und dafür gibt es gute Gründe:

Sicherheit

Cloud-Anbieter haben ihre Server permanent im Blick und nutzen neueste Sicherheits-Protokolle. Damit können sie ein deutlich höheres Maß an Sicherheit gewährleisten, als das für viele IT-Abteilungen innerhalb eines Unternehmens möglich ist.

Wartung & laufender Betrieb

Regelmäßige Hard- und Softwareupdates sind für eine reibungslose Funktionsweise unverzichtbar – verursachen aber auch einiges an Kosten und Aufwand. Allein schon deshalb kann es sich lohnen, auf Cloud-Anbieter zurückzugreifen.

Kosten & Skalierbarkeit

Serverkapazität zu mieten ist in der Regel deutlich günstiger, als diese selbst aufzubauen und zu betreiben. Denn abgerechnet wird nach tatsächlich genutzter Rechenleistung. Und wenn der Bedarf wächst, sind zusätzliche Kapazitäten schnell dazugebucht.

Datenschutz

„Wo liegen meine Daten?” Diese Frage treibt viele Unternehmen um. Mittlerweile unterhalten fast alle Cloud-Anbieter Rechenzentren auf deutschem Boden – und bieten ihren Kunden die entsprechende Auswahloption.

 

Fazit und Ausblick 

Je komplexer die Anforderungen an ein Datenprojekt und je größer die Datenmenge, desto wichtiger wird ein professionelles Data Engineering. Denn: Nur wenn die permanente Versorgung mit dem Rohstoff „Daten” gesichert ist, können mithilfe künstlicher Intelligenz Analysen und Prognosen erstellt werden, aus denen Unternehmen schlussendlich Mehrwert ziehen können. 

Was die konkrete Umsetzung in Lakes und Warehouses angeht, klingt manches beim ersten Lesen vielleicht etwas aufwändiger, als es tatsächlich ist. So benötigt ein Data Warehouse beispielsweise nicht unbedingt eine spezialisierte Warehouse-Technologie. Je nach Datenmenge kann durchaus die bereits aktuell verwendete Standard-Datenbank-Technologie genutzt werden. 

 

Sie haben Fragen zum Thema oder benötigen zuverlässige Data Pipelines?

 

 

 

Quellen:

¹ Forbes: “Cleaning Big Data: Most Time-Consuming, Least Enjoyable Data Science Task, Survey Says”, abgerufen am 17.08.2022: https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says/?sh=4b6f3c646f63