Data Lakehouse: Die Zukunft der Datenanalyse?
Agentic AI, Big Data und viele andere Buzzwords der modernen IT zählen vor allem auf eines: Daten in rauen Mengen. Unternehmen sammeln nicht mehr nur strukturierte Daten (wie Verkaufszahlen), sondern auch unstrukturierte Daten – von Social-Media-Posts über Chatverläufe bis hin zu Daten aus dem IoT-Umfeld, die bspw. von Sensoren registriert werden. Wohin damit? Und vor allem: Wie machen wir diese Daten nutzbar? Und welche Karrieremöglichkeiten bieten sich für Dich? Spoiler: Einige! Ob als Data Engineer, Architect oder Analyst, z. B. mit Fokus auf Cloud-Infrastrukturen oder auch Machine Learning – Datenexpert:innen sind hoch gefragt!
Die klassische Lösung: Data Warehouse – bewährt, aber begrenzt
Zur Erinnerung: Ein Data Warehouse ist eine zentrale Datenplattform, auf der große Mengen strukturierter Daten aus verschiedenen Quellen zusammengeführt, gespeichert und analysiert werden. Im Unterschied zu einer Datenbank ist das Data Warehouse also speziell für Analysezwecke optimiert. Es ersetzt die Datenbank aber nicht, sondern versteht sich vielmehr als Modell für den Datenfluss zwischen operativen Systemen und BI-Lösungen.
Damit die Daten in einer einheitlichen Form vorliegen, durchlaufen sie einen ETL-Prozess (Extract, Transform, Load):
- Extract: Daten werden aus verschiedenen Systemen extrahiert.
- Transform: Die Daten werden validiert, bereinigt, formatiert und mit bestehenden Informationen abgeglichen.
- Load: Die transformierten Daten werden in das Warehouse geladen.
Damit das funktioniert, wird im Voraus ein Datenmodell (Schema) definiert – dieser Ansatz heißt Schema-on-Write. Hier wird festgelegt, welche Struktur die Daten haben, welche Attribute eine Datenzeile besitzt und welche Datenformate überhaupt erlaubt sind. Da ein Data Warehouse Daten meist tabellarisch speichert, eignet es sich besonders gut für vordefinierte, strukturierte Abfragen, beispielsweise für Business Intelligence oder Reportings.
Ein Data Warehouse ist extrem leistungsfähig, wenn es um strukturierte Daten geht – also Informationen, die in einem festen Schema organisiert sind, wie Tabellen mit klar definierten Spalten. Damit lassen sich schnelle und effiziente Abfragen durchführen. Doch in der modernen Datenwelt sind nicht alle Informationen so nett strukturiert. Viele Anwendungen generieren semi-strukturierte oder sogar unstrukturierte Daten, die sich nicht ohne Weiteres in Tabellenform pressen lassen. Und genau hier beginnt das Problem.
Während ein Warehouse mit strukturierten Daten – etwa Verkaufszahlen oder Nutzungsstatistiken – bestens umgehen kann, wird es bei semi-strukturierten Daten kompliziert. Dazu gehören JSON- oder XML-Dateien, Log-Daten oder API-Antworten. Diese Daten enthalten zwar eine gewisse Struktur, sind aber flexibler aufgebaut: Sie haben verschachtelte Felder, optionale Attribute oder dynamisch wachsende Datenmodelle. Ein klassisches Data Warehouse erwartet jedoch starre Tabellen mit festen Spalten – und das heißt, dass semi-strukturierte Daten erst umgewandelt und normalisiert werden müssen, bevor sie gespeichert und analysiert werden können. Das bedeutet also Mehraufwand.
Data Lake: Ein Datensee voller Möglichkeiten
Im Unterschied dazu können in einem Data Lake sämtliche Daten gespeichert werden, von strukturiert über semi-strukturiert bis hin zu gänzlich unstrukturierten Daten. Während bei einem Data Warehouse der Zweck der Datenspeicherung feststeht, ist das bei einem Data Lake nicht der Fall. Die Daten werden hier im Rohformat abgelegt. Das macht ihn besonders flexibel und im ersten Schritt auch kosteneffizient. Das Datenmodell wird nämlich erst beim Auslesen festgelegt (Schema-on-Read), hier gilt also ELT statt ETL.
Ein Data Lake ist besonders nützlich, wenn große Mengen unstrukturierter Daten gespeichert und später für verschiedene Zwecke genutzt werden sollen – sei es für Maschinelles Lernen, Echtzeitanalysen oder Big-Data-Analysen.
Aber die Flexibilität hat natürlich auch Schattenseiten: Ohne klare Governance-Regeln kann ein Data Lake schnell zu einem Data Swamp werden – einem unstrukturierten „Datensumpf“, in dem Daten ohne klare Dokumentation und Struktur abgelegt werden. Daten können verloren gehen und auch die Datenqualität kann dann leiden. Hier ist also Disziplin in der Datenverwaltung gefragt!
Bildquelle: sap.com
Best of both worlds: Data Lakehouse
Wenn es doch nur eine Lösung gäbe, die die Stärken beider Ansätze vereint...! Ach was, die gibt es: das Data Lakehouse. Ein Data Lakehouse ist eine moderne Datenarchitektur, die die Flexibilität und Skalierbarkeit eines Data Lakes mit der Struktur und den Abfragefunktionen eines Data Warehouses verbindet. Es ermöglicht die Speicherung aller Arten von Daten – ob strukturiert, semi-strukturiert oder unstrukturiert – und bietet gleichzeitig die Möglichkeit, diese Daten effizient zu verarbeiten und zu analysieren.
Vorteile eines Data Lakehouse
Cloud-first & Skalierbarkeit
Data Lakehouses sind oft cloud-native. Sie nutzen die Vorteile der Cloud wie Skalierbarkeit, Kosteneffizienz und Flexibilität damit idealerweise voll aus. Dadurch können Unternehmen ihre Datenplattformen je nach Bedarf dynamisch anpassen und sind so für moderne Anwendungsfälle wie Künstliche Intelligenz (KI), Echtzeit-Analysen und Machine Learning gerüstet. Datensilos, also Datensammlungen, die von einer Einheit kontrolliert werden und vom Rest isoliert sind, sollen vermieden werden.
Sicherheit & Governance
Einer der größten Kritikpunkte an Data Lakes ist das Fehlen von Sicherheitsmechanismen und Governance-Strukturen, was einerseits zu Datenchaos, aber auch zu waschechten Compliance-Problemen führen kann. Anders als in klassischen Data Lakes gibt es deshalb im Lakehouse sehr genaue Zugriffskontrollen, also ähnlich wie in einem Data Warehouse. Role-Based Access Control (RBAC) stellt sicher, dass nur autorisierte Nutzer:innen bestimmte Daten einsehen oder bearbeiten können. Auch Data Lineage und Auditing sind wertvolle Punkte: Unternehmen können hier jederzeit nachvollziehen, woher Daten stammen und wer sie verändert hat.
Wie funktioniert ein Data Lakehouse?
Technisch basiert das Lakehouse auf ein paar Schlüsselprinzipien:
Während die Daten in einem kostengünstigen Cloud-Speicher liegen, wird die Rechenleistung in der Regel separat erbracht – z. B. in getrennten Compute-Clustern oder Cloud-basierten Diensten. So kann die Rechenkapazität jeweils flexibel an den aktuellen Bedarf angepasst werden. Typische Architekturen sind z. B. Cloud-native Compute Services, verteilte Rechencluster oder auch Kubernetes-basierte Container – je nachdem, ob der Fokus stärker auf Flexibilität, Leistung oder Skalierbarkeit liegen soll.
Ein Data Lakehouse unterstützt ACID-Transaktionen (Atomicity, Consistency, Isolation, Durability), bietet also genauso viel Datenintegrität wie ein Data Warehouse, mit dem gewissen Extra an Flexibilität, um auch unstrukturierte Daten verarbeiten zu können. So können sie auch für geschäftskritische Einsatzfelder verwendet werden.
Anstatt des Schema-on-Write-Prinzips des traditionellen Data Warehouse herrscht im Data Lakehouse Schema-on-Read: Die Schemastruktur der Daten wird erst bei der Abfrage definiert und kann so bei Bedarf erweitert werden – Du kannst z. B. Spalten umorganisieren, den Datentyp ändern oder verschiedene Datenquellen berücksichtigen.
Die Daten werden im Data Lakehouse hierarchisch strukturiert, damit sie sowohl für Datenanalyse als auch für BI-Anwendungen gut nutzbar sind. Exemplarisch schauen wir uns die Medaillenstruktur von Databricks an, denn so oder so ähnlich funktionieren auch andere Data Lakehouse Frameworks (s. u.). Es werden hier drei Schichten eingeteilt, die die sog. Medaillenstruktur ergeben und die verschiedenen Datenzustände umfassen, die die Daten nacheinander durchlaufen: der Bronze-Layer für die kostengünstige Speicherung von Rohdaten, der Silver-Layer (Data Vault) für aufbereitete bzw. bereinigte Daten und schließlich der Gold-Layer (Data Marts) für die aggregierte bzw. jeweils abfrageoptimierte Datenform.
Die Implementierung eines Data Lakehouse stützt sich häufig auf fortschrittliche Open-Source-Projekte, die spezifische Anforderungen erfüllen. Diese drei sind die aktuell führenden Storage Engines:
- Delta Lake (Databricks): Bietet ACID-Transaktionen, skalierbare Metadatenverwaltung und ermöglicht Time-Travel-Abfragen, um den Zustand der Daten zu einem früheren Zeitpunkt einzusehen.
- Apache Iceberg (ursprünglich Netflix): Ein starkes Tabellenformat für große analytische Tabellen, das Schema-Evolution und Partitionierung unterstützt. Es wurde entwickelt, um die Herausforderungen von Hive-Tables in großen Datenumgebungen zu adressieren.
- Apache Hudi (ursprünglich Uber): Ermöglicht effiziente Upserts und unterstützt Streaming-Daten, was besonders für Anwendungsfälle mit häufigen Datenaktualisierungen relevant ist.
Von E-Commerce bis KI: Hier werden Data Lakehouses genutzt
Echtzeit-Analysen im E-Commerce
Klickverhalten, Einkaufshistorie, Retouren, Produktbewertungen – Online-Shops erfassen unzählige Kundendaten, darunter auch unstrukturierte (z. B. Kundenkommentare). In einer Data- Lakehouse-Umgebung können verschiedenste Daten aus Web-Tracking, Social Media und CRM kombiniert und von Machine-Learning-Modellen genutzt werden. Das Ergebnis: personalisiertes Marketing und die Möglichkeit, in Echtzeit auf Trends zu reagieren (Lagerbestände, Preisanpassungen etc.).
Predictive Maintenance im Auto
Motortemperatur, Bremsverschleiß, GPS-Daten – moderne Fahrzeuge erzeugen kontinuierlich riesige Datenströme, die wertvolle Einblicke in ihren Zustand liefern. Doch die Herausforderung liegt in der Struktur: Viele dieser Sensordaten liegen als halbstrukturierte Logs vor, die sich nur schwer in einem klassischen Data Warehouse verarbeiten lassen. In einer Data-Lakehouse-Umgebung hingegen können diese Rohdaten direkt gespeichert und von KI-Modellen analysiert werden. So lassen sich Anomalien frühzeitig erkennen und durch den Abgleich mit historischen Mustern proaktive Wartungen gezielt einleiten.
KI-gestützte Diagnosen im Gesundheitswesen
Auch im Gesundheitswesen werden Unmengen an unstrukturierten Daten gesammelt: Bilder aus MRT-Scans, uneinheitliche Patientenakten, Laborberichte etc. Du erkennst das Muster: Alle diese unterschiedlichen Daten werden im Data Lake gesammelt und in der Lakehouse-Umgebung so strukturiert, dass sie mithilfe von KI-Modellen analysiert werden können. So erhalten Ärzt:innen im Idealfall automatisierte Handlungsempfehlungen, die auch frühere Fälle und Erfahrungen einbeziehen.
Aktuelle Jobs für Informatiker:innen
- CapgeminiSenior IT Business Analyst (w/m/d)Wolfsburg +13Business Analysis
- REWE GroupIT Business Analyst - Mobile Apps in der Logistik (m/w/d)KölnBusiness Analysis
- REWE digital GmbHIT Business Analyst - Mobile Apps in der Logistik (m/w/d)KölnBusiness Analysis
- ArvatoData Engineer (m/w/x)GüterslohDatenbankentwicklung/BI
- Atruvia AGBusiness Analyst / Data Product Owner (DIH) (m/w/d) | STBCORMünster +3Business Analysis +2
Klingt spannend? Deine Karriere im Bereich Data Lakehouse
Die wachsende Bedeutung von Data Lakehouses verändert nicht nur die Art, wie Unternehmen Daten verwalten – sie schafft auch spannende Karrieremöglichkeiten für Dich als IT-Talent. Data Lakehouses werden überall dort eingesetzt, wo sehr große Mengen unterschiedlicher Daten verarbeitet werden. Das betrifft fast alle Branchen.
Wenn Du Dich mit modernen Datenarchitekturen auskennst, hast Du gute Chancen in gefragten Tech-Jobs. Zu Deinen Einsatzfeldern könnten z. B. Datenmanagement, Cloud-Technologien oder Big-Data-Analysen zählen. Möchtest Du als Data Engineer Data-Lakehouse-Infrastrukturen optimieren? Als Data Architect für Governance sorgen? Oder als Data Analyst tief in die Auswertung von Daten einsteigen? Auch Machine Learning und Cloud Engineers finden in diesem Bereich spannende Einsatzfelder.
Wenn Dein Herz also für Daten schlägt, bietet sich für Deine Karriere entweder ein Abschluss in Informatik oder auch in Mathematik an. Idealerweise hast Du Dich im Studium schon auf die relevanten Themenfelder – Data Science, Statistik, KI, Cloud Computing – spezialisiert. Einige wichtige Technologien, in denen erste Erfahrungen hilfreich sind, sind auch schon gefallen: Apache Iceberg, Delta Lake, aber auch Skills im Bereich Cloud-Plattformen wie AWS oder Azure oder KI-Frameworks wie TensorFlow oder PyTorch sind relevant. Das hängt letztlich aber wirklich von den konkreten Szenarien ab.
Am Ende gilt: Daten sind quasi das „neue“ Gold und Data Lakehouses eine der modernsten Arten, diese nutzbar zu machen. Know-how in diesem Bereich eröffnet dir also viele Türen für eine spannende IT-Karriere!
- Data Lakehouses kombinieren die Stärken von Data Warehouses und Data Lakes. Sie ermöglichen die Speicherung aller Datenarten und bieten gleichzeitig Struktur sowie Abfragefunktionen.
- Technisch basieren sie auf der Trennung von Storage und Compute, unterstützen ACID-Transaktionen und erlauben Schema-Evolution. Dadurch bleiben sie flexibel und leistungsfähig.
- Für Dich als IT-Talent ergeben sich spannende Karrieremöglichkeiten. Besonders gefragt sind Data Engineers, Data Architects und Machine Learning Engineers mit Kenntnissen in Cloud-Technologien, Big Data und KI.