In der Medienproduktion geht es nicht mehr nur darum, viel guten Content zu erstellen – am besten crossmedial. Auch die anschließende Messung von Reichweite und anderen Kennzahlen steht in vielen Redaktionen auf der Tagesordnung. Bei unserer Zusammenarbeit mit Medienhäusern spielen deswegen Daten und vor allem ihre Analyse eine immer wichtigere Rolle. Warum da Data Lakehouses ins Spiel kommen und was das ist, erklären wir hier.
Die Daten sind vorhanden
Datenanalyse in Medienhäusern hört sich zunächst gar nicht so wild an. Dank der Digitalisierung im Journalismus gibt es Daten im Überfluss und der Zugang zu vielen Daten ist mit unterschiedlichsten Tools auch prinzipiell gegeben. Social Media Analytics zum Beispiel kann auch über die jeweiligen Plattformen möglich sein und Redaktionen können einzelne Kennzahlen zu Reichweite oder Engagement selbstständig ablesen.
Daten crossmedial kombinieren
Die Herausforderung für Medienhäuser und Verlage: Selten müssen sie nur Daten einer einzigen Plattform analysieren. Ihr Content ist linear wie auch non-linear verbreitet, in unterschiedlichsten Formaten. Es gibt also viele Datenquellen, die kombiniert werden müssen – von Video-Streaming-Abrufen über eigene Datenbanken bis Social Media Daten unterschiedlichster Plattformen. Das macht Erfolgsmessungen komplizierter. Bei schon bestehenden Tools klappen die Datenimporte dann nicht wie gewünscht und die unterschiedlichen Daten können ohne vorherige Aufbereitung nicht zusammengebracht werden. So können Daten-Teams, die Redaktionen und Newsrooms unterstützen, nicht wirklich mit den Daten arbeiten und die richtigen Schlüsse ziehen. Sie stehen vor einzelnen Datensilos.
Warum ein Data Lakehouse Sinn macht
Wie überwinden wir die Datensilos unserer Kunden? Indem wir effiziente Lösungen für eine ganzheitliche Datenspeicherung und -verarbeitung aller Daten aufbauen – mit Data Lakehouses.
Was ist ein Data Lakehouse?
Ein Data Lakehouse ist ein zentraler Speicherort für große Mengen von Daten und kombiniert das Beste aus “Data Warehouse” und “Data Lake” in einer offenen Architektur. Mit einem Data Lakehouse können wir sowohl strukturierte als auch unstrukturierte Daten erfassen und neue Datenquellen einfach integrieren, um sie anschließend weiter zu verarbeiten.
Data Warehouse vs Data Lake vs Data Lakehouse
Data Warehouse
- Speichert strukturierte Daten (SQL-Tabellen)
- Schema wird im Voraus festgelegt (Schema on Write)
- Einfach zu verwalten
- Neue Datenquellen nur schwer zu integrieren
- Skaliert schwer
“Saubere” Daten, einfach zu pflegen, zu verarbeiten und zu visualisieren
Data Lake
- Für große Mengen an strukturierten und unstrukturierten Daten
- Schema wird nachträglich ermittelt (Schema on Read)
- “Data Swamp” Gefahr: Sammelbecken für schlecht strukturierte Daten, mit denen niemand mehr arbeiten kann
- Neue Datenquellen einfach anbinden
- Hohe Skalierbarkeit
Skalierbarkeit, Effizienz und Flexibilität; ermöglicht maschinelles Lernen
Data Lakehouse
- Strukturierte und unstrukturierte Daten
- Streamingdaten in Echtzeit abrufen
- Schema wird je nach Anwendungsfall bestimmt (Schema on Use)
- Neue Datenquellen einfach anbinden
- Hohe Skalierbarkeit
Kombiniert alle Vorteile in einer modernen, offenen Architektur
Struktur und Skalierbarkeit kombiniert
Neue Daten und Datenquellen entstehen bei der sich rasant wandelnden Medienlandschaft ständig. Wozu neue Daten dienen sollen, ist nicht immer am Anfang der Reise definiert. Für unsere Kunden brauchen wir also die Flexibilität und Effizienz eines Data Lakes, mit dem wir viele verschiedene Datenquellen anbinden und auch unstrukturierte Daten erfassen können. Trotzdem müssen wir verhindern, dass aus diesem See ein sogenannter Sumpf wird ohne Datenqualität und Struktur, sodass es immer schwieriger wird, mit den Daten zu arbeiten. Diesen Data Swamp vermeiden wir, indem wir die Eigenschaften des Data Warehouses und Data Lakes zum Data Lakehouse kombinieren.
Von Raw Data bis Insights
Nur ein Data Lakehouse führt aber noch nicht zum Erfolg. Um mit den vielen unterschiedlichen Daten arbeiten zu können, bauen wir mit unseren Kunden Data Pipelines auf. Verschiedene Schritte sorgen dafür, dass wir aus den rohen Daten (von Social Media über Streaming/Abruf-Zahlen oder Einschaltquoten bis hin zu bestehenden Kunden-Datenbanken) am Ende auch Insights generieren können.
Je nach Kunde, Zielen und Wünschen können wir für eine erfolgreiche Datenpipeline verschiedenste Frameworks und Tools einsetzen wie zum Beispiel: Apache Beam, Google Big Query, AWS Redshift oder Azure Synapse, dbt, PowerBI, Looker, Tableau etc.