Warum Medienhäuser ein Data Lakehouse brauchen

In der Medienproduktion geht es nicht mehr nur darum, viel guten Content zu erstellen – am besten crossmedial. Auch die anschließende Messung von Reichweite und anderen Kennzahlen steht in vielen Redaktionen auf der Tagesordnung. Bei unserer Zusammenarbeit mit Medienhäusern spielen deswegen Daten und vor allem ihre Analyse eine immer wichtigere Rolle. Warum da Data Lakehouses ins Spiel kommen und was das ist, erklären wir hier.

Die Daten sind vorhanden

Datenanalyse in Medienhäusern hört sich zunächst gar nicht so wild an. Dank der Digitalisierung im Journalismus gibt es Daten im Überfluss und der Zugang zu vielen Daten ist mit unterschiedlichsten Tools auch prinzipiell gegeben. Social Media Analytics zum Beispiel kann auch über die jeweiligen Plattformen möglich sein und Redaktionen können einzelne Kennzahlen zu Reichweite oder Engagement selbstständig ablesen.

Daten crossmedial kombinieren

Die Herausforderung für Medienhäuser und Verlage: Selten müssen sie nur Daten einer einzigen Plattform analysieren. Ihr Content ist linear wie auch non-linear verbreitet, in unterschiedlichsten Formaten. Es gibt also viele Datenquellen, die kombiniert werden müssen – von Video-Streaming-Abrufen über eigene Datenbanken bis Social Media Daten unterschiedlichster Plattformen. Das macht Erfolgsmessungen komplizierter. Bei schon bestehenden Tools klappen die Datenimporte dann nicht wie gewünscht und die unterschiedlichen Daten können ohne vorherige Aufbereitung nicht zusammengebracht werden. So können Daten-Teams, die Redaktionen und Newsrooms unterstützen, nicht wirklich mit den Daten arbeiten und die richtigen Schlüsse ziehen. Sie stehen vor einzelnen Datensilos.

Warum ein Data Lakehouse Sinn macht

Wie überwinden wir die Datensilos unserer Kunden? Indem wir effiziente Lösungen für eine ganzheitliche Datenspeicherung und -verarbeitung aller Daten aufbauen – mit Data Lakehouses.

Was ist ein Data Lakehouse?

Ein Data Lakehouse ist ein zentraler Speicherort für große Mengen von Daten und kombiniert das Beste aus “Data Warehouse” und “Data Lake” in einer offenen Architektur. Mit einem Data Lakehouse können wir sowohl strukturierte als auch unstrukturierte Daten erfassen und neue Datenquellen einfach integrieren, um sie anschließend weiter zu verarbeiten.

Data Warehouse vs Data Lake vs Data Lakehouse

DATA WAREHOUSE

Speichert strukturierte Daten (SQL-Tabellen)
Schema wird im Voraus festgelegt (Schema on Write)
Einfach zu verwalten
Neue Datenquellen nur schwer zu integrieren
Skaliert schwer

“Saubere” Daten, einfach zu pflegen, zu verarbeiten und zu visualisieren

DATA LAKE

Für große Mengen an strukturierten und unstrukturierten Daten
Schema wird nachträglich ermittelt (Schema on Read)
“Data Swamp” Gefahr: Sammelbecken für schlecht strukturierte Daten, mit denen niemand mehr arbeiten kann
Neue Datenquellen einfach anbinden
Hohe Skalierbarkeit

Skalierbarkeit, Effizienz und Flexibilität; ermöglicht maschinelles Lernen

DATA LAKEHOUSE

Strukturierte und unstrukturierte Daten
Streamingdaten in Echtzeit abrufen
Schema wird je nach Anwendungsfall bestimmt (Schema on Use)
Neue Datenquellen einfach anbinden
Hohe Skalierbarkeit

Kombiniert alle Vorteile in einer modernen, offenen Architektur

Struktur und Skalierbarkeit kombiniert

Neue Daten und Datenquellen entstehen bei der sich rasant wandelnden Medienlandschaft ständig. Wozu neue Daten dienen sollen, ist nicht immer am Anfang der Reise definiert. Für unsere Kunden brauchen wir also die Flexibilität und Effizienz eines Data Lakes, mit dem wir viele verschiedene Datenquellen anbinden und auch unstrukturierte Daten erfassen können. Trotzdem müssen wir verhindern, dass aus diesem See ein sogenannter Sumpf wird ohne Datenqualität und Struktur, sodass es immer schwieriger wird, mit den Daten zu arbeiten. Diesen Data Swamp vermeiden wir, indem wir die Eigenschaften des Data Warehouses und Data Lakes zum Data Lakehouse kombinieren.

Von Raw Data bis Insights

Nur ein Data Lakehouse führt aber noch nicht zum Erfolg. Um mit den vielen unterschiedlichen Daten arbeiten zu können, bauen wir mit unseren Kunden Data Pipelines auf. Verschiedene Schritte sorgen dafür, dass wir aus den rohen Daten (von Social Media über Streaming/Abruf-Zahlen oder Einschaltquoten bis hin zu bestehenden Kunden-Datenbanken) am Ende auch Insights generieren können.

Je nach Kunde, Zielen und Wünschen können wir für eine erfolgreiche Datenpipeline verschiedenste Frameworks und Tools einsetzen wie zum Beispiel: Apache Beam, Google Big Query, AWS Redshift oder Azure Synapse, dbt, PowerBI, Looker, Tableau etc.

Weitere interessante Artikel, die du nicht verpassen solltest

Blog

Content Recycling: Wie es Redaktionen entlastet und funktioniert

Täglich Inhalte veröffentlichen, auf allen Kanälen präsent sein und trotzdem keine Kapazitäten verschwenden – ein…

Blog

Girls’ Day 2025 – So kreativ ist Webentwicklung

Auch in diesem Jahr haben wir beim Girls’ Day unsere Türen geöffnet – und wieder…

Blog

Themenansicht im 4-Wochen-Dashboard

In großen Redaktionen müssen Inhalte für viele unterschiedliche Kanäle geplant werden – von Blog-Artikeln über…

Mehr aus der Infothek

Warum Medienhäuser ein Data Lakehouse brauchen

Die Daten sind vorhanden

Daten crossmedial kombinieren

Warum ein Data Lakehouse Sinn macht

Data Warehouse vs Data Lake vs Data Lakehouse

Struktur und Skalierbarkeit kombiniert

Von Raw Data bis Insights

Weitere interessante Artikel, die du nicht verpassen solltest

Content Recycling: Wie es Redaktionen entlastet und funktioniert

Girls’ Day 2025 – So kreativ ist Webentwicklung

Themenansicht im 4-Wochen-Dashboard

Wir gestalten die digitale Zukunft der Medienbranche

Kontakt

Unsere Lösungen

Ressourcen

Unternehmen

Kontakt