Strukturierte Daten für Video, Audio und Text Content automatisch erzeugen
Warum strukturierte Daten für die Reichweite und Sichtbarkeit von Videos, News und Podcasts so wichtig sind
Das Internet ist text-basiert … Das war einmal. Natürlich sind multimediale Inhalte essenziell für attraktive Seiten. Aber irgendwie stimmt es doch, denn Audio- und Bewegtbild Content lassen sich von Suchmaschinen und sozialen Netzwerken immer noch ungleich schwieriger verarbeiten und durchsuchen.
Zur Ergänzung von beschreibenden Texten setzten Google, Facebook und Co. seit geraumer Zeit auf strukturierte Daten. Diese erlauben es Ihnen den Inhalt der Webseite besser einzuordnen und damit attraktiver und gezielter darzustellen und zielgerichteter auffindbar zu machen. Die Ergebnisse erscheinen häufiger in der Suche und die Click-Through-Rate steigert sich. Gut für Google. Gut für die Content-Produzenten.
Leider kann die Erstellung von qualitativ hochwertigen, strukturierten Daten aber sehr aufwändig sein. Das ist gerade dann der Fall, wenn man es mit einer starken Content Fluktuation zu tun hat wie zum Beispiel im News Bereich. Kommt dann noch der verstärkte Einsatz von Videos und Audios hinzu, bindet der Prozess eine Menge Ressourcen.
Für uns stellte sich sofort die Frage: Wie kann man einen möglichst intelligenten KI Assistenten schaffen, der diese Aufwände deutlich reduziert und darüber hinaus den eigenen Content in die aktuellen Trends bei Suchmaschinen und in sozialen Netzwerken einordnet?
Am Anfang war der Content…
News Webseiten bestehen aus Text, Bild, Video oder Audio Content. Häufig auch bunt gemischt. Unser Assistent muss alle Medienarten verarbeiten und verstehen können, um seine Aufgabe richtig zum machen. Da man am Ende auf eine textuelle Repräsentation des Contents hinaus will, kann man sich gleich mit den schwierigsten Themen auseinandersetzen. Video und Audio.
Wie lassen sich sinnvolle strukturierte Daten aus Video und Audio Content ableiten?
Der KI Assistent muss den Inhalt des Contents erfassen und einordnen können. Erst dann lassen sich sinnvoll beschreibende Daten wie Titel, Abstract (Description), Keywords und vieles mehr vorschlagen. Damit wir Video oder Podcast Content interpretieren können, brauchen wir den Volltext der Tonspur in guter Qualität inkl. Erkennung der Interpunktion. Das ist wichtig, um mit einschlägigen textbasierten Verfahren weiterarbeiten zu können. In einem Folgeschritt werden die sinntragenden Konzepte aus dem Text extrahiert. Bei der Einordnung von Inhalten orientieren sich viele Menschen an Personen, Orten und allgemeinen Konzepten. Genau diese drei Kategorien sollte unser Assistent extrahieren. Dabei führt er anhand des Kontextes des Artikels eine Begriffsklärung (Disambiguierung) durch und kann so den Textentitäten eine Bedeutung zumessen. Um die Bedeutung des Gesamttextes für Mensch und Maschine erfassbar zum machen, ist es notwendig die Relevanz der erkannten Konzepte für den Artikel zu berechnen und die Konzepte in eine entsprechende Reihenfolge zu bringen. Das Ergebnis ist eine sortierte Liste von Konzepten, die Autorinnen und Autoren suggeriert, was die Maschine bei der Analyse als wichtige Themen erkannt hat. Da die Konzepte semantisch hinterlegt sind, kann die Maschine auch Synonyme, Umschreibungen und andere Schreibweisen für die zentralen Konzepte des Artikels anbieten. Da es sich um einen Assistenten handelt, liegt das letzte Wort über die Relevanz von Konzepten für den Artikel natürlich nicht bei der KI. Konzepte können manuell hinzufügt, verworfen oder umgeschrieben werden. Das Resultat eignet sich hervorragend um automatisch Vorschläge für eine Description (Abstract), für einen Titel oder für tragende Keywords anzubieten. Die extrahierten Informationen stecken wir in die strukturierten Daten und können diese direkt in die Seite einbinden.
Insgesamt darf der Prozess nur ein paar Minuten dauern. Bei reinen Textnachrichten muss es noch schneller gehen.
Darstellung sortierte Liste von Konzepten und Kategorien
Repräsentative Thumbnails finden
Wir interessieren uns für repräsentative Keyframes eines Videos. Diese können wir in den strukturierten Daten verwenden und als Open Graph Tags ausweisen, um sie zum Beispiel als Thumbnails in den sozialen Netzwerken auswählen zu können. Die Auswahl der Thumbnails hat sowohl eine qualitative sowie eine semantische Komponente. Wir wenden ein Verfahren an, welches die verschiedenen „Szenen“ innerhalb eines Videos intelligent clustert und diese dann in eine Relevanzreihenfolge bringt. Gleichzeitig werden qualitativ unzureichende Keyframes herausgefiltert. Autorinnen und Autoren steht damit eine überschaubare Menge von Thumbnails zur Verfügung unter denen sie auswählen können. Die Parameter des Clustering-Verfahrens können verändert werden, um mehr Vorschläge zu erhalten und ggf. weniger wichtige, aber attraktive Szenen auszuwählen. Die Thumbnails werden automatisch auf die benötigten Größen skaliert und in den strukturierten Daten eingefügt.
Verknüpfung mit Suchmaschinen- und Social Media Trends
Gerade im News Bereich ist es essentiell aktuelle Trends aus Suchmaschinen und sozialen Netzwerken zu kennen und den eigenen Artikel ist diesen Trends verorten zu können. Betone ich als Autor/in die gleichen Themen, die gerade trenden oder füge ich dem Thema bewusst einen neuen Aspekt hinzu. Mache ich ein Thema ggf. neu auf? Bei der News Suche kann es wichtig sein, sich an eine bestehende „Schlagzeile“ zu hängen oder bewusst eine neue zu generieren. Diese Entscheidungen können nur sinnvoll getroffen werden, wenn unser Assistent die wichtigsten, aktuellen Trends (zum Beispiel 24 Stunden bis Echtzeit) aus den Suchmaschinen extrahiert und mir die Konzepte der verwandten Themen anzeigt, so dass ich meinen Beitrag einordnen kann.
Export Strukturierter Daten
Per Knopfdruck können strukturierte Daten in den gängigen Formaten produziert und danach in einer Webseite eingebunden werden. Dies erfolgt in den meisten Fällen über ein CMS. Aus diesem Grund muss der Export der Daten einfach sein und sollte über Konnektoren mit entsprechenden Schnittstellen erfolgen.
Wie geht es weiter?
Natürlich probieren wir so eine Idee sofort aus. Das Ergebnis kann sich jetzt schon sehen lassen und es wird stetig um neue Features erweitert. Aktuell arbeiten wir an einer verbesserten Themenaggregation im News Bereich für eine weitergehende Beurteilung der Wirkung eines Artikels durch die Autorinnen und Autoren.
Zusammenfassung
Bei unserem KI Assistenten arbeiten mehrere neuronale Netzwerke gemeinsam an der inhaltlichen Analyse von Online Content. Ein Speech2Text Verfahren ermöglicht die Analyse der Tonspuren von Videos und von Audios. In dem so entstehenden Text werden Personen, Orte und allgemeine Konzepte mittels maschinellen Lernverfahren identifiziert. Diese werden mit Hilfe eines Wissensnetzes disambiguiert, so dass die KI simplen Text-Entitäten schließlich eine Bedeutung zumessen kann. Per Voting unter mehreren Verfahren, wird jedem gefundenen Konzept eine Relevanz für den vorliegenden Beitrag (Video/Text/Audio) zugeordnet. So entsteht eine für Mensch und Suchmaschine gut lesbare inhaltliche Zusammenfassung des Contents.
Der Assistent sammelt Daten über die Trends in Suchmaschinen und sozialen Netzwerken. Ein Matching-Verfahren ermöglicht es der KI vorzuschlagen, welche inhaltlichen Aspekte des Contents besonders zu den aktuellen Trends passen und diese hervorzuheben (Boosting).
Die Ergebnisse können direkt als strukturierte Daten in die Webseite eingebunden oder in anderen Systemen (z.B. CMS) weiterverwendet werden.