Model Card:

„Weil Du 'Beitrag' geschaut hast“


30.01.2024


Die Model Card beschreibt sowohl den fachlichen Anwendungsfall als auch seine technische Implementierung. Model Cards dienen vor allem der Transparenz für Entwickler:innen, Redakteur:innen und für Nutzer:innen der ZDFmediathek.

Zielsetzung

Nutzer:innen werden ähnliche Inhalte in der ZDFmediathek zu bereits gesehenen VoDs/Serien angeboten.

Inhalte und Regeln

  • Inhalte: Alle ZDF-Inhalte mit VoD aus der gleichen Rubrik wie der Ausgangsbeitrag, ausgenommen Inhalte unterhalb folgender Strukturknoten:
    • Rubriken:
      • /zdf/barrierefreiheit-im-zdf
      • /zdf/funk
      • /zdf/zdfunternehmen
      • /zdf/nachrichten
      • /zdf/phoenix
      • /zdf/service-und-hilfe
      • /zdf/international
    • Sendungsbereiche:
      • /zdf/arte/arte-journal
      • /zdf/arte/h24
      • /zdf/arte/karambolage
      • /zdf/arte/markte-europas
      • /zdf/arte/mit-offenen-karten
      • /zdf/arte/stadt-land-kunst
      • /zdf/arte/the-european-collection
      • /zdf/arte/tracks
      • /zdf/arte/twist
      • /zdf/arte/zu-tisch
      • /zdf/gesellschaft/aktenzeichen-xy-ungeloest
      • /zdf/gesellschaft/einfach-mensch
      • /zdf/gesellschaft/gottesdienste
      • /zdf/gesellschaft/sonntags
      • /zdf/kinder/logo
      • /zdf/kinder/logo-newsdate
      • /zdf/kultur/aspekte
      • /zdf/kultur/kulturzeit
      • /zdf/politik/auslandsjournal-extra
      • /zdf/politik/auslandsjournal/videos
      • /zdf/politik/berlin-direkt
      • /zdf/politik/frontal
      • /zdf/politik/laenderspiegel
      • /zdf/politik/politik-sonstige
      • /zdf/politik/standpunkte
      • /zdf/politik/wahlen
      • /zdf/sport/bundesliga
      • /zdf/sport/das-aktuelle-sportstudio
      • /zdf/sport/die-finals
      • /zdf/sport/fussball-em
      • /zdf/sport/mainzer-keller-bundesliga
      • /zdf/sport/olympia
      • /zdf/sport/paralympics
      • /zdf/sport/sportler-des-jahres
      • /zdf/sport/uefa-champions-league
      • /zdf/sport/wintersport
      • /zdf/sport/zdf-sportextra
      • /zdf/verbraucher/makro
      • /zdf/verbraucher/volle-kanne
      • /zdf/verbraucher/wiso
      • /zdf/wissen/deutscher-zukunftspreis/sb-material
      • /zdf/wissen/nano
    • Ausblenden, wenn:
    • Content Type:
      • für Beiträge vom Typ Episode werden nur Episodes empfohlen
      • für Beiträge vom Typ Clip werden Clips und Episodes empfohlen

Personalisierung

  • Individuell (keine gruppenbasierte Empfehlungen)
  • Mit und ohne Login

Kontext

KPIs




Algorithmus:

Daten Training:

  • "Weil du <Beitrag/Serie> gesehen hast" (history-picks) kombiniert nutzungsbasierte und ähnlichkeitsbasierte Empfehlungen
  • Sequence Model
    • Nutzungsdaten
    • 30 Tage (ZDFtracking, alle Nutzer:innen), pro Geräteklasse, nur Plays mit mindestens 35% Nutzung des Videos, Denoising (Videos mindestens 20x gesehen über alle Nutzer:innen hinweg)
    • Metadaten: aus redaktionellem Content Management System (zur Filterung)
    • Voreingenommenheit/Bias (qualitativ):
      • Neuheit / recency (nur letzte 30 Tage Nutzungsdaten)
      • Beliebtheit / popularity (30 Tage Nutzungsdaten, keine ungenutzten Inhalte, Denoising)
      • Exposition / exposure (nur genutzte Inhalte)
  • Collaborative Filterung
    • Nutzungsdaten
    • 30 Tage (ZDFtracking, alle Nutzer:innen), pro Geräteklasse, nur Plays mit mindestens 35% Nutzung des Videos, Denoising (Videos mindestens 20x gesehen über alle Nutzer:innen hinweg)
    • Metadaten: aus redaktionellem Content Management System
    • Voreingenommenheit/Bias (qualitativ):
      • Neuheit / recency (nur letzte 30 Tage Nutzungsdaten)
      • Beliebtheit / popularity (30 Tage Nutzungsdaten, keine ungenutzten Inhalte, Denoising)
      • Exposition / exposure (nur genutzte Inhalte)
  • Text Model
    • Metadaten: aus redaktionellem Content Management System (Search-Service-Tags extrahiert aus Titel & Text, Darsteller, Crew, redaktionelle Tags, Sendungsbereich, FSDB-Daten [Beschreibung, Kategorien, Untertitel, visuelle Beschreibung])
    • Voreingenommenheit/Bias: Informationsgehalt/sparse data bias (Beiträge redaktionell sehr unterschiedlich stark aufbereitet

Daten Inferenz:

  • Nutzungshistorie
    • Alle plays (Sichtungen) mit mehr als 30 Sekunden Abspielfortschritt
    • Wenn dies zu leeren plays führen würde: alle plays ohne Filterung
    • Wenn plays insgesamt leer sind: alle views (Klicks)
    • Wenn keine Historie mitgeschickt wird: Login-Token zum serverseitigen Abruf der Abspiel-Historie (plays)
    • Wenn keine Authentication mitgeschickt wird: neueste Episode jeder gemerkten Sendung als Historie
  • Angebotsseite:
    • Startseite
  • Geräteklasse:
    • z.B: Mobile / Tablet

Weiterentwicklung / Tests:

  • Sequence Model: reines Offline-Training, alle 4 Stunden, Bereitstellung des trainierten Modells unmittelbar nach dem Training
  • Collaborative Filtering: reines Offline-Training, alle 4 Stunden, Ablage von vorberechneten Empfehlungen unmittelbar nach dem Training
  • Text Model: reines Offline-Training, alle 3 Stunden, Ablage von vorberechneten Empfehlungen unmittelbar nach dem Training
  • Kein Auto ML nach A/B-Tests, keine automatische Hyperparameter-Optimierung




Hinweise allgemein / Known Issues:

  • Nutzungsbasierter Anteil weitgehend unabhängig von Qualität der Metadaten
  • Ähnlichkeitsbasierter Ansatz sehr abhängig von Texten und Tags in Metadaten