AfD — Vergleich von Berichterstattung und Umfrageerfolg

Analyse der Umfragewerte der AfD im Vergleich mit der Berichterstattung

Eine Untersuchung von Umfragewerten der AfD und der Berichterstattung über die Partei. Die Analyse wurde in Python mit der Pandas-Library in einem Jupyter-Notebook erstellt. Im Folgenden ist schlicht das Notebook wiedergegeben.
Achtung: Das Projekt wurde an zwei Tagen ausgearbeitet und ist hauptsächlich als Lernmaterial für Datenanalyse mit Python gedacht.

Prämisse

Ich vermute, dass die Umfragewerte der AfD durch (überproportionale) Berichterstattung präzediert werden.

Daten

Die Umfragewerte sind der Sonntagsfrage von Infratest Dimap entnommen. Als Maß für die Berichterstattung wurde der Google-News-Trend „Alternative für Deutschland (Politische Partei)“ gewählt.
Hier ist zu beachten, dass Google die Berechnung des Trends innerhalb des gewählten Zeitraums geändert hat.

Vorgehen

Die wöchentlich (Google) bzw. zweiwöchentlich (Infratest) erhobenen Daten werden in monatliche Mittelwerte umgewandelt und im Zeitverlauf dargestellt. Zur Untersuchung der Korrelation werden die Daten zunächst auf das Intervall [0,1] normiert. Anschließend wird der Google-Trend schrittweise um einen Tag relativ zur Sonntagsfrage verschoben und die Verschiebung gewählt, die die höchste Korrelation herstellt.
Eine leichte Säuberung der Daten ist nötig, da die Berichterstattung über die AfD Ende 2013 stark ausreißt.

png

Diskussion des bisherigen Ergebnisses

Wir beobachten einen starken Peak der Berichterstattung über die AfD im September 2013. Wir betrachten daher nur Daten ab 2014, ein punktweises Entfernen des Peaks erscheint unnötig, da er nah am Beginn des Datensatzes liegt.
Offenbar korrelieren die Verläufe aber relativ stark.

Normierung

Wir normieren die Daten in das Intervall [0,1], was hauptsächlich der leichteren statistischen Handhabe dient. Zudem ist der Google-Wert arbiträr, wir wollen ihm also nur relativ zu sich selbst Vertrauen schenken.

png

Normierte und abgeschnittene Daten

Die Korrelation der Daten ab 2014 ist mit 0.68 relativ stark (die Normierung hat hierauf keinen Einfluss).

Zeitverschiebung der Google-News

Wir werden nun die News-Trends schrittweise um je einen Tag verschieben und den Shift festhalten, der die größte Korrelation realisiert.
Hierfür gehen wir wie folgt vor:

  1. Abschneiden der Google- und Infratest-Daten vor 2014
  2. Verschieben des Google-Datensatzes um von -50 bis +50 Tagen und jeweils:
    • Vereinigen des geshifteten Google-Datensatzes mit dem von Infratest
    • Berechnen der Korrelation des vereinigten Satzes
    • Speichern von Verschiebung gegen Korrelation
  3. Auslesen der Verschiebung mit maximaler Korrelation
  4. Normieren und Analysieren des Datensatzes mit maximaler Korrelation

Vorläufiges Resultat

Wir finden die maximale Korrelation von 0.769 bei einer Verschiebung der Google-Daten um 29 Tage. Zur Veranschaulichung plotten wir diesen Datensatz nochmals.

png
Achtung: Die Achsenbeschriftungen sind fälschlicherweise vertauscht!

Zusammenfassung

Die gewonnenen Daten weisen darauf hin, dass die Berichterstattung dem Umfrageverhalten um ca. 29 Tage vorauseilt. Naheliegend ist die Erklärung als Effekt der Aufmerksamkeitsökonomie: Spült die Presse (wohlgemerkt sind im Google News Trend nicht nur die großen Zeitungen enthalten, sondern auch Blogger, Twitter, Newsgroups, etc. Es handelt sich also nicht zwingend um eine Metrik der Präsenz in den Leitmedien, vielmehr enthält dieser Trend auch das „Rauschen“ in den Medien und sozialen Netzwerken) die AfD wieder in das öffentliche Bewusstsein, folgen die Wahlberechtigten mit einer Latenz von etwa einem Monat nach.
Natürlich sind die verwendeten Datensätze nicht besonders aussagekräftig und es liegen sicher multikausale Effekte vor. Jedoch erscheint eine so starke Korrelation (0.769) bei einer etwa einmonatigen Latenz mehr als zufällig.

Weitere Untersuchungen

Man sollte zunächst eine ähnliche Analyse für die anderen deutschen und auch europäischen Parteien durchführen. Eine Verbesserung der Daten wäre ebenfalls wünschenswert. Erklärungsmodelle sollten gefunden und verglichen werden. Ebenso ist eine detailliertere statistische Analyse der Daten notwendig.

Das könnte Dich auch interessieren...

3 Antworten

  1. Daniel sagt:

    Hallo Robin,
    um zu testen, ob die Korrelation tatsächlich signifikant von 0 verschieden ist, kann man das Problem mal mit
    zwei voneinander unabhängigen Zeitreihen simulieren. Ich kann kein Python, sondern nutze R [aber R-Code ist
    eigentlich ganz gut lesbar]. Eine Korrelation von 0.77 oder mehr kommt bei zwei unabhängigen Zeitreihen mit Gauss-Rauschen in in mehr als 5% der Fälle vor. Dein Ergebnis ist somit nicht signifikant. Bei Fragen kannst du mir gerne eine E-Mail schreiben.
    Viele Grüße, Daniel.

    set.seed(123)
    # ca. 3 Jahre monatliche Daten ergeben 36 Datenpunkte
    calc_corr <- function(n = 36, trim = 0, sd = 1){
    x <- rnorm(1); y <- rnorm(1);
    for(i in 1:(n-1)){x <- c(x, x[i] + rnorm(1, sd = sd))}; rm(i)
    for(i in 1:(n-1)){y <- c(y, y[i] + rnorm(1, sd = sd))}; rm(i)
    if(trim == 0) return(cor(x,y))
    opt <- sapply(0:trim, function(i) cor(x[1:(n-i)],y[(i+1):n]))
    return(max(opt))
    }

    # Ohne Optimierung:
    res = 0.77)) / 10000
    # 0.0517 (p-Wert nicht signifikant, da > 0.05)

    # Mit 2-Wochen-Optimierung:
    res2 = 0.77)) / 10000
    # 0.0633 (p-Wert nicht signifikant, da > 0.05)

    • Robin sagt:

      Hi Daniel,

      danke für deinen Kommentar!
      Ja, völlig klar, mit den vorhandenen Daten kann ich nicht von Signifikanz sprechen. Signifikanz ist aber auch nur bedingt der relevante Blickwinkel. Die Korrelation ist hier ja insbesondere im Vergleich mit den anderen Parteien auffällig hoch und – das habe ich erwähnt – wächst mit der Zeitverschiebung der Trend-Daten.

      Die Korrelationen, die du berechnest, sind ja auch immerhin unter 10%, damit liegen wir in meinem Fall natürlich unter der „wissenschaftlichen“ 5%-Signifikanz, aber selbst die wäre mir als Physiker mit meinen 6 Sigma immer noch viel zu „schlecht“.

      Letztlich ist es denke ich klar, dass die Daten für keine belastbare Statistik herhalten. Der Trend ist aber doch deutlich und insbesondere im Vergleich mit den anderen Parteien (siehe meinen anderen Beitrag dazu) auffallend.

  1. 2. August 2017

    […] im Falle der AfD (siehe hier) vergleichen wir die Google Trends mit den Infratest Umfragewerten der Parteien CDU, SPD, Linke, […]

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert