# Einführung in Python für die Computational Social Science (CSS)

## Jonas Volle
Wissenschaftlicher Mitarbeiter  
Chair of Methodology and Empirical Social Research  
Otto-von-Guericke-Universität

[jonas.volle@ovgu.de](mailto:jonas.volle@ovgu.de)

**Sprechstunde**: individuell nach vorheriger Anmeldung per [Mail](mailto:jonas.volle@ovgu.de)

Samstag, 17.06.2023

**Quelle:** Ich orientiere mich für diese Sitzung in Teilen am Kapitel 7 aus dem Buch:  

McLevey, John. 2021. Doing Computational Social Science: A Practical Introduction. 1st ed. Thousand Oaks: SAGE Publications.

und der Introduction to Computational Social Science methods with Python von GESIS unter: https://github.com/gesiscss/css_methods_python 

# Tag 4: 
- Visualisierung
- explorative Datenanalyse
- Kurzer Exkurs zu Textanalysen

In [None]:
import pandas as pd 
import numpy as np 

## Beschreibung und Visualisierung von Verteilungen

Für **metrische** Daten können wir Statistiken, wie Median, Mittelwert oder Standardabweichung berechnen.

In [None]:
print(f'Median Egalitarian Democracy Score: {}') 
print(f'Mean Egalitarian Democracy Score: {}') 
print(f'Standard Deviation: {}')

Mit `numpy` können wir die Statistiken runden:

In [None]:
print(f'Median Egalitarian Democracy Score: {}') 
print(f'Mean Egalitarian Democracy Score: {}') 
print(f'Standard Deviation: {}')

Für **kategoriale** Daten können wir uns einzigartige (unique) Elemente ansehen:

und das Auftreten der Kategorien zählen.

Aus dieser Statistik können wir auch einen schönen Plot erzeugen. Hierfür verwenden wir das Paket `seaborn`. Die Dokumentation finden wir unter: https://seaborn.pydata.org/index.html

Wir können die Autoren auf der y-Achse auch sortieren:

Und die Labels umbenennen:

In [None]:
region_strings = { 1: "Western Europe", 
                  2: "Northern Europe", 
                  3: "Southern Europe", 
                  4: "Eastern Europe", 
                  5: "Northern Africa", 
                  6: "Western Africa", 
                  7: "Middle Africa",
                  8: "Eastern Africa", 
                  9: "Southern Africa", 
                  10: "Western Asia", 
                  11: "Central Asia", 
                  12: "East Asia", 
                  13: "South-East Asia", 
                  14: "South Asia", 
                  15: "Oceania", # (including Australia and the Pacific) 
                  16: "North America", 
                  17: "Central America", 
                  18: "South America", 
                  19: "Caribbean" # (including Belize, Cuba, Haiti, Dominican Republic and Guyana) 
                 }

### Univariate Histogramme

Um uns die Verteilung metrischer Variablen anzusehen, können wir Histogramme verwenden:

Wir können dieses Histogramm anpassen wie wir wollen. Wir können z.B. die Anzahl der bins verändern:

oder die Breite der bins verändern:

Dem Histogramm können wir z.B. auch eine Dichtefunktion hinzufügen:

### Bosplots

Die Verteilung des Egalitarian Democracy Index können wir uns auch mit einem Boxplot ansehen:

### Konditionale Histogramme

Wir können mit `.displot()` die Verteilungen einer Variable unter einer Bedingung ansehen. In diesem Fall die Verteilung des Egalitarian Democracy Index unter der Bedingung, dass die jeweiligen Länder Demokratien sind (`e_boix_regime == 1`) oder nicht (`e_boix_regime == 0`).

Wir können diese beiden Hstogramme auch in einem Koordinatensystem ansehen:

In [None]:
grayscale_cmap = sns.cubehelix_palette(50,
                                       hue=0.05,
                                       rot=0,
                                       light=0.9,
                                       dark=0,
                                       as_cmap =True) 

Auch hier können wir wieder Dichtefunktionen hinzufügen:

In [None]:
grayscale_cmap = sns.cubehelix_palette(50, hue=0.05, rot=0, light=0.9, dark=0, as_cmap =True) 



Diese zwei bedingten Verteilungen, können wir uns auch mit Boxplots ansehen:

### Visualisierung gemeinsamer Verteilungen

#### Kreuztabellen

Die gemeinsame Verteilung zweier kategorialer Variablen können wir mit einer Kreuztabelle untersuchen:

### Scatterplots

Um den zusammenhang zweier metrischer Variablen zu beobachten, können wir Scatterplots verwenden:

In diesem Plot überlappen sich die Punkte sehr. Wir können die Transparenz der Punkte mit `alpha` etwas heruntersetzen und so die Ansammlungen von Datenpunkten besser sehen:

### Line of best fit

Unter Annahme eines linearen Zusammenhangs, können wir eine Regressionsline/Korrelationslinie in die Daten plotten, die den Abstand zwischen sich selbst und jeder Beobachtung minimiert.

### Korrelation

Die Korrelation können wir ganz einfach mit der `.corr()` Funktion berechnen:

Die Korrelation ist ein Maß für die lineare Beziehung bzw. Abhängigkeit zwischen zwei Variablen. Wenn zwei Variablen eine starke lineare Beziehung aufweisen - mit anderen Worten, wenn ein hohes Maß an Abhängigkeit zwischen ihnen besteht -, dann können wir die Werte der einen Variablen verwenden, um die Werte der anderen vorherzusagen. Die Korrelation beschreibt die standardisierte Richtung einer linearen Beziehung zwischen Variablen sowie die Stärke dieser Beziehung. Die Korrelationskoeffizienten liegen zwischen -1 und +1, wobei ein Koeffizient von 1 für eine vollkommen lineare abhängige Beziehung zwischen zwei beliebigen Variablen steht. Ein Koeffizient von -1 steht ebenfalls für eine perfekt lineare abhängige Beziehung, allerdings in der entgegengesetzten Richtung.

In [None]:


print(f'Correlation of v2x_libdem and v2x_partipdem: {}')
print(f'Correlation of v2x_libdem and year: {}')

Wenn wir mehrere metrische Variablen haben, deren Zusammenhang wir prüfen möchten, können wir eine Korrelationsmatrix erstellen, die die Korrelationswerte aller möglichen Kombinationen der variablen enthält:

Diese Matrix können wir mit einer Heatmap darstellen:

Diese Heatmap spiegelt sich entlang der Diagonalen. Eine doppelte Hälfte können wir auch ausblenden, indem wir eine Maske erzeugen.

### Schnelle Vergleiche mit Paarplots

Wenn wir eine Reihe an metrischen Variablen haben, die wir schnell miteinander vergleichen wollen. Können wir das mit `sns.pairplot()` tun.

**Zeit für Übung 1**

## Textanalysen

Nun ein kurzer Ausblick in die Textanalyse mit Python. Wir benutzen exemplarisch die Artikel, die wir von der cyclingnews Webseite gescraped haben.

Als nächstes müssen wir das Paket `spacy` installieren und ein Sprachmodel herunterladen.

In [None]:
#!conda install spacy

In [None]:
#!python -m spacy download en_core_web_sm

In [None]:
# import von spacy


In [None]:
# Laden des kleinen englischen Sprachmodels


### Tokenization

Die durch Leerzeichen und Interpunktion getrennten Wörter eines Textdokuments werden als Token bezeichnet.

### Lemmatization

Ein Lemma ist die Grundform eines Wortes.  

go, goes, went, gone oder going --> go

In [None]:


# Process the text with spaCy and perform lemmatization


In [None]:
# Print words and extractes lemmas


### Stemming

Beim Stemming werden die Suffixe von Wörtern entfernt, um eine vereinfachte Form des Wortes zu erhalten.

running, runner, run -> run

Ein weit verbreiteter Stemming Algorithmus ist der von Porter.

In [None]:
# !conda install nltk

In [None]:
# !python -m nltk.downloader popular

In [None]:
# Finally we can recover the text of the tweet after lemmatization


### N-grams

N-grams sind Kombinationen von n Wörtern. Das Paket `gensim` kann u.a. Worte erkennen, die oft zusammen auftauchen.

In [None]:
# import gensim

# gensim expect as input tokenized texts


In [None]:
# extract bigrams


In [None]:
# visualize the extracted bigrams


### Stopwords

Stoppwörter sind Wörter, die häufig in einer Sprache verwendet werden, aber normalerweise keine große Bedeutung oder keinen semantischen Wert haben, wenn sie im Kontext verwendet werden. Beispiele für Stoppwörter im Englischen sind "the", "a", "an", "and", "in", "on", "is", "are", "for", "with" und so weiter.

In [None]:
# import spacy stopwords

In [None]:

# Process the text with spaCy


# Define the list of stop words


In [None]:
# Remove stop words from the text


In [None]:
# Print the original and filtered text, and the stop words removed


In [None]:
# add stopwords to list


### Parts of Speech

English has 9 main categories:

verb — Expresses an action or a state of being. E.g. jump, is, write, become  
noun — identifies a person, a place or a thing or names of particular of one of these (pronoun). E.g. man, house, happiness  
pronoun — can replace a noun or noun phrase. E.g. she, we, they, it  
determiner — Is placed in front of a noun to express a quantity or clarify  what the noun refers to 
adjective — modifies a noun or a pronoun. E.g. pretty, old, blue, smart  
adverb — modifies a verb, an adjective, or another adverb. E.g. gently, extremely, carefully, well  
preposition — Connect a noun/pronoun to other parts of the sentence. E.g. by, with, about, until  
conjunction — glue words, clauses, and sentences together. E.g. and, but, or, while, because  
interjection — Expresses emotion in a sudden or exclamatory way. E.g. oh!, wow!, oops!  

In [None]:
for token in doc:
    print(token.text, token.pos_)

In [None]:
spacy.explain("PROPN")

### Preprocessing Pipeline

Verschiedene Vorverarbeitungsschritte können wir in einer Pipeline an Funktionen zusammenfassen:

In [None]:
import spacy
import re # regex
from nltk.tokenize import word_tokenize
from spacy.lang.en.stop_words import STOP_WORDS
nlp = spacy.load("en_core_web_sm")

Sonderzeichen, Zahlen, Zeilenumbrüch etc. entfernen. In dieser Funktion benutzen wir reguläre Ausdrücke `regex`. Eine Übersicht über diese Ausdrücke finden wir z.B. hier: https://images.datacamp.com/image/upload/v1665049611/Marketing/Blog/Regular_Expressions_Cheat_Sheet.pdf

In [None]:
def clean_text(text):

    # remove punctuation and special characters
    pattern = r"[^\w\s]"
    

    # remove numbers
    pattern = r"\d+"
    

    # remove all non-ASCII characters
    pattern = r"[^\x00-\x7F]+"
    

    # remove new line characters
    

    # remove empty spaces left by regex
    
    
    return text_clean

... Tokenisierung

... Stopwords entfernen

... Bigrams hinzufügen

... stemmen

... lemmatisieren

Alle Funktionen können wir jetzt in eine Pipeline integrieren. Diese Funktion nimmt einen Textkorpus auf. Ein Textkorpus besteht aus einer Reihe an Dokumenten. Diese Dokumente können z.B. in einer Liste oder einem array gespeichert sein.

In [None]:
def pipeline(corpus):
    print("Cleaning text...")
    corpus = [clean_text(text) for text in corpus]

    print("Tokenization...")
    corpus = tokenization(corpus)

    print("Lowercasing...")
    corpus = [[el.lower() for el in text] for text in corpus]

    print("Stop Words removal...")
    corpus = remove_stop_words(corpus)
    
    print("Extract bigrams...")
    corpus = add_bigrams(corpus)

    print("Lemmatization...")
    corpus = lemmatization(corpus)

    print("Stop Words removal after lemmatizing...")
    corpus = remove_stop_words(corpus, stop_words)

    print("Removing tokens that are too short...")
    corpus = [[c for c in text if len(c) > 2] for text in corpus]

    return corpus

Nun erstellen wir unseren Corpus:

In [None]:


# we create a dictionary
dictionary = Dictionary(corpus_p)

In [None]:
# covert the corpus to bag of words format 


In [None]:
print("Number of words in the dictionary: {0}".format(len(dictionary)))
print("Dictionary first 5 elements (id, token):", list(dictionary.items())[:5])

In [None]:
print("First document in bag-of-words format (raw):", document_term_matrix[0])

In [None]:
print("First document in bag-of-words format (word, frequency):",
      [[dictionary[id], freq] for id, freq in document_term_matrix[0]])

Top words im Corpus:

In [None]:
cn_top_words = pd.DataFrame([[dictionary[id], freq] for id, freq in dictionary.cfs.items()],
                            columns=['word', 'count']).sort_values('count', ascending=False).head(20)

cn_top_words

### export

### Topic Model

Topic Models sind probabilistische Modelle, die zur Bestimmung von semantischen Clustern in Dokumentensammlungen verwendet werden. Sie eignen sich für die Erforschung von Textdaten, da sie thematische Strukturen finden, die nicht im Voraus definiert sind. Die Berechnung zielt darauf ab, die proportionale Zusammensetzung einer festen Anzahl von Themen in den Dokumenten einer Sammlung zu bestimmen. Diese semantischen Cluster können wir als Themen interpretieren.

Topic Modelle liefern Wahrscheinlichkeitsverteilungen über die Menge aller Wörter für jedes Thema und Wahrscheinlichkeitsverteilungen über die Menge der Themen für jedes Dokument. Jede kleinste Analyseeinheit (z. B. ein Wort oder ein n-Gramm) hat eine Wahrscheinlichkeit, zu jedem Thema zu gehören, und jedes Thema hat eine Wahrscheinlichkeit, in jedem Dokument aufzutreten. Ein Thema wird semantisch interpretierbar durch die n wahrscheinlichsten Wörter, die es enthält.

In [None]:
# print the topics and associated keywords


Auswahl des Modells anhand des Kohärenz Scores. 


Die Topic Kohärenz bewerten ein einzelnes Topic, indem sie den Grad der semantischen Ähnlichkeit zwischen hoch bewerteten Wörtern im Thema messen. Diese Messungen helfen bei der Unterscheidung zwischen Themen, die semantisch interpretierbar sind, und Themen, die Artefakte statistischer Inferenz sind.  Zusätzlich können wir verschiedene Modelle mit dem Wert der mittleren Kohärenz vergleichen.

In [None]:
from gensim.models import CoherenceModel

scores = []
models = []

for num_topics in np.arange(5, 20):

    # fit LDA model
    lda_model = LdaModel(document_term_matrix,
                         id2word=dictionary,
                         num_topics=num_topics,
                         random_state=12345
                        )

    # compute Coherence Score
    coherence_model_lda = CoherenceModel(model=lda_model,
                                         texts=corpus_p,
                                         dictionary=dictionary)
    
    coherence_lda = coherence_model_lda.get_coherence()
    print('\nCoherence Score with {0} topics: {1}'.format(num_topics, coherence_lda))

    scores.append([num_topics, coherence_lda])
    models.append(lda_model)

In [None]:
scores_df = pd.DataFrame(scores, columns=['num_topic', 'coherence_score'])

In [None]:
ax = sns.lineplot(data=scores_df,
                  x='num_topic', 
                  y='coherence_score')
plt.show()

In [None]:
scores_df[scores_df.coherence_score == max(scores_df.coherence_score)]

In [None]:
# best model
lda_model_best = models[8]

In [None]:
# pyldavis