# Pandas 3 – Mit DataFrames rechnen

Mit DataFrames kann man nicht nur Metadaten diverser Datentypen bearbeiten, filtern und sortieren, sie eignen sich inbesondere auch sehr gut, um Berechnungen auf größeren Datenmengen einfach und effizient durchzuführen. Darum geht es in diesem Input. 

Als bekannt vorausgesetzt wird hier: DataFrames aus CSV einlesen, DataFrames aus Listen erstellen, DataFrames sortieren, slicen und filtern, DataFrames abspeichern (siehe Pandas 2). 

Neu hier ist: Berechnungen auf mehreren ganzen Spalten; Kombination von numpy mit DataFrames; Visualisierung von DataFrames.  

## Importe

In [2]:
from sklearn.feature_extraction.text import CountVectorizer
import glob
from os.path import join
import os
import pandas as pd
import numpy as np

## Daten: Worthäufigkeiten

Als Beispieldatensatz erstellen wir uns eine Worthäufigkeitstabelle aus einem Textkorpus. 

Das geht am Einfachsten mit der Methode `Count.Vektorizer` aus dem Paket sklearn. Siehe: https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html

In [9]:
datafolder = join("..", "data", "doyle", "")

def create_tdm(datafolder):
    # Create idnos and files as lists
    files = glob.glob(join(datafolder, "*.txt"))
    idnos = [os.path.basename(file).split(".")[0] for file in files]
            
    # Define and apply vectorizer
    vectorizer = CountVectorizer(input="filename", min_df=4, max_df=10) # min_df, max_df: document frequency
    tdm = vectorizer.fit_transform(files)
    
    # Get vocabulary and transform to TDM / DataFrame
    vocab = [item[0] for item in sorted(vectorizer.vocabulary_.items(), key=lambda x: x[1])]
    tdm = pd.DataFrame(tdm.toarray().T, columns=idnos, index=vocab)

    # Sanity check: inspect results
    print("number of texts:", len(files))
    print("number of words:", len(vocab))
    print(tdm.head())
    return tdm

tdm = create_tdm(datafolder)


number of texts: 12
number of words: 5854
           acd006  acd012  acd011  acd001  acd010  acd007  acd005  acd004  \
11              0       0       0       3       0       1       1       0   
13              1       0       1       4       0       0       0       0   
aback           0       0       1       0       0       0       2       1   
abandon         2       0       3       3       1       0       4       0   
abandoned       4       1       0       3       3       2       1       1   

           acd002  acd009  acd008  acd003  
11              0       2       0       0  
13              0       1       0       0  
aback           1       0       0       0  
abandon         1       2       0       0  
abandoned       4       2       0       0  


## Metadaten hinzufügen

Jetzt haben wir zwar eine Term-Dokument-Matrix, repräsentiert als DataFrame; und wir haben die Spalten und Zeilen auch schon beschriftet. Aber die Kürzel der Dateien sind doch nicht sehr informativ. Es wäre also schön, (a) sie durch die Kurztitel der Romane (oder andere Informationen) zu ersetzen. 

Wir müssen bedenken, dass die Sortierung der Dokumente in unseren DataFrame und die Sortierung in der Metadatentabelle nicht übereinstimmen müssen. Deswegen sortieren wir beide bevor wir sie verbinden. 

Weil die Funktion parametrisierbar ist, lassen sich leicht andere Metadaten-Kategorien nutzen.

In [8]:
metadatafile = join(datafolder, "metadata.csv")
target = "subgenre" # oder: subgenre, year

def add_metadatum(tdm, metadatafile, target): 
    with open(metadatafile, "r", encoding="utf8") as infile: 
        metadata = pd.read_csv(infile)
        metadata.sort_values(by="idno", ascending=True, inplace=True)
        #print(metadata.head())
    metadatum = list(metadata.loc[:,target])
    #print(metadatum)
    tdm = tdm.reindex(sorted(tdm.columns), axis=1)
    tdm.columns = metadatum
    print(tdm.head())
    return tdm
    
tdm = add_metadatum(tdm, metadatafile, target)

           StudyScarlet  HoundBaskervilles  SignFour  WhiteCompany  Refugees  \
11                    0                  0         0             1         0   
13                    0                  0         1             0         0   
aback                 1                  1         0             2         0   
abandon               0                  1         2             4         1   
abandoned             1                  4         4             1         3   

           FirmGirdlestone  MysteryCloomber  RafflesHaw  Parasite  LostWorld  \
11                       1                2           0         3          0   
13                       0                1           0         4          0   
aback                    0                0           0         0          0   
abandon                  0                2           0         3          0   
abandoned                2                2           0         3          1   

           ValleyFear  PoisonBelt  
11

## Summen bilden: Dokumentlänge, Worthäufigkeit

Zunächst einmal können wir auf einer solchen Term-Dokument-Matrix (repräsentiert als DataFrame) die Dokumentlängen und die Häufigkeiten der Wörter im Korpus ermitteln: durch eine zeilenweise oder spaltenweise Summenbildung. 

Achtung: Wenn wir beim Aufbau der TDM nicht alle Wörter berücksichtigt haben (bspw. wegen Stoplists, minimaler Wortlänge oder minimaler Dokumenthäufigkeit), dann repräsentieren die Zahlen hier natürlich auch nicht die tatsächliche Länge der vollständigen Dokumente. 

In [None]:
import numpy as np

doclens = np.sum(tdm, axis=0) # 0 = spaltenweise = je Text
print(type(doclens),"\n", doclens)

wordcounts = np.sum(tdm, axis=1) # 1 = zeilenweise = je Wort
print(type(wordcounts), "\n\n", wordcounts)

## Relative Häufigkeiten berechnen

Relative Häufigkeiten machen die absoluten Häufigkeiten in Dokumenten unterschiedlicher Länge vergleichbar. Deswegen wird diese Art der "Normalisierung" sehr häufig eingesetzt. 

Wir nehmen die Länge der Dokumente in ihrer Gesamtheit als Grundlage für die Berechnung (siehe oben, `df_min=1`). Wir teilen jede absolute Worthäufigkeit (Zelle) durch die Summe der Worthäufigkeit des relevanten Textes (spaltenweise Summe). 

Statt Zelle pro Zelle durch den DataFrame zu iterieren, dividieren wir gewissermaßen jede Zeile (als ein Vektor) durch die Liste der Dokumentlänge (auch als ein Vektor). Alle Werte einer Zeile (ein Wert pro Dokument für den relevanten Term) werden also durch unterschiedliche Werte geteilt. Man könnte auch sagen: Wir dividieren die ganze TDM durch einen passenden Vektor in Zeilenlänge. 

Wir können die Variable `doclens` von oben nachnutzen. Wir fügen die Summe der relativen Häufigkeiten pro Wort als Spalte hinzu, sortieren danach und inspizieren die häufigsten Wörter. 


In [None]:
# Relative Häufigkeiten
relfreqs = np.divide(tdm, doclens) * 100 # x100 = Prozent
#print(relfreqs.head())

# Sanity check: Welche Wörter sind am häufigsten, und wie häufig?
relfreqs["relfreqsum"] = np.sum(relfreqs, axis=1)
relfreqs.sort_values(by="relfreqsum", inplace=True, ascending=False)
relfreqs.drop("relfreqsum", inplace=True, axis=1)
print(relfreqs.head(10))

## Z-Scores berechnen

Eine weiter gehende Normalisierung von Worthäufigkeiten sind Z-Scores. 

Hier werden für jede relative Worthäufigkeit weitere Berechnungen vorgenommen: Man subtrahiert den Mittelwert der Häufigkeit des Wortes von der relativen Häufigkeit (= "Zentrierung": der neue Mittelwert wird 0 sein); und man dividiert das Ergebnis durch die Standardabweichung der relativen Häufigkeit des Wortes (= Standardisierung: die neue Standardabweichung wird 1 sein). 

Wir müssen den DF transponieren (rotieren), um die Subtraktion ausführen zu können. Wir transponieren ihn zurück, um die gleiche TDM zu bekommen.

Es gibt viele weitere Möglichkeiten, Worthäufigkeiten zu normaliseren, bspw. TF-IDF. 

In [None]:
# Mean relative frequency and standard deviations per word
meanfreqs = np.mean(relfreqs, axis=1)
stdevs = np.std(relfreqs, axis=1)

# Sanity checks: len should be vocabulary, not documents
print(len(meanfreqs))
print(len(stdevs))

# Z-Score transformation: DataFrame by Series
zscores = np.divide(np.subtract(relfreqs.T, meanfreqs), stdevs).T
#print(zscores.head())

# Sanity checks: 
# - means should be (close to) 0, zeilenweise; Rundungsfehler
# - stdevs should be (close) 1, zeilenweise
# - min/max should be around -4,+4 not much more
zs_means = np.mean(zscores, axis=1)
zs_stdevs = np.std(zscores, axis=1)
zs_max = np.max(np.max(zscores, axis=1)) # Erst zeilenweise, dann max davon
zs_min = np.min(np.min(zscores, axis=1))
print("means", list(zs_means)[0:10])
print("stdevs", list(zs_stdevs)[0:10])
print("max", zs_max)
print("min", zs_min)


## Visualisierung von Werten

Für einfache Visualisierungen von Ergebnissen auf der Basis eines DataFrames kann man direkt pandas nutzen. 

Grundlage dafür ist die Methode `.plot()`. 

Siehe: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html

Für weitergehende Visualisierungsmöglichkeiten sind Bibliotheken nützlich, die einen DataFrame als Input nutzen können, darunter: Seaborn, Pygal, Matplotlib. 

In [None]:
# Dokumentlängen (plot mit Series)

title = "Länge der Dokumente im Korpus"
doclens = np.sum(tdm, axis=0)
doclens.plot(kind="barh", title=title)



In [None]:
# Verteilung der relativen Häufigkeiten einzelner Wörter in den Texten

term = "he"   # "moor", "crime", "car", "question"
title = "Relative Häufigkeiten des Terms: " + term
ylabel = "Relative Häufigkeit in Prozent"
fig1 = relfreqs.loc[term,:].plot(kind="bar", title=title)
fig1.set_ylabel(ylabel)

In [None]:
# Verteilung der Z-Scores eines Wortes in den Texten

term = "she"   # "moor", "crime", "car", "question", "he", "she"
title = "Z-Scores des Terms: " + term
ylabel = "Z-Score als Standardabweichung"

fig1 = zscores.loc[term,:].plot(kind="bar", title=title)
fig1.set_ylabel(ylabel)