## Einführung in pandas

Die pandas-Library ist zentral für die Datenhaltung bei Visualisierung, Analyse und Machine Learning. 

Ressourcen: 

- Webseite: https://pandas.pydata.org/
- 10 Minutes to Pandas: https://pandas.pydata.org/docs/user_guide/10min.html
- API reference für DataFrame: https://pandas.pydata.org/docs/reference/frame.html
- Lehrbuch-Kapitel: "Data Manipulation with Pandas" in: Jake VanderPlas, _Python Data Science Handbook_. 

Als Datensatz für die wichtigsten Funktionen von pandas dient eine Metadaten-Tabelle für ein Textkorpus. 

In [221]:
# Import 

import pandas as pd

### Datenformate in pandas

- Series: 1-dimensional (plus index und name)
- DataFrame: 2-dimensional (mit index und column header) – wichtigstes Format
- Panel: 3-dimensional (seltener gebraucht)

### Daten in pandas laden







In [222]:
# Series aus einer Liste erstellen 

authors = ["Rétif", "Diderot", "Voltaire"]
authors_sr = pd.Series(authors, name="authors")
#print(authors_sr)


# DataFrame aus zwei Listen erstellen (via dict)

authors = ["Rétif", "Diderot", "Voltaire"]
works = ["Paysan", "Jacques", "Candide"]
authorsandworks_dict = dict(zip(authors, works))
authorsandworks_df = pd.DataFrame.from_dict(authorsandworks_dict, orient="index", columns=["works"]).index_col=None
#print(authorsandworks_df)


# DataFrame aus zwei Series erstellen 

authors_sr = pd.Series(["Rétif", "Diderot", "Voltaire"], name="authors")
works_sr = pd.Series(["Paysan", "Jacques", "Candide"], name="works")
authorsandworks_df = pd.concat([authors_sr, works_sr], axis=1)
#print(authorsandworks_df)


# DataFrame aus zwei dict mit unterschiedlichen keys 

authors_sr = pd.Series({1 : "Rétif", 2 : "Diderot", 3 : "Beaumont"}, name="authors")
works_sr = pd.Series({2 : "Jacques", 3 : "Maison", 4 : "Candide"}, name="works")
authorsandworks_df = pd.concat([authors_sr, works_sr], axis=1)
#print(authorsandworks_df)
authorsandworks_df.fillna("#missing#", inplace=True)
#print(authorsandworks_df)


### DataFrame aus CSV laden

In [224]:
with open("roman18_metadata_test.tsv", "r", encoding="utf8") as infile: 
    #metadata = pd.read_csv(infile, sep=";")
    #metadata = pd.read_csv(infile, sep="\t")
    metadata = pd.read_csv(infile, sep="[\t|;]", engine="python")
print(metadata.head())

              filename                            au-name  au-birth  au-death  \
0       Bastide_Maison              Jean François Bastide      1724      1798   
1  Beauharnais_Lettres               Fanny de Beauharnais      1737      1813   
2       Beaumont_Belle  Jeanne-Marie Leprince de Beaumont      1711      1776   

                   title au-gender  firsted-yr  printSource-yr  \
0       La Petite Maison         M        1762            1879   
1  Lettres de Stéphanie         F        1778            1778   
2    La Belle et la Bête         F        1756            1806   

             form    spelling  token-count  
0  heterodiegetic      modern         6933  
1      epistolary  historical       130178  
2  heterodiegetic      modern         5599  


### DataFrame inspizieren

In [225]:
with open("roman18_metadata.tsv", "r", encoding="utf8") as infile: 
    metadata = pd.read_csv(infile, sep="\t")


# Ganz anzeigen
#print(metadata)

# Beginn anzeigen
#print(metadata.head())

# Ende anzeigen
#print(metadata.tail(2))

# Shape, Index, Columns
#print("shape:\n", metadata.shape)
#print("index:\n", metadata.index)
#print("columns:\n", metadata.columns)


### DataFrame bearbeiten 

In [278]:
with open("roman18_metadata_test.tsv", "r", encoding="utf8") as infile: 
    metadata = pd.read_csv(infile, sep="\t")
#print(metadata.head())

# Spalte als Index verwenden
metadata.set_index("filename", inplace=True)
#print(metadata)

# Mehrere Spalten auswählen
#selection = metadata[["au-name", "title", "au-gender", "form"]]
#print(selection)

# Teil des DataFrame nach Label auswählen
#selection = metadata.loc[:,["au-name"]] # index,columns
#selection = metadata["au-name"]

# Nach Index
#metadata.set_index("filename", inplace=True)
#print(metadata)
#selection = metadata.loc["Bastide_Maison",:]
#print(selection)

# Nach Index und Column
#print(metadata)
selection = metadata.loc["Bastide_Maison", ["spelling", "token-count"]]
#print(selection)
#print(type(selection))

# Slicing 
selection = metadata.iloc[0:2,2:5]
#print(selection)
selection = metadata.iloc[:,-3:]
#print(selection)
selection = metadata.iloc[[0,2],[3, 7]]
#print(selection)
# Zeilen oder Spalten löschen 
selection = metadata.drop("Bastide_Maison", axis=0) # rows
#print(selection)
selection = metadata.drop("au-name", axis=1) # columns
#print(selection)
selection = metadata.drop(["au-name", "au-gender"], axis=1) # columns
#print(selection)

# Dataframe filtern
#print(metadata)
#selection = metadata[metadata["spelling"] == "historical"]
#selection = metadata[metadata["spelling"] != "historical"]
#selection = metadata[metadata["spelling"] == "modern"]
#selection = metadata[metadata["au-birth"] < 1720]
#selection = metadata[metadata["au-birth"] > 1720]
#print(selection)

# Dataframe sortieren 
selection = metadata.loc[:,["au-name", "au-birth", "title"]]
#print(selection)
selection.sort_values(by="au-birth", ascending=True, inplace=True)
#print(selection)

# Dataframe drehen (transpose)
#metadata.T





filename,Bastide_Maison,Beauharnais_Lettres,Beaumont_Belle,Boufflers_Reine,CastilhonJL_Zingha
au-name,Jean François Bastide,Fanny de Beauharnais,Jeanne-Marie Leprince de Beaumont,Stanislas de Boufflers,Jean-Louis Castilhon
au-birth,1724,1737,1711,1738,1721
au-death,1798,1813,1776,1815,1798
title,La Petite Maison,Lettres de Stéphanie,La Belle et la Bête,La Reine de Golgonde,"Zingha, reine d'Angola"
au-gender,M,F,F,M,M
firsted-yr,1762,1778,1756,1760,1769
printSource-yr,1879,1778,1806,1761,1769
form,heterodiegetic,epistolary,heterodiegetic,autodiegetic,heterodiegetic
spelling,modern,historical,modern,modern,historical
token-count,6933,130178,5599,4445,42519


### Berechnungen auf dem DataFrame


In [245]:
import numpy as np 

with open("roman18_metadata_test.tsv", "r", encoding="utf8") as infile: 
    metadata = pd.read_csv(infile, sep="\t")
metadata.set_index("filename", inplace=True)

# Mittelwert einer Spalte (ohne unbekannte Werte / Strings)
selection = metadata[metadata["au-birth"] != "unknown"]
selection = metadata[metadata["au-death"] != "unknown"]
#print(np.mean(selection["au-birth"]))

# Wie alt wurden die Autor:innen? 
selection = metadata.loc[:,["au-name", "au-birth", "au-death"]]
selection.set_index("au-name", inplace=True)
#print(selection)
#selection["age"] = selection["au-death"] - selection["au-birth"]
#print(selection)

# Wie alt waren die Autor:innen, als der Roman jeweils erschient?
selection = metadata.loc[:,["au-birth", "firsted-yr"]]
#print(selection)
#selection["age-at-publication"] = selection["firsted-yr"] - selection["au-birth"]
#selection.sort_values(by="age-at-publication", ascending=True, inplace=True)
#print(selection)

# Wie stark weichen die Textlängen vom Mittelwert ab? 
#print("mean:", np.mean(metadata.loc[:,"token-count"]))
#print("mean:", metadata.loc[:,"token-count"].mean())
#metadata["token-deviation"] = metadata.loc[:,"token-count"] - int(np.mean(metadata.loc[:,"token-count"])) # broadcasting!
#metadata.sort_values(by="token-deviation", ascending=True, inplace=True)
#print(metadata["token-deviation"])



### Daten im DataFrame aggregieren (groupby)

In [279]:
import numpy as np 

with open("roman18_metadata.tsv", "r", encoding="utf8") as infile: 
    metadata = pd.read_csv(infile, sep="\t")

metadata_grouped = metadata.groupby("au-gender")
#print(metadata_grouped)
#for name,group in metadata_grouped: 
#    print(name, group["token-count"].median())


selection = metadata.loc[:,["au-gender", "token-count"]]
grouped = selection.groupby("au-gender").mean()
#print(grouped)


### Pivot tables nutzen

In [290]:
import seaborn as sns
titanic = sns.load_dataset("titanic") 
#print(type(titanic))

# Groupby: welcher Anteil der Passagiere hat überlebt, nach Gender
titanic.groupby("sex")[["survived"]].mean()

# Pivot-table: Groupby auf zwei Dimensionen
titanic.pivot_table("survived", index="sex", columns="class")



class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


## Rekodierung von kategorialen Variablen als "one-hot"-Daten


In [328]:
with open("roman18_metadata.tsv", "r", encoding="utf8") as infile: 
    metadata = pd.read_csv(infile, sep="\t")

form_dummies = pd.get_dummies(metadata["form"], prefix="form", dtype=int)
#print(form_dummies.columns)
#print(form_dummies)

all_data = pd.merge(metadata, form_dummies, left_index=True, right_index=True)
#print(all_data.columns)
#print(all_data.iloc[0:5,[1,2,-5,-4]])

## Anwendung / Übung 

Datensatz des DOAJ: https://doaj.org/docs/public-data-dump/, dort die "journal metadata" als CSV. 

Laden Sie den Datensatz als DataFrame und bereiten Sie ihn so auf, dass er für eine Analyse mit Machine Learning geeignet wird. 

- Verschaffen Sie sich zunächst einen Überblick über den Datensatz
- Machen Sie dann eine Liste von Punkten, die Sie verbessern würden, für eine anschließende Analyse
- Bereiten Sie den Datensatz mit pandas auf, ohne dabei die Daten manuell zu bearbeiten
- Notieren Sie denkbare Zusammenhänge zwischen Kategorien, die für einen Klassifikationstask interessnt sein könnten