# Pandas 2: Einlesen und Filtern

## Einleitung

Häufig haben wir es in den Digital Humanities mit Daten in einem tabellarischen Format, bspw. in Form einer CSV-Datei, zu tun. Oft sind das Metadaten oder auch Ergebnisse von Berechnungen. 

Solche Tabellen lassen sich in Python sehr gut mit pandas als DataFrame öffnen, analysieren und visualisieren. Das probieren wir hier im Sinne einer vertiefenden Einführung in DataFrames mit einem realen Beispieldatensatz vom 'Index of DH Conferences' aus. 

## Importe

In [1]:
import pandas as pd
from os.path import join

## Eine CSV-Datei einlesen

- Öffnen der Datei mit `with open`
- Einlesen als DataFrame mit `read_csv` (Parameter: `sep` für Separator und `index_col` für die Spalte, die als Index verwendet werden soll)
- Weitere Infos zu den Parametern: https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

In [5]:
csvfile = join("..", "..", "datasets", "tabular", "idhc_conferences.csv")

def read_csvfile(csvfile): 
    with open(csvfile, "r", encoding="utf8") as infile: 
        data = pd.read_csv(infile, sep=",", index_col=0)
    #print(data.head())
    return data

data = read_csvfile(csvfile)

## DataFrame aus Listen erstellen

In [6]:
conferences = ["DHd2015", "DHd2016", "DHd2017"]
headers = ["Jahr", "Stadt"]
jahre = [2015, 2016, 2017]
staedte = ["Graz", "Leipzig", "Bern"]

# DataFrame aus Listen
confdata = list(zip(jahre,staedte))
confdf = pd.DataFrame(confdata, index=conferences, columns=headers)
print(confdf)

# DataFrame aus Dict
confdata1 = list(zip(jahre, staedte))
confdata = dict(zip(conferences, confdata1))
print(confdata)
confdf = pd.DataFrame.from_dict(confdata, orient="index", columns=headers)
print(confdf)


         Jahr    Stadt
DHd2015  2015     Graz
DHd2016  2016  Leipzig
DHd2017  2017     Bern
{'DHd2015': (2015, 'Graz'), 'DHd2016': (2016, 'Leipzig'), 'DHd2017': (2017, 'Bern')}
         Jahr    Stadt
DHd2015  2015     Graz
DHd2016  2016  Leipzig
DHd2017  2017     Bern


## Einen Eindruck von Umfang und Inhalt bekommen

- Größe der Tabelle mit `.shape`
- Liste der Spaltentitel mit `.columns`
- Index mit `.index`
- Anfang der Tabelle mit `.head()`
- Datentypen der Spalten mit `.dtypes`


In [7]:
print("shape", data.shape)
print("columns", list(data.columns))
print("index", list(data.index[0:50]))
#print(data.head())
#print(data.dtypes)

shape (499, 11)
columns ['year', 'short_title', 'url', 'start_date', 'end_date', 'city', 'country', 'entry_status', 'program_available', 'abstracts_available', 'label']
index [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51]


## Teile der Tabelle auswählen

- Slicing nach Index-Positionen mit `iloc`
- Slicing mit Labels mit `loc`


In [8]:
def select_from_data(data): 
    # mit iloc
    selected = data.iloc[0:3,0:3] # [Zeilen,Spalten]
    selected = data.iloc[15:20,5:8] 
    selected = data.iloc[100:105,:] 
    selected = data.iloc[:,3:5] 
    selected = data.loc[:,"city"]
    selected = data.loc[112, "city"] # Index=int!
    selected = data.loc[[48,112], "city"] # Liste!
    selected = data.loc[[1,2,3,4], ["start_date", "end_date"]] # Liste!
    return selected

selected = select_from_data(data)
print(type(selected))
print(selected.shape)
print(selected)

<class 'pandas.core.frame.DataFrame'>
(4, 2)
    start_date    end_date
id                        
1   2000-07-21  2000-07-25
2   2001-07-13  2001-07-16
3   2002-07-23  2002-07-28
4   2003-05-29  2003-06-02


## Die Tabelle nach bestimmten Kriterien filtern

- Bestimmte Zeilen oder Spalten löschen mit `.drop()`
- Zeilen löschen, wenn eine Zelle einen bestimmten Wert hat

In [9]:
# Zeilen, die in der Spalte "city" den Wert "London" haben
filtered = data[data["city"] == "London"]

# Zwei Kriterien: Stadt (string) und Jahr (int)
filtered = data[(data["city"] == "Berlin") & (data["year"] >= 1995)]

print(filtered.shape) # Zeilen,Spalten
print(list(filtered.loc[:,"year"])) # Welche Jahre, als Liste
#print(filtered.head())


(3, 11)
[2015, 2020, 2006]


## Berechnungen auf der Tabelle ausführen

Dafür ist es oft nützlich, numpy zu verwenden. 

- Mittelwert, Median, Standardabweichung einer Zeile oder Spalte berechnen
- Andere Berechnung auf der Grundlage von zwei Zellen pro Zeile
- Ergebnis als neue Spalte zum DataFrame hinzufügen
- Hier am Beispiel der Konferenzdaten, daher siehe auch: https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html

In [10]:
import numpy as np

# Median / Mittelwert der Konferenzjahre
result = np.median(data.loc[:,"year"])
result = np.mean(data.loc[:,"year"])
#print(result)

# Wie viele Konferenzen gab es denn pro Jahr? Mit Sortierung
yearcounts = data["year"].value_counts()
print(type(yearcounts))
yearcounts.sort_values(inplace=True, ascending=False)
yearcounts.sort_index(inplace=True, ascending=False)
print(yearcounts)

# Mittlere Dauer der Konferenzen in Tagen
filtered = data.loc[:,["start_date", "end_date"]]
filtered.dropna(inplace=True) # Unvollständige Einträge löschen
#print(filtered.head())
duration = pd.to_datetime(data["end_date"], errors="ignore") - pd.to_datetime(data["start_date"], errors="ignore")
print(duration)
print(sorted(list(duration.dt.days)))

# Dauer in Tagen der Tabelle hinzufügen
filtered["duration"] = duration.dt.days
print(filtered.head())




<class 'pandas.core.series.Series'>
2021     5
2020    18
2019    38
2018    38
2017    32
2016    31
2015    27
2014    26
2013    18
2012    17
2011    14
2010    11
2009    12
2008    12
2007    10
2006    10
2005     9
2004    10
2003     9
2002    10
2001     9
2000     8
1999     6
1998     7
1997     7
1996     4
1995     5
1994     7
1993     4
1992     4
1991     6
1990     7
1989     4
1988     6
1987     6
1986     3
1985     3
1984     1
1983     3
1982     1
1981     3
1980     3
1979     3
1978     2
1977     2
1976     1
1975     2
1974     2
1973     1
1972     1
1970     3
1969     4
1968     1
1967     2
1966     2
1965     5
1964     3
1960     1
Name: year, dtype: int64
id
1     4 days
2     3 days
3     5 days
4     4 days
5     5 days
       ...  
504   3 days
505   3 days
506   2 days
507   3 days
508   3 days
Length: 499, dtype: timedelta64[ns]
[-6.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 1.0, 1.0, 1.0, 2.0, 2.0, 2.0, 2.0, 2.0, 2.0, 2.0, 2.0, 2.0, 3.0, 3.0, 3.0, 3.

## Einen DataFrame abspeichern

Den eben erstellen Dataframe mit den Konferenzdauern wollen wir jetzt abspeichern. 

- eine neue Datei anlegen mit `with open()`
- Einen DataFrame als CSV herauschreiben mit `.to_csv()`

In [11]:
def save_dataframe(filtered): 
    with open("meinetabelle.csv", "w", encoding="utf8") as outfile: 
        filtered.to_csv(outfile, sep=";")

save_dataframe(filtered)

## Weitere Themen

- Berechnungen ausführen
- Informationen aus einem DataFrame visualisieren (direkt in pandas mit `.plot()` oder beispielsweise mit der Library seaborn). 
- Einen DataFrame nach einem bestimmten Kriterium in mehrere Teile aufteilen mit `.groupby`. 
- Mehrere DataFrames miteinander verbinden mit `merge`, `concat` und/oder `join`. 
- Einen DataFrame aus mehreren Listen (mit `dict(zip[])`), aus einem Dictionary (mit `from_dict`) oder aus mehreren `Series` erstellen. 