# pandas zur Datenanalyse
<br><br><img width=600 height=600 class="imgright" src="Images/Panda.png"><br><br>

pandas ist eine Bibliothek, die sich mit der effektiven Behandlung von vor allem tabellarischen Daten beschäftigt. Es ist die dritte Bibliothek, die neben NumPy und Matplotlib in sehr vielen ML Anwendungen benutzt wird. Wir werden im folgenden Kapitel einen kurzen Überblick über pandas Möglichkeiten geben. pandas benutzt eigene Datenstrukturen, dies sind insbesondere die ```Series``` und der ```DataFrame```. Eine "Series" entspricht in etwa einer Excel-Tabellen Spalte. Pandas fügt zu den Werten der Spalte automatisch einen numerischen Index hinzu. Ein Beispiel:

In [4]:
import pandas as pd #dieses Alias ist üblich
my_series=pd.Series([3,6,9,12])
print(my_series)
print(my_series.index)
print(my_series.values)

0     3
1     6
2     9
3    12
dtype: int64
RangeIndex(start=0, stop=4, step=1)
[ 3  6  9 12]


Wir sehen hier die hinzugefügte Indexspalte und die Typangabe der Werte, die pandas automatisch erschliesst. Ausserdem sehn wir, dass man auf die Werte und die Indizes getrennt zugreifen kann, wobei die Indexspalte als RangeIndex mit den Start-, Stop- und Step-Werten analog zur range Funktion ausgegeben wird. Ineressant wird es, wenn wir nicht diese automatische Indizierung verwenden, sondern wie bei einem assoziativen Array in anderen Sprachen eigene Indizes benutzen wollen. Die Indexspalte ist so frei gestaltbar. Ein wesentlicher Unterschied zu NumPy-Arrays. Wir sehen unten, dass wie bei NumPy ganze Serien von Daten einfach arithmetisch Elementweise verknüpft werden können (z.B. bei den Fahrrädern und den Motorrädern). Falls Elemente nur in einer der Serien vorkommen, wird der Wert auf NaN (Not a number) gesetzt. Ausserdem wechselt nach der Summation der Objekttyp auf float. Die Länge der Indizes und die Länge der Werte muss bei der Erzeugung einer Series allerdings übereinstimmen, sonst wird ein Fehler ausgelöst. 

In [6]:
indizes=["Auto","Motorrad","LKW","Fahrrad"]
andere_indizes=["Cabrio","Roller","Motorrad","Fahrrad"]
anzahl=[2,1,0,3]
anzahl1=[8,4,5,6]
anzahl2=[1,2,-3,6,7,8]
my_series1=pd.Series(anzahl,index=indizes)
print(my_series1, "\n\n")
my_series2=pd.Series(anzahl1,index=andere_indizes)
print(my_series2, "\n\n")
print(my_series1+my_series2 ,"\n\n")
#my_series4=pd.Series(anzahl2,index=indizes)  #Fehler
#print(my_series4)

Auto        2
Motorrad    1
LKW         0
Fahrrad     3
dtype: int64 


Cabrio      8
Roller      4
Motorrad    5
Fahrrad     6
dtype: int64 


Auto        NaN
Cabrio      NaN
Fahrrad     9.0
LKW         NaN
Motorrad    6.0
Roller      NaN
dtype: float64 




Über die Indizes lassen sich einzelne Elemente oder Ausschnitte aus den Listen in üblicher Weise ausgeben. Mathematisch kann man mit Series genauso umgehen wie mit NumPy Arrays.

In [7]:
import numpy as np
print(my_series1[1:3])
print(40*"__")
print(my_series1["Fahrrad"])
print(my_series2+14)
print(40*"__")
print(np.sin(my_series2))

Motorrad    1
LKW         0
dtype: int64
________________________________________________________________________________
3
Cabrio      22
Roller      18
Motorrad    19
Fahrrad     20
dtype: int64
________________________________________________________________________________
Cabrio      0.989358
Roller     -0.756802
Motorrad   -0.958924
Fahrrad    -0.279415
dtype: float64


Mit der apply Methode ```Series.apply(func,convert_type=True,args=(),**kwargs)``` kann man beliebige Funktionen (func) auch mit Parameterübergabe auf ganze Serien elementweise anwenden. Der Typ des Ergebnisses lässt sich über den convert_type Parameter Steuern, setzt man ihn auf True (Standard) erschliesst pandas den Typ selbst, sonst wird der object Typ benutzt.

In [8]:
S=pd.Series([3,2,5,-3,1])
S=S.apply(lambda x: 1 if x>=3 else 0)
print(S)

0    1
1    0
2    1
3    0
4    0
dtype: int64


Ein Python Dict kann sehr einfach in eine Series überführt werden. Es ist dann geordnet (ähnlich wie in Versionen von Python >3.7).

In [9]:
my_dict={"Karl":24, "Monica": 40, "Andrea": 39 , "Peter": None}
my_series=pd.Series(my_dict)
print(my_series)

Karl      24.0
Monica    40.0
Andrea    39.0
Peter      NaN
dtype: float64


Besonders wichtig im ML ist der Umgang mit fehlenden Daten. Bereits oben hatten wir gesehen, dass NaN eingesetzt wurde, wenn man Series verknüpft , die unterschiedliche Indizes haben.  Wir können mit isnull() aund notnull() usere Werte der Series prüfen auf NaN Werte und andere Werte und erhalten eine Series mit den entsprechenden Bool-Werten. Der Wert ```None``` in einem Dict wird in ```NaN``` verändert,  wenn man das Dict in eine Series verwandelt und wird dann ebenso geprüft. 

In [13]:
indizes=["Auto","Motorrad","LKW","Fahrrad"]
andere_indizes=["Cabrio","Motorrad","Roller","Fahrrad"]
anzahl=[2,1,0,3]
anzahl1=[8,4,5,6]
my_series1=pd.Series(anzahl,index=indizes)
my_series2=pd.Series(anzahl1,index=andere_indizes)
print(f"my_series3:\n{my_series1+my_series2 }\n\n")
my_series3=my_series1+my_series2
print(my_series3.isnull())
print(my_series3.notna())

my_series3:
Auto        NaN
Cabrio      NaN
Fahrrad     9.0
LKW         NaN
Motorrad    5.0
Roller      NaN
dtype: float64


Auto         True
Cabrio       True
Fahrrad     False
LKW          True
Motorrad    False
Roller       True
dtype: bool
Auto        False
Cabrio      False
Fahrrad      True
LKW         False
Motorrad     True
Roller      False
dtype: bool


Neben der Möglichkeit der Prüfung auf Nan gibt es mit ```dropna()``` und ```fillna()``` auch die Möglichkeit Nan Datensätze gezielt zu löschen oder aufzufüllen.

In [7]:
print(my_series3.dropna())

Fahrrad     9.0
Motorrad    5.0
dtype: float64


In [8]:
print(my_series3.fillna(-1))
print(my_series3.fillna(-1).astype(int)) #Typangabe wie bei NumPy

Auto       -1.0
Cabrio     -1.0
Fahrrad     9.0
LKW        -1.0
Motorrad    5.0
Roller     -1.0
dtype: float64
Auto       -1
Cabrio     -1
Fahrrad     9
LKW        -1
Motorrad    5
Roller     -1
dtype: int32


Auch das Auffüllen der NaN-Werte mit einem zusätzlichen Dict für die Indizes der NaN-Werte und deren neuer Werte ist möglich. 

In [1]:
my_dict={"Karl":24, "Monica": 40, "Andrea": 39 , "Peter": None ,"Susi": None}
my_series=pd.Series(my_dict)
dict_to_fill={"Susi":45, "Peter": 56}
print(my_series.fillna(dict_to_fill,inplace=True)) #macht neues Objekt
print(my_series.fillna(dict_to_fill,inplace=False)) 

NameError: name 'pd' is not defined

Während Series aus einer Spalte und der Indexspalte bestehen, erweitert das DataFrame-Objekt unsere Datenstruktur um beliebig viele Spalten. Die Indizierung beschränkt sich jetzt nicht nur auf Indizes der Reihen, sondern auch auf die Spalten, wie in einer excel-Tabelle.<br><br><img width=400 height=400 class="imgright" src="Images/Excel.png"><br><br>

Geben wir die Indizes nicht an, so verwendet pandas wieder numerische Indizes. Wir erzeugen nun ein DataFrame-Objekt, indem wir mehrere Series-Objekte zusammenfassen mit ```concat()```. Mit axis können wir bestimmen, ob die Zusammenfügung in eine Reihe geschehen soll (axis=0) oder in eine Tabelle mit mehreren Spalten.

In [10]:
s1=pd.Series(["Peter","Karl","Susi","Erna"])
s2=pd.Series([23,30,34,22])
s3=pd.Series(["Berlin","Hannover","Berlin","Köln"])
df_lange_serie=pd.concat([s1,s2,s3],axis=0)
print(df_lange_serie)
print(80*"-")
df_mehrere_spalten=pd.concat([s1,s2,s3],axis=1)
print(df_mehrere_spalten)
print(80*"-")
print(type(df_mehrere_spalten)) #Typ ist DataFrame

0       Peter
1        Karl
2        Susi
3        Erna
0          23
1          30
2          34
3          22
0      Berlin
1    Hannover
2      Berlin
3        Köln
dtype: object
--------------------------------------------------------------------------------
       0   1         2
0  Peter  23    Berlin
1   Karl  30  Hannover
2   Susi  34    Berlin
3   Erna  22      Köln
--------------------------------------------------------------------------------
<class 'pandas.core.frame.DataFrame'>


Mit ```columns``` lassen sich die Spaltennamen bearbeiten. Indizierung ist auch für Spalten möglich. 

In [11]:
df_mehrere_spalten.columns=["Name","Alter","Stadt"]
print(df_mehrere_spalten)
print("-"*40)
print(df_mehrere_spalten["Alter"])
print("-"*40)
print(df_mehrere_spalten["Name"][:2]) #einfache Auswahl durch numerische Indizes


    Name  Alter     Stadt
0  Peter     23    Berlin
1   Karl     30  Hannover
2   Susi     34    Berlin
3   Erna     22      Köln
----------------------------------------
0    23
1    30
2    34
3    22
Name: Alter, dtype: int64
----------------------------------------
0    Peter
1     Karl
Name: Name, dtype: object


Bereits bei Erstellung des dataFrame können Spaltennamen gesetzt werden und auch der Index der Reihen von numerisch auf kategorial verändert werden. Wir erstellen hier den dataFrame aus einem Dict. Dann sortieren wir die Spalten um.

In [12]:
Autos={
    "Hersteller":["VW","Audi","Mercedes","Ford"],
    "Typ":["Cabrio","Combi","Limousine","Pickup"],
    "Engine":["Benzin","Diesel","Benzin","Diesel"]
}
Indizes=["erstes","zweites","drittes","viertes"]
Autos_df=pd.DataFrame(Autos,index=Indizes)
print(Autos_df)
print("-"*40)
Indizes1=["klein","gross","mittel","gross"]
Autos_df1=pd.DataFrame(Autos,index=Indizes1)
Autos_df1.columns=["Typ","Hersteller","Engine"]
print(Autos_df1)

        Hersteller        Typ  Engine
erstes          VW     Cabrio  Benzin
zweites       Audi      Combi  Diesel
drittes   Mercedes  Limousine  Benzin
viertes       Ford     Pickup  Diesel
----------------------------------------
             Typ Hersteller  Engine
klein         VW     Cabrio  Benzin
gross       Audi      Combi  Diesel
mittel  Mercedes  Limousine  Benzin
gross       Ford     Pickup  Diesel


```loc``` und ```iloc``` sind Lokalisatoren, die uns selektiv Zeilen auswählen lassen nach dem Index. Dabei wird loc für nicht numerische Indizes verwendet. iloc für numerische Indizes. Erlaubte Eingaben für loc bzw. iloc sind: <br>
Eine integer-Zahl z.B. 5 für die Reihe mit dem Index 5.<br>
Eine Liste mit Indizes oder ein np.Array mit Indizes z.B ["erstes","zweites"] für die Reihen "erstes" und "zweites"<br>
Eine Liste oder ein np.array von Integern [4, 3, 0] für die Reihen 4,3 und 0 <br>
Ein Ausschnitt aus den Indizes wie [1:7] für die Reihen 1 bis 6<br>
Ein Liste oder np.array mit Bool Werten [True,True,False,True] für Reihe 0,1 und 2.<br>
Eine Funktion wie z.B. [lambda x: x.index % 2 == 0], die gültige Indizes zurückgibt , hier die geraden Reihen.



In [13]:
print(Autos_df1.loc[["gross","klein"]])
print("-"*40)
print(df_mehrere_spalten.iloc[:2])
print("-"*40)
print(Autos_df1.loc[[True,False,False,True]])

        Typ Hersteller  Engine
gross  Audi      Combi  Diesel
gross  Ford     Pickup  Diesel
klein    VW     Cabrio  Benzin
----------------------------------------
    Name  Alter     Stadt
0  Peter     23    Berlin
1   Karl     30  Hannover
----------------------------------------
        Typ Hersteller  Engine
klein    VW     Cabrio  Benzin
gross  Ford     Pickup  Diesel


Man kann mit sum(), cumsum() Summen bzw. kumulierte Summen über Spalten berechenen, Spalten sortieren, neue Spalten dann wieder mit insert einfügen... Dieses führt hier aber zuweit, wir verweisen deshalb auf die pandas Dokumentation https://pandas.pydata.org . Viel wichtiger und häufig im ML gebraucht ist aber die Möglichkeit, mit pandas Dateien zu lesen und zu schreiben. Es werden von pandas viele Dateiformate unterstützt wie JSON, HTML, SQL, ...<br>
Am häufigsten werden aber CSV Dateien und MS-Excel Dateien bearbeitet.


### Trennerseparierte Werte

Die meisten Menschen verwenden den Namen "CSV-Datei" als Synonym für eine trennerseparierte-Datei. Sie beachten nicht die Tatsache, das CSV ein Akronym ist für "comma separated values" (also in Deutsch "kommaseparierte-Liste"), was in den meisten Situationen nicht der Fall ist. Pandas verwendet "csv" ebenfalls in Zusammenhängen, in denen "dsv" die passendere Bezeichnung wäre.

Trennerseparierte Werte (Delimiter-separated values - DSV) sind definiert und abgelegt in zweidimensionalen Arrays, bei denen die Werte mit zweckmäßig definierten Trennzeichen in jeder Zeile getrennt sind. Diese Arte und Weise wird oft in Kombination mit Tabellenprogrammen eingesetzt, die Daten als DSV ein- und auslesen können. Auch wird die Implementierung in allgemeinen Datenaustauschformaten verwendet.




Bei der Datei [dollar_euro.txt](data1/dollar_euro.txt) handelt es sich um eine DSV-Datei, die Tabulatoren (\t) als Trennzeichen benutzt.




### CSV- und DSV-Dateien lesen


Pandas bietet zwei Wege, um CSV/DSV Dateien zu lesen.
Das bedeutet konkret:

- DataFrame.from_csv
- read_csv

Es gibt zwischen beiden Methoden keinen großen Unterschied, d.h. es gibt in manchen Fällen verschiedene Default-Werte, und ```read_csv``` hat mehr Parameter.
Wir konzentrieren uns auf ```read_csv```, weil ```DataFrame.from_csv``` nur wegen Auf- und Abwärtskompatibilität innerhalb von Pandas gehalten wird.

In [1]:
import pandas as pd

exchange_rates = pd.read_csv("Data/dollar_euro.txt",
                             sep="\t")
print(exchange_rates)

    Year   Average  Min USD/EUR  Max USD/EUR  Working days
0   2016  0.901696     0.864379     0.959785           247
1   2015  0.901896     0.830358     0.947688           256
2   2014  0.753941     0.716692     0.823655           255
3   2013  0.753234     0.723903     0.783208           255
4   2012  0.778848     0.743273     0.827198           256
5   2011  0.719219     0.671953     0.775855           257
6   2010  0.755883     0.686672     0.837381           258
7   2009  0.718968     0.661376     0.796495           256
8   2008  0.683499     0.625391     0.802568           256
9   2007  0.730754     0.672314     0.775615           255
10  2006  0.797153     0.750131     0.845594           255
11  2005  0.805097     0.740357     0.857118           257
12  2004  0.804828     0.733514     0.847314           259
13  2003  0.885766     0.791766     0.963670           255
14  2002  1.060945     0.953562     1.165773           255
15  2001  1.117587     1.047669     1.192748           2

Wie wir gesehen haben, benutzt ```read_csv``` automatisch die erste Zeile als Überschriften bzw. Spaltennamen für die Spalten.
Wir können den Spalten auch beliebige andere Namen geben. Dazu muss die erste Zeile übersprungen werden, was wir dadurch erreichen, dass wir den Parameter ```header``` auf ```0``` setzen, und eine Liste mit Spalten-Namen an den Parameter ```names``` zuweisen:

In [2]:
import pandas as pd

exchange_rates = pd.read_csv("Data/dollar_euro.txt",
                             sep="\t",
                             header=0,
                             names=["year", "min", "max", "days"])
print(exchange_rates.head())

          year       min       max  days
2016  0.901696  0.864379  0.959785   247
2015  0.901896  0.830358  0.947688   256
2014  0.753941  0.716692  0.823655   255
2013  0.753234  0.723903  0.783208   255
2012  0.778848  0.743273  0.827198   256


### Schreiben von CSV-Dateien
​
​
​
​
<img width=500 src="Images/csv_files.webp" ><br><br>
CSV-Dateien können wir mit der Methode ```to_csv``` schreiben. Wir werden dies an einem Beispiel demonstrieren. Zuerst erzeugen wir jedoch Daten, die wir dann rausschreiben werden. In unserem aktuellen Verzeichnis liegen die beiden Dateien  [countries_male_population.csv](countries_male_population.csv) und  [countries_female_population.csv](countries_female_population.csv), die entsprechend die Zahlen der männlichen und weiblichen Bevölkerungs von Ländern enthalten.
​
​

In [3]:
column_names = ["Country"] + list(range(2003, 2013))
male_pop = pd.read_csv("Data/countries_male_population.csv",
                       header=None,
                       index_col=0,
                       names=column_names)

female_pop = pd.read_csv("Data/countries_female_population.csv",
                         header=None,
                         index_col=0,
                         names=column_names)


population = male_pop + female_pop
population.head()

Unnamed: 0_level_0,2003,2004,2005,2006,2007,2008,2009,2010,2011,2012
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Australia,19872646,20091504,20339759,20605488,21015042,21431781,21874920,22342398,22620554,22683573
Austria,8067289,8140122,8206524,8265925,8298923,8331930,8355260,8375290,8404252,8443018
Belgium,10355844,10396421,10445852,10511382,10584534,10666866,10753080,10839905,10366843,11035958
Canada,31361611,31372587,31989454,32299496,32649482,32927372,33327337,33334414,33927935,34492645
Czech Republic,10203269,10211455,10220577,10251079,10287189,10381130,10467542,10506813,10532770,10505445


In der Datei ```countries_total_population.csv``` im aktuellen Verzeichnis  speichern wir die eben erzeugte DataFrame ```population```:

In [4]:
population.to_csv("countries_total_population.csv")

In [5]:
pd.read_csv("countries_total_population.csv")

Unnamed: 0,Country,2003,2004,2005,2006,2007,2008,2009,2010,2011,2012
0,Australia,19872646,20091504,20339759,20605488,21015042,21431781,21874920,22342398,22620554,22683573
1,Austria,8067289,8140122,8206524,8265925,8298923,8331930,8355260,8375290,8404252,8443018
2,Belgium,10355844,10396421,10445852,10511382,10584534,10666866,10753080,10839905,10366843,11035958
3,Canada,31361611,31372587,31989454,32299496,32649482,32927372,33327337,33334414,33927935,34492645
4,Czech Republic,10203269,10211455,10220577,10251079,10287189,10381130,10467542,10506813,10532770,10505445
5,Denmark,5383507,5397640,5411405,5427459,5447084,5475791,5511451,5534738,5560628,5580516
6,Finland,5206295,5219732,5236611,5255580,5276955,5300484,5326314,5351427,5375276,5401267
7,France,59630121,59900680,62518571,62998773,63392140,63753140,64366962,64716310,65129746,65394283
8,Germany,82536680,82531671,82500849,82437995,82314906,82217837,82002356,81802257,81751602,81843743
9,Greece,11006377,11040650,11082751,11125179,11171740,11213785,11260402,11305118,11309885,11290067
