# Pandas

## DataFrame

Ein Dataframeobjekt besteht aus Reihen und Spalten (ähnlich wie eine Tabelle).  
Jede Spalte hat einen Namen und enthält Elemente eines gewissen Datentyps.  
Spalten in einem Dataframe können allerdings unterschiedliche Datentypen haben.  

<img src='https://pandas.pydata.org/docs/_images/01_table_dataframe.svg' width='250px;'/>

Wenn wir uns ein Python-Dictionary anschauen, wie das Folgende:

In [1]:
import pandas as pd

In [2]:
cars = {
    'hersteller':['mercedes', 'bmw', 'audi', 'vw', 'opel'],
    'model':['s300', 'i3', 'a8', 'caddy', 'astra'],
    'jahr':[2015, 2017, 2014, 2018, 207]
}

dann können wir uns die Schlüssel dieses Dictionary als Spaltennamen und die dazu geordneten Listen (Werte) als Inhalt jeder Spalte vorstellen.  

Pandas Dataframes funktionieren auf Basis dieser Idee:

In [3]:
df_car = pd.DataFrame(cars)
df_car

Unnamed: 0,hersteller,model,jahr
0,mercedes,s300,2015
1,bmw,i3,2017
2,audi,a8,2014
3,vw,caddy,2018
4,opel,astra,207


In [4]:
type(df_car)

pandas.core.frame.DataFrame

DataFrame ist eine Klasse aus Pandas Modul, die Dataframe-Objekte erzeugen kann.  
Die Spalten können individuell als ein Series-Objekt mit einem Namen betrachtet werden.

Wichtige Funktionalitäten und Besonderheiten:

- Dataframes erstellen
- Zugriff auf eine Reihe
- Zugriff auf eine Spalte
- Teilbereiche aus einem Dataframe
- Wichtige Methoden und Attribute für Abfragen

#### Dataframes erstellen

- aus Python-Objekten (z.B. Dictionary, List, usw.) oder NumPy-Arrays 
- aus tabellarischen Dateien (csv, excelmappen, sql-tabellen, usw.)

Die zweite Variante ist in der Datenanalyse eher mehr relevant.

##### Leere Dataframes

In [5]:
leer_df = pd.DataFrame() # leeres DF-Objekt

In [6]:
leer_df

In [7]:
leer = pd.DataFrame(columns=['col1', 'col2', 'col3']) # mit 3 Spalten
leer

Unnamed: 0,col1,col2,col3


In [8]:
leer = pd.DataFrame(columns=['col1', 'col2', 'col3'], # 3 Spalten
                   index=range(5)) # 5 leerzeilen

In [9]:
leer

Unnamed: 0,col1,col2,col3
0,,,
1,,,
2,,,
3,,,
4,,,


##### Dataframes aus NumPy-Arrays oder Python-Objekten
Wie man aus verschiedenen Pythonobjekten Dataframes erstellt sieht man ausführlich in Pandas Dokumentation [hier](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html?highlight=dataframe#pandas.DataFrame)

##### Dataframes aus Dateien (files) mit tabellarischen Strukturen
In jedem Data Science Projekt besteht meistens die Aufgabe daraus, aus tabellarischen Strukturen Dataframes zu bilden, Daten zu reinigen, bearbeiten, analysieren und dann diese nocheinmal als Datei zu speichern bzw. zu exportieren.  

<img src='https://pandas.pydata.org/docs/_images/02_io_readwrite.svg' width='550px;'/>
<center>Pandas Funktionen zur Erstellung von Dataframes aus Dateien und umgekehrt</center>

Pandas verfügt über Funktionen, die automatisch tabellarische Strukturen in Dataframes umwandeln. Diese Funktionen haben eins in ihrer Syntax gemeinsam: sie beginnen mit `read_`.   
Als Beispiel: `read_csv()` erstellt aus csv-Dateien Dataframes. Oder `read_html()` kann aus HTML-Tabellen Dataframes erzeugen. In Data Sceince Projekten haben wir am meisten mit CSV-Daten (Comma Seperated Values) zu tun.  
Pandas hat eben Funktionen, die Dataframes als Datei und mit vielen möglichen Erweiterungen, wie z.B. ``csv``, `xlxs` speichern können. Diese Funktionen beginnen alle mit `to_`. Beispielsweise `to_csv()` erstellt aus einem DataFrame eine `csv`-Datei.

Wenn wir jetzt beispielsweise den Dataframe `df_car` als Datei exportieren wollen:

In [10]:
# help(pd.DataFrame.to_csv)

In [10]:
df_car

Unnamed: 0,hersteller,model,jahr
0,mercedes,s300,2015
1,bmw,i3,2017
2,audi,a8,2014
3,vw,caddy,2018
4,opel,astra,207


In [12]:
df_car.to_csv('C:/Users/OlhaIshchenko/Documents/Daten_Analyse/unterricht/csv_Datei/cars.csv', 
              index=None) # keine Extra Index-Spalte erzeugen

Wir haben jetzt eine sogenannte csv-Datei erstellt.  
- CSV: Comma Seperated Values
- Tabellarische Daten in Text-Format speichern
- Die Daten sind in Zeilen gespeichert und jeweils mit Komma getrennt

Wir können den Inhalt dieser Datei in jedem Python-Programm einlesen:

In [13]:
df = pd.read_csv('C:/Users/OlhaIshchenko/Documents/Daten_Analyse/unterricht/csv_Datei/cars.csv')
df

Unnamed: 0,hersteller,model,jahr
0,mercedes,s300,2015
1,bmw,i3,2017
2,audi,a8,2014
3,vw,caddy,2018
4,opel,astra,207


Dataframes haben unzählige Methoden und Attribute (meistens gemeinsam mit Series):

In [11]:
df_countries = pd.read_csv('C:/Users/OlhaIshchenko/Documents/Daten_Analyse/unterricht/csv_Datei/countries.csv')

In [12]:
df_countries

Unnamed: 0,country,name,population
0,England,London,8615246
1,Spain,Madrid,3165235
2,France,Paris,2273305
3,Romania,Bucharest,1803425
4,Hungary,Budapest,1754000
5,Spain,Barcelona,1602386
6,Italy,Milan,1350680
7,Germany,Berlin,3562166
8,Italy,Rome,2874038
9,Austria,Vienna,1805681


###### Explorative Datenanalyse (explorative data analysis)
Eine Reihe von üblichen Methoden in jeder DS Aufgabe, die allgemeine Methoden zum Dataset abliefern.

In [13]:
df_countries.describe() # statistik bezüglich Spalten mit Zahlen

Unnamed: 0,population
count,13.0
mean,2600047.0
std,1932512.0
min,1350680.0
25%,1740119.0
50%,1803425.0
75%,2874038.0
max,8615246.0


In [14]:
df_countries.info() # allgemeine Informationen zum Dataframe

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13 entries, 0 to 12
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   country     13 non-null     object
 1   name        13 non-null     object
 2   population  13 non-null     int64 
dtypes: int64(1), object(2)
memory usage: 444.0+ bytes


In [15]:
df_countries.shape # Zeilen und Spalten

(13, 3)

In [19]:
x,y = df_countries.shape
print(f'Unser Dataframe hat {x} Einträge (Reihen) und {y} Spalten.')

Unser Dataframe hat 13 Einträge (Reihen) und 3 Spalten.


In [19]:
df_countries.head() # zeigt die ersten 5 Zeilen an

Unnamed: 0,country,name,population
0,England,London,8615246
1,Spain,Madrid,3165235
2,France,Paris,2273305
3,Romania,Bucharest,1803425
4,Hungary,Budapest,1754000


In [18]:
df_countries.head(3) # die ersten 3 Zeilen anzeigen

Unnamed: 0,country,name,population
0,England,London,8615246
1,Spain,Madrid,3165235
2,France,Paris,2273305


In [20]:
df_countries.tail() # die letzten 5 Zeilen in Dataframe

Unnamed: 0,country,name,population
8,Italy,Rome,2874038
9,Austria,Vienna,1805681
10,Germany,Hamburg,1760433
11,Poland,Warsaw,1740119
12,Germany,Munich,1493900


In [21]:
df_countries.tail(2) # die letzten 2 Zeilen zeigen

Unnamed: 0,country,name,population
11,Poland,Warsaw,1740119
12,Germany,Munich,1493900


### Zugriff auf eine Reihe
geht genauso wie bei Series mit dem Attribut `.iloc[]`

In [22]:
df_countries.iloc[12]

country       Germany
name           Munich
population    1493900
Name: 12, dtype: object

In [23]:
type(df_countries.iloc[12])

pandas.core.series.Series

In [24]:
line = df_countries.iloc[12]
line[0] # die erste Spalte 'country'

  line[0] # die erste Spalte 'country'


'Germany'

In [27]:
line[1] # die zweite Spalte 'name'

  line[1] # die zweite Spalte 'name'


'Munich'

In [28]:
line[2] # dritte Spalte 'population'

  line[2] # dritte Spalte 'population'


np.int64(1493900)

In [29]:
# line[3] # error: gibt es nicht!

Reihen eines Dataframes sind Seriesobjekte.

In [29]:
df_countries.index[10]

10

In [25]:
df_countries.index # Alle Indizes sehen

RangeIndex(start=0, stop=13, step=1)

### Zugriff auf Spalten

In [26]:
df_countries.columns # zeigt alle Spalten

Index(['country', 'name', 'population'], dtype='object')

Zugriff auf eine gewisse Spalte: ähnlich wie bei Dictionarys

In [27]:
df_countries['country']

0     England
1       Spain
2      France
3     Romania
4     Hungary
5       Spain
6       Italy
7     Germany
8       Italy
9     Austria
10    Germany
11     Poland
12    Germany
Name: country, dtype: object

In [28]:
# alternativ und wenn der Spaltenname nur aus einem Wort besteht (kein Leerzeichen enthält)
df_countries.country

0     England
1       Spain
2      France
3     Romania
4     Hungary
5       Spain
6       Italy
7     Germany
8       Italy
9     Austria
10    Germany
11     Poland
12    Germany
Name: country, dtype: object

#### Einfache Abfragen
z.B. Welche Städte in Dataframe haben eine Bevölkerung größer als 2 Millionen?

In [34]:
df_countries[df_countries.population > 2000000] # ähnlich wie bei Series

Unnamed: 0,country,name,population
0,England,London,8615246
1,Spain,Madrid,3165235
2,France,Paris,2273305
7,Germany,Berlin,3562166
8,Italy,Rome,2874038


#### Einen Teilbereich aus Dataframe zeigen
- gewisse Spalten

In [35]:
df_countries[['country', 'name']] # nur spalten country und name anzeigen

Unnamed: 0,country,name
0,England,London
1,Spain,Madrid
2,France,Paris
3,Romania,Bucharest
4,Hungary,Budapest
5,Spain,Barcelona
6,Italy,Milan
7,Germany,Berlin
8,Italy,Rome
9,Austria,Vienna


- nur gewisse Reihen aus einem Teilbereich

In [36]:
df_countries[:3] # die ersten 3 Reihen

Unnamed: 0,country,name,population
0,England,London,8615246
1,Spain,Madrid,3165235
2,France,Paris,2273305


- eine Kombination

In [37]:
df_countries[['country', 'name']][:3] 
# nur 2 spalten country und name und nur die ersten 3 Zeilen

Unnamed: 0,country,name
0,England,London
1,Spain,Madrid
2,France,Paris
