# Pandas  



## Einführung Pandas    

In diesem Notebook werden wir zunächst herausfinden warum die Bibliothek Pandas existiert.

Danach werden wir uns Pandas näher anschauen.

Lernziele:
           
            1.1 Warum gibt es Pandas?
            
            1.2 Pandas Series
                1.2.1) Erstellen
                1.2.2) Arbeiten mit einer Series (Eigenschaften, auf einzelne Elemente zugreifen, slicing, Elemente 
                     ändern)
                     
            1.3. Pandas DataFrame
                1.3.1) Erstellen
                1.3.2) Arbeiten mit einem DataFrame
                
## Warum gibt es Pandas?   

Pandas steht für "Python and data analysis" und ist eine Bibliothek für die Datenmanipulation und Analyse.
Weiterhin wird auch gesagt, dass Pandas aus dem Begriff Paneldaten abgeleitet wird. Das Wort Paneldaten steht für mehrdimensionale strukturierte Datensätze.

Wenn es um strukturierte Daten geht, haben wir festgestellt, dass in NumPy strukturierte Arrays bei der Datenbearbeitung und Abfrage Grenzen hat.


Pandas entstand nach NumPy und setzt auf Python und NumPy auf. Daher gibt es auch viele Möglichkeiten um auf Werte in Pandas draufzuzugreifen. Hier ist es ratsam sich für eine Variante zu etnscheiden, um nicht durcheinander zu kommen.

Auch bei dem Thema fehlende Werte wirst du sehen, dass Pandas auf Python und NumPy aufbaut.


Du weißt mittlerweile, dass:

                       - in Python mit Listen, dictionaries etc. gearbeitet wird
                            
                       - in NumPy mit mehrdimensionalen arrays
                            
In Pandas existierten 2 Arten von Datentypen:
 
                                      - Pandas Series (eindimensional)
    
                                      - Pandas DataFrame (zweidimensional)
    


## Pandas Series?  

**Pandas Hilfe:** https://pandas.pydata.org/docs/reference/frame.html

Was ist eine Pandas Series?

                            ... eindimensionales array mit Index
                            
Um mit der Pandas Bibliothek arbeiten zu können, musst du diese zunächst importieren.

In [None]:
# Library importieren

import pandas as pd 

### Erstellen

In [None]:
# Erstellen einer Series
import numpy as np
#s = pd.Series([0.25, 0.5, 0.75, 1.0], dtype='float16')
s = pd.Series([0.25, 0.5, 0.75, 1.0])
print(s, type(s))

In [None]:
type(s)

In [None]:
# Index ändern

s2 = pd.Series([0.25, 0.5, 0.75, 1.0, 'X'],
               index=['a', 'c', 'b', 'd', 'a'])
print(s2)

In [None]:
s2.iloc[4]

### Arbeiten mit einer Series (Eigenschaften, auf einzelne Elemente zugreifen, slicing, Elemente ändern)

<h4><font color='darkblue'>Eigenschaften</font></h4>

In [None]:
# Werte erfahren - values

e1 = s2.values
print(e1, type(e1))

In [None]:
# index erfahren - index
print(s2.index, type(s2.index))
s2.index 


#### auf einzelne Elemente zugreifen

In [None]:
# Auf ein Element zugreifen - über den Index 
# (selbe Schema wie bei Python Listen und NumPy arrays)

print(s2[1]) # Hinweis auf Zugriff über (0..3) und nicht über den neuen Index (a..d)
print(s2.iloc[1])  # Zukunftssicher

In [None]:
# oder über das Label des Indexes (korrekter Weg)
s2['c']

#### Werte ändern

In [None]:
# Werte ändern

s2.iloc[1] = 5 
print(s2)
s2['c'] = 11
print(s2)

## Pandas DataFrame?

Was ist eine Pandas DataFrame?

                            ... zweidimensionales array oder auch eine "Reihung" von Series
                            
                            ... besteht aus Zeilen und Spalten
                            
### Erstellen

In [None]:
# Erstellen eines DataFrame

df = pd.DataFrame({'A' : [10000, 2, 3, 4],
                   'B ' : [4, 3, 2, 1],
                   'C' : [9, 8, 7, 6]}, 
                  index=['Zeile1', 'Zeile2', 'Zeile3', 'Zeile4'])

print(df, '\n', type(df))
df 

![Aufbau-DF-2.PNG](attachment:Aufbau-DF-2.PNG)



Der DataFrame besitzt einmal Spaltenlabels und im Hintergrund sind die Spaltenindizes zu finden.

Weiterhin existieren Zeilenlabels bei denen auch im Hintergrund die Indizes "abgelegt" sind. Somit kannst du je nach Mehtode entweder auf die Labels oder die Indizes drauf zugreifen.

Bei dem späteren Data Preprocessing musst du dich immer fragen, ob du gerade einen Teil aus dem DataFrame dir anschaust (View) oder einen Wert einer Zelle zuweise möchtest.


![DF_anschauen.PNG](attachment:DF_anschauen.PNG)

### Arbeiten mit einem DataFrame

#### Eigenschaften

Um mit einem DataFrame arbeiten zu können, ist es wichtig zu wissen, wie die Spaltennamen heißen und welche Datentypen in den einzelnen Spalten vorliegen. Ohne diese Kenntniss kannst du keine Abfragen machen, denn der Datentyp und Spaltenname ist nicht aus dem DataFrame ersichtlich. Du siehst also nicht, ob ein Leerzeichen in dem Spaltennamen enthalten ist. Und du kannst auch nicht sehen, ob eine Zahl wirklich ein integer ist oder doch ein string. Diese Informationen musst du zunächst herausfinden.

In [None]:
# Spaltennamen herausfinden

df.columns

In [None]:
# die Spalte B hat ein Leerzeichen, d.h. die Spalte heißt als B Leerzeichen. Das ist sehr umständlich
# beim Aufrufen der Daten. Daher werden wir die Spalte umbenennen und das Leerzeichen entfernen.

df_rename_1 = df.rename(columns={'B ': 'B'})
df_rename_1

In [None]:
df_rename_1.columns 

In [None]:
for i in df.columns:
    print(len(i))

In [None]:
# alternativ 2: 

df.columns = ['A','B','C']
df.columns 

In [None]:
# alternativ 3: 

df_rename_2 = df.rename(mapper={'B ': 'B'},axis=1)
#df_rename_2 = df.rename(mapper={'B ': 'B','C':'X'},axis=1)
df_rename_2.columns 

In [None]:
# wie komme ich an die rename Dokumentation?

# Variante 1

help(df.rename)

# Variante 2 : Pandas Webseite --> .rename() suchen

# https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rename.html#pandas.DataFrame.rename

# Variante 3 - googlen


In [None]:
# check, ob Änderung erfolgt ist

df.columns

In [None]:
# Datentypen der einzelnen Spalten herausfinden

df.dtypes 

In [None]:
# Datentyp vom index herausfinden

df.index 

In [None]:
# Datentypen ändern - alternativ: to_numeric()

df['A'] = df['A'].astype('int32')
print(df['A'].dtype)
# df['A'] = pd.to_numeric(df['A'], downcast="integer")   # sucht den optimalen Datentyp anhand der vorhandenen Werte
# print(df)
#print(df['A'].dtype)
print(df.dtypes)


In [None]:
df

#### auf Elemente drauf zugreifen

In einem DataFrame kannst du nur auf Spalten, nur auf Zeilen oder auf Zeilen & Spalten zugreifen.

Da Pandas auf Python und NumPy aufbaut, kannst du auf unterschiedliche Weisen auf deine Daten in einem DataFrame zugreifen. 

Nachfolgend wollen wir uns das im Einzelnen einmal anschauen:

#### auf Spalten zu greifen

zunächst: auf EINE Spalte zugreifen

Zielbild:

                  A  
         -------|---
         Zeile1 | 1 
         Zeile2 | 2
         Zeile3 | 3
         Zeile4 | 4



                Python                           NumPy                       Pandas
         ---------------------------------|--------------------------|----------------------
                                          |                          |
                 df.A                     |        df['A']           |     df.loc[:,'A']
                                          |                          |     df.loc[:,['A']]
                                          |                          |      
                                          |                          |     df.iloc[:,0]
                                          |                          |     df.iloc[:,[0]]


#####  Pandas - loc oder iloc

loc und iloc sind Pandas eigene Möglichkeiten um auf Werte zuzugreifen.

loc - verwendet labels und schließt den Stopwert mit ein

iloc - verwendet indizes und schließt den Stopwert aus

Aufbau

loc/iloc[Zeilen o.a. Bedingungen , Spalten]



##### Python - attribute

###### Zugriff über Label

In [None]:
df.A

In [None]:
# Rückgabewert

type(df.A)

##### NumPy - Erweiterung Python Standardnotation

###### Zugriff über Label

In [None]:
df['A']     # Series

In [None]:
# alternativ:
df[['A']]    # Dataframe

In [None]:
# Rückgabewert
print(type(df['A']))
# alternativ
print(type(df[['A']]))

###### loc   (Label)

In [None]:
#df.loc[:,'A']        # Series

df.loc[:, ['A']]   # Dataframe
#df.loc['Zeile2':'Zeile3', ['A']]   # Dataframe
#df.loc[:, ['A', 'C']]   # Dataframe
#type(df.loc[:, ['A']])

###### iloc (**i**ndex)

In [None]:
print(df.iloc[:,0])       #Series
print(type(df.iloc[:,0]))
print(type(df.iloc[0:,[0]]))
df.iloc[0:,[0,2]]

##### auf mehrere Spalten drauf zugreifen

In [None]:
# übergebt eine Liste

df.loc[:,['A','C']]

# über slicing
#df.loc['Zeile1':'Zeile3','A':'B']
#df.loc[:,'A':'C':2]

In [None]:
# übergebt eine Liste

#df.iloc[:,[0,2]]

# über slicing
df.iloc[:,0:2]

#### auf Zeilen zu greifen


Zielbild:

              A   B   C
     -------|---|---|---
     Zeile1 | 1 | 4 | 9
     Zeile2 | 2 | 3 | 8
     Zeile3 | 3 | 2 | 7




            Python                           NumPy                       Pandas
     ---------------------------------|--------------------------|---------------------------------
                                      |                          |
       na, da zweidimensional         |         df[0:4]          |     df.loc['Zeile1':'Zeile3',:]
                                      |                          |     
                                      |                          |      
                                      |                          |     df.iloc[0:3,:]
                                      |                          |    







##### NumPy - Erweiterung der Python Standardnotation für die zweidimensionale Abbildung

###### Zugriff über Index

In [None]:
df[0:3]

In [None]:
# Rückgabewert

type(df[0:3])

#### NumPy - über Index 

In [None]:
df['Zeile1':'Zeile3']

# die Zeilenauswahl efolgt immer übers slicing
# Obacht! Beim Label wird der Stopwert mit einbezogen

In [None]:
df[0:3] 

# Obacht! Beim Index wird der Stopwert NICHT mit einbezogen

In [None]:
df['Zeile1':'Zeile3']

# in manchen Foren findet ihr die Antwort, dass dies nicht funktioniert, weil es in NumPy kein Konzept für gelabelte
# Indizes gibt --> dies ist wie ihr oben seht nicht der Fall --> vlt. war es einmal ein Bug der mittlerweile gefixed wurde

##### Pandas - loc

###### Zugriff über Label

In [None]:
df.loc['Zeile1':'Zeile3',:] # OBACHT! Stopwert wird EINBEZOGEN!!!!!!!


In [None]:
# Rückgabewert

type(df.loc['Zeile1':'Zeile3',:])

##### Pandas - iloc

###### Zugriff über Index

In [None]:
df.iloc[0:3,:] # OBACHT: Bei der Verwendung des Indizes wird der Stopwert NICHT mit einbezogen

In [None]:
# Rückgabewert

type(df.iloc[0:3,:])

#### auf Zeilen UND Spalten zu greifen


Zielbild: 

              A   B  
     -------|---|---
     Zeile1 | 1 | 4 
     Zeile2 | 2 | 3 
     Zeile3 | 3 | 2 




            Python                           NumPy                       Pandas
     ---------------------------|----------------------------------|--------------------------------------
                                |                                  |
       na, da zweidimensional   |   df[0:3][['A','B']]             |   df.loc['Zeile1':'Zeile3','A':'B']
                                |   df[['A','B']][0:3]             |   df.loc['Zeile1':'Zeile3',['A','B']]
                                |                                  |      
                                | df['Zeile1':'Zeile3'][['A','B']] |   df.iloc[0:3,0:2]
                                | df[['A','B']]['Zeile1':'Zeile3'] |   df.iloc[0:3,[0,1]]
  

##### NumPy 

In [None]:
# erst Spalten und dann Zeilen?

df[['A','B']][0:3]

In [None]:
# oder erst Zeilen und dann Spalten?

df[0:3][['A','B']]

In [None]:
df[['A','C']][0:3]   # sclicing kommt NumPy nicht klar ['A':'C']

In [None]:
# Du kannst beim Slicing für die Spalten KEINEN Index verwenden! Wie du im Beispiel siehst, werden im 2.ten Slicing
# die Zeilen weiter eingschränkt und nicht die Spalten ausgewählt

df[0:3][0:2]
#df[0:2][0:3]

In [None]:
df['Zeile1':'Zeile3'][['A','B']]

In [None]:
df[['A','B']]['Zeile1':'Zeile3']

##### Pandas - loc

###### Zugriff über Label

In [None]:
## Label verwenden da .loc[]
df.loc['Zeile1':'Zeile3','A':'B']
# li = ['A','C']
# df.loc['Zeile1':'Zeile3',li]

##### Pandas - iloc

###### Zugriff über Index

In [None]:
## Index verwenden da .iloc[]
df.iloc[0:3,0:2]
#df.iloc[0:3,['A','C']] # geht nicht!

Und welche Methode soll ich nun verwenden?

Am besten verwendest du loc oder iloc.

Bei der Wertzuweisung hat NumPy seine Grenzen. Spätestens an dieser Stelle musst du loc oder iloc verwenden.

Was du nicht tun solltest, ist bei Bedingungen NumPy und Pandas zu vermischen. Das dauert länger und verschlechtert somit die Performance! 

In Stackoverflow etc. wirst du Kombinationen finden, weil vielen die Unterschiede nicht klar sind. Insbesondere, wenn es um Bedingungen geht, ist der Grund warum kombinierte Abfragen funktionieren nicht mehr erklärbar. Es funktioniert allerdings, weil Pandas auf NumPy aufgebaut ist.

## Bedingungen  

**df.loc[Bedingung , Spalten]**

In [None]:
# Bedingungen Grudnschema:  df.loc[Bedingung , Spalten]
# Bedingung kann wiederum als Python attribute, numpy oder loc übergeben werden

# df.loc und Python attribute
print(df)
df.loc[df.A == 2, 'A':'B']

In [None]:
# df.loc und NumPy

df.loc[df['A']==2,'A':'B']

In [None]:
# df.loc und df.loc

df.loc[df.loc[:,'A']==2,'A':'B']   # Bei slicing nur so möglich!
#df.loc[df.loc[:,'A']==2,['A','C']] # Zugriff auf Spalte A und C

In [None]:
# Bitte NICHT machen! #########

# df.loc[] um Spalten auszuwählen UND NumPy um Bedingung mitzugeben

df.loc[:,'A':'B'][df['A']==2]

In [None]:
# Bedingung mit Funktion übergeben: z.B. query(), where()
df = pd.DataFrame({'A' : [1, 2, 3, 4],
                   'B' : [4, 3, 2, 1],
                   'C' : [9, 8, 7, 6]}, 
                  index=['Zeile1', 'Zeile2', 'Zeile3', 'Zeile4'])
print(df)
df.loc[:,'A':'B'].query('A==1')
df.query('A==1')
df1 = df.loc[:,'A':'B'].where(df['A']>1, 'NaN')
df1


In [None]:
# inplace Parameter Original DF wird verändert!
print(df.where(df['A']==1, 99, inplace = False))
print(df)

<h1><font color='darkblue'>Pandas - nützliche Funktionen - Liste an DF hängen</font></h1>

Durch einen DataFrame zu iterieren, kann sehr zeitintensiv sein. Insbesondere die Funktion iterrow() ist sehr teuer und sollte nur im Notfall verwendet werden.

Oftmals macht es Sinn, Berechnungen auszulagern und in einer Liste zu berechnen und das Ergebnis, welches in einer Liste gespeichert wird, dann wieder an den DataFrame zu hängen. 
                                
Anhand des nachfolgenden Beispiels soll der DataFrame mit den Einwohnerzahlen, welche in einer Liste gespeichert sind, erweitert werden.

In [None]:
import pandas as pd 

In [None]:
# Beispiel DataFrame

df = pd.DataFrame({'city': ['Chicago', 'Boston', 'Los Angeles'], 'rank': [1, 4, 5]})
df 

In [None]:
# Beispiel Liste Einwohner

citizen_list = [10,50,80] 
citizen_list 

In [None]:
# Spalte neu definieren und Liste zuweisen

df['citizen'] = citizen_list 
df 

In [None]:
# alternativ mit insert()
df.insert(2,'citizen_neu',citizen_list)  # Position der Spalte ist wählbar
#df.insert(2,'citizen_neu',citizen_list,allow_duplicates=True)   # Erlaubt doppelte Spaltennamen
df 

In [None]:
x = df.loc[:,['citizen_neu']]
print(x, type(x))
x = x.citizen_neu
print(x, type(x))
print(list(x))    # Series in Liste
#print(np.array(x)+100)    # Series in Liste
for i in x:       # Series ist itterierbar
    print(i)

In [None]:
# Kopieren eines DataFrames
df1 = pd.DataFrame({'A ': [1,2,3,4,5,4,7,4,9,4],
                    'B': [10,9,8,8,3,8,4,3,2,1],
                    'C': [1,2,2,2,2,4,4,4,4,4]})
print(df1)
df2 = df1[:]              # KEINE echte Kopie!
print(id(df1), id(df2))   # eigener Speicherbereich!
df1.iloc[1,1] = 99
print(df2)
#df1 = df2[:]
print(id(df1), id(df2))
print(df1)                # Daten sind abhängig


In [None]:
# Dataframe kopieren mit .copy()
import pandas as pd
df1 = pd.DataFrame({'A': [1,2,3,4,5,4,7,4,9,4],
                    'B': [10,9,8,8,3,8,4,3,2,1],
                    'C': [1,2,2,2,2,4,4,4,4,4]})
print('df1:\n',df1)
#df2 = df1.copy(deep=False)         # Kopie; abhängig
df2 = df1.copy()                   # echte Kopie; unabhängig
#df2 = df1.iloc[:,[0,2]]           # Teilkopie, bei [:,:] eine anhängige Kopie!
print(id(df1), id(df2),'\n')       # eigener Speicherbereich!
df2.iloc[1,1] = 99
print('df2:\n',df2)
#df1 = df2[:]
print(id(df1), id(df2),'\n')
print('df1:\n',df1)                # Daten sind unabhängig

In [None]:
help(df1.copy)