# Pandas

In [None]:
import pandas as pd
import numpy as np

## Serien
Series sind Folgen, deren Elemente mit einem Index benannt sind.

### Erzeugung von Serien

In [None]:
# Erzeugung einer Serie (mit Default-Labels)
ser = pd.Series([10, 20, 30, 40])
ser

In [None]:
# Erzeugung einer Serie mit Werten und explizitem Index
S = pd.Series([20, 33, 52, 10], index=['peaches', 'oranges', 'cherries', 'pears'])
S 

In [None]:
# Erzeugung einer Serie aus dict
calories = pd.Series({"day1": 420, "day2": 380, "day3": 390})
print(calories)

In [None]:
# Umgehehrt: Series to dict
calories.to_dict()

### Zugriff auf Werte

In [None]:
print(S.to_numpy())
print(type(S.to_numpy()))
print(S.keys())
print(type(S.keys()))

In [None]:
print(ser[2])

In [None]:
S[1]

In [None]:
S['oranges']

In [None]:
S[['oranges']]

In [None]:
S[['oranges', 'pears']]

### Operationen mit Series

In [None]:
S.apply(np.sqrt)

In [None]:
S.apply(lambda x : x * 10)

In [None]:
S2 = pd.Series([17, 13, 31, 32], index=['raspberries', 'oranges', 'cherries', 'pears'])
S2

In [None]:
summe = S + S2
summe

In [None]:
summe.isnull()

In [None]:
summe.apply(lambda x : x == np.NAN)

### NaN 
NaN steht für «Not a Number»

In [None]:
np.NaN, np.NAN, np.nan

In [None]:
np.isnan(np.nan), pd.isnull(np.nan)

In [None]:
np.isnan(0), pd.isnull(0)

In [None]:
# Vorsicht beim test auf Gleich- bzw. Ungleichheit:
np.NAN != np.NAN, np.NAN == np.NAN

In [None]:
np.NAN * 0

In [None]:
summe.isnull()

In [None]:
summe.isna()

In [None]:
summe.dropna()

In [None]:
# Variante: summe.dropna(inplace=True)

In [None]:
summe

In [None]:
summe.fillna(0)

In [None]:
summe.fillna(summe.mean())

In [None]:
summe.dropna().astype(int)

In [None]:
summe

## DataFrames
Ein Dataframe ist eine Tabelle.

* Sowohl Zeilen wie auch Spalten besitzen einen Index
* Pro Spalte gibt es einen dtype

### Erzeugung von Dataframes

In [None]:
daten = [['Bern', 8_600_000, 41_285 ],
         ['Berlin', 83_000_000, 357_582],
         ['Wien', 8_900_000, 83_882 ]]
df0 = pd.DataFrame(daten)
df0

In [None]:
df0.dtypes

In [None]:
spalten = ['Hauptstadt', 'Einwohner', 'Flaeche']
df1 = pd.DataFrame(daten, columns=spalten)
df1

In [None]:
laender = ['Schweiz', 'Deutschland', 'Oesterreich']
df2 =  pd.DataFrame(daten, index = laender)
df2

In [None]:
df3 =  pd.DataFrame(daten, columns=spalten, index = laender)
df3

In [None]:
df3.index

In [None]:
df3.columns

In [None]:
df3.dtypes

### Weitere Konstruktionsmöglichkeiten
Siehe dazu auch <br>
https://www.tutorialspoint.com/python_pandas/python_pandas_dataframe.htm

#### Liste von Series oder Dicts

In [None]:
# Liste von Series
# Jede Series steht für eine Zeile 
pd.DataFrame([
    pd.Series(['Bern', 8_600_000, 41_285]),
    pd.Series(['Berlin', 83_000_000, 357_582])])

In [None]:
# Liste von Series mit Index
# Jede Series steht für eine Zeile, Index der Serices werden zu Spaltennamen 
pd.DataFrame([
    pd.Series(['Bern', 8_600_000, 41_285], index=spalten),
    pd.Series(['Berlin', 83_000_000, 357_582], index=spalten)])

In [None]:
# Liste von Series mit Index
# Jede Series steht für eine Zeile, Index der Serices werden zu Spaltennamen 
# Zusäzulich mit Index für die Zeilen
pd.DataFrame([
    pd.Series(['Bern', 8_600_000, 41_285], index=spalten),
    pd.Series(['Berlin', 83_000_000, 357_582], index=spalten),
    pd.Series(['Wien', 8_900_000, 83_882], index=spalten)],
index=laender)

In [None]:
# Liste von Dicts
# Jedes Dict entspricht einer Zeile.
# Keys sind Spaltennamen, Values die Werte der Spalten
pd.DataFrame([{'Hauptstadt' : 'Bern', 'Einwohner' : 8_600_000, 'Flaeche' : 41_285},
             {'Hauptstadt' : 'Berlin', 'Einwohner' : 83_000_000, 'Flaeche' : 357_000},
             {'Hauptstadt' : 'Wien', 'Einwohner' : 8_900_000, 'Flaeche' : 83_882}])

In [None]:
# Liste von Dicts mit Index
pd.DataFrame([{'Hauptstadt' : 'Bern', 'Einwohner' : 8_600_000, 'Flaeche' : 41_285},
             {'Hauptstadt' : 'Berlin', 'Einwohner' : 83_000_000, 'Flaeche' : 357_000},
             {'Hauptstadt' : 'Wien', 'Einwohner' : 8_900_000, 'Flaeche' : 83_882}],
            index=laender)

#### Dicts von Series oder Dicts
Jedem Key des äußeren Dict enspricht eine Spalte

In [None]:
# Dict von Listen
# Keys sind Spaltennamen, Values die Werte der Spalten
pd.DataFrame({'Hauptstadt' : ['Bern', 'Berlin', 'Wien'],
             'Einwohner' : [8_600_000, 83_000_000, 8_900_000],
             'Flaeche' : [41_285, 357_582, 83_882]})

In [None]:
# Dict von Listen mit Index
pd.DataFrame({'Hauptstadt' : ['Bern', 'Berlin', 'Wien'],
             'Einwohner' : [8_600_000, 83_000_000, 8_900_000],
             'Flaeche' : [41_285, 357_582, 83_882]},
            index=laender)

In [None]:
# Dict von Series
# Die Keys des Dict sind Spaltennamen
# Jede Series entspricht einer Spalte; die Indices der Series bilden den Index des DataFrames 
pd.DataFrame({'Hauptstadt' : pd.Series(['Bern', 'Berlin', 'Wien'], index=laender),
             'Einwohner' : pd.Series([8_600_000, 83_000_000, 357_000], index=laender),
             'Flaeche' : pd.Series([41_285, 83_000_000, 83_882], index=laender)})

In [None]:
# Dict von Dict
# Äußeres Dict: Keys sind Spaltennamen, Values entsprechen den Spalten
# Die Keys der inneren Dicts sind Zeilenlabels

df = pd.DataFrame({'Hauptstadt' : {'Schweiz': 'Bern', 'Deutschland' : 'Berlin', 'Oesterrich' : 'Wien'},
             'Einwohner' : {'Schweiz': 8_600_000, 'Deutschland' : 83_000_000, 'Oesterrich' : 8_900_000},
             'Flaeche' : {'Schweiz': 8_600_000, 'Deutschland' : 83_000_000, 'Oesterrich' : 83_882}})
df

## Zugriff auf Elemente eines Dataframes

In [None]:
# Zugriff auf Spalte
df3['Flaeche']

In [None]:
# Andere Zugriffsart auf Spalte (geht nur, wenn der Spaltenname ein gültiger Variablenname ist)
df3.Flaeche

In [None]:
# Zugriff auf Zeile mit Zeilennamen
df3.loc['Schweiz'] 

In [None]:
# Zugriff auf Zeile mit numerischem Zeilenindex
df3.iloc[0]

In [None]:
# Zugriff auf ein einzelnes Element
df3.loc['Schweiz', 'Hauptstadt']

In [None]:
df3.iloc[0,0]

Wie in numpy ist auch Slicing möglich:

In [None]:
df3.iloc[0,:]

In [None]:
df3.iloc[:,0]

In [None]:
df3.iloc[0:2,1:3]

## Manipulation von Dataframes

In [None]:
# Die ersten Zeilen
df3.head(2)

In [None]:
# Die letzten Zeilen
df3.tail(2)

In [None]:
df3.info()

In [None]:
## Kopieren eines Dataframes
df33 = df3.copy()
df33

In [None]:
# Ersetzen eines Elementes
df33 = df3.copy()
df33.loc['Oesterreich', 'Hauptstadt'] = 'Vienna'
df33

In [None]:
# Ersetzen einer Spalte
df33 = df3.copy()
df33['Einwohner'] = df33['Einwohner'] / 1_000_000 
df33

In [None]:
# Hinzufügen einer Spalte
df33 = df3.copy()
df33.insert(loc=0, column='Kurzform', value=['CH', 'D', 'A'])
df33

In [None]:
# Neue Zeile (es wird ein neues df erstellt)
pd.concat((df33, pd.DataFrame(
    [{'Kurzform':'FL', 'Hauptstadt':'Vaduz'}], index=['Liechtenstein'])))

In [None]:
df33

In [None]:
pd.concat((df33, df33))

In [None]:
pd.concat((df33, df33), axis=1)

### Zusammenfügen von Datensätzen

In [None]:
df_l = pd.DataFrame([
    ['Alice', 314159, 8001], 
    [ 'Bob' , 271828, 3000], 
    ['Ingo', 662607, 6000]], 
    columns=['Name','Telefon', 'PLZ'] )
df_l

In [None]:
df_r = pd.DataFrame([
    ['Alice', 'Katze', 314159], 
    [ 'Bob' , 'Hund', 2718], 
    ['Carola', 'Kaninchen']],
columns=['Name','Haustier', 'Telefon'])
df_r

In [None]:
pd.merge(df_l, df_r)

In [None]:
pd.merge(df_l, df_r, on=['Name'])

## Dataframes aus CSV, Excel oder JSON

In [None]:
# Schreiben einer Datei
df3.to_csv("Laender.csv")

In [None]:
laender = pd.read_csv("Laender.csv")
laender

In [None]:
pd.read_csv("Laender.csv", index_col=0)

__Um Excel zu verwenden zu können, muss openpyxl installiert sein:__

conda install openpyxl

In [None]:
df3.to_excel("Laender.xlsx")

In [None]:
pd.read_excel("Laender.xlsx", index_col=0)

In [None]:
pd.read_json("feiertage.json")

Zum Lesen komplexerer JSON-Files siehe
[https://towardsdatascience.com/how-to-convert-json-into-a-pandas-dataframe-100b2ae1e0d8]

## Sortieren

In [None]:
df3.sort_values(by='Einwohner')

In [None]:
df3.sort_values(by='Einwohner', ascending=False)

## Data Cleaning

In [None]:
daten_orig = pd.read_csv('daten.csv')

In [None]:
daten = daten_orig.copy()

In [None]:
daten

In [None]:
daten.dtypes

In [None]:
daten.columns

### Entfernen von NaN

In [None]:
daten.dropna()

In [None]:
?daten.dropna

### Ersetzen fehlender Werte

In [None]:
daten.fillna(0) 

In [None]:
daten["Calories"].fillna(daten.Calories.mean(), inplace = True) 

In [None]:
daten

### Datum

In [None]:
print(daten.Date[0])
print(type(daten.Date[0]))

In [None]:
pd.to_datetime(daten.Date)

In [None]:
daten.Date = pd.to_datetime(daten.Date)

In [None]:
help(pd.to_datetime)

In [None]:
daten

In [None]:
daten.dropna(inplace=True)

In [None]:
daten

### Ausreißer entfernen

In [None]:
daten_oa = daten.copy()
for x in daten_oa.index:
    if daten_oa.loc[x, "Duration"] > 100:
        daten_oa.drop(x, inplace = True) 

In [None]:
daten_oa

In [None]:
daten_oa2 = daten.loc[daten.Duration <= 100]
daten_oa2.equals(daten_oa)

### Duplikate aufräumen

In [None]:
 daten.duplicated()

In [None]:
 daten.drop_duplicates(inplace = True) 

In [None]:
daten

### Statistik

In [None]:
daten.corr()

In [None]:
help(daten.corr)

In [None]:
daten.Duration.mean()

In [None]:
daten.mean()

In [None]:
daten.Duration.median()

In [None]:
daten.Duration.var()

In [None]:
daten.Duration.std()

### Scikit-Learn
Verschiedene Transformationen können auch mit Scikit-Learn durchgeführt werden.

In [None]:
daten = daten_orig.copy()

In [None]:
daten

#### Imputer

In [None]:
from sklearn.impute import SimpleImputer

In [None]:
imputer = SimpleImputer()

In [None]:
imputed_data = imputer.fit_transform(daten[['Calories']])

In [None]:
daten.Calories = imputed_data
daten

In [None]:
?SimpleImputer

#### Min-Max-Scaler

In [None]:
from sklearn.preprocessing import MinMaxScaler

In [None]:
mm_scaler = MinMaxScaler()

In [None]:
scaled_data = mm_scaler.fit_transform(daten[['Pulse', 'Maxpulse', 'Calories']])
scaled_data

In [None]:
daten[['Pulse', 'Maxpulse', 'Calories']] = scaled_data
daten

#### Standard Scaler

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
daten = daten_orig.copy()

In [None]:
std_scaler = StandardScaler()

In [None]:
scaled_data = std_scaler.fit_transform(daten[['Pulse', 'Maxpulse', 'Calories']])
scaled_data

# Aufgaben
Räume die folgenden Datensätze auf:
* sales.csv auf https://github.com/joshtemple/pandas-cleanup
* 2019_Iowa_Liquor_Sales.csv von https://pbpython.com/text-cleaning.html
* Rainfall (https://africaopendata.org/dataset/messy-data-for-data-cleaning-exercise/resource/8e4db8de-dd9e-44e3-b32f-8680974e7158) von https://towardsdatascience.com/getting-started-with-data-cleaning-in-python-pandas-76d977f95b57

## Datenvisualisierung

In [None]:
monate = ["Januar", "Februar", "März", "April", "Mai", "Juni",
             "Juli", "August", "September", "Oktober", "November",
             "Dezember"]
max_temperatur = [17, 16, 17, 19, 23, 25, 28, 28, 27, 24, 21, 18]
durchschnitts_temperatur = [14, 13, 14, 17, 20, 24, 26, 27,
                               25, 22, 19, 15]
min_temperatur = [10, 9, 11, 14, 18, 22, 25, 26, 24, 19, 15, 12]
niederschlag_mm = [296, 278, 117, 79, 74, 24, 1, 27, 72, 155,
                      110, 283]
kreta_dict = {"Maximal": max_temperatur,
                 "Durchschnitt":durchschnitts_temperatur,
                 "Minimal": min_temperatur,
                 "Niederschlag": niederschlag_mm}
kreta_df = pd.DataFrame(kreta_dict, index=monate)
kreta_df

In [None]:
import matplotlib.pyplot as plt

In [None]:
kreta_df.plot()

In [None]:
kreta_df.drop("Niederschlag", axis=1).plot()

In [None]:
kreta_df.plot()

In [None]:
kreta_df.drop("Niederschlag", axis=1).plot()

In [None]:
kreta_df.plot(kind='bar')

In [None]:
kreta_df.plot(kind='barh', rot=30)

In [None]:
kreta_df['Niederschlag'].plot(kind='pie')

In [None]:
kreta_df.plot(kind = 'scatter', x = 'Durchschnitt', y = 'Niederschlag')

In [None]:
import matplotlib.pyplot as plt

In [None]:
kreta_df['Niederschlag'].plot(kind='pie')
plt.savefig('Pie.png')

In [None]:
kreta_df.plot(subplots=True)

In [None]:
kreta_df.plot(subplots=False)

# Feature-Auswahl

In [None]:
nations = pd.read_csv('nations.csv')

In [None]:
nations.info()

In [None]:
nations.head()

In [None]:
nations_num = nations[["year", "gdp_percap", "life

In [None]:
nations.info()

In [None]:
num = nations.dtypes.apply(lambda tp : tp == np.int64 or tp == np.float64).to_numpy()
num

In [None]:
nations_num = nations.loc[:,num].copy()
nations_num.head()

In [None]:
nations_num.dropna(inplace=True)

In [None]:
nations_num.head()

#### Korrelationskoeffizienten

In [None]:
print(np.corrcoef(nations_num, rowvar=False))

### Feature Selection mit Scikit Learn
https://scikit-learn.org/stable/modules/feature_selection.html 
* VarianceThreshold
* RFE