In [2]:
# XX Kapitel 3: Data Manipulation with Pandas
# import sys
# !{sys.executable} -m pip install pandas

# Pandas ist ein neues Paket, das auf Numpy aufbaut und den Datentyp DataFrame implementiert, der in der Regel multidimensionale
# Arrays mit Spalten- und Zeilenlabel, unterschiedlichen Datentypen und fehlenden Werten umfasst
# >> Panda stellt außerdem eine VIelzahl von Funktionen bereit, mit denen Daten für die nachträgliche Analyse aufbereitet werden 
#    können

import numpy as np
import pandas as pd

# X Fundamentale Datentypen in Pandas

# - Series-Objekte
# ... sind eindimensionale Arrays, die aus einer Liste oder einem array erstellt werden können
data = pd.Series([0.25, 0.5, 0.75, 1.0])
print(data)

# Das Objekt enthält Indexe (Typ: pd.Index) und Werte (Typ: np.array), die ausgewählt werden können
print("\n Auswahl von Element aus dem Series-Objekt")
print(data.values)
print(data.index)

# Auswahl mit [] möglich
print(data[1:3])

# >> im Gegensatz zu einem eindimensionalen np.array wird der INdex des pd.Series-Objekt explizit und nicht implizit definiert
# >> Dadurch kann ein Index auch umbenannt werden (e.g in Strings oder unkontinuierliche Zahlenreihen 0, 5, 6, 9 etc.)

data=pd.Series([0.25, 0.5, 0.75, 1.0],
              index = ['a', 'b', 'c', 'd'])
print("\nUmbenannte Indizes\n",data, data['a'])

# -> Series-Objekte sind im Prinzip eine Spzialisierung des Python Dicitonairies
# >> im Gegensatz zum Dictionairy, das arbiträre Datentypen verwendet, nutzt das Series-Objekt typisierte Werte für Idx und Values

population_dict = {'California': 38332521,
                  'Texas': 26448193,
                  'New York': 19651127,
                  'Florida': 19552860,
                  'Illinois': 22882135}


population = pd.Series(population_dict)
print("\nSeries from Dictionairy\n", population)
print(population['California': 'New York'])


# - Pandas DataFrame-Objekte
# ... können als eine Generalisierung von NumPy Arrays oder als Spezialisierung von Dictionairies betrachtet werden

# Ein DataFrame ist ein zwei-dimensionaler NumPy Array mit flexibler Indexierung und Spaltennamen
# Er kann als Kombination von aufeinander ausgerichteten (gleicher Index in Reihe) Series-Objekten gesehen werden
area_dict = {'California': 423967,
             'Texas': 695662,
             'New York': 141297,
             'Florida': 170312,
             'Illinois': 149995}
area = pd.Series(area_dict)
print(area)

states = pd.DataFrame({'population':population,
                      'area':area})
print("\nX Dataframe")
print(states)
# Das Dataframe-Objekt hat ein .index und ein .columns-Attribut
print("states.columns", states.columns)
print("\nstates['area']:\n", states['area'])
print("\n states['area']['California']:", states['area']['California'])
print("\n states.area:\n",states.area)

# Dataframes können aus einem einzelnen Series-objekt erstellt werden pd.DataFrame(Series, colum=['name']), oder aus einer Liste
# aus Dictionären, oder aus einem Dictionär von Serienobjekten [siehe oben], von einem zwei-dimensionalen Numpy array 
# (pd.Dataframe(np.random.rand(3,2), columns = ['name1', 'name2'], index = ["a", "b", "c"]) oder von einem structured Numpy Array


# - Pandas Index-Objekte
# ... Indexe können entweder ein immutable Array (können nicht verändert werden) oder als geordnetes Set (Logische Operationen
#     wie Schnittmengen etc. funktionieren) werden gesehen


0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

 Auswahl von Element aus dem Series-Objekt
[0.25 0.5  0.75 1.  ]
RangeIndex(start=0, stop=4, step=1)
1    0.50
2    0.75
dtype: float64

Umbenannte Indizes
 a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64 0.25

Series from Dictionairy
 California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      22882135
dtype: int64
California    38332521
Texas         26448193
New York      19651127
dtype: int64
California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

X Dataframe
            population    area
California    38332521  423967
Texas         26448193  695662
New York      19651127  141297
Florida       19552860  170312
Illinois      22882135  149995
states.columns Index(['population', 'area'], dtype='object')

states['area']:
 California    423967
Texas         695662
New York      141297
Florida       170312
Illinois   

In [101]:
# X Indexing und Selektion von Werten
data=pd.Series([0.25, 0.5, 0.75, 1.0],
              index = ['a', 'b', 'c', 'd'])

# - Series-Objekte
print("Selektion in Series-Objekten")
print(data)
# Werte mit Index Selektieren
print("\ndata['a']:", data["a"])

# Außerdem funktionieren Dictionairy-Like Expression
print("a" in data)
print(data.keys())
print(list(data.items()))

# Objekte können wie in einem Dictionairy ergänzt werden
data["e"] = 1.25
print(data)

# Slicing
print("\n Slicing Auswahl über Indexrange")
print("data['b':'d']:\n", data['b':'d']) # beinhaltet finalen Index
print("data[0:2]:\n", data[0:2]) # implizierter numerischer Zeilenindex

# Masking
print("\n Masking mit logischem Auswahlkriterium")
print("data[data > 0.7]:\n", data[data > 0.7])

# Herausforderung von Indexierung
data = pd.Series(["a", "b", "c"], index=[1, 3, 5])
print("\nProbleme beim Indexing")
print("data[1]:", data[1]) # basiert auf expliziter Indexierung
print("data[1:3]:\n", data[1:3]) # basiert auf impliziter Indexierung von 0-2

# >> Lösung .loc(explizite Indizes) und .iloc(implizite Indizes)-Methoden
print("data.loc[1:3]:\n", data.loc[1:3]) # verwendet die festgelegten Indizes
print("data.iloc[1:3]:\n", data.iloc[1:3]) # verwendet die impliziten Indizes


# - DataFrame Objekte
print("\n\nSelektion in DataFrame Objekten\n")

pop = pd.Series({'California': 38332521,
                  'Texas': 26448193,
                  'New York': 19651127,
                  'Florida': 19552860,
                  'Illinois': 22882135})
area = pd.Series({'California': 423967,
                    'Texas': 695662,
                    'New York': 141297,
                    'Florida': 170312,
                    'Illinois': 149995})
data = pd.DataFrame({'area':area, 'pop': pop})

# Auswahl der Series-Obekte über die Dictionairy Keys
print(data['area']) # >> bessere Form der Auswahl
# Alternative Auswahl mit .
print("\n",data.area)

# Berechnung neuer Spalten
data['density'] = data['pop']/data['area']
print("\n", data)

# Da DataFrames, wie structured arrays gedacht werden können, kann man deren Methoden verwenden
print("\n", data.values) # gibt die Werte aus
print("\n", data.T) # Transposed die Matrix

# Um auf ein DataFrame-Objekt, wie bei einen NumPy Array mit Zeilen- und Spaltenindex [] zugreifen zu können, muss iloc[] verwendet werden
print("\n", data.iloc[:3, :2])
print("\n", data.loc[:"Texas", :"pop"]) # mit loc können die Zeilen- und Spaltennamen verwendet werden

# Kann mit fancy-Indexing und Masking combiniert werden
print("\n",data.loc[data['density'] > 100, ['pop', 'area']]) # gibt Pop und Area für alle Zeilen aus, bei denen density > 100

# >> Jede dieser Konventionen kann verwendet werden, um einzelne Werte zu überschreiben

Selektion in Series-Objekten
a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

data['a']: 0.25
True
Index(['a', 'b', 'c', 'd'], dtype='object')
[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]
a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

 Slicing Auswahl über Indexrange
data['b':'d']:
 b    0.50
c    0.75
d    1.00
dtype: float64
data[0:2]:
 a    0.25
b    0.50
dtype: float64

 Masking mit logischem Auswahlkriterium
data[data > 0.7]:
 c    0.75
d    1.00
e    1.25
dtype: float64

Probleme beim Indexing
data[1]: a
data[1:3]:
 3    b
5    c
dtype: object
data.loc[1:3]:
 1    a
3    b
dtype: object
data.iloc[1:3]:
 3    b
5    c
dtype: object


Selektion in DataFrame Objekten

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

 California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

               area      

In [123]:
# X Operating on Data in Pandas
# Pandas erlaubt viele effiziente mathematischen Operationen mit Universal Functions (NumPy)
# und behält zusätzlich die Indexierung und Zeilen-/Spaltenlabel bei

# Zunächst wird ein einfacher DataFrame und eine Series erstellt
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0, 10, 4))
print(ser)
print("\n Unfuncs behalten den Index, e.g. np.exp\n", np.exp(ser))

df = pd.DataFrame(rng.randint(0, 10, (3, 4)),
                 columns = ['A', 'B', 'C', 'D'])
print("\n", df)
print("\nUFuncs behalten die Label der Zeilen und Spalten\n", np.sin(df * np.pi /4))

# Index Alignment
print("\nIndex Alignment\n")
area = pd.Series({'Alaska': 172337, 'Texas': 695662, 'California': 423967}, name='area')
population = pd.Series({'California': 38332521, 'Texas': 26448193, 'New York': 19651127}, name='population')
print(population/area)

# Python nutzt automatisch Schnittmengen, um zu Überprüfen, ob die Indexe übereinstimmen (nur dann wird ein Wert berechnet)
# Allen anderen wird NaN zugewiesen
print(area.index.intersection(population.index))

# MIt einem fill-Value kann die KOdierung als NaN umgegangen werden
print("\n",area.add(population, fill_value=0))


# Index Alignment in DataFrames
print("\nDataframes")
A = pd.DataFrame(rng.randint(0, 20, (2, 2)),
                columns=list('AB'))
print(A)

B = pd.DataFrame(rng.randint(0, 10, (3,3)),
                columns=list('BAC'))
print(B)
# Auch hier funktioniert Index Alignment
print(A.add(B))
print(A.stack().mean())


0    6
1    3
2    7
3    4
dtype: int32

 Unfuncs behalten den Index, e.g. np.exp
 0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

    A  B  C  D
0  6  9  2  6
1  7  4  3  7
2  7  2  5  4

UFuncs behalten die Label der Zeilen und Spalten
           A             B         C             D
0 -1.000000  7.071068e-01  1.000000 -1.000000e+00
1 -0.707107  1.224647e-16  0.707107 -7.071068e-01
2 -0.707107  1.000000e+00 -0.707107  1.224647e-16

Index Alignment

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64
Index(['Texas', 'California'], dtype='object')

 Alaska          172337.0
California    38756488.0
New York      19651127.0
Texas         27143855.0
dtype: float64

Dataframes
   A   B
0  1  11
1  5   1
   B  A  C
0  4  0  9
1  5  8  0
2  9  2  6
      A     B   C
0   1.0  15.0 NaN
1  13.0   6.0 NaN
2   NaN   NaN NaN
4.5


In [158]:
# X Handling Missing Data
# Fehlende Werte können von Programmen auf zwei unterschiedliche Weisen gehandhabt werden
# - Entweder wird ein weiterer zum overhead jeder Zelle zugeteilt, der mit einer Bolean repräsentiert, ob ein Wert enthalten ist oder nicht
# - Oder es wird ein bestimmter Wert (NA, NaN, -9999) zugewiesen, was allerdings den Wertebereich einer Variable einschränkt

# >> In Panda werden zwei exisitierende Repräsentation von fehlenden Werten gewählt um diese anzuzeigen > NaN und None

# Das None-Objekt
print("- None")
vals = np.array([1, None, 3, 4])
print(vals, vals.dtype) # Der array ist vom Objekt Typ, da None von der Python-Objekt Klasse ist, was die Brechnungen stark verlangsamt
# vals.sum() gibt außerdem einen type-Error, da int + None nicht definiert ist

# NaN- Missing numerical Data
print("\n-NaN")
vals2 = np.array([1, np.nan, 3, 4]) # Datentyp ist float, da NaN ein besonderer Float-Value ist, der einen fehlenden Wert anzeigt
print(vals2, vals2.dtype)
# >> Alle Rechenoperationen mit nan ergeben nan >> aber keinen Error
print(0*np.nan, vals2.sum(), vals2.min(), vals2.max())

# Es gibt einige besondere Funktionen, bei denen diese fehlenden Werte ignoriert werden
print(np.nansum(vals2), np.nanmin(vals2), np.nanmax(vals2))

# - NaN und None in Pandas
srs = pd.Series([1, np.nan, 2, None])
df = pd.DataFrame([[1, np.nan, 2, np.nan],
                  [2,  3,      4, np.nan],
                  [np.nan, 5,  6, np.nan]])
print(srs) # automatisch wandelt integers in floats, um NaN benennen zu können

# - Fehlende Werte im Datensatz identifizieren
print("\nFehlende Werte erkennen")
print(srs.isnull()) # erstellt eine Bolean Mask für fehlende Werte
print(df.isnull()) # auf für Dataframes
print(srs.notnull())# Gegenteil von isnull

print("\n Fehlende Werte entfernen")
print(srs.dropna())
print(df.dropna(axis='columns')) # axis bestimmt ob Zeilen oder Spalten entfernt werden sollen
print(df.dropna(axis='columns', how='all')) 
# mit how kann bestimmt werden, welche Reihen/Spalten entfernt werden (any-mit einem NaN, all-mit Allen NaN)
print(df.dropna(axis='rows', thresh=3), "nur Zeile 1 hat 3 Werte")
# tresh gibt die mindestanzahl von tatsächlichen Werten an, die eine Spalte/Zeile haben muss, um beibehalten zu werden

print("\nFehlende Werte füllen")
print(srs.fillna(-9999))

- None
[1 None 3 4] object

-NaN
[ 1. nan  3.  4.] float64
nan nan nan nan
8.0 1.0 4.0
0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64

Fehlende Werte erkennen
0    False
1     True
2    False
3     True
dtype: bool
       0      1      2     3
0  False   True  False  True
1  False  False  False  True
2   True  False  False  True
0     True
1    False
2     True
3    False
dtype: bool

 Fehlende Werte entfernen
0    1.0
2    2.0
dtype: float64
   2
0  2
1  4
2  6
     0    1  2
0  1.0  NaN  2
1  2.0  3.0  4
2  NaN  5.0  6
     0    1  2   3
1  2.0  3.0  4 NaN nur Zeile 1 hat 3 Werte

Fehlende Werte füllen
0       1.0
1   -9999.0
2       2.0
3   -9999.0
dtype: float64


In [259]:
# Hierarchical Indexing
# Manchmal reichen zweidimensionale Datenobjekte nicht aus
# >> Panda bietet dafür Panel-Objekte, die drei- oder vier-dimensionale Daten umfassen können
# >> Alternativ kann Hierarchical (oder multi-)indexing verwendet werden, um mehrere Indexlevel in einem einzigen Index zu vereinen

# - Eine Multiple Index Serie
# The Bad way
print("Bad Practice - Tuple Indexing")
index = [("California", 2000), ('California', 2010),
         ("New York", 2000), ('New York', 2010),
        ("Texas", 2000), ('Texas', 2010)]
populations = [33871648, 37253956,
              18976457, 19378102,
              20851820, 25145561]

pop = pd.Series(populations, index = index)
print(pop)
print("\nSlicing mit multilevel Index")
print(pop[('California', 2010):('Texas', 2000)])

print("\nIndexlevel Zugriff via For-Loops")
print(pop[[i for i in pop.index if i[1] ==2010]])

# The Good way
print("Good Practice - Multilevel Index")
index = pd.MultiIndex.from_tuples(index)
print("Levels", index.levels)
print(index)

# Multilevel indexed Data
print("\nX Multilevel Indexed Data")
pop = pd.Series(populations, index = index)
print(pop)
print(pop[:,2010]) # Zweiter Wert in [] gibt Wert des Zweiten Indexes an

# mit unstack() kann dieser Multilevel Index in ein Zweidimensionales Datenobjekt umgewandelt werden
pop_df = pop.unstack()
print("\nDer dazugehörige Dataframe\n", pop_df )

# pop_df.stack() führt zu dem gegensätzlichen Ergebnis

# Variablen ergänzen
print("\n Variablen ergänzen")
pop_df = pd.DataFrame({'total': pop,
                      'under18': [9267089, 9284094,
                                  4687374, 4318033,
                                  5906301, 6879014]})
print(pop_df)
# Rechenoperationen sind weiterhin möglich (unstack() hier optional)
print((pop_df['under18']/ pop_df['total']).unstack())

# X Mutliindex Daten erstellen
print("\nMultiindex DataFrames erstellen")

# Der einfachste Weg ist mit einer eine Liste aus zwei oder mehr Index-Arrays
df = pd.DataFrame(np.random.rand(4,2),
                 index = [['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                 columns = ['data1', 'data2'])
print(df)
# auch ein Dictionairy mit Tuples als Keys, werden automatisch von pd.Series() zu einem MultiIndex-Objekt konvertiert

# Multiindex Constructors
index = pd.MultiIndex.from_arrays([['a', 'a', 'b', 'b'], [1, 2, 1, 2]]) # erstellt den Index aus einer Liste von Arrays
print(index)
# index = pd.MultiIndex.from_tuples([('a', 1), ('a', 2) ... ]) möglich

index = pd.MultiIndex.from_product([['a', 'b', 'c'], [1, 2]])
print(index) # Als Produkt aus den beiden arrays a1, a2, b1, b2 ....

# Es ist möglich die Indexe zu benennen
print("\n Benannte Indexe")
pop_df.index.names = ['state', 'year']
print(pop_df)

# Auch Spalten können mit einem Multiindex versehen werden
print("\n Komplexe Dataframes mit Mutli-Zeilen- und -Spalten-Index")
index = pd.MultiIndex.from_product([[2013, 2014], [1,2]],
                                  names = ['years', 'visit'])
columns = pd.MultiIndex.from_product([['Bob', 'Guido', 'Sue'], ['HR', 'Temp']],
                                    names = ['Subject', 'Type'])
# Daten generieren
data = np.round(np.random.randn(4,6), 1)
data[:, ::2] *=10
data += 37
# Dataframe erstellen
health_data = pd.DataFrame(data, index=index, columns=columns)
print(health_data)
# Das Ergebnis ist im Prinzip ein Vierdimensionaler Datensatz mit Personen, Jahr, Typ und Besuchen

# Einzelne Personen können ausgewählt werden
print("\nEinzelne Person\n", health_data["Guido"])
print("\nEinzelnes Jahr\n", health_data.loc[2013])
print("\nEin Jahr einer Person\n", health_data.loc[2013]["Guido"])


# Indexing and Slicing a Multiindex
print("\n\nAuswahl mit Multiindex Series")
# Bei Multiindex Series-Objekten kann der Multindex mit [Index1, Index2] aufgerufen werden
print(pop[:, 2000]) # auch pop['California', 2000] für einen Wert oder pop['California': 'New York'] möglich
print("\n", pop[pop > 22000000])

# DataFrames
print("\nAuswahl bei Multiindex DataFrames")
# Spalten sind in DataFrames primäre Auswahl, somit kann über [Spaltenindex1, Spaltenindex2] eine konkrete Spalte gewählt werden
print(health_data['Sue', 'HR'])
# implizite Zahlenindex-Auswahl möglich:
# - health_data.iloc[:2, :2] > wählt erste vier Zellen aus

# Mit loc müssen mehrere Indexe als Tuple angegeben werden
print("\n", health_data.loc[:,('Bob', 'HR')])
# Slicing innerhalb eines Tuples führt zu Fehlermeldungen, e.g. health_data.loc[(:, 1), (:, 'HR')] # alle HR in erstem Besuch pro Jahr
# >> dafür gibt es pd.IndexSlice
idx = pd.IndexSlice
print(health_data.loc[idx[:,1], idx[:, 'HR']]) # mit dem IndexSlice Objekt sind die Auswahl von zweitrangigen Indexen möglich

# print(health_data.unstack().unstack()) >> kann auch in einen zweidimensionalen DF umgewandelt werden

# Sortieren des Indexes
print("\nMultilevel Index sortieren")
index = pd.MultiIndex.from_product([['a', 'c', "b"], [1, 2]])
data = pd.Series(np.random.rand(6), index = index)
data.index.names = ['char', 'int']
print(data)
data.sort_index(inplace=True)
print("\n", data)

# dataframe.set_index(['index', 'index2']) # ist eine Möglichkeit daten von wide ins long-Format zu konvertieren

# Deskriptive Statistik mit multi-indexed Dataframes
print("\nDeskriptive Kennwerte")
print(health_data.mean(axis=0)) # Gibt den Durchschnitt über die Spalten hinweg an
print(health_data.groupby(level='years').mean()) # Gibt den Durchschnitt der Jahre an


Bad Practice - Tuple Indexing
(California, 2000)    33871648
(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
(Texas, 2010)         25145561
dtype: int64

Slicing mit multilevel Index
(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
dtype: int64

Indexlevel Zugriff via For-Loops
(California, 2010)    37253956
(New York, 2010)      19378102
(Texas, 2010)         25145561
dtype: int64
Good Practice - Multilevel Index
Levels [['California', 'New York', 'Texas'], [2000, 2010]]
MultiIndex([('California', 2000),
            ('California', 2010),
            (  'New York', 2000),
            (  'New York', 2010),
            (     'Texas', 2000),
            (     'Texas', 2010)],
           )

X Multilevel Indexed Data
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas      

In [273]:
# X Datensätze Kombinieren: Concact und Append (Kurzüberblick)

def make_df(cols, ind):
    data = {c: [str(c) + str(i) for i in ind] for c in cols}
    return pd.DataFrame(data, ind)

# pd.concat()
df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])

print(df1)
print(df2)
print("\n Kombinieren mit pd.concat()")
print(pd.concat([df1, df2])) # per Default werden Reihen ergänzt
print("\n")
df3 = make_df('CD', [1, 2])
print(pd.concat([df1, df3], axis=1)) # kann aber auch geändert werden

# mit dem Argument ignore_index = True, wird ein neuer kontinuierlicher Index entwickelt, was verhindert, 
# das Datensätze mit gleicher INdexierung den Index doppeln
# Alternative kann mit keys = ['key1', 'key2'] ein Multiindex erstellt werden
df2.index = df1.index
print('\nIndex Dopplung')
print(pd.concat([df1, df2]))
print("Lösung:")
print(pd.concat([df1, df2], ignore_index=True))

print(pd.concat([df1, df2], keys=['x', 'y']))

# Bei unterschiedlichen Spalten/ Zeilen wird der rest mit NA aufgefüllt
df2.index = [3,4]
print(pd.concat([df1, df2], axis=1))

# mit join = "inner" kann sichergestellt werden, dass nur Spalten und Zeilen übernommen werden, die in beiden Fällen existieren

# X Python unterstützt auch das Kombinieren von datasets auf Basis der relational Algebra (Verwendet in Datenbanken)
# pd.merge() vereint verschiedene Kombinationsmöglichkeiten (one-to-one; many-to-one; many-to-many) je nach Input-Daten

# one-to-one Join
# >> Wenn zwei DF existieren, die eine gemeinsame (Key)Variable enhalten und unterschiedliche Spalten, werden die Werte 
#    automatisch anhand der gemeinsamen Variable gematcht (e.g. df1: Employer + Gehalt; df2: Employer + Geburtsjahr
#    > merge = df3: Emplyer + Gehalt + Geburtsjahr)


# many-to-one Join
# >> Wenn zwei DF eine Key-Variable enthalten, die in einem der Datensätze mehrfach vorkommt, werden die ergänzten Werte im Merge
#    gedoppelt (e.g. df1: Employer-Name + Abteilung(doppelt); df2: Abteilung (Einzeln) + Supervisorname
#    > merge: EmployerName + Abteilung + Supervizorname (mehrfach je Abteilung aufgeführt))


# many-to-many Join
# >> komplex... wenn beide Seiten der Variablen duplikate in der Keyvariable enthalten, werden diese jeweils beim join gedoppelt

# Weitere INfos on merge
# - in pd.merge() kann mit dem on='variable' Argument die Key-Variable für den merge festgelegt werden >> variable muss in beiden df enthalten sein
# - wenn die key-Variable in beiden Datensätzen unterschiedlich benannt wird kann der Name jeweils mit den Argumenten
#   left_on='VarName_links' und right_on='VarName_rechts' mitgegeben werden
# - wenn man auf Basis des Index mergen will kann left_index = True und right_index=True verwendet werden
#   >> .join()-Methode ist ein Merge auf Basis der Indexe
# - das how="" Argument beschreibt, wie fehlende Daten gehandhabt werden ('inner' [Default] übernimmt nur vollständige Werte
#   in beiden dfs, 'left' = behält linke Einträge und füllt ggf. mit NA, rechts wird entfernt, wenn nicht vollständig
#   'right' = umgekehrt left, 'outer' = behält alle Beiträge und füllt fehlende Zellen mit NaN)


    A   B
1  A1  B1
2  A2  B2
    A   B
3  A3  B3
4  A4  B4

 Kombinieren mit pd.concat()
    A   B
1  A1  B1
2  A2  B2
3  A3  B3
4  A4  B4


    A   B   C   D
1  A1  B1  C1  D1
2  A2  B2  C2  D2

Index Dopplung
    A   B
1  A1  B1
2  A2  B2
1  A3  B3
2  A4  B4
Lösung:
    A   B
0  A1  B1
1  A2  B2
2  A3  B3
3  A4  B4
      A   B
x 1  A1  B1
  2  A2  B2
y 1  A3  B3
  2  A4  B4
     A    B    A    B
1   A1   B1  NaN  NaN
2   A2   B2  NaN  NaN
3  NaN  NaN   A3   B3
4  NaN  NaN   A4   B4


In [319]:
# X Aggregation und Grouping
import seaborn as sns
planets = sns.load_dataset('planets')
print("Planets Dataset", "\nSize:", planets.shape, "\n")
print(planets.head())

# Deskriptive Überblicksstatitstik mit .describe()
print("\nÜberblick")
print(planets.describe()) # mit planets.dropna.describe() werden Zeilen mit fehlenden Werden ausgeschlossen

# X GroupBy
# Beschreibung der Daten in Abhängigkeit von einer Zielvariable
# Intern werden die Daten zunächst anhand der Zielvariable geteilt (split), dann wird eine Berechnung z.B. Mittelwert 
# durchgeführt (aplly) und das Ergebnis für den Output zusammengesetzt (Combine)

df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                  'data':range(6)}, columns=['key', 'data'])
print("\n Einfaches Beispiel")
print(df)
print(df.groupby('key')) # gibt ein GroupBy Objekt zurück
print(df.groupby('key').sum()) # Summiert die Werte anhand der key-Variable

# Aggregierte Kennziffern für einzelen Varibalen im Datensatz ausgeben
print("\nMedian der Orbital_Period in Abhängigkeit von der Methode")
print(planets.groupby('method')['orbital_period'].median())

# >> GroupBy-Objekte sind iterable
for(method, group) in planets.groupby('method'):
    print("{0:30} shape={1}".format(method, group.shape))
# Keine Ahnung, wie der String funktioniert

print("\n", planets.groupby('method')['year'].describe())

# - aggregate()
# mit aggregate können spezifische Operationen ausgewählt werden
print("\nAggregate")
print(df.groupby("key").aggregate(['min', np.median, max]))
# erlaubt auch die Auswahl vom Spalten mit Dictionairy
print(planets.groupby('method').aggregate({"year": max, "distance": np.nanmax})) 

# - filter()
# mit filter() können die Ergebnisse auf Basis eines Kriteriums aussortiert werden
def filter_func(x):
    return x['data'].sum() > 3

print("\n Filter")
print(df.groupby('key').sum())
print(df.groupby('key').filter(filter_func))
# A hat keine Summe > 4 und wird entfernt

# - transform()
# mit transform() können Datenpunkte verändert werden, e.g. zentrieren der Variable auf Basis von Gruppenmittelwerten
print("\n Tranform")
print(df.groupby("key").transform(lambda x: x - x.mean())) # Jedem Wert wird 3 abgezogen, da das der Gruppenmittelwert ist


# - aplly()
# ... erlaubt eine arbitrary Funktion auf die gruppierten Datensatz anzuwenden

# Gruppierung kann auch auf andere Weise stattfinden
# - in group apply kann eine Liste der einem Gruppierungsindex mitgegeben werden, die angibt zu welcher Gruppe die Zeilen 
#   zusammengefasst werden sollen >> muss so lang wie der Datensatz sein
# - oder mit df.set_index('key'), kann eine Gruppen Variable festgelegt werden und mit einem Dictionair in 
#   .groupby({'Ausprägung1': 'Gruppe1', 'Ausprägung2':'Gruppe2', 'Ausprägung3': 'Gruppe1'}) die Gruppenzugeh. definiert werden  



Planets Dataset 
Size: (1035, 6) 

            method  number  orbital_period   mass  distance  year
0  Radial Velocity       1         269.300   7.10     77.40  2006
1  Radial Velocity       1         874.774   2.21     56.95  2008
2  Radial Velocity       1         763.000   2.60     19.84  2011
3  Radial Velocity       1         326.030  19.40    110.62  2007
4  Radial Velocity       1         516.220  10.50    119.47  2009

Überblick
            number  orbital_period        mass     distance         year
count  1035.000000      992.000000  513.000000   808.000000  1035.000000
mean      1.785507     2002.917596    2.638161   264.069282  2009.070531
std       1.240976    26014.728304    3.818617   733.116493     3.972567
min       1.000000        0.090706    0.003600     1.350000  1989.000000
25%       1.000000        5.442540    0.229000    32.560000  2007.000000
50%       1.000000       39.979500    1.260000    55.250000  2010.000000
75%       2.000000      526.005000    3.040000 

In [346]:
# X Pivot Tables

titanic = sns.load_dataset('titanic')
print("Überblick Titanic-Datensatz")
print(titanic.head())
print("\nÜberlebenschance nach Geschlecht")
print(titanic.groupby("sex")['survived'].sum())
print(titanic.groupby("sex")['survived'].mean())
print("\nÜberlebenschance nach Klasse und Geschlecht")
print(titanic.groupby(["class", "sex"])['survived'].mean())

# Das Ergebnis mit pivot_table
print("\nPivot_table-Lösung")
print(titanic.pivot_table('survived', index='sex', columns='class'))
print(titanic.pivot_table('survived', index='sex'))

# Es ist außerdem möglich eine dritte Dimension zu ergänzen
age = pd.cut(titanic['age'], [0, 18, 80]) # unterteilt Alter in unter 18 und Älter
print(titanic.pivot_table('survived', ['sex', age], 'class'))

# Und noch eine vierte Dimension
fare = pd.qcut(titanic['fare'], 2) # Teilt den Datensatz in zwei gleichgroße Teile am Medien, siehe print(titanic['fare'].median())
print(titanic.pivot_table('survived', ["sex", age], [fare, 'class']))

# - mit dem Argument aggfunc='mean' (Default), kann der Kennwert, der in der Tabelle ausgegeben wird verändert werden ("mean", "std" etc.))
# - mit margins = True wird der Gesamtwert über alle Gruppen hinweg berechnet und mitausgegeben


Überblick Titanic-Datensatz
   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   
3         1       1  female  35.0      1      0  53.1000        S  First   
4         0       3    male  35.0      0      0   8.0500        S  Third   

     who  adult_male deck  embark_town alive  alone  
0    man        True  NaN  Southampton    no  False  
1  woman       False    C    Cherbourg   yes  False  
2  woman       False  NaN  Southampton   yes   True  
3  woman       False    C  Southampton   yes  False  
4    man        True  NaN  Southampton    no   True  

Überlebenschance nach Geschlecht
sex
female    233
male      109
Name: survived, dtype: int64
sex
female    0.742038
male      0.188908
Name: survived, dtype: float64

Überlebenschance nach 

In [72]:
# X Vectorized String Operations

# - Der Weg ohne Panda
data = ['peter', 'Paul', 'MARY', 'gUIDO']
data_c = [s.capitalize() for s in data]
print(data_c)

# >> Problem bei fehlenden Werten
# data.insert(2, None)
# data_c = [s. capitalize() for s in data]

# >> Fehlermeldung Attribute ERROR

# - mit Panda
names = pd.Series(data)
print('\n- Panda-Series data', names)
print('\n')
print(names.str.capitalize())

# Wie bei arithmetischen Operationen wird die Methode auf alle Elemente des Serienobjekts angewendet

# - Panda string-Methoden
# .len()            .lower()          .translate()         .islower()
# .ljust()          .upper()          .startswith()        .isupper()
# .rjust()          .find()           .endswith()          .isnumeric()
# .center()         .rfind()          .isalnum()           .isdecimal()
# .zfill()          .index()          .isalpha()           .split()
# .strip()          .rindex()         .isdigit()           .rsplit()
# .rstrip()         .capitalize()     .isspace()           .partition()
# .lstrip()         .swapcase()       .istitle()           .rpartition()


# X Methoden mit regular Expressions (Denk an Webscraping R)
# .match(); .extract(), .findall(), .replace(), .contains(), .count(), .split(), .rsplit()

monte = pd.Series(['Graham Chapman', 'John Cleese', 'Terra Gillian', 'Eric Idle', 'Terry Jones', 'Mike Do'])
print("\n- Extraktion der ersten Namen mit Regular Expression")
print(monte.str.extract('([A-Za-z]+)'))

# Oder komplizierter können alle Namen gefunden werden, die mit einem Konsonanten anfangen (^) und enden ($)
print(monte.str.findall(r'^[^AEIOU].*[^aeiou]$'))

# - Weitere sinvolle Methoden
# .str.get(index)       Indexiert jedes Element (Buchstabe für Buchstabe) und wählt aus
# .str.slice(start,end) Indexiert jedes Element und wählt einen Bereich von Buchstaben aus
# .str.slice_replace()  Ersetzt Bereich (start,end) durch eine neuen Zeichenkette (replace="")
# .str.cat(sep=" ")     Fügt string zusammen
# .str.repeat()             Repeat values
# .str.normalize()          Wandelt in Unicode Format
# .str.pad()                Fügt Leerzeichen links, rechts oder an beiden Stellen hinzu
# .str.wrap()               Teilt lange Strings in Zeilen mit einer gewissen Länge
# .str.join()               Fügt strings mit einem separator zusammen
# .str.get_dummies()        Extrahiert dummy Variablen als Dataframe


# get() kann auch Elemente von Listen auswählen, wie sie z.B. von split zurückgegeben werden
print("\nNachnamen")
print(monte.str.split().str.get(-1))

# .get_dummies()
print("\nDummy Kodierung")
full_monte = pd.DataFrame({'name':monte,
                          'info': ['B|C|D', 'B|D', 'A|C', 'B|D', 'B|C', 'B|C|D']})
print(full_monte)
print(full_monte['info'].str.get_dummies('|'))


# X Beispiel - Rezepte Datenbank
print("\n\nX Rezepte Beispiel")

try:
    recipes = pd.read_json('recipeitems.json')
except ValueError as e:
    print("ValueError", e)

# >> Ergebnis ist ein Trailing data Error, sagt, dass jede Zeile eine json_Datei ist, aber nicht die Datei

with open('recipeitems.json') as f:
    line = f.readline()
    print(pd.read_json(line).shape)
# >> Jede Zeile ist eine json-Datei

with open('recipeitems.json', encoding ="utf8") as f:
    # Extract each line
    data = (line.strip() for line in f)
    # Reformat, so each Line is the element of a list
    data_json ="[{0}]".format(','.join(data))
# Erebnis als JSON lesen
recipes = pd.read_json(data_json)


['Peter', 'Paul', 'Mary', 'Guido']

- Panda-Series data 0    peter
1     Paul
2     MARY
3    gUIDO
dtype: object


0    Peter
1     Paul
2     Mary
3    Guido
dtype: object

- Extraktion der ersten Namen mit Regular Expression
        0
0  Graham
1    John
2   Terra
3    Eric
4   Terry
5    Mike
0    [Graham Chapman]
1                  []
2     [Terra Gillian]
3                  []
4       [Terry Jones]
5                  []
dtype: object

Nachnamen
0    Chapman
1     Cleese
2    Gillian
3       Idle
4      Jones
5         Do
dtype: object

Dummy Kodierung
             name   info
0  Graham Chapman  B|C|D
1     John Cleese    B|D
2   Terra Gillian    A|C
3       Eric Idle    B|D
4     Terry Jones    B|C
5         Mike Do  B|C|D
   A  B  C  D
0  0  1  1  1
1  0  1  0  1
2  1  0  1  0
3  0  1  0  1
4  0  1  1  0
5  0  1  1  1


X Rezepte Beispiel
ValueError Trailing data
(2, 12)
(173278, 17)
_id                                {'$oid': '5160756b96cc62079cc2db15'}
name                    

In [99]:
# X Fortsetzung, da der Code darüber ziemlich lange läd
print(recipes.shape) # 173278 Rezepte und 17 Spalten
print(recipes.iloc[0])

# Die Daten sind ziemlich messy, wie bei webscraping zu erwarten ist...
# Z.B. sind die Zustaten als ein String aufgeführt

print(recipes.ingredients.str.len().describe()) # im Durchschnitt 244.6 Zeichen
print("\n Gericht mit der längsten Zutatenliste")
print(np.argmax(recipes.ingredients.str.len()))
print(recipes.name[np.argmax(recipes.ingredients.str.len())])

# Weitere Infos für das Arbeiten mit Strings unter:
# https://pandas.pydata.org/docs/

# Wie viele Rezepte sind in der recipeCategory breakfast
print('\nFrühstück Rezepte: ', recipes.description.str.contains('[Bb]reakfast').sum())
print('Rezepte mit Zimt: ', recipes.ingredients.str.contains('[Cc]innamon').sum())
print('Schreibfehler Zimt: ', recipes.ingredients.str.contains('[Cc]inamon').sum())


# Einfache Rezept-Recommander
spice_list = ['salt', 'pepper', 'oregano', 'sage', 'parsley', 'rosemary', 'tarragon', 'thyme', 'paprika', 'cumin']

import re
spice_df = pd.DataFrame(
    dict((spice, recipes.ingredients.str.contains(spice, re.IGNORECASE))
        for spice in spice_list))
# Dict mapped den Name des Spices zu dem ERgebnis der Contains Funktion... AUf Basis des Dictionairys wird dann ein Datensatz erstellt
print(spice_df.head())
selection = spice_df.query('parsley & paprika & tarragon')
print('\nRezepte mit gewählten Gewürzen: ', len(selection))

print(recipes.name[selection.index]) # Rezepte
print("\nZutaten für ein Rezept\n", recipes.ingredients[2069])

(173278, 17)
_id                                {'$oid': '5160756b96cc62079cc2db15'}
name                                    Drop Biscuits and Sausage Gravy
ingredients           Biscuits\n3 cups All-purpose Flour\n2 Tablespo...
url                   http://thepioneerwoman.com/cooking/2013/03/dro...
image                 http://static.thepioneerwoman.com/cooking/file...
ts                                             {'$date': 1365276011104}
cookTime                                                          PT30M
source                                                  thepioneerwoman
recipeYield                                                          12
datePublished                                                2013-03-11
prepTime                                                          PT10M
description           Late Saturday afternoon, after Marlboro Man ha...
totalTime                                                           NaN
creator                                            

In [None]:
# Panda Timeseries Data
# nachlesen unter >>> pandas.pydata.org/docs >> timeseries


# Besondere Funktionen - .eval und und .query
# mit pd.eval('df1 + df2 + df3 + df4') können Datensätze schnell zusammengerechnet werden
# >> Damit können Arithmetische Operationen, Vergleiche sowie Operationen mit Attributen und Indexen durchgeführt werden 
#    (z.B. pd.eval('df.T[0] +df3.iloc[0]'))

# >> Datensätze haben ebenfalls eine .eval() Funktion, dann muss der Datensatz nicht mehr spezifiert werden
#    und es kann dierekt auf die Spalten zugegriffen werden

# mit df.eval('D = (A + B)/C', inplace=True) # könnte eine neue Spalte im Datensatz ergänzt werden aus ABC-berechnet
# mit df.val('D = A + @columnmean', inplace=True) # kann auf eine lokale Variable für die Berechnung zugegriffen werden

# .query ist eine andere Funktion, die bei highperformance Operationen nützlich sein kann
