## Aufgaben zu Pandas

### Verwendete Bibliotheken

In [None]:
import pandas as pd
import numpy as np

### 1. Beispiele zu DataFrame erzeugen

Erzeugen Sie nachfolgende Tabelle, indem Sie ein festes Dictionary verwenden!

In [None]:
df = pd.DataFrame({'col one':[100, 200], 'col two':[300, 400]})
print(df)

Erzeugen Sie einen großen DataFrame mit der Funktion „random.rand()“ von NumPy mit 4 Zeilen und 8 Spalten als feste Parameter

In [None]:
df2 = pd.DataFrame(np.random.rand(4, 8))

Benennen Sie die Spalten mit a bis h und verwenden Sie eine Liste als Parameter: 
list('abcdefgh')

In [None]:
df2.rename(columns={0:'a', 1:'b', 2:'c', 3:'d', 4:'e', 5:'f', 6:'g', 7:'h'}, inplace=True)

### 2. Umbenennen von Spalten

Verwenden Sie folgende Tabelle von oben:
df = pd.DataFrame({'col one':[100, 200], 'col two':[300, 400]})
Ändern sie die Namen der Spalten durch direkte Zuweisung in 'col_one', 'col_two' ab!

In [None]:
df.columns = ['col_one', 'col_two']

Fügen Sie einen Prefix allen Spalten hinzu z.B. "X_"!

In [None]:
df.rename(columns=lambda x: f'X_{x}', inplace=True)

Fügen Sie einen suffix allen Spalten hinzu z.B. "_Y"!

In [None]:
df.rename(columns=lambda x: f'{x}_Y', inplace=True)
print(df)

### 3. Zeilenreihenfolge umkehren

Laden Sie die Datei drinks.csv aus dem Verzeichnis data und lassen Sie die ersten 10 Datensätze darstellen:

In [None]:
dfDrinks = pd.read_csv('data/drinks.csv')

Kehren Sie die Reihenfolge des Datasets um(Sortierung Z bis A bei country), indem Sie `loc` mit dem Parameter `::-1` verwenden!

In [None]:
dfDrinks.loc[::-1].head(10)

Kehren Sie den Index mit Hilfe der Funktion `reset_index()` method! Beachten Sie den Parameter "drop"!

In [None]:
dfDrinks.loc[::-1].reset_index(drop=True).head(10)

### 4.  Spaltenreihenfolge umkehren

Erklären Sie, warum Sie mit [:, ::-1] als Parameter von loc die Spaltenreihenfolge umkehren können und testen Sie dies aus!

In [None]:
# Da die loc-Methode auf Zeilen und Spalten zugreift, können Sie die Reihenfolge der Spalten umkehren, indem Sie die # Spaltenauswahl [:] verwenden und dann die Reihenfolge mit [::-1] umkehren.

The colon before the comma means "select all rows", and the `::-1` after the comma means "reverse the columns", which is why "country" is now on the right side.

## 5. Spalten & Datentypen

Lassen Sie sich alle Datentypen der Datei drinks.csv anzeigen!

In [None]:
print(dfDrinks.dtypes)

Speichern Sie alle numerischen Spalten in dfDrinksNumberCols unterVerwendung von `select_dtypes()` und lassen Sie die ersten 3 Zeilen anzeigen:

In [None]:
dfDrinksNumberCols = dfDrinks.select_dtypes(include=[np.number])
print(dfDrinksNumberCols.head(3))

Speichern Sie alle Spalten mit Typ 'object' in dfDrinksObjectsCols unterVerwendung von `select_dtypes()` und lassen Sie die ersten 3 Zeilen anzeigen:


In [None]:
dfDrinksObjectsCols = dfDrinks.select_dtypes(include=[np.object])

Verwenden sie nun als Parameter eine Liste um Datentypspalten vom numerische oder object in dfDrinksNumberOrObjectCols zu kopieren!

In [None]:
dfDrinksNumberOrObjectCols = dfDrinks.select_dtypes(include=[np.number, np.object])

Speichern Sie alle numerischen Spalten in dfDrinksNumberExceptCols unter Verwendung von `select_dtypes()` und lassen Sie die ersten 3 Zeilen anzeigen:

In [None]:
dfDrinksNumberExceptCols = dfDrinks.select_dtypes(exclude=[np.number])

### 7. Konvertierung von Strings nach Numbers

Für die nächsten Teilaufgaben wird folgendes Dataframe verwendet:

In [None]:
# OK

In [None]:
df3 = pd.DataFrame({'col_one':['1.1', '2.2', '3.3'],
                   'col_two':['4.4', '5.5', '6.6'],
                   'col_three':['7.7', '8.8', '-']})

Geben Sie die Datentypen der Tabelle aus und lesen Sie ab, dass die Spalten als Datentyp string eingelesen werden!

In [None]:
print(df3.dtypes)

Wir möchten damit rechnen und den Datentyp in den ersten beiden Spalten nach df2ColsFloat konverieren. Verwenden Sie `astype()` auf die ersten beiden Spalten! Warum funktioniert dies mit der 3. Spalte nicht?

In [None]:
df3[['col_one', 'col_two']] = df3[['col_one', 'col_two']].astype(float)

Ein sicheres Verfahren ist die Pandas funktion `to_numeric()`, die mit dem  Parameter errors='coerce' Fehler unterdrückt:
"df.apply(pd.to_numeric, errors='coerce')" und ungültige Daten auf NaN setzt!
Anschließend kann man mit der fillNa() methode diese NaN Werte z.B. auf 0 setzen!
Geben Sie anschliesend die Daten und die Datentypen aus!


In [None]:
df3 = df3.apply(pd.to_numeric, errors='coerce')

### 7. Reduktion der Größe der DataFrames

Erstellen Sie eine Funktion createBigData(noOfRows), welche zufällige Datensätze erstellt!<br>
Die Funktion soll einen DataFrame zurückgeben, der folgende Spalten enthält:<br>

position: Eine zufällige Auswahl aus den Werten 'left', 'middle' und 'right'.<br>
age: Zufällige Ganzzahlen im Bereich von 1 bis 50, die das Alter darstellen.<br>
team: Eine zufällige Auswahl aus den Werten 'red', 'blue', 'yellow' und 'green'.<br>
win: Eine zufällige Auswahl aus den Werten 'yes' und 'no', um anzuzeigen, ob das Team gewonnen hat.<br>
prob: Zufällige Gleitkommazahlen im Bereich von 0 bis 1, die die Wahrscheinlichkeit eines Ereignisses darstellen<br>
Testen Sie die Funktion mit 1_000_000!<br>
testen Sie das Ergebnis mit df.shape und df.info()!

In [None]:
def createBigData(noOfRows):
    position = np.random.choice(['left', 'middle', 'right'], noOfRows)
    age = np.random.randint(1, 50, noOfRows)
    team = np.random.choice(['red', 'blue', 'yellow', 'green'], noOfRows)
    win = np.random.choice(['yes', 'no'], noOfRows)
    prob = np.random.rand(noOfRows)
    return pd.DataFrame({'position':position, 'age':age, 'team':team, 'win':win, 'prob':prob})

df = createBigData(1_000_000)
print(df.shape)
print(df.info())

Optimieren Sie die Spaltenformatierung:<br>
- Legen Sie für die position- und team-Spalten den Datentyp 'category' fest.
- Reduzieren Sie den Speicherbedarf, indem Sie die age-Spalte auf den Datentyp 'int8' und die prob-Spalte auf den Datentyp 'float32' umwandeln.
- Konvertieren Sie die win-Spalte in einen booleschen Datentyp, indem Sie den Wert 'yes' in True und den Wert 'no' in False umwandeln.
- Vergleichen Sie das Ergebnis vorher und hinterher mit info()!

In [None]:
def optimizeDf(dfAfter):
    dfAfter['position'] = dfAfter['position'].astype('category')
    dfAfter['team'] = dfAfter['team'].astype('category')
    dfAfter['age'] = dfAfter['age'].astype('int8')
    dfAfter['prob'] = dfAfter['prob'].astype('float32')
    dfAfter['win'] = dfAfter['win'].map({'yes':True, 'no':False})
    return dfAfter

dfAfter = optimizeDf(df.copy())
print(dfAfter.info())

Testen Sie die Abfragegeschwindigkeit vorher und hinterher mit:
 - %timeit df['age_rank'] = df.groupby(['team', 'position'])['age'].rank()

In [None]:
dfAfter = optimizeDf(df.copy())
%timeit df['age_rank'] = df.groupby(['team', 'position'])['age'].rank()
%timeit dfAfter['age_rank'] = dfAfter.groupby(['team', 'position'])['age'].rank()

### 8. Filtern von DataFrames

Lesen Sie die Datei movies.csv in die Variable dfMovies ein und zeigen Sie die ersten 10 Datensätze an!

In [None]:
dfMovies = pd.read_csv('data/movies.csv')

Welche Arten von Filmen gibt es in der Tabelle? Zeigen Sie alle an(natürlich ohne Dubletten; Hinweis: 'unique()' auf die Spaltenselektion anwenden!)

In [None]:
print(dfMovies['genre'].unique())

Filtern Sie die Datenbank auf die Genres Action oder Drama oder Western!
Kodieren Sie die Variante mit dem Union Operator '|'!

In [None]:
print(dfMovies[(dfMovies['genre'] == 'Action') | (dfMovies['genre'] == 'Drama') | (dfMovies['genre'] == 'Western')])

Filtern Sie die Datenbank auf die Genres Action oder Drama oder Western!
Kodieren Sie die Variante mit der isin Methode!

In [None]:
print(dfMovies[dfMovies['genre'].isin(['Action', 'Drama', 'Western'])])

Zeigen Sie alle an, die NICHT in diesen drei Genres sind! Um die Negierung der Bedinung zu erreichen, "excluding" schreibt man eine Tilde vor die Bedingung!

In [None]:
print(dfMovies[~dfMovies['genre'].isin(['Action', 'Drama', 'Western'])])

### 9. Filtern eines DataFrames mit den größten/kleinsten Kategorien

Ermitteln Sie die Anzahl der Einträge für jenes Genre!
- Wenden Sie die Funktion  `value_counts()` auf genre an!
- Geben Sie das Ergebnis aus! 
- Ermitteln Sie den Typ des Rückgabewertes!

In [None]:
print(dfMovies['genre'].value_counts())

Verwenden Sie die Funktion `nlargest()` um die 3 am meisten vorkommenden Genre zu ermitteln und speichern Sie das Ergebnis in countGenreTop3 ab!

In [None]:
countGenreTop3 = dfMovies['genre'].value_counts().nlargest(3)

Wie bekommt man von dieser Serie die 1. und 2. Spalte?

In [None]:
countGenreTop3.index[0], countGenreTop3.iloc[0]


Verwenden Sie die Werte der 2.Spalte in Kombination mit `isin()` um alle Datensätze der ursprünglichen Liste mit diesen 3 Genres zu bekommen und auszugeben! Erstellen Sie ein DataFrame dfTop3GenreAllData!

In [None]:
dfTop3GenreAllData = dfMovies[dfMovies['genre'].isin(countGenreTop3.index)]
print(dfTop3GenreAllData)

### 10. Behandeln von fehlenden Werten

Laden Sie die Datei ufos.csv mit dem Parameter parse_dates=['Time'] in dfUfos! Welche Funktion hat er?
Hinweis: Laden Sie die Datei in ein zweites DF und vergleichen Sie die Eigenschaften mit der Methode info()!

In [None]:
dfUfos = pd.read_csv('data/ufos.csv', parse_dates=['Time'])
dfUfos2 = pd.read_csv('data/ufos.csv')

print(dfUfos.info())
print(dfUfos2.info())

Wir wollen feststellen, wie viele Werte in jeder Spalte fehlen! Wenden Sie die Funktion `isna()` an und anschließend  `sum()`!
`isna()` generiert ein DF von True and Falst und `sum()` convertiert alle True Werte zu 1 und summiert diese auf!

In [None]:
print(dfUfos.isna().sum())

Finden Sie analog die Mittelwerte für fehlende Werte in jeder Spalte!

In [None]:
print(dfUfos.isna().mean())

Wir wollen vollständige Datensätze! Verwenden Sie die Funktion drophna(), um alle unvollständigen Datensätze zu löschen, wo eine Spalte einen "na"-Eintrag hat und in dfUfosComplete zu speichern! 


In [None]:
dfUfosComplete = dfUfos.dropna()

Wenn Sie Spalten löschen möchten, in denen mehr als 10% der Werte fehlen, können Sie einen Schwellenwert für dropna() festlegen, verwenden Sie den Parameter thresh!

'len(ufo)' gibt die Gesamtzahl der Zeilen zurück, und dann multiplizieren wir das mit 0,9, um pandas mitzuteilen, nur Spalten beizubehalten, in denen mindestens 90% der Werte nicht fehlen.

In [None]:
print(dfUfos.dropna(thresh=len(dfUfos)*0.9, axis=1).info())

## 11. Aggregation

Lesen Sie die Tabulator separierte Datei "orders.txt" ein!

In [None]:
dfOrders = pd.read_csv('data/orders.txt', sep='\t')

Jede Bestellung hat eine Bestellnummer (order_id) und besteht aus einer oder mehreren Zeilen. Um den Gesamtpreis einer Bestellung zu ermitteln, addieren Sie die Artikelkosten für diese Bestellnummer. Zum Beispiel berechnen Sie hier der Gesamtpreis der Bestellung Nummer 1!
Hinweis: Filter auf order_id=1 setzen und mit der Methode sum() summieren!

In [None]:
gesamtpreis = dfOrders[dfOrders['order_id'] == 1]['item_price'].sum()
print(gesamtpreis)

Wenn Sie den Gesamtpreis jeder Bestellung berechnen möchten, würden Sie groupby() nach order_id durchführen und dann die Summe von item_price für jede Gruppe nehmen:

In [None]:
print(dfOrders.groupby('order_id')['item_price'].sum())

"Sie sind jedoch nicht darauf beschränkt, nur eine Funktion wie sum() zu aggregieren. Um nach mehreren Funktionen zu aggregieren, verwenden Sie die Methode agg() und übergeben ihr eine Liste von Funktionen wie sum() und count():"

In [None]:
print(dfOrders.groupby('order_id')['item_price'].agg(['sum', 'count']))

### 12. Wählen Sie einen Ausschnitt von Zeilen und Spalten aus

Laden Sie die Datei Titanic.csv!

In [None]:
dfTitanic = pd.read_csv('data/titanic.csv')

Dies ist der berühmte Titanic-Datensatz, der Informationen über Passagiere auf der Titanic und darüber, ob sie überlebt haben oder nicht, zeigt.
Wenn Sie eine numerische Zusammenfassung des Datensatzes möchten, würden Sie die describe()-Methode verwenden!

In [None]:
print(dfTitanic.describe())

Allerdings zeigt das resultierende DataFrame möglicherweise mehr Informationen, als Sie benötigen.

Wenn Sie es filtern möchten, um nur die "Fünf-Nummern-Zusammenfassung" anzuzeigen, können Sie den loc-Zugriffsoperator verwenden und ihm einen Ausschnitt der Zeilenbezeichnungen von "min" bis "max" übergeben: loc['min':'max']

In [None]:
print(dfTitanic.describe().loc['min':'max'])

Wenn Sie jedoch nicht an allen Spalten interessiert sind, können Sie ihm auch einen Ausschnitt von Spaltenbezeichnungen übergeben! Zeigen Sie nur die Spalten Pclass bis Parch an!

In [None]:
print(dfTitanic.describe().loc['min':'max', 'Pclass':'Parch'])

### 13. Kontinuierliche Daten(Zahlen) in kategoriale Daten(Kategorien) umwandeln

Geben Sie die ersten 10 Datensätze der Spalte age aus!

In [None]:
print(dfTitanic['age'].head(10))

Mit der cut() Funktion von Pandas machen Sie folgendes: Die Funktion teilt die Altersdaten in verschiedene Altersgruppen ein, die durch die Grenzen definiert sind, die als bins-Parameter angegeben werden. Diese Grenzen sollten so gewählt werden, dass sie verschiedene Altersgruppen repräsentieren, wie z.B. "Kind", "junge Erwachsene" und "Erwachsene". Die entsprechenden Beschriftungen für diese Gruppen werden als labels-Parameter übergeben.

Wandeln Sie die Altersdaten aus dem Titanic-Datensatz in kategoriale Daten umwandelt, wobei die Grenzen für "Kind" (0-17 Jahre), "junge Erwachsene" (18-24 Jahre) und "Erwachsene" (25-99 Jahre) definiert sind!

In [None]:
dfTitanic = dfTitanic.dropna(subset=['age'])
bins = [0, 17, 24, 99]
labels = ['Kind', 'junge Erwachsene', 'Erwachsene']
dfTitanic['age_group'] = pd.cut(dfTitanic['age'], bins=bins, labels=labels)
print(dfTitanic['age_group'].head(10))

### 14. DataFrame formatieren - Dezimalstellen

Geben Sie die Daten nach Verwendung der `set_option()` function

pd.set_option('display.float_format', '{:.2f}'.format)

an und beschreiben Sie die Wirkung!

In [None]:
print(pd.set_option('display.float_format', '{:.2f}'.format))

Setzen Sie die Einstellung wieder zurück und zeigen Sie die ersten 10 Datensätze an!

In [None]:
pd.reset_option('display.float_format')
print(dfTitanic['age'].head(10))

Experimentieren Sie mit den Einstellungen und finden Sie eine bessere Darstellung als das Alter z.B. mit 2 Dezimalstellen darzustellen!
Der Trick ist nützlich, wenn Sie die Darstellung Ihres gesamten Notebooks ändern möchten. Allerdings ist ein flexiblerer und leistungsstärkerer Ansatz, den Stil eines bestimmten DataFrames zu definieren wie im nächsten Teil!

## 15. DataFrame formatieren - Farben

Laden Sie die Datendatei stock.csv mit dem Parameter parse_dates=['Date'] und beschreiben Sie den Unterschied ohne Parameter!

Hinweis: In zwei Code-Bereichen in verschiede DataFrames laden und mit info() vergleichen!

In [None]:
dfStocks = pd.read_csv('data/stock.csv')

In [None]:
dfStocks2 = pd.read_csv('data/stock.csv', parse_dates=['Date'])

Erstellen Sie ein Dictionary, mit dem Sie die Ausgabe dieses DataFrames(nicht aller, Unterschied zu eben!) formatieren!<br>
Füllen Sie dazu die Strings '' in nachfolgendem Befehl aus, und ersetzen Sie ??? mit einer Formatierung!<br>
formatDfStocks = {'Date':'???', 'Close':'???', 'Volume':'???'}<br>
Date: Darstellung als Monat, Tag, Jahr<br>
Close: Zwei Dezimalstellen und das Währungssymbol $ vor der Zahl!<br>
Volume: keine Formatierung der Dezimalstellen, aber Komma(,) als 1000-er Zeichen:<br>
Verwenden Sie die DataFrame `style.format()` Methode zur Ausgabe!<br>
Anschließend geben Sie nur die ersten 3 Zeilen aus!


In [None]:
print(dfStocks2.head(3).style.format())

Fügen Sie noch weitere Formatierungen hinzu:<br>
- Minimaler Close-Wert Hintergrund lightgreen
- Maximaler Close-Wert Hintergrund red



In [None]:
print(dfStocks2.head(3).style.format(dfStocks).highlight_min('Close', color='lightgreen').highlight_max('Close', color='red'))

Verwenden Sie die formatierte Darstellung der ersten Teilaufgabe und fügen Sie für die Spaltee Volume mit der Methode background_gradient und Farbe Blues eine Farbdarstellung hinzu!<br>
Beschreiben Sie die Bedeutung der Farben!


In [None]:
# Die Methode background_gradient() wendet eine Farbverlaufsfüllung auf die Zellen eines DataFrame an. Der 
# Farbverlauf basiert auf den Werten in den Zellen. In diesem Fall wird die Farbe lightblue verwendet, um die Zellen
# mit den niedrigsten Werten zu füllen, und die Farbe darkblue wird verwendet, um die Zellen mit den höchsten 
# Werten zu füllen.

Nehmen Sie das Ergebnis der ersten Teilaufgabe!<br>
- Fügen Sie die Überschrift "Stock Prices beginnend Oktober 2016" hinzu!
- Stellen Sie die Größe der Werte der Spalte Volume im Hintergrund der Zellen dieser Spalte lightblue dar!

In [None]:
dfStocks2.head(3).style.format(dfStocks).set_caption('Stock Prices beginnend Oktober 2016').background_gradient(subset='Volume', cmap='Blues')