In [None]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import *
from sklearn.model_selection import train_test_split
import wget
from pathlib import Path

Fehlende Pakete bitte so nachinstallieren:
```python
import sys
!{sys.executable} -m pip install <paketname>
```
(Hinweis: Es kann sein, dass das Paket für *wget* in Ihrer Distribution `pywget` heißt)

# Aufgabe zur Linearen Regression

In diesem Arbeitblatt wollen wir uns einen Datensatz anschauen, den wir schon von einer vorherigen Aufgabe kennen, nämlich die Spielerstatistiken aus dem FIFA 20-Videospiel.
Den kompletten Datensatz finden Sie auf [Kaggle](https://www.kaggle.com/stefanoleone992/fifa-20-complete-player-dataset).
In der folgenden Zelle laden wir einen etwas reduzierten Datensatz aus dem Git-Repository des Kurses herunter und löschen daraus noch einige unnötige Spalten heraus.

In [None]:
file = Path("./players_20.csv")
if not file.is_file():
    wget.download("https://raw.githubusercontent.com/fh-swf-hgi/ml/main/p3/players_20.csv")
data = pd.read_csv("players_20.csv", encoding = "ISO-8859-1")
data.drop(['short_name','player_positions','player_url','contract_valid_until','team_jersey_number','nation_jersey_number'],axis=1,inplace=True)
data.head()

Viele der Operationen zur Datenvorverarbeitung kennen wir schon aus dem letzten Arbeitsblatt.
Daher gehen wir hier nicht weiter darauf ein.

In [None]:
data_work=data.copy()

# Ausreißer herausfiltern
s = 3*data_work.std() + data_work.mean()
data_work = data[(data_work.gt(s, axis=1)).any(axis=1)==False].copy()

data_work.info()

In [None]:
data_work.isnull().sum()

In [None]:
data_work.team_position.value_counts().index[0]

Was wir beim letzten Blatt weniger betrachtet haben, ist der Umgang mit fehlenden Daten.
In diesem Datensatz gibt es viele NaN Einträge.
Würden wir alle Zeilen mit einem oder mehr NaN Einträgen löschen, blieben keine Zeilen übrig.
Daher werden in diesem Datensatz die fehlenden Werte auffüllen.
Dazu verwenden wir in der Regel die Mittelwerte der existierenden Daten in den einzelnen Spalten.

Bei den kategorischen Attributen `team_position` und `nation_position` verwenden wir die an häufigsten vorkommenden Kategorie als *Lückenfüller*.

In [None]:
data_work['gk_diving']=data_work.gk_diving.fillna(data_work.gk_diving.mean())
data_work['gk_handling']=data_work.gk_handling.fillna(data_work.gk_handling.mean())
data_work['gk_kicking']=data_work.gk_kicking.fillna(data_work.gk_kicking.mean())
data_work['gk_reflexes']=data_work.gk_reflexes.fillna(data_work.gk_reflexes.mean())
data_work['gk_speed']=data_work.gk_speed.fillna(data_work.gk_speed.mean())
data_work['gk_positioning']=data_work.gk_positioning.fillna(data_work.gk_positioning.mean())
data_work['pace']=data_work.pace.fillna(data_work.pace.mean())
data_work['shooting']=data_work.shooting.fillna(data_work.shooting.mean())
data_work['passing']=data_work.passing.fillna(data_work.passing.mean())
data_work['defending']=data_work.defending.fillna(data_work.defending.mean())
data_work['physic']=data_work.physic.fillna(data_work.physic.mean())
data_work['dribbling']=data_work.dribbling.fillna(data_work.dribbling.mean())

data_work['nation_position']=data_work.nation_position.fillna(data_work.nation_position.value_counts().index[0])
data_work['team_position']=data_work.team_position.fillna(data_work.team_position.value_counts().index[0])

data_work.isnull().sum()

Wir selektieren nun die numerischen Attribute und standardisieren die Werte in den entsprechenden Spalten.

In [None]:
# Selektiere die Spalten mit numerischen Datentypen (int64) in unserem Fall
ncul = data_work.select_dtypes(['int64','float64']).columns

# Standardisierung mit sklearn
data_skstrd = scale(data_work[ncul])

# updating our dataframe
data_work[ncul] = data_skstrd

data_work.describe()

### Aufgabe 0: Datensätze vorbereiten
Ihre erste Aufgabe ist es nun, zwei Varianten des Datensatzes für das Trainieren einer linearen Funktion vorzubereiten:
1. Einen reduzierten Datensatz `data_reduced`, bei dem alle kategorischen Spalten aus dem ursprünglichen Datensatz `data_work` entfernt werden.
2. Einen Datensatz `data_oh`, bei dem alle kategorischen merkmale per One-Hot Kodierung in numerische Merkmale überführt werden.

In [None]:
data_reduced = None
data_oh = None

# YOUR CODE HERE
raise NotImplementedError()

print("Spalten im reduzierten Datensatz:", data_reduced.shape[1])
print("Spalten im one-hot coded Datensatz:", data_oh.shape[1])

In [None]:
assert data_reduced.shape[1]==19
assert data_oh.shape[1]==940
assert data_reduced.shape[0]==data_oh.shape[0]

### Aufgabe 1: Trainieren eines linearen Modells mit `LinearRegression` (reduzierter Datansatz)

Verwenden Sie in dieser Aufgabe den reduzierten Datensatz, um ein `LinearRegression` Modell zu Trainieren.
Teilen Sie die Daten in 80% Trianings- und 20% Testadaten auf.
Bewerten Sie das Modell, indem Sie den *Mittleren Absoluten Fehler* für die Testdaten berechnen.

In [None]:
    # YOUR CODE HERE
    raise NotImplementedError()

### Aufgabe 2: Trainieren eines linearen Modells mit `SGDRegressor` (reduzierter Datansatz)

Verwenden Sie in dieser Aufgabe den reduzierten Datensatz, um ein `SGDRegressor` Modell zu Trainieren.
Teilen Sie die Daten in 80% Trianings- und 20% Testadaten auf.
Bewerten Sie das Modell, indem Sie den *Mittleren Absoluten Fehler* für die Testdaten berechnen.

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

### Aufgabe 3: Trainieren eines linearen Modells mit `LinearRegression` (one-hot coded Features)

Verwenden Sie in dieser Aufgabe den Datensatz mit den one-hot kodierten kategorischen Merkmalen, um ein `LinearRegression` Modell zu Trainieren.
Teilen Sie die Daten in 80% Trianings- und 20% Testadaten auf.
Bewerten Sie das Modell, indem Sie den *Mittleren Absoluten Fehler* für die Testdaten berechnen.

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

### Aufgabe 4: Trainieren eines linearen Modells mit `SGDRegressor` (one-hot coded Features)

Verwenden Sie in dieser Aufgabe den Datensatz mit den one-hot kodierten kategorischen Merkmalen, um ein SGDRegressor Modell zu Trainieren. Teilen Sie die Daten in 80% Trianings- und 20% Testadaten auf. Bewerten Sie das Modell, indem Sie den Mittleren Absoluten Fehler für die Testdaten berechnen.

In [None]:
    # YOUR CODE HERE
    raise NotImplementedError()

### Aufgabe 5: Visualisieren Sie die Ergebnisse

Visualisieren Sie die Fehlerraten der 4 Varianten mit einem Säulendiagramm.

In [None]:
import matplotlib.pyplot as plt

# YOUR CODE HERE
raise NotImplementedError()

### Zusatzaufgabe: Bestimmen Sie die Laufzeiten für das Trainieren der Modellfunktionen

Sie können dazu die *IPython Magic-Function* `timeit` wie im folgenden Beispiel verwenden.

In [None]:
t = %timeit -o 0.934**7.353 ## beliebige Python-Anweisung nach dem ""-o"
t.average