# Übungsaufgaben
# Coach Market Woche 5, Selbstlernphase I

## Übersicht

In der folgenden Übung werden Sie lernen Datensätze zu analysieren und zu präsentieren (Exploratory Data Analysis - EDA). Wir nutzen für die Übung ein Datensatz von Kaggle welches Informationen über Fahrzeuge in Indien enthält.

Wir werden die folgenden Aufgabenblöcke bearbeiten:
- **A:  Einladen und Übersicht über die Daten**
- **B:  Vorbereitung der Daten (data cleaning)**
- **C:  Visualisierung der Daten**
- **D:  Erstes Machine Learning Projekt (optional)**

Wenn noch nicht geschehen, installieren Sie bitte die benötigten Pakete:

- `numpy`
- `pandas`
- `plotly`
- `sklearn` (optional)

Der zur Verfügung gestellte Datensatz kommt von dieser Seite (https://www.kaggle.com/avikasliwal/used-cars-price-prediction?select=test-data.csv). Die Spalten werden folgendermaßen beschrieben:

**Name**
Die Marke und das Modell des Fahrzeugs.

**Location**
Der Ort, an dem das Auto verkauft wird oder zum Kauf angeboten wird.

**Year**
Das Jahr oder die Auflage des Modells.

**Kilometers_Driven**
Die von dem/den Vorbesitzer(n) mit dem Fahrzeug insgesamt gefahrenen Kilometer in km.

**Fuel_Type**
Die Art des vom Fahrzeug verwendeten Kraftstoffs. (Benzin, Diesel, Elektro, CNG, LPG)

**Transmission**
Die Art des vom Fahrzeug verwendeten Getriebes. (Automatik / Manuell)

**Owner_Type**
Erster, Zweiter, ...

**Mileage**
Die von der Autofirma angebotene Standard-Kilometerleistung pro Liter Kraftstoff in kmpl (km per liter).

**Engine**
Das Hubraumvolumen des Motors in CC.

**Power** Traditionell wurde die "Bremsleistung" (bhp:brake horsepower) als endgültiges Maß für die Motorleistung verwendet.
Sie unterscheidet sich von der Pferdestärke, weil sie den Leistungsverlust durch Reibung berücksichtigt. Sie wird gemessen, indem man den Motor auf volle Drehzahl bringt und ihn dann auf natürliche Weise bis zum Stillstand abbremsen lässt.

**Price** = 100,000 Indian Rupees = 1 Lakh -> approx. 1150 Euros

In [None]:
import numpy as np
import pandas as pd
import plotly.express as px
#pd.set_option("display.precision", 2) # zwei Nachkommastellen anzeigen

## A) Einladen und Übersicht über die Daten

**Aufgabe A1:** Laden Sie die Daten aus dem File "indian_cars_data.csv" in einen Pandas-Dataframe und verschaffen sich einen Überblick über das Dataset.  Welche Spalten existieren? Wie viele Datensätze (Zeilen) existieren? Gibt es fehlende Werte? Sind die Datantypen plausibel? (Hilfe: Sie können z.B. die Methoden `.info()` und `.head()` verwenden.)

In [None]:
# ES existieren Fehlwerte.
df = pd.read_csv('indian_cars_data.csv')
df.info()

In [None]:
df.head()

In [None]:
df.tail()

**Aufgabe A2:** Berechnen Sie den Mittelwert, das 25 %, 50 % und 75 % Perzentil, die Varianz, die Standardabweichung und die Spannweite der Spalte **Price**. Verwenden Sie dazu die Methoden `.mean()`, `.max()`, `min.()`, `.quantile()`, `.var()` und `.std()`.

In [None]:
print('Mittelwert:',df["Price"].mean())
print("Spannweite : ",df["Price"].max() - df["Price"].min())
print("25 Perzentil : ",df["Price"].quantile(.25))
print("50 Perzentil : ",df["Price"].quantile(.50))
print("75 Perzentil : ",df["Price"].quantile(.75))
print("Varianz : ",df["Price"].var())
print("Standardabweichung : ",df["Price"].std())

**Aufgabe A3:**  Untersuchen Sie die Daten indem Sie die Methode `.describe()` auf den gesamten Dataframe anwenden. Was ist der Vorteil davon? Für welche Spalten erhalten Sie Informationen? Für welche nicht?

In [None]:
# Der Vorteil ist, dass man einen schnellen Überblick über die wichtigsten Parameter erhält 
# und nicht jeden Wert einzeln berechnen muss.
# Die Methode ´.describe()´ liefert deskriptive Statistiken für Spalten mit numerischen Werten. 
df.describe()

**Aufgabe A4:**  Zeigen Sie wie viele unterschiedliche Elemente in jedem Feature (Spalte) des Datasets enthalten sind. Lassen Sie sich alle vorkommenden Elemente des Features **Fuel_Type** anzeigen und ermitteln Sie deren relative Häufigkeiten. Diese Vorgehensweise kann auch Datentype angewendet werden, welche Kategorieren beschreiben.

In [None]:
# Ermitteln die Anzahl der unterschiedlichen Elemente für alle Spalten
df.nunique(axis=0) 

In [None]:
# Ermittel der unterschielichen ELement einer Spalte
df['Fuel_Type'].unique()

In [None]:
# Ermitteln der Häufigkeit der Elemente einer Spalte
df['Fuel_Type'].value_counts(normalize=True)

In [None]:
# Die Methode describe besitzt ein Argument 'include', welches es erlaubt Inofrmationen über nicht-numerische Werte zu erhalten.
#df.describe(include='all')
df.describe(include=['O'])

**Aufgabe A5:**  Prüfen Sie die Plausibilität der Features **Mileage_kmpl** und **Seats**. Es exisiteren Zeilen mit dem Wert 0. Lassen Sie sich die Zeilen mit eventuell unplausiblen Werten anzeigen und bestimmen Sie deren Anzahl.

In [None]:
# Ein beiden Spalten kommen die Werte 0 vor. Insgesamt handelt es sich um 70 betroffene Zeilen
# Ausgabe dieser Spalten
df[(df['Mileage_kmpl'] == 0) | (df['Seats'] == 0)]

## B) Vorbereitung der Daten (data cleaning)

**Aufgabe B1:** Untersuchen Sie, wie viele Beobachtungen in jedem Feature nicht existieren (fehlende Werte). Verwenden Sie die Methoden `.isna()` und `.sum()`). Wie viele Zeilen sind von mindestens einem Fehlwert betroffen? (Hinweis: Sie können die Methode `.any()` und deren Argument 'axis' verwenden.

In [None]:
# Die Methode .isna liefert einen Boolean-Series. In der folgenden Summe werder True als 1 und False als 0 gewertet.
df.isna().sum()

In [None]:
# Die Methode .isna liefert einen Boolean-Series. 
# Die Methode .any liefert True wenn wenigstens ein Wert in einer Boolean-Series True ist. 
# Das Argument axis legt fest ob durch 'any' Spelten oder Zeilen betrachten werden sollen. Axis=1 steht dabei für Zeilen.
df.isna().any(axis=1).sum()

**Aufgabe B2:** Entfernen Sie das Feature (die Spalte) **New_Price**. (Es enthält zu viele Fehlwerte.)

In [None]:
df.drop(columns=['New_Price'], inplace=True) # drop new price

**Aufgabe B3:** Fügen Sie in der Spalte **Power_bhp** für fehlende Werte den Median ein. (Hinweis: Sie können die Methoden `.fillna()` und `.median()` verwenden.)

In [None]:
df['Power_bhp'] = df['Power_bhp'].fillna(df['Power_bhp'].median()) # fill nans 

**Aufgabe B4:** Entfernen Sie alle Zeilen, bei denen **Mileage_kmpl** und **Seats** ungleich 0 sind. (Tipp: Statt dem Entfernen ist es oft einfacher nach zu behaltenden Zeilen zu filtern.)

In [None]:
# remove zero entries for "Mileage_kmpl" and "Seats"
df = df[(df['Mileage_kmpl'] != 0) & (df['Seats'] != 0)]

**Aufgabe B5:** Entfernen die alle übrigen nicht existierenden Werte. Lassen Sie sich die Summe der fehlenden Werte vorher und nacher erneut anzeigen, um zu testen, ob es erfolgreich war.

In [None]:
print('Gesamtzahl Zeilen:',len(df))
print('Zeilen mit mindestens einem Fehlwert:',df.isna().any(axis=1).sum())
df.isna().sum()

In [None]:
# Entfernen aller Zeilen mit mindestens einem Fehlwert. Beachten Sie das die Zeilen mit Fehlerwerten hier verloren gehen. 
# inplace bewirkt dass die Veränderung (dropna) direkt am Dataframe df durchgeführt wird.
df.dropna(inplace=True)
# Alternative wird durch den default-Wert inplace=False ein neuer Dataframe zurückgegeben.
# Hier wird die Variable mit diesem neuen Datafraem df "überschrieben".
# df=df.dropna()
print(len(df))
print('Zeilen mit mindestens einem Fehlwert',df.isna().any(axis=1).sum())
df.isna().sum()

## C) Visualisierung der Daten

Nach aktuellem Stand ist es meist üblich statt dem Paket plotly.graph_objects das plotly.express zu nutzten. Dabei baut plotly.express auf graph_objects auf (https://plotly.com/python/plotly-express/). Für die erste Aufgabe ist die Lösung angegeben.

Die Daten werden visualisiert, um einen Überblick über die Verteilung der Features zu erhalten.

**Aufgabe C1:** Erstellen Sie einen Scatter Plot mit **Seats** auf der x-Achse und **Price** auf der y-Achse

In [None]:
# unter Verwendung des Module plotly.express
fig = px.scatter(x=df['Seats'], y=df['Price'], 
                 labels={
                    "x": "Seats (in total)",
                    "y": "Price"
                 },
                  title='Scatter plot of Seats vs. Engine'
)
fig.show()

In [None]:
# unter Verwendung des Module plotly.graph_objs
# Die Anpassung des Layouts ist für die Beschriftung der Achsen notwendig.
# Plotly.express vereinfacht den Code erheblich!
import plotly.graph_objs as go
data=go.Scatter(x=df['Seats'], y=df['Price'],mode='markers')
layout=layout=dict(title='Scatter plot of Seats vs. Engine (graph_obj)', xaxis=dict(title='Seats (in total)'), yaxis=dict(title='Price'))
fig = go.Figure(data=data,layout=layout)
fig.show()

**Aufgabe C2:** Um die Verteilung der Daten besser zu erfassen, ist das Visualisieren der Daten bzw. ihrer Verteilung extrem nützlich. Plotten Sie Histogramme zu allen Features. (Hinweise: Nutzten Sie eine For-Schleife und arbeiten Sie mit Methode `.keys()`)


In [None]:
for key in df.keys():
    fig = px.histogram(df, x=key)
    fig.show()

**Aufgabe C3:** Erstellen Sie einen Scatter Plot mit **Power_bhp** auf der x-Achse und **Price** auf der y-Achse. Lässt sich hier ein Zusammenhang erkennen?

In [None]:
# Visuell sieht es nach einer Korrelation aus.
fig = px.scatter(x=df['Power_bhp'], y=df['Price'], 
                 labels={
                    "x": "Power_bhp",
                    "y": "Price"
                 },
                  title='Scatter plot of Power vs. Engine'
)
fig.show()

**Aufgabe C4 (optional):** Erstellen Sie einen Scatter Plot mit **Power_bhp** auf der x-Achse und **Price** auf der y-Achse, jedoch beide logarithmisch aufgetragen. (Hinweise: Nutzten Sie z.B. die Methode `.apply()` und Möglichkeit der Lambda-Funktion. Zur Berechung des Logarithmus kann `numpy` oder das Standard-Module `math` verwendet werden.)


In [None]:
import math
fig = px.scatter(x=df['Power_bhp'].apply(lambda x: math.log(x)), y=df['Price'].apply(lambda x: math.log(x)), 
                 labels={
                    "x": "log(Power (in bhp))",
                    "y": "log(Price)"
                 },
                  title='Scatter plot of log(Power) vs. log(Engine)'
)
fig.show()

**Aufgabe C5:** Plotten Sie einen Boxplot (https://plotly.com/python/box-plots/) zum Feature **Kilometers_Driven**. Was ist an dieser Darstellung problematisch? Wie können Sie die Darstellung verbessern?

In [None]:
# Ein Ausreiser macht das Diagramm unübersichtlicher
fig = px.box(df, y='Kilometers_Driven')
fig.show()

In [None]:
# Die obige Darstellung wird wird durch einen sehr extremen Werte bis zur Unkenntlichkeit verzerrt.
# Dieser einzelne extreme Wert kann entfernt werden.
# Vergleiche auch mit dem entsprecehnden Histogramm.
fig = px.box(df[df['Kilometers_Driven'] < 1000000], y='Kilometers_Driven')
fig.show()

x=len(df[~(df['Kilometers_Driven'] < 1000000)])
print('Anzahl der entfernten Zeilen',x)

**Aufgabe C6:** Ermitteln Sie pro Baujahr (**Year**) den Mittelwert der gefahren Kilometer (**Kilometers_Driven**) und sowie die Anzahl der Datensätze im Dataset. Stellen sie die tabellarisch dar. Stellen Sie den Mittelwert der Kilometer graphisch dar.

In [None]:
df2 = df.groupby(['Year'])['Kilometers_Driven'].agg(['mean','size'])
# Beachten Sie, dass die Daten in df2 nach der Groupby-Operation nach 'Year' geordnet sind.
fig = px.scatter(df2['mean'])
fig.show()
df2

## D) Erstes Machine Learning Projekt (optional)

Eine Lineare Regression kann sehr einfach mit dem Paket `sklearn` durch geführt werden. 

Hierzu sollen mittels einer Korrelationsmatrx die Features ermittelte werden, welche die stärkste lineare Korrelation aufweisen. Für diese Features soll mittels `sklearn` eine Ausgleichsgerade bestimmt werden.


**Aufgabe D1:** Geben Sie die Korrelationsmatrix (`.corr()`) an und plotten Sie diese visuell aufbereitet. (Tipp: Für die Visuelle Darstellung auf dieser Seite suchen: https://plotly.com/python/imshow/)

In [None]:
df.corr()
# Die stärkste lineare Korrelation tritt zwischen Engine_CC und Power_bhp auf!

In [None]:
fig = px.imshow(df.corr(), title='Correlation Matrix')
fig.show()

**Aufgabe D2:** Visualisieren Sie die beiden am stärksten korrelierenden Parameter mit einen Plot ihrer Wahl (https://plotly.com/python/basic-charts/).

In [None]:
fig = px.scatter(df, x='Power_bhp', y='Engine_CC')
fig.show()

**Aufgabe D3:** Führen sie eine Lineare Regression für die beiden am stärksten korrelierenden Parameter durch.

Das Paket `sklearn` stellt im Modul `linear_model` ein Objekt `LinearRegression` zur Verfügungen. Diese Objekt verfügt über die Methoden `.fit()` und `.predict()`. Zusätzlich können nach der Durchführung der Regression (fit) mittels der Attribute `.intercept_`, `.coef_` und der Methode `.score()` die Paramter der Ausgleichsgeraden und der Regressionskoeffizient abgefragt werden. Das Paket `sklearn` muss gegebenenfalls mit pip installiert werden.

Orientieren Sie sich an folgender Quelle aus der Dokumnetation `sklearn`s, welche ein Beispiel enthält.
Siehe: [https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html)

In [None]:
df

In [None]:
from sklearn.linear_model import LinearRegression
X = df[['Power_bhp']]
y =  df[['Engine_CC']]
model = LinearRegression()
model.fit(X, y)


**Aufgabe D4:** Geben Sie den Koeffizient (Anstieg der Geraden), den Achsenschnittpunkt und den Regressionskoeffizienten an. 

In [None]:
# Anstieg der Ausgleichsgeraden
model.coef_

In [None]:
# Achsenschnittpunkt/Intercept der Ausgleichsgeraden
model.intercept_

In [None]:
# Regressionskoeffizient
model.score(X,y)

**Aufgabe D5:** Visualisieren Sie das Ergebniss.

In [None]:
# Mittels plotly kann eine Ausgleichsgerade als Trendlinie zu einem Scatterplot hinzugefügt werden (trendline='ols'). 
# Diese Gerade wird als blaue Linie dargestellt
# Die Paramter können der Darstellung entnommen werden, wenn man mit der Maus über der Trendlinie steht.
fig = px.scatter(df, x='Power_bhp', y='Engine_CC', trendline="ols", opacity=0.65)

# Zusätzlich wird hier die oben bestimmte Ausgleichsgerade manuell hinzugefügt! (gestrichelte rote Linie)
# Relevante Werte für x (Power_bhp) werden aufgewählt.
x_values = np.linspace(X.min(), X.max(), 100).T[0]
# Für die Ermittlung der zugehörigen Funktionswert y=F(x) wird hier auf die Methode model.predict() zurückgegriffen. 
# Sie liefert die Funktionswerte F(x).
y_values = model.predict(x_values.reshape(-1, 1)).T[0]

fig.add_scatter(x=x_values,y=y_values,mode='lines',name='Regressionsgerade (sklearn)',opacity=0.65,
                line=dict(color='Red', width=5, dash='dash')
            )
fig.show()