# Übungsaufgaben
# Coach Market Woche 5, Selbstlernphase I

## Übersicht

In der folgenden Übung werden Sie lernen Datensätze zu analysieren und zu präsentieren (Exploratory Data Analysis - EDA). Wir nutzen für die Übung ein Datensatz von Kaggle welches Informationen über Fahrzeuge in Indien enthält.

Wir werden die folgenden Aufgabenblöcke bearbeiten:
- **A:  Einladen und Übersicht über die Daten**
- **B:  Vorbereitung der Daten (data cleaning)**
- **C:  Visualisierung der Daten**
- **D:  Erstes Machine Learning Projekt (optional)**

Wenn noch nicht geschehen, installieren Sie bitte die benötigten Pakete:

- `numpy`
- `pandas`
- `plotly`
- `sklearn` (optional)

Der zur Verfügung gestellte Datensatz kommt von dieser Seite (https://www.kaggle.com/avikasliwal/used-cars-price-prediction?select=test-data.csv). Die Spalten werden folgendermaßen beschrieben:

**Name**
Die Marke und das Modell des Fahrzeugs.

**Location**
Der Ort, an dem das Auto verkauft wird oder zum Kauf angeboten wird.

**Year**
Das Jahr oder die Auflage des Modells.

**Kilometers_Driven**
Die von dem/den Vorbesitzer(n) mit dem Fahrzeug insgesamt gefahrenen Kilometer in km.

**Fuel_Type**
Die Art des vom Fahrzeug verwendeten Kraftstoffs. (Benzin, Diesel, Elektro, CNG, LPG)

**Transmission**
Die Art des vom Fahrzeug verwendeten Getriebes. (Automatik / Manuell)

**Owner_Type**
Erster, Zweiter, ...

**Mileage**
Die von der Autofirma angebotene Standard-Kilometerleistung pro Liter Kraftstoff in kmpl (km per liter).

**Engine**
Das Hubraumvolumen des Motors in CC.

**Power** Traditionell wurde die "Bremsleistung" (bhp:brake horsepower) als endgültiges Maß für die Motorleistung verwendet.
Sie unterscheidet sich von der Pferdestärke, weil sie den Leistungsverlust durch Reibung berücksichtigt. Sie wird gemessen, indem man den Motor auf volle Drehzahl bringt und ihn dann auf natürliche Weise bis zum Stillstand abbremsen lässt.

**Price** = 100,000 Indian Rupees = 1 Lakh -> approx. 1150 Euros

## A) Einladen und Übersicht über die Daten

**Aufgabe A1:** Laden Sie die Daten aus dem File "indian_cars_data.csv" in einen Pandas-Dataframe und verschaffen sich einen Überblick über das Dataset.  Welche Spalten existieren? Wie viele Datensätze (Zeilen) existieren? Gibt es fehlende Werte? Sind die Datantypen plausibel? (Hilfe: Sie können z.B. die Methoden `.info()` und `.head()` verwenden.)

**Aufgabe A2:** Berechnen Sie den Mittelwert, das 25 %, 50 % und 75 % Perzentil, die Varianz, die Standardabweichung und die Spannweite der Spalte **Price**. Verwenden Sie dazu die Methoden `.mean()`, `.max()`, `min.()`, `.quantile()`, `.var()` und `.std()`.

**Aufgabe A3:**  Untersuchen Sie die Daten indem Sie die Methode `.describe()` auf den gesamten Dataframe anwenden. Was ist der Vorteil davon? Für welche Spalten erhalten Sie Informationen? Für welche nicht?

**Aufgabe A4:**  Zeigen Sie wie viele unterschiedliche Elemente in jedem Feature (Spalte) des Datasets enthalten sind. Lassen Sie sich alle vorkommenden Elemente des Features **Fuel_Type** anzeigen und ermitteln Sie deren relative Häufigkeiten. Diese Vorgehensweise kann auch Datentype angewendet werden, welche Kategorieren beschreiben.

**Aufgabe A5:**  Prüfen Sie die Plausibilität der Features **Mileage_kmpl** und **Seats**. Es exisiteren Zeilen mit dem Wert 0. Lassen Sie sich die Zeilen mit eventuell unplausiblen Werten anzeigen und bestimmen Sie deren Anzahl.

## B) Vorbereitung der Daten (data cleaning)

**Aufgabe B1:** Untersuchen Sie, wie viele Beobachtungen in jedem Feature nicht existieren (fehlende Werte). Verwenden Sie die Methoden `.isna()` und `.sum()`). Wie viele Zeilen sind von mindestens einem Fehlwert betroffen? (Hinweis: Sie können die Methode `.any()` und deren Argument 'axis' verwenden.

**Aufgabe B2:** Entfernen Sie das Feature (die Spalte) **New_Price**. (Es enthält zu viele Fehlwerte.)

**Aufgabe B3:** Fügen Sie in der Spalte **Power_bhp** für fehlende Werte den Median ein. (Hinweis: Sie können die Methoden `.fillna()` und `.median()` verwenden.)

**Aufgabe B4:** Entfernen Sie alle Zeilen, bei denen **Mileage_kmpl** und **Seats** ungleich 0 sind. (Tipp: Statt dem Entfernen ist es oft einfacher nach zu behaltenden Zeilen zu filtern.)

**Aufgabe B5:** Entfernen die alle übrigen nicht existierenden Werte. Lassen Sie sich die Summe der fehlenden Werte vorher und nacher erneut anzeigen, um zu testen, ob es erfolgreich war.

## C) Visualisierung der Daten

Nach aktuellem Stand ist es meist üblich statt dem Paket plotly.graph_objects das plotly.express zu nutzten. Dabei baut plotly.express auf graph_objects auf (https://plotly.com/python/plotly-express/). Für die erste Aufgabe ist die Lösung angegeben.

Die Daten werden visualisiert, um einen Überblick über die Verteilung der Features zu erhalten.

**Aufgabe C1:** Erstellen Sie einen Scatter Plot mit **Seats** auf der x-Achse und **Price** auf der y-Achse

**Aufgabe C2:** Um die Verteilung der Daten besser zu erfassen, ist das Visualisieren der Daten bzw. ihrer Verteilung extrem nützlich. Plotten Sie Histogramme zu allen Features. (Hinweise: Nutzten Sie eine For-Schleife und arbeiten Sie mit Methode `.keys()`)


**Aufgabe C3:** Erstellen Sie einen Scatter Plot mit **Power_bhp** auf der x-Achse und **Price** auf der y-Achse. Lässt sich hier ein Zusammenhang erkennen?

**Aufgabe C4 (optional):** Erstellen Sie einen Scatter Plot mit **Power_bhp** auf der x-Achse und **Price** auf der y-Achse, jedoch beide logarithmisch aufgetragen. (Hinweise: Nutzten Sie z.B. die Methode `.apply()` und Möglichkeit der Lambda-Funktion. Zur Berechung des Logarithmus kann `numpy` oder das Standard-Module `math` verwendet werden.)


**Aufgabe C5:** Plotten Sie einen Boxplot (https://plotly.com/python/box-plots/) zum Feature **Kilometers_Driven**. Was ist an dieser Darstellung problematisch? Wie können Sie die Darstellung verbessern?

**Aufgabe C6:** Ermitteln Sie pro Baujahr (**Year**) den Mittelwert der gefahren Kilometer (**Kilometers_Driven**) und sowie die Anzahl der Datensätze im Dataset. Stellen sie die tabellarisch dar. Stellen Sie den Mittelwert der Kilometer graphisch dar.

## D) Erstes Machine Learning Projekt (optional)

Eine Lineare Regression kann sehr einfach mit dem Paket `sklearn` durch geführt werden. 

Hierzu sollen mittels einer Korrelationsmatrx die Features ermittelte werden, welche die stärkste lineare Korrelation aufweisen. Für diese Features soll mittels `sklearn` eine Ausgleichsgerade bestimmt werden.


**Aufgabe D1:** Geben Sie die Korrelationsmatrix (`.corr()`) an und plotten Sie diese visuell aufbereitet. (Tipp: Für die Visuelle Darstellung auf dieser Seite suchen: https://plotly.com/python/imshow/)

**Aufgabe D2:** Visualisieren Sie die beiden am stärksten korrelierenden Parameter mit einen Plot ihrer Wahl (https://plotly.com/python/basic-charts/).

**Aufgabe D3:** Führen sie eine Lineare Regression für die beiden am stärksten korrelierenden Parameter durch.

Das Paket `sklearn` stellt im Modul `linear_model` ein Objekt `LinearRegression` zur Verfügungen. Diese Objekt verfügt über die Methoden `.fit()` und `.predict()`. Zusätzlich können nach der Durchführung der Regression (fit) mittels der Attribute `.intercept_`, `.coef_` und der Methode `.score()` die Paramter der Ausgleichsgeraden und der Regressionskoeffizient abgefragt werden. Das Paket `sklearn` muss gegebenenfalls mit pip installiert werden.

Orientieren Sie sich an folgender Quelle aus der Dokumnetation `sklearn`s, welche ein Beispiel enthält.
Siehe: [https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html)

**Aufgabe D4:** Geben Sie den Koeffizient (Anstieg der Geraden), den Achsenschnittpunkt und den Regressionskoeffizienten an. 

**Aufgabe D5:** Visualisieren Sie das Ergebniss.