# Datenauswahl zur Modellierung
Der aktuelle Datensatz ist viel zu groß, um ihn genau zu untersuchen oder auszudrucken.

Zu Beginn müssen wir interessate Attribute auswählen (später gibt es statistische Techniken die uns unterstützen).

Um einen Überblick der Attribute bzw. Spalten (**columns**) zu erhalten, soll das Schema der Tabelle ausgegeben werden.

In [None]:
import pandas as pd

melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 
melbourne_data.columns

In [None]:
# Es fehlten Werte bei den Melbournedaten für einige Häuser, wie wir damit geschickt umgehen lernen wir später
# Im Moment werden Datensätze mit fehlenden einträgen einfach aus der Tabelle entfernt
# dropna - drop value na = "not available"
melbourne_data = melbourne_data.dropna(axis=0)

Wir müssen ein Zielattribut für unsere Vorhersagemodell festlegen. Dazu benutzen wir die **Punktnotation** um bestimmte Attribute unserer Tabelle zu erhalten, z.B. *melbourne_data.price* 
Als Ergebnis erhält man ein **Feld** entsprechender ausgewählten Spalte.

Wir bezeichnen das **Vorhersagezielattribut** vereinfacht mit **y**.

In [None]:
y = melbourne_data.Price

# "Eigenschaften" (features) auswählen
Die im Modell verwendeten Daten aus denen die Vorhersage getroffen wird, nennen wir **Eigenschaften** (**features**), im Beispiel entsprechen diese den Spalten die zur Preisbestimmung der Häuser verwendet werden.

Auswahl der Eigenschaftten wird mit einer Liste von Attributen in eckigen Klammern gemacht.

**Zum Beispiel:**

In [None]:
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']

Wir bezeichnen diese mit **X**.

In [None]:
X = melbourne_data[melbourne_features]

Zur schnellen Darstellung können die Methoden `describe` und `head` benutzt werden. Notieren Sie die Wirkung der Methode head() auf ihr **AB**.

In [None]:
X.describe()

In [None]:
X.head()

Datensätze sollten immer z.B. so überprüft werden, damit Unregelmäßigkeiten erkannt werden.

---
# Erstellen eines ML-Modells

Wir verwenden **scikit-learn** zur Erstellung des Modells, dies wir in Python mit der Klasse **sklearn** programmiert. 

Folgende Schritt werden zur Erstellung des Modells benötigt:
* **Definition:** Was für ein Modelltyp soll es werden? Ein Entscheidungsbaum? Ein anderes Modell?
* **Anpassung:** Muster aus bekannten Daten erfassen. (Herzstück der Modellierung)
* **Vorhersage:** Modell auf neue Daten anwenden und Vorhersagen treffen.
* **Evaluierung**: Genauigkeit des Modells bestimmen.

Übertrage die vier Schritt aufs AB. **(==>AB)**

**Beispiel:**

1) **Definition** des Modell durch Laden des Entscheidungsbaums, als Parameter kann ein Zufallsgeneratorwert übergeben werden, sodass die im Modell implementierten Zufallskomponenten immer das gleiche Ergebnis liefern.

2) **Anpassung** wird durch die Methode fit( Eigenschaften, Vorhersagezielattribut) ausgeführt


In [None]:
from sklearn.tree import DecisionTreeRegressor

#1) Modellierung
melbourne_model = DecisionTreeRegressor(random_state=1)

#2)Anpassung
melbourne_model.fit(X, y)

Das Modell wird automatisch an die Daten angepasst, sodass ein möglichst gute Entscheidung aus den Eigenschaften (Rooms, Bathroom, Landsize, Lat und Long) zu dem Preis des Hauses führt.

3) **Vorhersage** würde normalerweise auf neue Haus gemacht werden, im Beispiel wird dies auf die ersten 5 Häuser in der Tabelle getätigt.

In [None]:
print("Vorhersage für die folgenden fünf Häuser:")
print(X.head())
print("Preisvorschläge:")
print(melbourne_model.predict(X.head()))

4) **Evaluation** wird eigentlich durch neue Datensätze getätigt. Diese werden durch das Modell bewertet und anschließend mit erzielten Preisen verglichen. 

**Aufgabe:** Geben Sie eine Erklärung ab warum Vorhersage und die Originalpreis zu 100% übereinstimmen!

In [None]:
print("Original Preis der Häuser:")
print(y.head())

# Befehle notieren

Schreib zu den auf dem AB abgedruckten Befehlen ein kurze passende Erklärung auf. (==> **AB**)

# Fortsetzung
Weiter mit  **[Übung - Modellerstellung ](https://www.kaggle.com/infvogel/5-aufgabe-ml-modell/)**

---




*Have questions or comments? Visit the [Learn Discussion forum](https://www.kaggle.com/learn-forum/161285) to chat with other Learners.*