In dieser Aufgabe reproduzieren wir die Kapitel **Daten kennenlernen**, **Vorhersagen treffen**, **Modelle evaluieren** und **Modelle trainieren**. Statt der dort betrachteten Datensätze soll es um einen neuen Datensatz gehen: *Pima Indians Diabetes Database*. Verfügbar ist dieser zum Beispiel unter folgendem Link: https://www.kaggle.com/uciml/pima-indians-diabetes-database. Laden Sie den Datensatz herunter (er besteht aus einer CSV-Datei).

## (1.2.1.) Daten importieren <span style="color:green; font-size:1em">(o)</span>  <span style="font-size:1em">&#x1F4D7;</span>

**<span style="font-size:1.5em">(a)</span>** Laden Sie den Datensatz durch eine geeignete Bibliothek, zum Beispiel **Pandas**. Untersuchen Sie die Features des Datensatzes auf eine geeignete Weise. Lesen Sie die Dokumentation des Datensatzes und identifizieren Sie die Zielvariable.

**<span style="font-size:1.5em">(b)</span>** Bereiten Sie den Datensatz für das Machine Learning Modell vor. Das heißt: definieren Sie eine Variable `X` (zum Beispiel als eine Matrix oder ein DataFrame), die die Features des Datensatzes speichern soll. Definieren Sie eine weitere Variable `y` (zum Beispiel als Vektor oder Series), die die Zielvariable darstellen soll.

**<span style="font-size:1.5em">(c)</span>** Benutzen Sie Indexing, um den Datensatz aufzuteilen: Definieren Sie eine Variable `X_train`, die die ersten $600$ Zeilen der Matrix `X` umfassen sollen. Definieren Sie eine Variable `y_train`, die die ersten $600$ Werte des Vektors `y` umfassen soll. Definieren Sie dann die Variable `X_test` und `y_test`, die die anderen Zeilen bzw. Werte der Variablen `X` bzw. `y` umfassen soll.

In [8]:
import pandas as pd

data = pd.read_csv("../data/diabetes.csv")
data

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1
...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,0.171,63,0
764,2,122,70,27,0,36.8,0.340,27,0
765,5,121,72,23,112,26.2,0.245,30,0
766,1,126,60,0,0,30.1,0.349,47,1


In [9]:
# Option 1 - DataFrames
X = data.drop(columns='Outcome')
y = data['Outcome']

X_train = X.head(600)
y_train = y.head(600)

X_test = X.tail(-600)
y_test = y.tail(-600)

In [10]:
# Option 2 - Numpy Arrays
X = data.drop(columns='Outcome').values
y = data['Outcome'].values

X_train = X[:600, :]
y_train = y[:600]

X_test = X[600:, :]
y_test = y[600:]

## (1.2.2.) Modell trainieren <span style="color:green; font-size:1em">(o)</span>  <span style="font-size:1em">&#x1F4D7;</span>

Importieren Sie den `DecisionTreeClassifier`. Führen Sie einen Fit auf den Variablen `X_train` und `y_train` aus. Nutzen Sie dafür die `fit` Funktion des Modells.

In [40]:
from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier(random_state=0)
model.fit(X_train, y_train)

DecisionTreeClassifier(random_state=0)

## (1.2.3.) Modell evaluieren <span style="color:green; font-size:1em">(o)</span>  <span style="font-size:1em">&#x1F4D7;</span>

**<span style="font-size:1.5em">(a)</span>** Treffen Sie eine Vorhersage für die Variable `X_test`. Speichern Sie das Ergebnis in einer Variablen `y_pred`. Nutzen Sie dafür die `predict` Funktion des Modells.

**<span style="font-size:1.5em">(b)</span>** Schreiben Sie eine Funktion `accuracy_score`. Diese Funktion soll zwei Argumente erhalten, die Sie am besten `y_true` und `y_pred` nennen. Beide diese Argumente sollten Vektoren gleicher Länge sein. Die Funktion soll daraufhin den Prozentsatz der Übereinstimmungen zwischen den Elementen in `y_true` und `y_pred` berechnen.

**<span style="font-size:1.5em">(c)</span>** Ǹutzen Sie die Funktion aus **(b)**, um Ihr Modell zu evaluieren.


In [43]:
y_pred = model.predict(X_test)

def accuracy_score(y_true,y_pred):
    rate = 1-sum(abs(y_pred-y_true)) / len(y_true)
    return rate
    
def accuracy_score(y_true, y_pred):
    accuracy = (y_pred == y_true).sum() / len(y_pred)
    return accuracy

accuracy = accuracy_score(y_test, y_pred)
accuracy

0.6904761904761905

## (1.2.4.) Vorhersagen treffen <span style="color:green; font-size:1em">(o)</span>  <span style="font-size:1em">&#x1F4D7;</span>

Sie treffen auf eine neue Patientin und erfassen deren physiologische Merkmale. Über die Patientin ist folgendes bekannt:

- Die Patientin ist $36$ Jahre alt
- Die Patientin hatte bereits $3$ Schwangerschaften
- Die Patientin hat im Test eine Glukose-Konzentration von $155$
- Die Patientin hat einen Blutdruck von $89$ [mm Hg]
- Die Patientin hat einen BMI von $28.2$
- Der Wert der Messgröße *SkinThickness* beträgt $34$ [mm]
- Die Insulin-Konzentration beträgt $0$ [2-Hour serum insulin (mu U/ml)]
- Der Wert der Messgröße *DiabetesPedigreeFunction* wird mit 0.378 angegeben.

Was sagt ihr Modell für diese Patientin bezüglich der Inzidenz einer Diabetes-Erkrankung vorher?
Trauen Sie dieser Vorhersage? Warum oder warum nicht?

In [45]:
new_patient = pd.DataFrame(
    data={'Pregnancies': 3,
          'Glucose': 155,
          'BloodPressure': 89,
          'SkinThickness': 34,
          'Insulin': 0,
          'BMI': 28.2,
          'DiabetesPedigreeFunction': 0.378,
          'Age': 36
    },
    index=[0])

new_patient

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age
0,3,155,89,34,0,28.2,0.378,36


In [46]:
new_patient.values

array([[  3.   , 155.   ,  89.   ,  34.   ,   0.   ,  28.2  ,   0.378,
         36.   ]])

In [47]:
model.predict(new_patient.values)

array([0])