# Pima.tr2 und `scikit-learn`

Andreas Sünder

Zuerst ist es wichtig, die nötigen Dinge zu importieren:

In [152]:
# Custom helper functions
from helper import *

import csv
from sklearn.svm import SVC
from sklearn.linear_model import Perceptron
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split

`scikit-learn` ist so gestaltet, dass die Modelle austauschbar sind. Statt `Perceptron` können wir jedes beliebige Modell verwenden.

In [153]:
model = Perceptron()

Nun lesen wir die Daten aus:

In [154]:
with open("data/mass/Pima.tr2.csv") as file:
    reader = csv.reader(file)
    next(reader)

    data = []
    for row in reader:
        # Some rows contain NA values, these must be ignored
        if "NA" in row:
            continue
            
        data.append({
            "evidence": [float(value) for value in row[:-1]],
            "label": row[-1]
        })

Die ersten paar Zeilen unseres Datensatzes schauen dabei so aus:

In [155]:
head(data)

[{'evidence': [1.0, 5.0, 86.0, 68.0, 28.0, 30.2, 0.364, 24.0], 'label': 'No'},
 {'evidence': [2.0, 7.0, 195.0, 70.0, 33.0, 25.1, 0.163, 55.0],
  'label': 'Yes'},
 {'evidence': [3.0, 5.0, 77.0, 82.0, 41.0, 35.8, 0.156, 35.0], 'label': 'No'},
 {'evidence': [4.0, 0.0, 165.0, 76.0, 43.0, 47.9, 0.259, 26.0], 'label': 'No'},
 {'evidence': [5.0, 0.0, 107.0, 60.0, 25.0, 26.4, 0.133, 23.0], 'label': 'No'},
 {'evidence': [6.0, 5.0, 97.0, 76.0, 27.0, 35.6, 0.378, 52.0], 'label': 'Yes'}]

In [156]:
evidence = [row["evidence"] for row in data]
labels = [row["label"] for row in data]

`scikit-learn` bietet uns auch nützliche Funktionen an, etwa, um die Daten in einen Trainings- sowie Testdatensatz aufzuteilen:

In [157]:
x_training, x_testing, y_training, y_testing = train_test_split(
    evidence, labels, test_size=0.2
)

Nun können wir mit dem eigentlichen Trainieren beginnen:

In [158]:
%%capture
model.fit(x_training, y_training)

Als Ergebnis bekommen wir unsere Vorhersagen, wobei uns die Genauigkeit hier am ehesten interessiert:

In [159]:
predictions = model.predict(x_testing)

In [160]:
print( f"Total: {len(predictions)}" )
print( f"Correct: {(y_testing == predictions).sum()}" )
print( f"Incorrect: {(y_testing != predictions).sum()}" )
print( f"Accuracy: {(y_testing == predictions).sum()/len(predictions)*100}%" )

Total: 40
Correct: 28
Incorrect: 12
Accuracy: 70.0%
