In [25]:
import numpy as np


#np.random.seed(42)
from sklearn import datasets

### Vorbereitung Iris-Dataset

Sklearn bietet verschiedene fertige Datasets. Wir nutzen als erstes Dataset das Iris-Dataset. Dieses umfasst eine kleine Datengröße.

Der Irisblütendatensatz oder Fisher's Iris-Datensatz ist ein multivariater Datensatz, der vom britischen Statistiker und Biologen Ronald Fisher in seiner 1936 erschienenen Arbeit verwendet und berühmt gemacht wurde. Er wird manchmal als Andersons Iris-Datensatz bezeichnet, weil Edgar Anderson die Daten gesammelt hat, um die morphologische Variation der Irisblüten dreier verwandter Arten zu quantifizieren. 

Der Datensatz besteht aus 50 Proben von jeder der drei Irisarten (Iris setosa, Iris virginica und Iris versicolor). Von jeder Probe wurden vier Merkmale gemessen: die Länge und die Breite der Kelch- und Blütenblätter in Zentimetern. Basierend auf der Kombination dieser vier Merkmale entwickelte Fisher ein lineares Diskriminanzmodell, um die Arten voneinander zu unterscheiden. 

In [32]:
iris = datasets.load_iris()

x = iris.data[:, :]

y = iris.target

class_names = iris.target_names
discription = iris.DESCR

### Dataset Split

In [33]:
num_samples = x.shape[0]
num_features = x.shape[1]

print(f"num_samples: {num_samples}")
print(f"num_features: {num_features}")

num_samples: 150
num_features: 4


### Aufgabe 1
Teilen Sie das Dataset in Trainings- und Testdaten auf. Nutzen Sie für die Testdatengröße 30%.

In [34]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3)

In [35]:
print(f"x_train shape:\n{x_train.shape}")
print(f"y_train shape:\n{y_train.shape}")

print(f"x_test shape:\n{x_test.shape}")
print(f"y_test shape:\n{y_test.shape}")

x_train shape:
(105, 4)
y_train shape:
(105,)
x_test shape:
(45, 4)
y_test shape:
(45,)


## KNN Model implementieren

### Aufgabe 2
Erstellen Sie mit Hilfe von sklearn.neighbors bzw. dem KNeighborsClassifier den KNN-Algorithmus (fit, predict, score). Nutzen Sie zum Start 3-Nachbarn.

In [None]:
from sklearn.neighbors import KNeighborsClassifier

clf=KNeighborsClassifier(n_neighbors=3)
clf.fit(x_train,y_train)
accuracy=clf.score(x_test, y_test)

x_test_neuer_Punkt = np.array([[0.0, 4.0, 0.0, 1.0], [-5.0, 4.0, 0.0, 1.0]])
y_test_neuer_Punkt = np.array([0, 1])
print(f"x_test:\n {x_test_neuer_Punkt}")
print(f"y_test:\n {y_test_neuer_Punkt}")

y_pred=clf.predict(x_test_neuer_Punkt)
print(f"y_pred:\n{y_pred}")
print(f"accuracy: {accuracy*100.0:.4}%")


x_test:
 [[ 0.  4.  0.  1.]
 [-5.  4.  0.  1.]]
y_test:
 [0 1]
y_pred:
[0 0]
accuracy: 100.0%


## Hyperparameters

Neben der Anzahl der zu vergleichenden Nachbarn können noch weitere Parameter den Algorithmus positiv oder negativ beeinflussen. Diese Parameter bezeichnet man als Hyperparameter. Mit dem Parameter weights können die nächsten Nachbarn unterschiedliche gewichtet werden. 
- Mit uniform werden alle Nachbarn gleich schwer gewichtet. 
- Mit distance werden die Nachbarn mit zunehmender Entfernung unwichtiger gewertet.


### Aufgabe 3
Untersuchen Sie beim Iris-Dataset welche Parameter am Besten funktionieren. Vergleichen Sie dazu die Wirkung von 1 bis 10 Nachbarn sowie die Einstellungen uniform/distance. Geben Sie alle Ergebnisse zusammen aus (Hinweis: Schleife)



https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html


In [43]:
for i in range(1, 11):
    clf=KNeighborsClassifier(n_neighbors=i, weights='distance')
    clf.fit(x_train,y_train)
    accuracy=clf.score(x_test, y_test)

    x_test_neuer_Punkt = np.array([[0.0, -5.0, 4.0, -5.0], [-5.0, 4.0, 6.0, 20.0]])
    y_test_neuer_Punkt = np.array([0, 1])



    y_pred=clf.predict(x_test_neuer_Punkt)
    print(f"y_pred:\n{y_pred}")
    print(f"accuracy: {accuracy*100.0:.4}%")

y_pred:
[1 2]
accuracy: 100.0%
y_pred:
[1 2]
accuracy: 100.0%
y_pred:
[1 2]
accuracy: 100.0%
y_pred:
[1 2]
accuracy: 100.0%
y_pred:
[0 2]
accuracy: 100.0%
y_pred:
[1 2]
accuracy: 100.0%
y_pred:
[1 2]
accuracy: 100.0%
y_pred:
[1 2]
accuracy: 100.0%
y_pred:
[0 2]
accuracy: 100.0%
y_pred:
[0 2]
accuracy: 100.0%


## Wine-Dataset 

In [46]:
import numpy as np

#np.random.seed(42)
from sklearn import datasets

### Aufgabe 4
Laden Sie aus Sklearn das Wine-Dataset und generieren Sie daraus Ihr Datenset x sowie die Klassen y. Das funktioniert nach dem gleichen Shema, wie beim Iris-Dataset.
Lassen Sie sich zudem die Klassennamen(target_names) und die Beschreibung(DESCR) des Datasets ausgeben.

In [50]:
wine = datasets.load_wine()

x = wine.data[:, :]

y = wine.target
print(wine.target_names)
print(wine.DESCR)

['class_0' 'class_1' 'class_2']
.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

:Number of Instances: 178
:Number of Attributes: 13 numeric, predictive attributes and the class
:Attribute Information:
    - Alcohol
    - Malic acid
    - Ash
    - Alcalinity of ash
    - Magnesium
    - Total phenols
    - Flavanoids
    - Nonflavanoid phenols
    - Proanthocyanins
    - Color intensity
    - Hue
    - OD280/OD315 of diluted wines
    - Proline
    - class:
        - class_0
        - class_1
        - class_2

:Summary Statistics:

                                Min   Max   Mean     SD
Alcohol:                      11.0  14.8    13.0   0.8
Malic Acid:                   0.74  5.80    2.34  1.12
Ash:                          1.36  3.23    2.36  0.27
Alcalinity of Ash:            10.6  30.0    19.5   3.3
Magnesium:                    70.0 162.0    99.7  14.3
Total Phenols:                0.98  3.88    2.29  0.63
Flavanoids:           

### Aufgabe 5
Bestimmen Sie den Shape Ihres Datensatzes.
Zerlegen Sie anschließend Ihren Datensatz im Verhältnis 2/3. D.h. 1/3 Testdaten zu 2/3 Trainingsdaten.

In [53]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3)

In [54]:
num_samples = x.shape[0]
num_features = x.shape[1]
print(f"num_samples: {num_samples}")
print(f"num_features: {num_features}")

num_samples: 178
num_features: 13


In [55]:
print(f"x_train shape:\n{x_train.shape}")
print(f"y_train shape:\n{y_train.shape}")

print(f"x_test shape:\n{x_test.shape}")
print(f"y_test shape:\n{y_test.shape}")

x_train shape:
(124, 13)
y_train shape:
(124,)
x_test shape:
(54, 13)
y_test shape:
(54,)


### Aufgabe 5
Wenden Sie nun den KNN-Algorithmus auf den Datensatz an und versuchen Sie die besten Einstellungen für die Parameter zu bestimmen.

In [56]:
clf=KNeighborsClassifier(n_neighbors=3)
clf.fit(x_train,y_train)
accuracy=clf.score(x_test, y_test)



In [58]:
print(f"score: {accuracy}")

score: 0.7407407407407407
