# Modelowanie w `scikit-learn`
## Dzielenie danych na zbiór treningowy i testowy

In [6]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report

iris = pd.read_csv("data/iris.csv")
X = iris.drop(columns="variety")
y = iris.variety

X_train_full, X_test, y_train_full, y_test = train_test_split(X, y, test_size=0.2, random_state=1)
X_train, X_valid, y_train, y_valid = train_test_split(X_train_full, y_train_full, test_size=0.25, random_state=2)

## Skalowanie danych

In [7]:
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_valid = scaler.transform(X_valid)
X_test = scaler.transform(X_test)

## Tworzenie modelu i testowanie

In [8]:
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)

y_pred = knn.predict(X_valid)

print(classification_report(y_valid, y_pred))

              precision    recall  f1-score   support

      Setosa       1.00      1.00      1.00         7
  Versicolor       1.00      0.83      0.91        12
   Virginica       0.85      1.00      0.92        11

    accuracy                           0.93        30
   macro avg       0.95      0.94      0.94        30
weighted avg       0.94      0.93      0.93        30



## Zadania
1. (ZADANIE MATEMATYCZNE) Przypisz następujące przykłady do klasy A lub B przy użyciu metody k-NN z k=3. 
    - Zbiór treningowy: A(1, 3), A(2, 1), A(2, 3), B(4, 3), B(6, 3).
    - Przykłady do zaklasyfikowania: (1, 5), (5, 1), (2, 6), (3, 4).
2. Klasyfikuj przypadki ze zbioru `wdbc.data` jako `M` - *malignant* lub `B` - *benign*.
    - Podziel dane na zbiór treningowy i testowy. Ze zbioru treningowego wydziel dodatkowo zbiór walidacyjny.
    - Użyj k-NN do klasyfikacji przykładów ze zbioru walidacyjnego na podstawie pozostałych danych treningowych i wypisz dokładność, precyzję, pełność, F-miarę (zob. [metrics](https://scikit-learn.org/stable/modules/classes.html#classification-metrics), [classification_report](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html)). Warto wypisać też macierz omyłek ([`confusion_matrix`](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html)).
    - Sprawdź, jaki wpływ na dokładność ma skalowanie danych. Pamiętaj, że skalować należy także dane walidacyjne/testowe.
    - Stwórz wykres zależności dokładności od k. Skorzystaj ze zbioru walidacyjnego.
    - Wybierz najlepszy model i podaj jego dokładność dla danych testowych.
3. Wykorzystaj `KNeighborsRegressor` do predykcji cen domów (`medv`) ze zbioru `boston`. Wykonaj kroki analogicznie jak w Zadaniu 2. Do ewaluacji modelu można stosować np. miarę MSE (zob. [mean_squared_error](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html)).