# Klasyfikacja
## Dzielenie danych na zbiór treningowy i testowy

In [1]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report

iris = pd.read_csv("iris.csv")
X = iris.drop(columns="variety")
y = iris.variety

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1)

## Tworzenie modelu i testowanie

In [2]:
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)

y_pred = knn.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

      Setosa       1.00      1.00      1.00        17
  Versicolor       0.95      1.00      0.97        19
   Virginica       1.00      0.93      0.96        14

    accuracy                           0.98        50
   macro avg       0.98      0.98      0.98        50
weighted avg       0.98      0.98      0.98        50



## Zadania
1. Przypisz następujące przykłady do klasy A lub B przy użyciu metody k-NN z k=3. 
    - Zbiór treningowy: A(1, 3), A(2, 1), A(2, 3), B(4, 3), B(6, 3).
    - Przykłady do zaklasyfikowania: (1, 5), (5, 1), (2, 6), (3, 4).
2. Użyj zbioru treningowego z `Playgolf.xlsx` do klasyfikacji następujących przykładów klasyfikatorem Naive Bayes. Tam, gdzie to konieczne, stosuj wygładzanie $\frac{x_i+1}{N+d}$:
    - (sunny, cool, high, true).
    - (overcast, mild, normal, false).
3. Klasyfikuj przypadki ze zbioru `wdbc.data` jako `M` - *malignant* lub `B` - *benign*.
    - Podziel dane na zbiór treningowy i testowy. Ze zbioru treningowego wydziel dodatkowo zbiór walidacyjny.
    - Użyj k-NN do klasyfikacji przykładów ze zbioru walidacyjnego na podstawie pozostałych danych treningowych i wypisz dokładność, precyzję, pełność, F-miarę. Warto wypisać też macierz omyłek ([`confusion_matrix()`](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html)).
    - Sprawdź, jaki wpływ na dokładność ma skalowanie danych: [`MinMaxScaler`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html), [`minmax_scale()`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.minmax_scale.html). Pamiętaj, że skalować należy także dane walidacyjne/testowe.
    - Porównaj dokładność k-NN i regresji logistycznej ([`LogisticRegression`](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html)).
    - Stwórz wykres zależności dokładności od k. Skorzystaj ze zbioru walidacyjnego.
    - Wybierz najlepszy model i podaj jego dokładność dla danych testowych.
4. Klasyfikuj grzyby ze zbioru `agaricus-lepiota.data` jako trujące (`p` - *poisonous*) lub jadalne (`e` - *edible*) za pomocą [`CategoricalNB`](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.CategoricalNB.html).
    - Brakujące wartości zapisane są w zbiorze jako `?` (wczytując dane podaj `na_values='?'`). Usuń wiersze zawierające brakujące wartości (`dropna(axis='rows')`).
    - Dane wejściowe (`X`) koduj jako 0,1,2,... przy użyciu [`OrdinalEncoder`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OrdinalEncoder.html).
    - Podziel dane na zbiór treningowy i testowy. Wypisz macierz omyłek oraz dokładność i F-miarę dla zbioru testowego. 
5. (Bonus) Klasyfikuj wiadomości email ze zbioru `spamham.csv` jako `spam` lub `ham`.
    - Sprawdź w dokumentacji [`CountVectorizer`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html), jak przekształcić teksty na wektory zawierające liczbę wystąpień słów.
    - Podziel dane na zbiór treningowy i testowy.
    - Użyj [`MultinomialNB`](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.MultinomialNB.html) aby klasyfikować wiadomości. Wypisz dokładność na zbiorze testowym.