# Klasyfikacja
## Dzielenie danych na zbiór treningowy i testowy

In [1]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report

iris = pd.read_csv("iris.csv")
X = iris.drop(columns="variety")
y = iris.variety

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1)

## Tworzenie modelu i testowanie

In [2]:
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)

y_pred = knn.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

      Setosa       1.00      1.00      1.00        17
  Versicolor       0.95      1.00      0.97        19
   Virginica       1.00      0.93      0.96        14

    accuracy                           0.98        50
   macro avg       0.98      0.98      0.98        50
weighted avg       0.98      0.98      0.98        50



## Zadania
1. Przypisz następujące przykłady do klasy A lub B przy użyciu metody k-NN z k=3. 
    - Zbiór treningowy: A(1, 3), A(2, 1), A(2, 3), B(4, 3), B(6, 3).
    - Przykłady do zaklasyfikowania: (1, 5), (5, 1), (2, 6), (3, 4).
2. Użyj zbioru treningowego z `Playgolf.xlsx` do klasyfikacji następujących przykładów klasyfikatorem Naive Bayes. Tam, gdzie to konieczne, stosuj wygładzanie $\frac{x_i+1}{N+d}$:
    - (sunny, cool, high, true).
    - (overcast, mild, normal, false).
3. Klasyfikuj przypadki ze zbioru `wdbc.data` jako `M` - *malignant* lub `B` - *benign*.
    - Podziel dane na zbiór treningowy i testowy. Ze zbioru treningowego wydziel dodatkowo zbiór walidacyjny.
    - Użyj k-NN do klasyfikacji przykładów ze zbioru walidacyjnego na podstawie pozostałych danych treningowych i wypisz dokładność, precyzję, pełność, F-miarę. Warto wypisać też macierz omyłek ([`confusion_matrix()`](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html)).
    - Sprawdź, jaki wpływ na dokładność ma skalowanie danych: [`MinMaxScaler`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html), [`minmax_scale()`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.minmax_scale.html). Pamiętaj, że skalować należy także dane walidacyjne/testowe.
    - Porównaj dokładność k-NN i regresji logistycznej ([`LogisticRegression`](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html)).
    - Stwórz wykres zależności dokładności od k. Skorzystaj ze zbioru walidacyjnego.
    - Wybierz najlepszy model i podaj jego dokładność dla danych testowych.
4. Klasyfikuj grzyby ze zbioru `agaricus-lepiota.data` jako trujące (`p` - *poisonous*) lub jadalne (`e` - *edible*) za pomocą [`CategoricalNB`](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.CategoricalNB.html).
    - Brakujące wartości zapisane są w zbiorze jako `?` (wczytując dane podaj `na_values='?'`). Usuń wiersze zawierające brakujące wartości (`dropna(axis='rows')`).
    - Dane wejściowe (`X`) koduj jako 0,1,2,... przy użyciu [`OrdinalEncoder`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OrdinalEncoder.html).
    - Podziel dane na zbiór treningowy i testowy. Wypisz macierz omyłek oraz dokładność i F-miarę dla zbioru testowego. 
5. (Bonus) Klasyfikuj wiadomości email ze zbioru `spamham.csv` jako `spam` lub `ham`.
    - Sprawdź w dokumentacji [`CountVectorizer`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html), jak przekształcić teksty na wektory zawierające liczbę wystąpień słów.
    - Podziel dane na zbiór treningowy i testowy.
    - Użyj [`MultinomialNB`](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.MultinomialNB.html) aby klasyfikować wiadomości. Wypisz dokładność na zbiorze testowym.

In [2]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report

wdbc = pd.read_csv("wdbc.data")
X = wdbc.drop(columns="diagnosis")
y = wdbc.diagnosis

X_train_raw, X_test, y_train_raw, y_test = train_test_split(X, y, test_size=0.33, random_state=1)

In [3]:
# Podziel dane na zbiór treningowy i testowy. Ze zbioru treningowego wydziel dodatkowo zbiór walidacyjny.
X_train, X_validate, y_train, y_validate = train_test_split(X_train_raw, y_train_raw, test_size=0.33, random_state=1)

In [4]:
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)

y_pred = knn.predict(X_validate)

print(classification_report(y_validate, y_pred))

              precision    recall  f1-score   support

           B       0.98      0.95      0.96        84
           M       0.91      0.95      0.93        42

    accuracy                           0.95       126
   macro avg       0.94      0.95      0.95       126
weighted avg       0.95      0.95      0.95       126



In [5]:
from sklearn.metrics import confusion_matrix

tn, fp, fn, tp = confusion_matrix(y_validate, y_pred).ravel()
tn, fp, fn, tp 

(80, 4, 2, 40)

In [6]:
X_train_raw.head()

Unnamed: 0,radius_mean,texture_mean,perimeter_mean,area_mean,smoothness_mean,compactness_mean,concavity_mean,concave_points_mean,symmetry_mean,fractal_dimension_mean,...,radius_worst,texture_worst,perimeter_worst,area_worst,smoothness_worst,compactness_worst,concavity_worst,concave_points_worst,symmetry_worst,fractal_dimension_worst
121,18.66,17.12,121.4,1077.0,0.1054,0.11,0.1457,0.08665,0.1966,0.06213,...,22.25,24.9,145.4,1549.0,0.1503,0.2291,0.3272,0.1674,0.2894,0.08456
315,12.49,16.85,79.19,481.6,0.08511,0.03834,0.004473,0.006423,0.1215,0.05673,...,13.34,19.71,84.48,544.2,0.1104,0.04953,0.01938,0.02784,0.1917,0.06174
402,12.96,18.29,84.18,525.2,0.07351,0.07899,0.04057,0.01883,0.1874,0.05899,...,14.13,24.61,96.31,621.9,0.09329,0.2318,0.1604,0.06608,0.3207,0.07247
383,12.39,17.48,80.64,462.9,0.1042,0.1297,0.05892,0.0288,0.1779,0.06588,...,14.18,23.13,95.23,600.5,0.1427,0.3593,0.3206,0.09804,0.2819,0.1118
465,13.24,20.13,86.87,542.9,0.08284,0.1223,0.101,0.02833,0.1601,0.06432,...,15.44,25.5,115.0,733.5,0.1201,0.5646,0.6556,0.1357,0.2845,0.1249


In [7]:
# Sprawdź, jaki wpływ na dokładność ma skalowanie danych
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit(X_train_raw)
X_train_scaled = scaler.transform(X_train_raw)
X_train_scaled


array([[0.53633286, 0.25059182, 0.52269171, ..., 0.57525773, 0.33266533,
        0.31427348],
       [0.23359992, 0.24146094, 0.22243562, ..., 0.0956701 , 0.08792585,
        0.06992183],
       [0.25666062, 0.29015894, 0.25793143, ..., 0.22707904, 0.41107214,
        0.18481636],
       ...,
       [0.46469751, 0.50084545, 0.47147532, ..., 0.65257732, 0.43762525,
        0.84259557],
       [0.30916049, 0.3902604 , 0.29783753, ..., 0.27364261, 0.16533066,
        0.22443516],
       [0.26009519, 0.29455529, 0.24676341, ..., 0.17226804, 0.10546092,
        0.06938644]])

In [8]:
X_train, X_validate = train_test_split(X_train_scaled, test_size=0.33, random_state=1)

In [9]:
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)

y_pred = knn.predict(X_validate)

print(classification_report(y_validate, y_pred))

              precision    recall  f1-score   support

           B       1.00      0.98      0.99        84
           M       0.95      1.00      0.98        42

    accuracy                           0.98       126
   macro avg       0.98      0.99      0.98       126
weighted avg       0.98      0.98      0.98       126



In [10]:
# Porównaj dokładność k-NN i regresji logistycznej
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression(random_state=1).fit(X_train, y_train)
clf.predict(X_validate)
clf.score(X_train, y_train)

0.9607843137254902

In [11]:
from sklearn.metrics import accuracy_score
max_acc = (0,0)
for k in range (1,11):
  knn = KNeighborsClassifier(n_neighbors=k)
  knn.fit(X_train, y_train)
  y_pred = knn.predict(X_validate)
  acc = accuracy_score(y_validate, y_pred)
  print(k, acc)
  if (acc > max_acc[0]):
    max_acc = (acc, k)

print('max', max_acc)


1 0.9603174603174603
2 0.9682539682539683
3 0.9761904761904762
4 0.9920634920634921
5 0.9841269841269841
6 0.9920634920634921
7 0.9841269841269841
8 0.9841269841269841
9 0.9841269841269841
10 0.9761904761904762
max (0.9920634920634921, 4)


In [12]:
scaler = MinMaxScaler()
scaler.fit(X_test)
X_test_scaled = scaler.transform(X_test)
X_test_scaled

array([[0.38089827, 0.15364917, 0.39353626, ..., 0.41220238, 0.24876799,
        0.24294897],
       [0.30579574, 0.35339309, 0.3050394 , ..., 0.77678571, 0.46027991,
        0.41230487],
       [0.29492564, 0.24071703, 0.28450582, ..., 0.39285714, 0.35777646,
        0.26761118],
       ...,
       [0.63387519, 0.50234742, 0.62330996, ..., 0.88839286, 0.23713779,
        0.13846255],
       [0.51825683, 0.61032864, 0.52281108, ..., 0.64025298, 0.1172876 ,
        0.24898334],
       [0.31221898, 0.47759283, 0.2996891 , ..., 0.20885417, 0.2113148 ,
        0.07569198]])

In [13]:
knn = KNeighborsClassifier(n_neighbors=4)
knn.fit(X_train, y_train)

y_pred = knn.predict(X_test_scaled)
acc = accuracy_score(y_test, y_pred)
acc

0.9148936170212766

4. Klasyfikuj grzyby ze zbioru `agaricus-lepiota.data` jako trujące (`p` - *poisonous*) lub jadalne (`e` - *edible*) za pomocą [`CategoricalNB`](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.CategoricalNB.html).
    - Brakujące wartości zapisane są w zbiorze jako `?` (wczytując dane podaj `na_values='?'`). Usuń wiersze zawierające brakujące wartości (`dropna(axis='rows')`).
    - Dane wejściowe (`X`) koduj jako 0,1,2,... przy użyciu [`OrdinalEncoder`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OrdinalEncoder.html).
    - Podziel dane na zbiór treningowy i testowy. Wypisz macierz omyłek oraz dokładność i F-miarę dla zbioru testowego. 

In [14]:
al_raw = pd.read_csv("agaricus-lepiota.data", na_values="?")
al_raw[['stalk-root', 'class']].describe()

Unnamed: 0,stalk-root,class
count,5644,8124
unique,4,2
top,b,e
freq,3776,4208


In [15]:
al = al_raw.dropna(axis='rows')
al[['stalk-root', 'class']].describe()

Unnamed: 0,stalk-root,class
count,5644,5644
unique,4,2
top,b,e
freq,3776,3488


In [26]:
from sklearn.preprocessing import OrdinalEncoder
enc = OrdinalEncoder()
X_raw = al.drop(columns="class")
y = al['class']
X = enc.fit_transform(X)
X

array([[5., 2., 4., ..., 1., 3., 5.],
       [5., 2., 7., ..., 2., 2., 1.],
       [0., 2., 6., ..., 2., 2., 3.],
       ...,
       [5., 3., 3., ..., 5., 5., 4.],
       [5., 3., 1., ..., 5., 1., 0.],
       [2., 3., 1., ..., 5., 1., 0.]])

In [27]:
X_raw.shape, X.shape

((5644, 22), (5644, 22))

In [28]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1)

In [29]:
from sklearn.naive_bayes import CategoricalNB
clf = CategoricalNB()
clf.fit(X_train, y_train)

In [30]:
y_pred = clf.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           e       0.95      1.00      0.98      1160
           p       1.00      0.92      0.96       703

    accuracy                           0.97      1863
   macro avg       0.97      0.96      0.97      1863
weighted avg       0.97      0.97      0.97      1863



In [33]:
tn, fp, fn, tp = confusion_matrix(y_test, y_pred).ravel()
tn, fp, fn, tp 
# only three mushrooms we classified as edible were poisonous

(1157, 3, 56, 647)

5. (Bonus) Klasyfikuj wiadomości email ze zbioru `spamham.csv` jako `spam` lub `ham`.
    - Sprawdź w dokumentac
    ji [`CountVectorizer`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html), jak przekształcić teksty na wektory zawierające liczbę wystąpień słów.
    - Podziel dane na zbiór treningowy i testowy.
    - Użyj [`MultinomialNB`](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.MultinomialNB.html) aby klasyfikować wiadomości. Wypisz dokładność na zbiorze testowym.

In [34]:
sh_raw = pd.read_csv('spamham.csv')
sh_raw.head()

Unnamed: 0,is_spam,email_text
0,True,b'From ilug-admin@linux.ie Tue Aug 6 11:51:0...
1,True,b'From 12a1mailbot1@web.de Thu Aug 22 13:17:2...
2,True,b'From ilug-admin@linux.ie Tue Aug 6 11:51:0...
3,True,b'From lmrn@mailexcite.com Mon Jun 24 17:03:2...
4,True,b'From ilug-admin@linux.ie Thu Aug 22 13:27:3...


In [35]:
X = sh_raw.email_text
y = sh_raw.is_spam
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1)

In [36]:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
X_vec = vectorizer.fit_transform(X_train)

In [38]:
vectorizer.get_feature_names_out(), len(vectorizer.get_feature_names_out())

(array(['00', '000', '0000', ..., 'zzzzteana', 'zzzzz', 'zzzzzvs'],
       dtype=object),
 168771)

In [39]:
from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB()
clf.fit(X_vec.toarray(), y_train)

In [41]:
X_vec_test = vectorizer.transform(X_test)
y_pred = clf.predict(X_vec_test.toarray())

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

       False       0.97      0.99      0.98      2294
        True       0.98      0.94      0.96      1252

    accuracy                           0.97      3546
   macro avg       0.97      0.96      0.97      3546
weighted avg       0.97      0.97      0.97      3546



In [42]:
tn, fp, fn, tp = confusion_matrix(y_test, y_pred).ravel()
tn, fp, fn, tp 

(2273, 21, 77, 1175)