# Лабораторная работа №4

In [24]:
import pandas as pd
import numpy as np

from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
import sklearn.naive_bayes
from sklearn.model_selection import GridSearchCV
from sklearn import metrics

Загружаем датасет со свойствами различных грибов, целевым параметром является съедобность (значение "e" целевого параметра) или несъедобность ("p") гриба.

In [25]:
mushrooom_dataset = pd.read_csv('MushroomDataset/secondary_data.csv',delimiter=';')

Выделяем таргетный столбец в отдельный Series, а все остальные столбы в DataFrame. Также удаляем все столбцы, где большая часть данных типа NaN и заменяем все классы на номер буквы в алфавите.

In [26]:
y = mushrooom_dataset['class']
X = mushrooom_dataset.drop('class',axis=1)
X = X.drop(columns=['cap-surface','gill-spacing','gill-attachment','stem-root',
                    'stem-surface','veil-type','veil-color','ring-type','spore-print-color'])
X.replace({'a':1,'b':2,'c':3,'d':4,'e':5,'f':6,'g':7,
           'h':8,'i':9,'j':10,'k':11,'l':12,'m':13,
           'n':14,'o':15,'p':16,'q':17,'r':18,'s':19,
           't':20,'u':21,'v':22,'w':23,'x':24,'y':25,'z':26},inplace=True)

После устранения пропусков нормализуем все значения.

In [27]:
scaler = MinMaxScaler()
X_ans = scaler.fit_transform(X)

Разделяем данные на тренировочную и тестовую части.

In [28]:
X_train, X_test, y_train, y_test = train_test_split(X_ans, y, test_size=0.2)

### Гауссовский наивный Байес

Найдём лучшие гиперпараметры, для этого используем GridSearchCV, куда передадим диапазон возможных значений. Будем искать оптимальное значение гиперпараметра "var_smoothing", который отвечает за сглаживание получаемых значений.

In [67]:
gaussian_classifier = sklearn.naive_bayes.GaussianNB()
gaussian_params ={
    'var_smoothing': np.geomspace(1e-10,1e10,num=100)
}
gaussian_grid = GridSearchCV(gaussian_classifier, gaussian_params, cv=2, n_jobs=-1,verbose=3)
gaussian_grid.fit(X_train, y_train)
best_gaussian_params = gaussian_grid.best_params_

Fitting 2 folds for each of 100 candidates, totalling 200 fits


После того, как были найдены оптимальные гиперпараметры, можно вывести различные метрики, такие как точность, полнота, f-мера и поддержка.

In [68]:
best_gaussian_model = sklearn.naive_bayes.GaussianNB(**best_gaussian_params)
best_gaussian_model.fit(X_train, y_train)
gaussian_predicted = best_gaussian_model.predict(X_test)
print('Used params:',best_gaussian_params)
print('Evaluation:\n', metrics.classification_report(y_test, gaussian_predicted,digits=5))

Used params: {'var_smoothing': 0.07742636826811278}
Evaluation:
               precision    recall  f1-score   support

           e    0.67534   0.24298   0.35737      5445
           p    0.59805   0.90604   0.72051      6769

    accuracy                        0.61045     12214
   macro avg    0.63670   0.57451   0.53894     12214
weighted avg    0.63251   0.61045   0.55863     12214



### Мультиномиальный наивный Байес

Найдём лучшие гиперпараметры, для этого используем GridSearchCV, куда передадим диапазон возможных значений. Будем искать оптимальное значение гиперпараметра "alpha", который отвечает за сглаживание получаемых значений.

In [71]:
classifier = sklearn.naive_bayes.MultinomialNB()
params ={
    'alpha': np.geomspace(1e-10,1e10,num=100)
}
grid = GridSearchCV(classifier, params, cv=2, n_jobs=-1,verbose=3)
grid.fit(X_train, y_train)
best_params = grid.best_params_

Fitting 2 folds for each of 100 candidates, totalling 200 fits


После того, как были найдены оптимальные гиперпараметры, можно вывести различные метрики, такие как точность, полнота, f-мера и поддержка.

In [66]:
best_model = sklearn.naive_bayes.MultinomialNB(**best_params)
best_model.fit(X_train, y_train)
predicted = best_model.predict(X_test)
print('Used params:',best_params)
print('Evaluation:\n', metrics.classification_report(y_test, predicted,digits=5))

Used params: {'alpha': 1e-10}
Evaluation:
               precision    recall  f1-score   support

           e    0.92222   0.03049   0.05902      5445
           p    0.56133   0.99793   0.71850      6769

    accuracy                        0.56664     12214
   macro avg    0.74177   0.51421   0.38876     12214
weighted avg    0.72221   0.56664   0.42451     12214



### Комплементарный наивный Байес

Найдём лучшие гиперпараметры, для этого используем GridSearchCV, куда передадим диапазон возможных значений. Будем искать оптимальное значение гиперпараметра "alpha", который отвечает за сглаживание получаемых значений.

In [63]:
classifier = sklearn.naive_bayes.ComplementNB()
params ={
    'alpha': np.geomspace(1e-10,1e10,num=100)
}
grid = GridSearchCV(classifier, params, cv=2, n_jobs=-1,verbose=3)
grid.fit(X_train, y_train)
best_params = grid.best_params_

Fitting 2 folds for each of 100 candidates, totalling 200 fits


После того, как были найдены оптимальные гиперпараметры, можно вывести различные метрики, такие как точность, полнота, f-мера и поддержка.

In [64]:
best_model = sklearn.naive_bayes.ComplementNB(**best_params)
best_model.fit(X_train, y_train)
predicted = best_model.predict(X_test)
print('Used params:',best_params)
print('Evaluation:\n', metrics.classification_report(y_test, predicted,digits=5))

Used params: {'alpha': 849.7534359086438}
Evaluation:
               precision    recall  f1-score   support

           e    0.50434   0.65032   0.56811      5445
           p    0.63335   0.48589   0.54991      6769

    accuracy                        0.55919     12214
   macro avg    0.56885   0.56811   0.55901     12214
weighted avg    0.57584   0.55919   0.55802     12214



### Бернуллиевский наивный Байес

Найдём лучшие гиперпараметры, для этого используем GridSearchCV, куда передадим диапазон возможных значений. Будем искать оптимальное значение гиперпараметра "alpha", который отвечает за сглаживание получаемых значений.

In [69]:
classifier = sklearn.naive_bayes.BernoulliNB()
params ={
    'alpha': np.geomspace(1e-10,1e10,num=100)
}
grid = GridSearchCV(classifier, params, cv=2, n_jobs=-1,verbose=3)
grid.fit(X_train, y_train)
best_params = grid.best_params_

Fitting 2 folds for each of 100 candidates, totalling 200 fits


После того, как были найдены оптимальные гиперпараметры, можно вывести различные метрики, такие как точность, полнота, f-мера и поддержка.

In [70]:
best_model = sklearn.naive_bayes.BernoulliNB(**best_params)
best_model.fit(X_train, y_train)
predicted = best_model.predict(X_test)
print('Used params:',best_params)
print('Evaluation:\n', metrics.classification_report(y_test, predicted,digits=5))

Used params: {'alpha': 83.02175681319736}
Evaluation:
               precision    recall  f1-score   support

           e    0.56356   0.33058   0.41671      5445
           p    0.59590   0.79406   0.68085      6769

    accuracy                        0.58744     12214
   macro avg    0.57973   0.56232   0.54878     12214
weighted avg    0.58148   0.58744   0.56310     12214



### Категориальный наивный Байес

Найдём лучшие гиперпараметры, для этого используем GridSearchCV, куда передадим диапазон возможных значений. Будем искать оптимальное значение гиперпараметра "alpha", который отвечает за сглаживание получаемых значений.

In [59]:
classifier = sklearn.naive_bayes.CategoricalNB()
params ={
    'alpha': np.geomspace(1e-10,1e10,num=100),
    'min_categories':[2]
}
grid = GridSearchCV(classifier, params, cv=2, n_jobs=-1,verbose=3)
grid.fit(X_train, y_train)
best_params = grid.best_params_

Fitting 2 folds for each of 100 candidates, totalling 200 fits


После того, как были найдены оптимальные гиперпараметры, можно вывести различные метрики, такие как точность, полнота, f-мера и поддержка.

In [60]:
best_model = sklearn.naive_bayes.CategoricalNB(**best_params)
best_model.fit(X_train, y_train)
predicted = best_model.predict(X_test)
print('Used params:',best_params)
print('Evaluation:\n', metrics.classification_report(y_test, predicted,digits=5))

Used params: {'alpha': 1e-10, 'min_categories': 2}
Evaluation:
               precision    recall  f1-score   support

           e    0.66193   0.12837   0.21504      5445
           p    0.57465   0.94726   0.71535      6769

    accuracy                        0.58220     12214
   macro avg    0.61829   0.53782   0.46519     12214
weighted avg    0.61356   0.58220   0.49231     12214

