# Grid search
Zbiór danych do analizy: https://www.kaggle.com/datasets/prishasawhney/mushroom-dataset

Mamy dane dotyczące grzybów. Model ma za zadanie ocenić, czy grzyb jest jadalny.
Cel biznesowy: Stworzenie aplikacji, która pomoże użytkownikowi w ocenie czy grzyb jest jadalny, poprawiając bezpieczeństwo.

Zmienne:
- Cap Diameter
- Cap Shape
- Gill Attachment
- Gill Color
- Stem Height
- Stem Width
- Stem Color
- Season
- Target Class - Is it edible or not?

In [1]:
import pandas as pd
from sklearn.experimental import enable_halving_search_cv
from sklearn.model_selection import GridSearchCV, HalvingGridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_auc_score

In [2]:
# puść ten kod, 
# jeżeli wywołujesz plik  w folderze rozwiąznaia, 
# a ramka danych znajduje się w folderze data
import os 
os.chdir('../')

In [3]:
df = pd.read_csv('data/mushroom.csv')

In [6]:
# Podział na zbiór treningowy i testowy
train_x, test_x,train_y, test_y = train_test_split(df.drop('class',axis = 1),df['class'], test_size=0.3, random_state=1000)

In [7]:
# grid

params = {'n_estimators': [50,100,200],
          'min_samples_split': [5,20,50],
          'criterion': ['gini','entropy']}

In [8]:
# Optymalizowany model
rf = RandomForestClassifier()

In [9]:
# Obiekt grid search
gs = GridSearchCV(estimator=rf,param_grid=params)

In [11]:
# Optymalizacja
res = gs.fit(train_x,train_y)

In [12]:
# Wybrane parametry
res.best_params_

{'criterion': 'gini', 'min_samples_split': 5, 'n_estimators': 100}

In [14]:
# Wybrany model
model = res.best_estimator_

In [15]:
# Predykcje
train_pred = model.predict(train_x)
test_pred = model.predict(test_x)

In [16]:
# train 
roc_auc_score(train_y,train_pred)

0.9990816030370339

In [17]:
# test 
roc_auc_score(test_y,test_pred)

0.9913988740737572

In [19]:
# obiekt halving grid search
hgs = HalvingGridSearchCV(estimator=rf,param_grid=params,cv=5)

In [20]:
# Optymalizacja
res_hgs = hgs.fit(train_x,train_y)

In [21]:
# Wybrany model
res_hgs.best_params_

{'criterion': 'entropy', 'min_samples_split': 5, 'n_estimators': 100}

In [22]:
# Wybrane parametry
model_2 = res_hgs.best_estimator_

In [23]:
# Predykcje
train_pred_2 = model_2.predict(train_x)
test_pred_2 = model_2.predict(test_x)

In [24]:
# train 
roc_auc_score(train_y, train_pred)

0.9990816030370339

In [25]:
# test 
roc_auc_score(test_y, test_pred)

0.9913988740737572

In [26]:
model_default = RandomForestClassifier().fit(train_x,train_y)

In [27]:
test_pred  =model_default.predict(test_x)

In [28]:
roc_auc_score(test_y,test_pred)

0.9914349882426523