In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('weather_preprocessed.csv')

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 140787 entries, 0 to 140786
Columns: 121 entries, MinTemp to WindDir3pm_without_value
dtypes: float64(16), int64(105)
memory usage: 130.0 MB


Так как датасет содержит большое количество записей, то, для улучшения времени работы алгоритмов, возьмем лишь 10000 записей.

In [4]:
df.drop(df.index[:-10000], inplace=True)

In [5]:
df.head()

Unnamed: 0,MinTemp,MaxTemp,Rainfall,Evaporation,Sunshine,WindGustSpeed,WindSpeed9am,WindSpeed3pm,Humidity9am,Humidity3pm,...,WindDir3pm_NW,WindDir3pm_S,WindDir3pm_SE,WindDir3pm_SSE,WindDir3pm_SSW,WindDir3pm_SW,WindDir3pm_W,WindDir3pm_WNW,WindDir3pm_WSW,WindDir3pm_without_value
130787,6.6,11.1,1.4,5.468232,7.611178,22.0,9.0,11.0,94.0,95.0,...,0,0,1,0,0,0,0,0,0,0
130788,7.6,13.8,13.0,5.468232,7.611178,46.0,4.0,24.0,96.0,67.0,...,0,0,0,1,0,0,0,0,0,0
130789,5.0,10.3,0.0,5.468232,7.611178,46.0,17.0,20.0,75.0,64.0,...,0,0,0,1,0,0,0,0,0,0
130790,-1.9,10.7,0.0,5.468232,7.611178,17.0,4.0,7.0,96.0,52.0,...,0,0,0,0,1,0,0,0,0,0
130791,-2.9,10.0,0.3,5.468232,7.611178,13.0,0.0,4.0,97.0,51.0,...,1,0,0,0,0,0,0,0,0,0


In [6]:
df.isnull().sum()

MinTemp                     0
MaxTemp                     0
Rainfall                    0
Evaporation                 0
Sunshine                    0
                           ..
WindDir3pm_SW               0
WindDir3pm_W                0
WindDir3pm_WNW              0
WindDir3pm_WSW              0
WindDir3pm_without_value    0
Length: 121, dtype: int64

In [7]:
df['RainTomorrow'].unique()

array([1, 0], dtype=int64)

Запишем в матрицу X все значения признаков кроме целевого, а в матрицу y - значения целевого признака.

In [8]:
X = df.loc[:, df.columns != 'RainTomorrow']
y = df.loc[:, 'RainTomorrow']

In [9]:
X.head()

Unnamed: 0,MinTemp,MaxTemp,Rainfall,Evaporation,Sunshine,WindGustSpeed,WindSpeed9am,WindSpeed3pm,Humidity9am,Humidity3pm,...,WindDir3pm_NW,WindDir3pm_S,WindDir3pm_SE,WindDir3pm_SSE,WindDir3pm_SSW,WindDir3pm_SW,WindDir3pm_W,WindDir3pm_WNW,WindDir3pm_WSW,WindDir3pm_without_value
130787,6.6,11.1,1.4,5.468232,7.611178,22.0,9.0,11.0,94.0,95.0,...,0,0,1,0,0,0,0,0,0,0
130788,7.6,13.8,13.0,5.468232,7.611178,46.0,4.0,24.0,96.0,67.0,...,0,0,0,1,0,0,0,0,0,0
130789,5.0,10.3,0.0,5.468232,7.611178,46.0,17.0,20.0,75.0,64.0,...,0,0,0,1,0,0,0,0,0,0
130790,-1.9,10.7,0.0,5.468232,7.611178,17.0,4.0,7.0,96.0,52.0,...,0,0,0,0,1,0,0,0,0,0
130791,-2.9,10.0,0.3,5.468232,7.611178,13.0,0.0,4.0,97.0,51.0,...,1,0,0,0,0,0,0,0,0,0


In [10]:
y.head()

130787    1
130788    0
130789    0
130790    0
130791    0
Name: RainTomorrow, dtype: int64

Разделим выборку на обучающуюся и тестовую. Воспользуемся методом train_test_split из модуля sklearn.model_selection. В обучающуюся выборку попадет 80 процентов исходных данных, а в тестовую - соответсвенно 20 процентов.

In [11]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20)

Так как значения признаков различаются, то есть некоторые признаки имеют большие значения, которые значительно отличаются от других, нужно применить масштабирование. Воспользуемся модулем sklearn.preprocessing и StandardScale. Для этого, сначала настроим объект scaler, а потом применим масштабирование к обучающейся и тестовой выборке, то есть X_train и X_test соответственно. 

In [12]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)

X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

In [13]:
X_train

array([[-0.26466709,  0.71123918, -0.23873597, ..., -0.29862403,
        -0.14910929, -0.07177326],
       [ 0.04260789,  0.57624829, -0.23873597, ..., -0.29862403,
        -0.14910929, -0.07177326],
       [ 0.27306412,  0.5612493 , -0.23873597, ..., -0.29862403,
        -0.14910929, -0.07177326],
       ...,
       [-0.12383273,  0.1862746 , -0.23873597, ..., -0.29862403,
        -0.14910929, -0.07177326],
       [-0.52072958,  0.41125942, -0.23873597, ..., -0.29862403,
        -0.14910929, -0.07177326],
       [-1.91627012, -1.67359991, -0.23873597, ..., -0.29862403,
        -0.14910929, -0.07177326]])

# K-Nearest Neighbors

Обучим модель с помощью метода k-ближайших соседей. В качестве параметра передадим в классификатор параметр "n_neighbors". Классификатор будет искать кратчайшее расстояние между объектами и 3-мя ближайшими к ним соседям.

In [14]:
from sklearn.neighbors import KNeighborsClassifier
clf = KNeighborsClassifier(n_neighbors=3)
clf.fit(X_train, y_train)

KNeighborsClassifier(n_neighbors=3)

Протестируем работу модели на тестовой выборке, а также посмотрим на качество работы модели с помощью  classification_report и confusion_matrix.

In [15]:
from sklearn.metrics import classification_report, confusion_matrix
y_pred = clf.predict(X_test)
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

[[1601   65]
 [ 230  104]]
              precision    recall  f1-score   support

           0       0.87      0.96      0.92      1666
           1       0.62      0.31      0.41       334

    accuracy                           0.85      2000
   macro avg       0.74      0.64      0.66      2000
weighted avg       0.83      0.85      0.83      2000



# Decision Tree Classifier

Обучим модель с помощью классификатора дерева решений. 

In [16]:
from sklearn import tree
clf = tree.DecisionTreeClassifier()
clf.fit(X_train, y_train)

DecisionTreeClassifier()

Протестируем работу модели на тестовой выборке, а также посмотрим на качество работы модели с помощью  classification_report и confusion_matrix.

In [17]:
y_pred = clf.predict(X_test)
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

[[1487  179]
 [ 147  187]]
              precision    recall  f1-score   support

           0       0.91      0.89      0.90      1666
           1       0.51      0.56      0.53       334

    accuracy                           0.84      2000
   macro avg       0.71      0.73      0.72      2000
weighted avg       0.84      0.84      0.84      2000



Можно заметить, что данный алгоритм отработал лучше, чем предыдущий.

# Naive Bayes Classifier

Обучим модель с помощью наивного байесовского классификатора

In [18]:
from sklearn.naive_bayes import GaussianNB
clf = GaussianNB()
clf.fit(X_train, y_train)

GaussianNB()

Протестируем работу модели на тестовой выборке, а также посмотрим на качество работы модели с помощью  classification_report и confusion_matrix.

In [19]:
y_pred = clf.predict(X_test)
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

[[1332  334]
 [  97  237]]
              precision    recall  f1-score   support

           0       0.93      0.80      0.86      1666
           1       0.42      0.71      0.52       334

    accuracy                           0.78      2000
   macro avg       0.67      0.75      0.69      2000
weighted avg       0.85      0.78      0.80      2000



По матрице можно заметить, что полнота (recall) значительно выше, чем у 2-х предыдущих моделей. Это значит, что классификатор нашел большую долю объектов положительного класса из всех объектов положительного класса, по сравнению с 2-мя предыдущими.

# Support Vector Machines

Обучим модель с помощью метода опорных векторов. Для ускорения обучения модели используется LinearSVC, который работает значительно быстрее, чем стандартный SVC.

In [20]:
from sklearn import svm
clf = svm.LinearSVC()
clf.fit(X_train, y_train)



LinearSVC()

Протестируем работу модели на тестовой выборке, а также посмотрим на качество работы модели с помощью classification_report и confusion_matrix.

In [21]:
y_pred = clf.predict(X_test)
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

[[1610   56]
 [ 151  183]]
              precision    recall  f1-score   support

           0       0.91      0.97      0.94      1666
           1       0.77      0.55      0.64       334

    accuracy                           0.90      2000
   macro avg       0.84      0.76      0.79      2000
weighted avg       0.89      0.90      0.89      2000



Заметим, что классификатор дал наилучших результат из всех обученных предыдущих моделей. 

# Logistic Regression

Обучим модель с помощью логистической регрессии.

In [22]:
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression()
clf.fit(X_train, y_train)

LogisticRegression()

Протестируем работу модели на тестовой выборке, а также посмотрим на качество работы модели с помощью classification_report и confusion_matrix.

In [23]:
y_pred = clf.predict(X_test)
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

[[1604   62]
 [ 140  194]]
              precision    recall  f1-score   support

           0       0.92      0.96      0.94      1666
           1       0.76      0.58      0.66       334

    accuracy                           0.90      2000
   macro avg       0.84      0.77      0.80      2000
weighted avg       0.89      0.90      0.89      2000



Данная модель отработала лучше всех, то есть дала наилучший результат.

# Подбор гиперпараметров

Поищем оптимальные гиперпараметры для моделей. Подобрав оптимальные гиперпараметры, мы можем значительно улучшить качество модели. Для подбора оптимальных гиперпараметрво воспользуемся GridSearchCV, которому будем в качестве параметров передавать обучаемую модель и набор гиперпараметров.

## KNeighbors Classifier

Для данного классификатора будем искать оптимальный гиперпараметр "n_neighbors".

In [24]:
from sklearn.model_selection import GridSearchCV

from sklearn.neighbors import KNeighborsClassifier

parameters = {
    'n_neighbors': [1, 2, 3]
}

knn = KNeighborsClassifier()

clf = GridSearchCV(knn, parameters)

clf.fit(X_train, y_train)

GridSearchCV(estimator=KNeighborsClassifier(),
             param_grid={'n_neighbors': [1, 2, 3]})

С помощью best_estimator_ узнаем наилучшую модель, полученную в результате поиска по сетке.

In [25]:
clf.best_estimator_

KNeighborsClassifier(n_neighbors=3)

C помощью best_score_ узнаем средний кросс-валидированный балл best_estimator

In [26]:
clf.best_score_

0.8591249999999999

С помощью best_params_ узнаем лучшие найденные параметры

In [27]:
clf.best_params_

{'n_neighbors': 3}

С помощью cs_results_ узнаем словарь всех метрик оценки из GridSearchCV

In [28]:
clf.cv_results_

{'mean_fit_time': array([0.19701791, 0.19798493, 0.25013304]),
 'std_fit_time': array([0.00497959, 0.00322396, 0.02948003]),
 'mean_score_time': array([1.92432795, 1.9947206 , 2.71927657]),
 'std_score_time': array([0.07762017, 0.04944012, 0.03178581]),
 'param_n_neighbors': masked_array(data=[1, 2, 3],
              mask=[False, False, False],
        fill_value='?',
             dtype=object),
 'params': [{'n_neighbors': 1}, {'n_neighbors': 2}, {'n_neighbors': 3}],
 'split0_test_score': array([0.83875 , 0.853125, 0.84875 ]),
 'split1_test_score': array([0.835625, 0.855625, 0.8625  ]),
 'split2_test_score': array([0.840625, 0.86375 , 0.85625 ]),
 'split3_test_score': array([0.8375, 0.8575, 0.8625]),
 'split4_test_score': array([0.83625 , 0.86375 , 0.865625]),
 'mean_test_score': array([0.83775 , 0.85875 , 0.859125]),
 'std_test_score': array([0.00179409, 0.00431205, 0.0060156 ]),
 'rank_test_score': array([3, 2, 1])}

Посмотрим на качество модели после подборки параметров.

In [29]:
y_pred = clf.predict(X_test)
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

[[1601   65]
 [ 230  104]]
              precision    recall  f1-score   support

           0       0.87      0.96      0.92      1666
           1       0.62      0.31      0.41       334

    accuracy                           0.85      2000
   macro avg       0.74      0.64      0.66      2000
weighted avg       0.83      0.85      0.83      2000



Качество модели после подбора гиперпараметров никак не улучшилось.

## Decision Tree Classifier

Для данного классификатора будем искать оптимальные гиперпараметры "criterion", "splitter", "min_samples_split"

In [30]:
parameters = {
    'criterion' : ['gini', 'entropy'],
    'splitter' : ['best', 'random'],
    'min_samples_split' : [2, 10, 20, 30, 50]
}

dtc = tree.DecisionTreeClassifier()

clf = GridSearchCV(dtc, parameters)

clf.fit(X_train, y_train)

GridSearchCV(estimator=DecisionTreeClassifier(),
             param_grid={'criterion': ['gini', 'entropy'],
                         'min_samples_split': [2, 10, 20, 30, 50],
                         'splitter': ['best', 'random']})

С помощью best_estimator_ узнаем наилучшую модель, полученную в результате поиска по сетке.

In [31]:
clf.best_estimator_

DecisionTreeClassifier(criterion='entropy', min_samples_split=50)

C помощью best_score_ узнаем средний кросс-валидированный балл best_estimator

In [32]:
clf.best_score_

0.882

С помощью best_params_ узнаем лучшие найденные параметры

In [33]:
clf.best_params_

{'criterion': 'entropy', 'min_samples_split': 50, 'splitter': 'best'}

С помощью cs_results_ узнаем словарь всех метрик оценки из GridSearchCV

In [34]:
clf.cv_results_

{'mean_fit_time': array([0.11561728, 0.07240787, 0.10970778, 0.05300283, 0.10280724,
        0.04780326, 0.10004377, 0.04694881, 0.1041285 , 0.04259896,
        0.09013481, 0.04160218, 0.08360624, 0.04300323, 0.08300605,
        0.03920321, 0.07811174, 0.03880315, 0.07490721, 0.03460073]),
 'std_fit_time': array([0.01074757, 0.01865921, 0.00577618, 0.00740289, 0.0044005 ,
        0.00263915, 0.00223375, 0.00406045, 0.00554181, 0.00149573,
        0.00466054, 0.00102116, 0.00338333, 0.00384739, 0.00244888,
        0.00132686, 0.00264818, 0.00271274, 0.0030072 , 0.00320166]),
 'mean_score_time': array([0.00099826, 0.00120149, 0.00120039, 0.00100131, 0.00120001,
        0.00140109, 0.00099993, 0.00100036, 0.00099983, 0.00100083,
        0.0018003 , 0.00100093, 0.00102315, 0.00120068, 0.0012002 ,
        0.0010005 , 0.00120068, 0.00100017, 0.00120072, 0.00100031]),
 'std_score_time': array([5.86141300e-06, 3.99901938e-04, 4.00448215e-04, 5.51978917e-07,
        4.00759077e-04, 4.90058184e-

Посмотрим на качество модели после подборки параметров.

In [35]:
y_pred = clf.predict(X_test)
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

[[1567   99]
 [ 132  202]]
              precision    recall  f1-score   support

           0       0.92      0.94      0.93      1666
           1       0.67      0.60      0.64       334

    accuracy                           0.88      2000
   macro avg       0.80      0.77      0.78      2000
weighted avg       0.88      0.88      0.88      2000



По сравнению с предыдущей моделью, качество улучшилось.

## Naive Bayes Classifier

Для данного классификатора будем искать оптимальный гиперпараметр "var_smoothing"

In [36]:
parameters = {
    "var_smoothing": [1e-11, 1e-10, 1e-9, 1e-8, 1e-7, 1e-6, 1e-5]
}

gnb = GaussianNB()

clf = GridSearchCV(gnb, parameters)

clf.fit(X_train, y_train)

GridSearchCV(estimator=GaussianNB(),
             param_grid={'var_smoothing': [1e-11, 1e-10, 1e-09, 1e-08, 1e-07,
                                           1e-06, 1e-05]})

С помощью best_estimator_ узнаем наилучшую модель, полученную в результате поиска по сетке.

In [37]:
clf.best_estimator_

GaussianNB(var_smoothing=1e-11)

C помощью best_score_ узнаем средний кросс-валидированный балл best_estimator

In [38]:
clf.best_score_

0.7901250000000001

С помощью best_params_ узнаем лучшие найденные параметры

In [39]:
clf.best_params_

{'var_smoothing': 1e-11}

С помощью cs_results_ узнаем словарь всех метрик оценки из GridSearchCV

In [40]:
clf.cv_results_

{'mean_fit_time': array([0.02330298, 0.02238889, 0.02300262, 0.02360229, 0.02160115,
        0.02130251, 0.02220235]),
 'std_fit_time': array([0.00074908, 0.00103678, 0.00167431, 0.00048963, 0.00048984,
        0.00040004, 0.00116653]),
 'mean_score_time': array([0.00540085, 0.00500059, 0.00580001, 0.0064002 , 0.00520048,
        0.00540066, 0.0059999 ]),
 'std_score_time': array([4.90213771e-04, 5.43678010e-07, 7.47819141e-04, 4.89804070e-04,
        4.00018990e-04, 4.90465972e-04, 3.56832255e-07]),
 'param_var_smoothing': masked_array(data=[1e-11, 1e-10, 1e-09, 1e-08, 1e-07, 1e-06, 1e-05],
              mask=[False, False, False, False, False, False, False],
        fill_value='?',
             dtype=object),
 'params': [{'var_smoothing': 1e-11},
  {'var_smoothing': 1e-10},
  {'var_smoothing': 1e-09},
  {'var_smoothing': 1e-08},
  {'var_smoothing': 1e-07},
  {'var_smoothing': 1e-06},
  {'var_smoothing': 1e-05}],
 'split0_test_score': array([0.796875, 0.796875, 0.796875, 0.796875, 0.7

Посмотрим на качество модели после подборки параметров.

In [41]:
y_pred = clf.predict(X_test)
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

[[1332  334]
 [  97  237]]
              precision    recall  f1-score   support

           0       0.93      0.80      0.86      1666
           1       0.42      0.71      0.52       334

    accuracy                           0.78      2000
   macro avg       0.67      0.75      0.69      2000
weighted avg       0.85      0.78      0.80      2000



Качество модели после подбора гиперпараметров никак не улучшилось.

## Support Vector Machines Classifier

Для данного классификатора будем искать оптимальные гиперпараметры "penalty", "loss"

In [42]:
parameters = {
              'penalty': ['l1', 'l2'],
              'loss' : ['hinge', ['squared_hinge']]
}

svc = svm.LinearSVC()

clf = GridSearchCV(svc, parameters)

clf.fit(X_train, y_train)

Traceback (most recent call last):
  File "C:\Users\vano_\anaconda3\lib\site-packages\sklearn\model_selection\_validation.py", line 531, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "C:\Users\vano_\anaconda3\lib\site-packages\sklearn\svm\_classes.py", line 233, in fit
    self.coef_, self.intercept_, self.n_iter_ = _fit_liblinear(
  File "C:\Users\vano_\anaconda3\lib\site-packages\sklearn\svm\_base.py", line 965, in _fit_liblinear
    solver_type = _get_liblinear_solver_type(multi_class, penalty, loss, dual)
  File "C:\Users\vano_\anaconda3\lib\site-packages\sklearn\svm\_base.py", line 821, in _get_liblinear_solver_type
    raise ValueError('Unsupported set of arguments: %s, '
ValueError: Unsupported set of arguments: The combination of penalty='l1' and loss='hinge' is not supported, Parameters: penalty='l1', loss='hinge', dual=True

Traceback (most recent call last):
  File "C:\Users\vano_\anaconda3\lib\site-packages\sklearn\model_selection\_validation.py



GridSearchCV(estimator=LinearSVC(),
             param_grid={'loss': ['hinge', ['squared_hinge']],
                         'penalty': ['l1', 'l2']})

С помощью best_estimator_ узнаем наилучшую модель, полученную в результате поиска по сетке.

In [43]:
clf.best_estimator_

LinearSVC(loss='hinge')

C помощью best_score_ узнаем средний кросс-валидированный балл best_estimator

In [44]:
clf.best_score_

0.898125

С помощью best_params_ узнаем лучшие найденные параметры

In [45]:
clf.best_params_

{'loss': 'hinge', 'penalty': 'l2'}

С помощью cs_results_ узнаем словарь всех метрик оценки из GridSearchCV

In [46]:
clf.cv_results_

{'mean_fit_time': array([0.00790305, 0.37583189, 0.00860057, 0.00840001]),
 'std_fit_time': array([0.0009195 , 0.03865819, 0.00048938, 0.00048926]),
 'mean_score_time': array([0.        , 0.00120234, 0.        , 0.        ]),
 'std_score_time': array([0.        , 0.00039947, 0.        , 0.        ]),
 'param_loss': masked_array(data=['hinge', 'hinge', list(['squared_hinge']),
                    list(['squared_hinge'])],
              mask=[False, False, False, False],
        fill_value='?',
             dtype=object),
 'param_penalty': masked_array(data=['l1', 'l2', 'l1', 'l2'],
              mask=[False, False, False, False],
        fill_value='?',
             dtype=object),
 'params': [{'loss': 'hinge', 'penalty': 'l1'},
  {'loss': 'hinge', 'penalty': 'l2'},
  {'loss': ['squared_hinge'], 'penalty': 'l1'},
  {'loss': ['squared_hinge'], 'penalty': 'l2'}],
 'split0_test_score': array([    nan, 0.90125,     nan,     nan]),
 'split1_test_score': array([    nan, 0.89125,     nan,     n

Посмотрим на качество модели после подборки параметров.

In [47]:
y_pred = clf.predict(X_test)
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

[[1614   52]
 [ 150  184]]
              precision    recall  f1-score   support

           0       0.91      0.97      0.94      1666
           1       0.78      0.55      0.65       334

    accuracy                           0.90      2000
   macro avg       0.85      0.76      0.79      2000
weighted avg       0.89      0.90      0.89      2000



Качество модели после подбора гиперпараметров улучшилось, но незначительно.

## Logistic Regression Classifier

Для данного классификатора будем искать оптимальные гиперпараметры "penalty", "С"

In [48]:
parameters = {'penalty': ['l1', 'l2'],
               'C': [0.1, 1, 10]               
              }

lr = LogisticRegression()

clf = GridSearchCV(lr, parameters)

clf.fit(X_train, y_train)

Traceback (most recent call last):
  File "C:\Users\vano_\anaconda3\lib\site-packages\sklearn\model_selection\_validation.py", line 531, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "C:\Users\vano_\anaconda3\lib\site-packages\sklearn\linear_model\_logistic.py", line 1304, in fit
    solver = _check_solver(self.solver, self.penalty, self.dual)
  File "C:\Users\vano_\anaconda3\lib\site-packages\sklearn\linear_model\_logistic.py", line 442, in _check_solver
    raise ValueError("Solver %s supports only 'l2' or 'none' penalties, "
ValueError: Solver lbfgs supports only 'l2' or 'none' penalties, got l1 penalty.

Traceback (most recent call last):
  File "C:\Users\vano_\anaconda3\lib\site-packages\sklearn\model_selection\_validation.py", line 531, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "C:\Users\vano_\anaconda3\lib\site-packages\sklearn\linear_model\_logistic.py", line 1304, in fit
    solver = _check_solver(self.solver, self.

GridSearchCV(estimator=LogisticRegression(),
             param_grid={'C': [0.1, 1, 10], 'penalty': ['l1', 'l2']})

С помощью best_estimator_ узнаем наилучшую модель, полученную в результате поиска по сетке.

In [49]:
clf.best_estimator_

LogisticRegression(C=1)

C помощью best_score_ узнаем средний кросс-валидированный балл best_estimator

In [50]:
clf.best_score_

0.899

С помощью best_params_ узнаем лучшие найденные параметры

In [51]:
clf.best_params_

{'C': 1, 'penalty': 'l2'}

С помощью cs_results_ узнаем словарь всех метрик оценки из GridSearchCV

In [52]:
clf.cv_results_

{'mean_fit_time': array([0.0052074 , 0.10785551, 0.00500169, 0.15073977, 0.00500088,
        0.17901578]),
 'std_fit_time': array([0.00041182, 0.00486053, 0.00063271, 0.01673791, 0.00063279,
        0.01982848]),
 'mean_score_time': array([0.        , 0.00060081, 0.        , 0.00099859, 0.        ,
        0.00101209]),
 'std_score_time': array([0.00000000e+00, 4.90563686e-04, 0.00000000e+00, 8.20381667e-07,
        0.00000000e+00, 2.38614002e-05]),
 'param_C': masked_array(data=[0.1, 0.1, 1, 1, 10, 10],
              mask=[False, False, False, False, False, False],
        fill_value='?',
             dtype=object),
 'param_penalty': masked_array(data=['l1', 'l2', 'l1', 'l2', 'l1', 'l2'],
              mask=[False, False, False, False, False, False],
        fill_value='?',
             dtype=object),
 'params': [{'C': 0.1, 'penalty': 'l1'},
  {'C': 0.1, 'penalty': 'l2'},
  {'C': 1, 'penalty': 'l1'},
  {'C': 1, 'penalty': 'l2'},
  {'C': 10, 'penalty': 'l1'},
  {'C': 10, 'penalty': 'l2

Посмотрим на качество модели после подборки параметров.

In [53]:
y_pred = clf.predict(X_test)
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

[[1604   62]
 [ 140  194]]
              precision    recall  f1-score   support

           0       0.92      0.96      0.94      1666
           1       0.76      0.58      0.66       334

    accuracy                           0.90      2000
   macro avg       0.84      0.77      0.80      2000
weighted avg       0.89      0.90      0.89      2000



Качество модели, по сравнению с предыдущей, никак не улучшилось.