# Импорт и функции

In [1]:
import time

import numpy as np
import pandas as pd

import seaborn as sns
sns.set(rc={'figure.figsize':(11.7*2,8.27*2)})

from sklearn.model_selection import train_test_split
from sklearn import preprocessing

from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier

from sklearn.metrics import accuracy_score
from sklearn.metrics import roc_auc_score

In [2]:
# создаем датасет куда в дальнейшем будем записывать показатели моделей.

results = pd.DataFrame(index=['GaussianNBbaseline', 'GaussianNBnoCat', 'GaussianNBwithCat',
                              'LogisticRegressionBaseline', 'LogisticRegressionNoCat', 'LogisticRegressionWithCat',
                              'KNeighborsClassifierBaseline', 'KNeighborsClassifierNoCat', 'KNeighborsClassifierWithCat'
                              ], columns=['Accuracy', 'ROC-AUC', 'Training_time', 'Prediction_time'])

log_res = LogisticRegression()
bayes = GaussianNB()
k_neighbour = KNeighborsClassifier()


def models_coach(models):
  for label in models:
    start = time.time()

    model = models[label]
    model.fit(X_train, y_train)
    end_fit = time.time()

    predictions = model.predict(X_test)
    predict_end = time.time()

    accuracy = accuracy_score(y_test, predictions)
    auc = roc_auc_score(y_test, predictions)

    training_time = end_fit - start
    prediction_time = predict_end - end_fit

    results.loc[label, 'Accuracy'] = accuracy
    results.loc[label, 'ROC-AUC'] = auc
    results.loc[label, 'Training_time'] = training_time
    results.loc[label, 'Prediction_time'] = prediction_time

In [3]:
data = pd.read_csv('./weatherAUS.csv')

In [4]:
# data

In [5]:
# data.describe()

In [6]:
# data.info()

# Способ 1

---


1. Выкидываем колонну с датой и локацией.
2. Заменяем пропущенные значения самым часто встречающимся (модой) для каждой   колонны.
3. Используем one-hot-encoding на категориальные данные.

In [7]:
data_copy1 = data.copy()
data_copy1 = data_copy1.drop(columns=['Date'])
data_copy1 = pd.get_dummies(data_copy1, dummy_na=True)
data_copy1 = data_copy1.fillna(data_copy1.mode().loc[0,:])
# data_copy1

In [8]:
X1 = data_copy1.drop(columns=['RainTomorrow_Yes', 'RainTomorrow_No', 'RainTomorrow_nan', 'RISK_MM'])
y = data_copy1['RainTomorrow_Yes']

In [9]:
X_train, X_test, y_train, y_test = train_test_split(X1, y, test_size=0.25, shuffle=False)

In [10]:
models = {'GaussianNBbaseline': bayes, 'LogisticRegressionBaseline': log_res, 'KNeighborsClassifierBaseline': k_neighbour}

models_coach(models)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


# Способ 2.

---


1. Заменим пропущенные значения модой.
2. Избавимся от коррелируующих признаков.
3. Отскалируем признаки.

In [11]:
data_copy2 = data.copy()
data_copy2 = data_copy2.drop(columns=['Date', 'Location'])
data_copy2 = data_copy2.fillna(data_copy2.mode().loc[0,:])

In [12]:
# data_copy2_non_categorical = data_copy2.drop(columns=['WindGustDir', 'WindDir9am', 'WindDir3pm', 'RainToday', 'RainTomorrow'])
# sns.heatmap(data_copy2_non_categorical.corr(), annot=True)

In [13]:
X2 = data_copy2.drop(columns=['MaxTemp', 'Temp9am', 'Temp3pm', 'Humidity9am', 'WindSpeed3pm', 'Pressure9am', 'RISK_MM'])
X2 = pd.get_dummies(X2, drop_first=True)
X2 = X2.drop(columns=['RainTomorrow_Yes'])

In [14]:
X2 = preprocessing.StandardScaler().fit_transform(X2)

X_train, X_test, y_train, y_test = train_test_split(X2, y, test_size=0.25, shuffle=False)

In [15]:
models = {'GaussianNBwithCat': bayes, 'LogisticRegressionWithCat': log_res, 'KNeighborsClassifierWithCat': k_neighbour}

models_coach(models)

# Способ 3.

---

1. Повторим способ 2 без категориальных признаков.

In [16]:
X3 = data_copy2.drop(columns=['MaxTemp', 'Temp9am', 'Temp3pm', 'Humidity9am',
                              'WindSpeed3pm', 'Pressure9am', 'WindGustDir', 'WindDir9am',
                              'WindDir3pm', 'RainToday', 'RainTomorrow', 'RISK_MM'])

In [17]:
X3 = preprocessing.StandardScaler().fit_transform(X3)

X_train, X_test, y_train, y_test = train_test_split(X3, y, test_size=0.25, shuffle=False)

In [18]:
models = {'GaussianNBnoCat': bayes, 'LogisticRegressionNoCat': log_res, 'KNeighborsClassifierNoCat': k_neighbour}

models_coach(models)

# Вывод

In [19]:
results

Unnamed: 0,Accuracy,ROC-AUC,Training_time,Prediction_time
GaussianNBbaseline,0.748094,0.745322,0.362021,0.146008
GaussianNBnoCat,0.83572,0.732009,0.0370018,0.0110009
GaussianNBwithCat,0.772455,0.734941,0.138008,0.0600033
LogisticRegressionBaseline,0.847056,0.684625,2.38414,0.0290015
LogisticRegressionNoCat,0.851023,0.69869,0.130008,0.000999928
LogisticRegressionWithCat,0.851529,0.713009,0.52303,0.00500011
KNeighborsClassifierBaseline,0.832794,0.701302,17.538,140.023
KNeighborsClassifierNoCat,0.831444,0.689188,7.31942,24.0964
KNeighborsClassifierWithCat,0.809277,0.640305,11.9167,529.485




*   baseline - способ 1. one-hot-encoding + мода
*   WithCat - спосбо 2. убраны коррелирующие признаки, признаки отскалированны, one-hot-encoding + мода
*   NoCat - способ 3. убраны коррелирующие признаки, признаки отскалированны, убраны категориальные данные. one-hot-encoding + мода



Итак, как видно из таблицы выше, логистическая регрессия справилась с задачей лучше всего, показав результат близкий к 0.9.<br>
Это означает, что в пространстве признаков, можно построить такую прямую, которая почти безошибочно разделяла бы целевую переменную. <br>
По быстродействию этот метод оказался незначительно хуже наивного Байеса и значительно быстрее К-ближайших-соседей. <br>
Что касается других методов, то наивный байес показал себя неплохо, верно разделив около 80% данных. Примерно так же справился и метод К-ближайших-соседей. Однако в его случае, время на тренировку и предсказание значительно больше той же логистической регресси (15 с. против 0.14 с. при наилучших результатах)