### Предсказание погоды - лабораторная работа 

## ИУ5 ОАД

В качестве лабораторной работы вам предлагается поработать над предсказанием погоды. Файл с данными вы найдете в соответствующей директории. Вам будет доступен датасет weather.csv, ПЕРВЫЕ 75% (shuffle = False) которого нужно взять для обучения, последние 25% - для тестирования.

Требуется построить модель которая будутет предсказывать целевую переменную <b>RainTomorrow</b> с помощью логистической регрессии 

Не забывайте о том, что работа с признаками играет очень большую роль в построении хорошей модели.

Краткое описание данных:

    Date - Дата наблюдений
    Location - Название локации, в которой расположена метеорологическая станция
    MinTemp - Минимальная температура в градусах цельсия
    MaxTemp - Максимальная температура в градусах цельсия
    Rainfall - Количество осадков, зафиксированных за день в мм
    Evaporation - Так называемое "pan evaporation" класса А (мм) за 24 часа до 9 утра
    Sunshine - Число солнечных часов за день
    WindGustDir - направление самого сильного порыва ветра за последние 24 часа
    WindGustSpeed - скорость (км / ч) самого сильного порыва ветра за последние 24 часа
    WindDir9am - направление ветра в 9 утра

In [1]:
import warnings
warnings.filterwarnings("ignore")
import pandas as pd
import numpy as np
import seaborn as sns
import time
from sklearn.datasets import make_classification
import matplotlib.pyplot as plt
%matplotlib notebook

In [2]:
X = pd.read_csv('weather.csv')

In [3]:
y = X.RainTomorrow.replace({'No':0, 'Yes': 1})

In [4]:
del X['RainTomorrow']

### Подготовка данных и исследование моделей на числовых признаках

Посмотрите на данные, которые у нас имеются. 

In [5]:
X

Unnamed: 0.1,Unnamed: 0,Date,Location,MinTemp,MaxTemp,Rainfall,Evaporation,Sunshine,WindGustDir,WindGustSpeed,...,WindSpeed3pm,Humidity9am,Humidity3pm,Pressure9am,Pressure3pm,Cloud9am,Cloud3pm,Temp9am,Temp3pm,RainToday
0,0,2008-12-01,Albury,13.4,22.9,0.6,,,W,44.0,...,24.0,71.0,22.0,1007.7,1007.1,8.0,,16.9,21.8,No
1,1,2008-12-02,Albury,7.4,25.1,0.0,,,WNW,44.0,...,22.0,44.0,25.0,1010.6,1007.8,,,17.2,24.3,No
2,2,2008-12-03,Albury,12.9,25.7,0.0,,,WSW,46.0,...,26.0,38.0,30.0,1007.6,1008.7,,2.0,21.0,23.2,No
3,3,2008-12-04,Albury,9.2,28.0,0.0,,,NE,24.0,...,9.0,45.0,16.0,1017.6,1012.8,,,18.1,26.5,No
4,4,2008-12-05,Albury,17.5,32.3,1.0,,,W,41.0,...,20.0,82.0,33.0,1010.8,1006.0,7.0,8.0,17.8,29.7,No
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
142188,145454,2017-06-20,Uluru,3.5,21.8,0.0,,,E,31.0,...,13.0,59.0,27.0,1024.7,1021.2,,,9.4,20.9,No
142189,145455,2017-06-21,Uluru,2.8,23.4,0.0,,,E,31.0,...,11.0,51.0,24.0,1024.6,1020.3,,,10.1,22.4,No
142190,145456,2017-06-22,Uluru,3.6,25.3,0.0,,,NNW,22.0,...,9.0,56.0,21.0,1023.5,1019.1,,,10.9,24.5,No
142191,145457,2017-06-23,Uluru,5.4,26.9,0.0,,,N,37.0,...,9.0,53.0,24.0,1021.0,1016.8,,,12.5,26.1,No


In [6]:
X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 142193 entries, 0 to 142192
Data columns (total 23 columns):
 #   Column         Non-Null Count   Dtype  
---  ------         --------------   -----  
 0   Unnamed: 0     142193 non-null  int64  
 1   Date           142193 non-null  object 
 2   Location       142193 non-null  object 
 3   MinTemp        141556 non-null  float64
 4   MaxTemp        141871 non-null  float64
 5   Rainfall       140787 non-null  float64
 6   Evaporation    81350 non-null   float64
 7   Sunshine       74377 non-null   float64
 8   WindGustDir    132863 non-null  object 
 9   WindGustSpeed  132923 non-null  float64
 10  WindDir9am     132180 non-null  object 
 11  WindDir3pm     138415 non-null  object 
 12  WindSpeed9am   140845 non-null  float64
 13  WindSpeed3pm   139563 non-null  float64
 14  Humidity9am    140419 non-null  float64
 15  Humidity3pm    138583 non-null  float64
 16  Pressure9am    128179 non-null  float64
 17  Pressure3pm    128212 non-nul

Посмотрим на пропуски в данных

In [7]:
X.isnull().sum()

Unnamed: 0           0
Date                 0
Location             0
MinTemp            637
MaxTemp            322
Rainfall          1406
Evaporation      60843
Sunshine         67816
WindGustDir       9330
WindGustSpeed     9270
WindDir9am       10013
WindDir3pm        3778
WindSpeed9am      1348
WindSpeed3pm      2630
Humidity9am       1774
Humidity3pm       3610
Pressure9am      14014
Pressure3pm      13981
Cloud9am         53657
Cloud3pm         57094
Temp9am            904
Temp3pm           2726
RainToday         1406
dtype: int64

Заполните пропуски любым известным способом

In [12]:
import numpy as np

# Заполнение пропусков средним значением для всех столбцов
nan_mask = np.isnan(X)  # Маска пропусков
col_means = np.nanmean(X, axis=0)  # Средние значения по каждому столбцу (игнорируя NaN)
X[nan_mask] = np.take(col_means, np.where(nan_mask)[1])  # Заполнение пропусков средним значением

# Для категориальных данных (если есть)
# Допустим, что категориальные данные представлены числовыми значениями или кодами:
# Для этого нужно дополнительно будет определить, как обрабатывать категориальные данные, если они представлены в виде чисел.


Проанализируйте данные и возьмите из них только числовые фичи

In [15]:
import pandas as pd
import numpy as np

# Преобразуем данные в DataFrame (предположим, что X — это numpy.ndarray)
X_df = pd.DataFrame(X)

# Отбираем только числовые признаки (столбцы с типом 'float64' и 'int64')
numeric_columns = X_df.select_dtypes(include=['float64', 'int64'])

# Теперь переменная numeric_columns содержит только числовые столбцы
numeric_columns


Unnamed: 0,0,1,2
0,1,1,1
1,-1,-2,1
2,-1,-2,2
3,-2,-2,-3


Разобьём данные на train и test и попробуем обучить на них логистическую регрессию

In [16]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=10, shuffle=False)

In [17]:
from sklearn.linear_model import LogisticRegression

model = LogisticRegression(random_state=0)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

In [None]:
from sklearn.metrics import roc_auc_score

y_pred_prob = model.predict_proba(X_test)[:, 1]
roc_auc = roc_auc_score(y_test, y_pred_prob)
print(roc_auc)

ValueError: Only one class present in y_true. ROC AUC score is not defined in that case.

Попробуйте применить StandardScaler и снова обучить модель. Посмотрите на roc_auc_score и сделайте выводы

In [None]:
from sklearn.preprocessing import StandardScaler
# YOUR CODE HERE

Закодируйте катигориальные фичи и добавьте их в логистическую регрессию (например, направление ветра, месяц и т.д.)

In [18]:
# YOUR CODE HERE

In [17]:
# YOUR CODE HERE

Измерьте качество получившейся модели на тестовых данных и сделайте выводы. Добейтесь roc_auc_score выше 0.7

In [19]:
# YOUR CODE HERE

### Реализация логистической регрессии 
__Логистическая регрессия__

$$p(y|x) = a(x, \theta) = \sigma(\langle x, \theta \rangle) = \frac{1}{1 + \exp(-\langle \theta, x_i \rangle)}$$

In [20]:
theta = np.array([1, 2, 3])

X =  np.array([[ 1,  1, 1],
               [-1, -2, 1],
               [-1, -2, 2],
               [-2, -2, -3]
              ])

y = np.array([1, 1, 0, 0])

In [23]:
def probability(theta, X):
    # Compute the linear combination of inputs and parameters
    z = np.dot(X, theta)
    
    # Apply the sigmoid function
    return 1 / (1 + np.exp(-z))
prob = probability(theta, X)


assert type(prob) == np.ndarray, 'Возвращается неверный тип'
assert prob.shape == (X.shape[0],), 'Неверный размер массива'
assert (prob.round(3) == [0.998, 0.119, 0.731, 0.]).all(), 'Функция считается неверно'

Функция предсказания метки класса, получает на вход вероятности принадлежности к классу 1 и выдает метки классов $y \in \{0, 1\}$

In [24]:
def binary_class_prediction(theta, X, threshold=0.5):
    # Get the probabilities
    prob = probability(theta, X)
    
    # Apply the threshold to convert probabilities to binary predictions
    result = (prob >= threshold).astype(int)  # Converts probabilities to 0 or 1 based on the threshold
    
    return result

y_pred = binary_class_prediction(theta, X)


assert type(y_pred) == np.ndarray, 'Возвращается неверный тип'
assert y_pred.shape == (X.shape[0],), 'Неверный размер массива'
assert min(y_pred) == 0, 'Функция считается неверно'
assert max(y_pred) == 1, 'Функция считается неверно'

__Функционал качества логистической регрессии__

Запишем правдободовие выборки для меток класса $y \in \{+1, -1\}$ 

$$Likelihood(a, X^\ell) = \prod_{i = 1}^{\ell} a(x_i,\theta)^{[y_i = +1]} (1 - a(x_i, \theta))^{[y_i = -1]} → \operatorname*{max}_{\theta}$$ 

Прологарифмируем правдоподобие выборки и перейдем к задаче минимизации:

$$Q(a, X^\ell) =     -\sum_{i = 1}^{\ell} 
        [y_i = +1] \log a(x_i, \theta)
        +
        [y_i = -1] \log (1 - a(x_i, \theta)) \to \operatorname*{min}_{\theta}$$ 
        
Подставим $a(x, \theta)$ в функцинал качества:

$$ Q(a, X^\ell) = -\sum_{i = 1}^{\ell} \left(
    [y_i = +1]
    \log \frac{1}{1 + \exp(-\langle \theta, x_i \rangle)}
    +
    [y_i = -1]
    \log \frac{\exp(-\langle \theta, x_i \rangle)}{1 + \exp(-\langle \theta, x_i \rangle)}
\right)
=\\
=
-\sum_{i = 1}^{\ell} \left(
    [y_i = +1]
    \log \frac{1}{1 + \exp(-\langle \theta, x_i \rangle)}
    +
    [y_i = -1]
    \log \frac{1}{1 + \exp(\langle \theta, x_i \rangle)}
\right)
=\\
=
\sum_{i = 1}^{\ell}
    \log \left(
        1 + \exp(-y_i \langle \theta, x_i \rangle)
    \right) $$
    

Итоговый оптимизируемый функционал качества (logloss), записанный для меток классов $y \in \{+1, -1\}$ и усредненный по выборке

$$Q(a, X^\ell) = \frac{1}{\ell}\sum_{i = 1}^{\ell}
    \log \left(
        1 + \exp(-y_i \langle \theta, x_i \rangle)
    \right) \to \operatorname*{min}_{\theta}$$

Реализуем его в функции logloss:

In [25]:
def logloss(theta, X, y):
    # Get predicted probabilities
    prob = probability(theta, X)
    
    # Clip probabilities to avoid log(0) error (ensure no values are exactly 0 or 1)
    prob = np.clip(prob, 1e-15, 1 - 1e-15)
    
    # Compute the log loss
    m = len(y)  # Number of samples
    loss = -np.mean(y * np.log(prob) + (1 - y) * np.log(1 - prob))
    
    return loss

In [26]:
assert logloss(theta, X, y).round(3) == 0.861, 'Функция считается неверно'

__Алгоритм оптимизации функционала качества. Стохастический градиентный спуск__

<b>Вход: </b> Выборка $X^\ell$, темп обучения $h$

<b>Выход: </b> оптимальный вектор весов $\theta$

1.  Инициализировать веса $\theta$
2.  Инициализировать оценку функционала качества: $Q(a, X^\ell)$
3.  <b>Повторять</b>: 

    Выбрать случайным образом подвыборку объектов $X^{batch} =\{x_1, \dots,x_n \}$ из $X^{\ell}$
    
    Рассчитать градиент функционала качества: $\nabla Q(X^{batch}, \theta)$
    
    Обновить веса: $\theta := \theta - h\cdot \nabla Q(X^{batch}, \theta)$
       
    <b>Пока</b> значение $Q$ и/или веса $\theta$ не сойдутся   

Реализуем функцию рассчета градиента функционала качества

$$\frac{\partial Q(a, X^{batch}) }{\partial \theta_j}   = \frac{\partial \frac{1}{n}\sum_{i = 1}^{n}
    \log \left(
        1 + \exp(- y_i \langle \theta, x_i \rangle)
    \right)} {\partial \theta_j}  = \frac{1}{n}\sum_{i = 1}^{n}
     \frac {1}{
        1 + \exp(- y_i \langle \theta, x_i \rangle)} \cdot  \exp(- y_i \langle \theta, x_i \rangle) \cdot -y_i x_{ij}$$

Реализуйте рассчет градиента в матричном виде:

In [27]:
def gradient(theta, X, y):
    # Compute predicted probabilities
    prob = probability(theta, X)
    
    # Compute the error term (h_theta - y)
    error = prob - y
    
    # Compute the gradient for each parameter
    grad = np.dot(X.T, error) / len(y)
    
    return grad

assert gradient(theta, X, y).shape == theta.shape, 'Неверный размер массива'

Функция обучения уже реализована

In [28]:
def fit(X, y, batch_size=10, h=0.05,  iters=100, plot=True):

    # получаем размерности матрицы
    size, dim = X.shape

    # случайная начальная инициализация
    theta = np.random.uniform(size=dim)
    
    errors = []
    
    theta_history = theta
    colors = [plt.get_cmap('gist_rainbow')(i) for i in np.linspace(0,1,dim)]
    
    # plt 
    if plot:
        fig = plt.figure(figsize=(15, 10))
        ax1 = fig.add_subplot(221)
        ax2 = fig.add_subplot(222)
        ax3 = fig.add_subplot(212)
        fig.suptitle('Gradient descent')
        
        
    for _ in range(iters):  
        
        # берём случайный набор элементов
        batch = np.random.choice(size, batch_size, replace=False)
        X_batch = X[batch]
        y_batch = y[batch]

        # считаем производные
        grad = gradient(theta, X_batch, y_batch)
        
        assert type(grad) == np.ndarray, 'неверный тип'
        assert len(grad.shape) == 1, 'Необходимо вернуть одномерный вектор'
        assert grad.shape[0] == len(theta), 'длина вектора должна быть равной количеству весов'
        
        
        # Обновляем веса
        
        theta -= grad * h
        
        theta_history = np.vstack((theta_history, theta))
        
        # error
        loss = logloss(theta, X, y)
        errors.append(loss)
        
        if plot:
            ax1.clear()            
            ax1.scatter(range(dim), theta, label='Gradient solution')
            ax1.legend(loc="upper left")
            ax1.set_title('theta')
            ax1.set_ylabel(r'$\bar \beta$')
            ax1.set_xlabel('weight ID')
            
            
            ax2.plot(range(_+1), errors, 'g-')
            ax2.set_title('logloss')
            ax2.set_xlabel('itarations')
            
            ax3.plot(theta_history)
            ax3.set_title('update theta')
            ax3.set_ylabel('value')
            ax3.set_xlabel('itarations')
            time.sleep(0.05)
            fig.canvas.draw()   
            
    return theta

In [29]:
X, y = make_classification(n_samples=2000)

In [30]:
optimal_theta = fit(X, y)

<IPython.core.display.Javascript object>

In [31]:
y_pred = binary_class_prediction(optimal_theta, X)