# Шаг 7. Машинное обучение

### Импорт необходимых библиотек

In [1]:
import pandas as pd

# функции из sklearn импортируются далее по файлу в начале каждого раздела

In [2]:
df = pd.read_csv('df_after_step05.csv', index_col=0)

## Что предсказываем и почему
USD/RUB

_work in progress_

## Предварительная подготовка данных

Для того, чтобы обучать модели, нужно:

- Преобразовать нечисловые признаки: перевести все категориальные признаки в числовой формат
- Разделить выборки на обучающую (train) и тестовую (test)
- Отмасштабировать признаки

### Преобразование нечисловых признаков

In [3]:
# поскольку категориальная переменная бинарна, можно не увеличивать размерность и оставить всё в одной колонке
df_ml = pd.get_dummies(df, drop_first=True)

# так как название задваивается, вернем его к нормальному виду
df_ml.rename(columns={'workday_workday': 'workday'}, inplace=True)

df_ml.head()

Unnamed: 0,usdrub,gold,cb_key_rate,fed_rate,imoex_open,imoex_close,ru_cpi,us_cpi,first_workday,second_workday,imoex_vol,ru_monetary,us_monetary,workday
09.10.2008,26.1629,767.98,11.0,1.4,637.93,700.37,100.91,100.867301,0,0,62.44,0.08,-9.007613,1
10.10.2008,26.0695,743.23,11.0,1.4,0.0,700.37,100.91,100.867301,0,0,700.37,0.08,-9.007613,1
13.10.2008,26.0695,743.23,11.0,1.4,700.37,666.37,100.91,100.867301,1,0,-34.0,0.08,-9.007613,1
14.10.2008,26.1111,726.16,11.0,1.4,666.81,755.22,100.91,100.867301,0,1,88.41,0.08,-9.007613,1
15.10.2008,26.0871,712.49,11.0,1.4,755.22,689.71,100.91,100.867301,0,0,-65.51,0.08,-9.007613,1


### Разделение выборки на тестовую и обучающую

In [4]:
from sklearn.model_selection import train_test_split

In [5]:
y = df_ml['usdrub']
X = df_ml.drop(columns=['usdrub'])

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=7, test_size=0.2)

### Масштабирование признаков

Выберем, при помощи чего масштабировать данные:
- **StandardScaler**: 
    - Плюсы: учитывает и сохраняет специфику данных
    - Минусы: предполагает нормальное распределение. Как можно увидеть на графиках в [step04](https://github.com/evelinakolomoets/andan_project/blob/main/step04_plots.ipynb), наши данные не распределены по нормальному закону
    - **Вывод**: скорее не подходит
- **MinMaxScaler**:
    - Плюсы: интуитивно понятно
    - Минусы: может потеряться информация, связанная со спецификой данных
    - **Вывод**: скорее не подходит

- **RobustScaler**:
    - Плюсы: хорошо работает с асимметрией в данных (как видно на [графиках](https://github.com/evelinakolomoets/andan_project/blob/main/step04_plots.ipynb), она присутствует в нашем датасете)
    - Минусы: никак не учитываются среднее и медиана
    - **Вывод**: подходит лучше, чем первые два варианта


In [6]:
from sklearn.preprocessing import RobustScaler

In [7]:
scaler = RobustScaler()

X_train_norm = scaler.fit_transform(X_train)
X_test_norm = scaler.transform(X_test)