# Прогнозирование цены

### Задача
Целевая переменная — `price`. У вас есть 7 атрибутов, и, очевидно, мы хотим, чтобы вы построили некую модель машинного обучения, которая прогнозирует цены.

1. Проведите первоначальный анализ данных, который укажет на то, как связаны атрибуты.
2. Используйте некоторые ML модели и кратко объясните свой выбор.
3. Покажите точность вашей модели и прокомментируйте результаты.
4. Представьте нам результаты и шаги, которые вы предприняли, а также некоторые критические размышления.

### Описание данных
Данные представлены в файле `sample.csv`.

### Комментарии

Определите, обучите и оцените прогнозирующую модель, которая принимает в качестве входных данных предоставленные данные. По вашему усмотрению вы можете разделить данные на наборы для обучения, тестирования. Вы можете использовать любой алгоритм по вашему выбору или сравнить несколько моделей.

Убедитесь, что решение отражает весь ваш мыслительный процесс (для каждой ячейки кода оставляйте комментарии, иначе мы не поймем, что вы хотели сделать)

### Что мы точно хотим увидеть в вашей работе?

1. **Обработка данных**: Это критически важный первый шаг, который включает в себя очистку данных, обработку пропущенных значений и преобразование категориальных данных в числовой формат. Эффективная обработка данных может значительно улучшить качество модели.

2. **Проверка выбросов и корреляций**: Удаление выбросов и обработка коррелирующих признаков помогают уменьшить шум в данных и избежать проблемы мультиколлинеарности, которая может негативно сказаться на производительности модели.

3. **Feature Selection (Выбор признаков)**: Отбор признаков, которые наиболее сильно коррелируют с целевой переменной, позволяет сократить размерность данных без значительной потери информации, что упрощает модель и может улучшить её производительность.

4. **Проверка всех подходящих моделей**: Тестирование различных моделей и оценка их производительности на тренировочных и тестовых данных по критериям MSE (Mean Squared Error) и R2 позволяют выбрать наиболее подходящую модель для задачи.

5. **GridSearchCV для выбора гиперпараметров**: Использование GridSearchCV для автоматического перебора комбинаций гиперпараметров и выбора лучшего набора значений помогает оптимизировать модель.

6. **Использование StandardScaler и MinMaxScaler**: Масштабирование признаков с помощью StandardScaler (преобразование данных к стандартному нормальному распределению) и MinMaxScaler (масштабирование данных в заданный диапазон) может быть полезно для некоторых алгоритмов, чтобы улучшить их производительность, особенно для тех, которые чувствительны к масштабу признаков, как, например, методы, основанные на градиентном спуске.

Этот процесс является итеративным и может требовать нескольких проходов с корректировкой подхода на основе полученных результатов, чтобы достигнуть оптимальной производительности модели.

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler, StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import GridSearchCV

#### Для моделирования мы можем выбрать несколько моделей, таких как линейная регрессия, случайный лес и градиентный бустинг. Линейная регрессия подходит для простых линейных отношений между признаками и целевой переменной. Случайный лес и градиентный бустинг могут захватывать более сложные взаимосвязи и нелинейные зависимости.

In [2]:
data = pd.read_csv('sample.csv')
# Преобразование категориальных переменных в числовой формат (для дня недели)
data = pd.get_dummies(data)

x = data.drop(columns=['price'])
y = data['price']
# поделим на тренировочную и тестовую выборки
x_tr, x_t, y_tr, y_t = train_test_split(x, y, test_size=0.3, random_state=105)

In [3]:
scaler = MinMaxScaler()
x_tr_scaled_data = scaler.fit_transform(x_tr)
x_tr_scaled = pd.DataFrame(x_tr_scaled_data, columns=x_tr.columns)

x_t_scaled_data = scaler.transform(x_t)
x_t_scaled = pd.DataFrame(x_t_scaled_data, columns=x_t.columns)

In [4]:
st_scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(x_tr)
X_test_scaled = scaler.transform(x_t)

In [5]:
model = LinearRegression()
model.fit(X_train_scaled, y_tr)

In [6]:
y_pred = model.predict(x_t_scaled)
mean_squared_error(y_t, y_pred)



5.463210022976572e+26

In [7]:
r2_score(y_t, y_pred)

-7.630830267009766e+21

In [8]:
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]}

In [None]:
reg_f = RandomForestRegressor(random_state=105)
grid_search = GridSearchCV(reg_f, param_grid, cv=5, scoring='neg_mean_squared_error')
grid_search.fit(X_train_scaled, y_tr)

In [None]:
grid_search.best_params_

In [None]:
grid_search.best_score_