In [3]:

# # Машинное обучение. Лабораторная работа - прогнозирование продаж

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_percentage_error

# Загрузка данных
train_data = pd.read_csv("train.csv")
test_data = pd.read_csv("test.csv")

# Преобразуем дату в формат datetime и создаем дополнительные признаки
train_data["Date"] = pd.to_datetime(train_data["Date"])
test_data["Date"] = pd.to_datetime(test_data["Date"])

train_data["Month"] = train_data["Date"].dt.month
train_data["DayOfWeek"] = train_data["Date"].dt.weekday
test_data["Month"] = test_data["Date"].dt.month
test_data["DayOfWeek"] = test_data["Date"].dt.weekday

# Удаляем столбец с датой
train_data = train_data.drop(columns=["Date"])
test_data = test_data.drop(columns=["Date"])

# Удаление выбросов по целевой переменной
upper_limit = train_data["Weekly_Sales"].quantile(0.99)
train_data = train_data[train_data["Weekly_Sales"] <= upper_limit]

# Нормализация числовых признаков
scaler = StandardScaler()
features_to_scale = ["Temperature", "Fuel_Price", "CPI", "Unemployment", "Month", "DayOfWeek"]
train_data[features_to_scale] = scaler.fit_transform(train_data[features_to_scale])
test_data[features_to_scale] = scaler.transform(test_data[features_to_scale])

# Разделение данных на признаки и целевую переменную
X = train_data.drop(columns=["Weekly_Sales"])
y = train_data["Weekly_Sales"]

# Обучение модели Random Forest
model = RandomForestRegressor(random_state=42, n_estimators=100)
model.fit(X, y)

# Предсказания на тестовых данных
y_predict = model.predict(test_data)

# Формирование файла submission.csv
submission = pd.DataFrame({
    "source_attractiveness": y_predict
})
submission.to_csv("submission.csv", index_label="ID")

print("Файл submission.csv успешно сохранен.")


Файл submission.csv успешно сохранен.
