# Предсказание ошибок

Нерадивый ML-инженер Тензорослав обучал линейную регрессию на некотором датасете. Однако, он не был знаком с градиентными методами оптимизации, поэтому Тензорослав решил искать оптимум с помощью случайного поиска. Для этого он сгенерировал несколько случайных векторов весов и считал среднеквадратичную ошибку (MSE) для каждого вектора. Однако в какой-то момент Тензорослав случайно удалил выборку, на которой он считал MSE.

Помогите Тензорославу закончить начатое и предскажите значение MSE для тех векторов весов, которые он еще не успел обработать.

## О датасете

Вам предлагаются три файла:

- `train_weights.csv` – содержит значения весов в колонках W0–W9 (10-мерные векторы) и соответствующие значения MSE в колонке MSE
- `test_weights.csv` – содержит тестовые векторы весов (для которых нужно предсказать MSE)
- `example` – пример корректной посылки в контест

## Что нужно сделать

Необходимо предсказать колонку MSE для векторов из файла test_weights.csv и загрузить файл answers в формате, аналогичном примеру.

### Критерий оценки

Корень из средней квадратичной логарифмической ошибки (RMSLE).

Баллы рассчитываются по формуле: $100 * max(min((0.3 - RMSLE) / 0.1, 1), 0)$

Для максимального балла (100) необходимо достичь $RMSLE ≤ 0.2$.

### Требуемый формат вывода

Файл answers (без пробелов в названии) в формате JSON:

```json
[
    {
        "W0": 0.465,
        "W1": 0.582,
        "W2": 1.071,
        "W3": -1.889,
        "W4": -0.92,
        "W5": -1.084,
        "W6": -1.003,
        "W7": -0.766,
        "W8": -0.858,
        "W9": 0.665,
        "MSE": 40.593
    },
    ...
]
```

## Решение

### Посмотрим на данные

In [6]:
import pandas as pd

# Посмотрим что в файле тренировочного датасета
path = "../data/01/train_weights.csv"
df = pd.read_csv(path)
df.head()

Unnamed: 0,W0,W1,W2,W3,W4,W5,W6,W7,W8,W9,MSE
0,0.355,0.612,0.482,-1.22,-0.412,-0.745,-1.172,-1.76,0.479,1.18,69.113
1,-0.571,0.767,0.537,-0.904,-0.114,0.042,0.739,0.11,-1.743,1.831,67.79
2,0.389,-0.994,-1.537,-0.871,-0.351,-0.679,-0.475,-1.019,0.555,-1.048,32.273
3,0.539,0.679,-1.504,-0.472,0.909,0.158,0.866,1.084,-1.127,-0.436,18.747
4,0.289,-0.284,0.33,1.462,-0.205,0.213,-0.133,-2.064,-0.846,-0.223,62.239


In [5]:
df.describe()

Unnamed: 0,W0,W1,W2,W3,W4,W5,W6,W7,W8,W9,MSE
count,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0
mean,-0.051335,0.024363,-0.002192,-0.009831,-0.008766,0.016567,0.047995,0.007519,0.070722,0.029495,50.295404
std,0.978915,0.981791,1.010881,1.000155,0.994548,1.034104,1.018878,1.032102,0.995187,0.964162,21.65105
min,-3.141,-3.679,-3.411,-2.751,-3.115,-3.309,-3.32,-3.375,-3.172,-2.941,10.219
25%,-0.67525,-0.59725,-0.69625,-0.71525,-0.66875,-0.688,-0.63975,-0.67425,-0.56425,-0.62175,34.31475
50%,-0.0385,0.0385,-0.009,-0.012,0.0235,0.0585,0.0135,0.0185,0.065,0.024,47.2625
75%,0.62325,0.68225,0.68625,0.662,0.66425,0.70925,0.7375,0.73075,0.74475,0.68,62.30725
max,2.71,3.75,2.958,2.942,2.915,3.344,3.475,2.987,3.312,3.497,141.154


- Все признаки W0–W9 — нормальные вещественные числа, примерно от −3 до +3
- Целевая переменная MSE – положительная, варьируется от ~10 до ~140

### Что нужно сделать

Построить модель, которая научится по 10 числам (W0–W9) оценивать, насколько высока будет ошибка (MSE) линейной регрессии с такими весами.

- MSE – положительная величина → обучить модель обычной регрессии
- Сделать предсказания для test_weights.csv
- Сохранить результат в JSON формате, как показано в примере

In [8]:
import pandas as pd
import numpy as np

# Читаем данные

train_path = "../data/01/train_weights.csv"
test_path = "../data/01/test_weights.csv"

train_df = pd.read_csv(train_path)
test_df = pd.read_csv(test_path)

X_train = train_df.drop(columns=["MSE"])
y_train = train_df["MSE"]
X_test = test_df.copy()

In [9]:
from sklearn.ensemble import RandomForestRegressor

# Обучаем модель

model = RandomForestRegressor(
    n_estimators=300,
    max_depth=12,
    random_state=42,
    n_jobs=-1
)
model.fit(X_train, y_train)

0,1,2
,n_estimators,300
,criterion,'squared_error'
,max_depth,12
,min_samples_split,2
,min_samples_leaf,1
,min_weight_fraction_leaf,0.0
,max_features,1.0
,max_leaf_nodes,
,min_impurity_decrease,0.0
,bootstrap,True


In [10]:
# Делаем предсказания
y_pred = model.predict(X_test)

In [11]:
# Готовим итоговый df
results = X_test.copy()
results["MSE"] = y_pred

In [13]:
import json

# Сериализуем итоговый df в JSON

answers = results.to_dict(orient="records")

output_path = "answers.json"
with open(output_path, "w", encoding="utf-8") as f:
    json.dump(answers, f, ensure_ascii=False, indent=4)

print(f"Saved {len(answers)} predictions to {output_path}")

Saved 100 predictions to answers.json
