# LLM в математике и информатике, Сириус 2026
## Занятие 4, домашнее задание 1

**Правила:**

* **Дедлайн 24.01 23:59**
* Выполненную работу нужно прикрепить в Яндекс Контест
* Прислать нужно **ноутбук в формате `ipynb`**
* Проверяющие не собираются запускать код из данного задания при проверке (но в крайнем случае могут), так что, пожалуйста, оставляйте вывод ячеек
* В задачах не забывайте делать **пояснения и выводы**.
* **Код из рассказанных на занятиях ноутбуков** можно использовать без ограничений.

**Использовании ИИ при решении задач**

* При решении задач можно и нужно использовать ИИ в качесте помощника. Например, можно спрашивать "как работает такая-то функция" или "как на графике нарисовать такую-то фигуру". Нельзя решать с помощью ИИ содержательную часть задачи.

### Прежде чем приступать к выполнению ноутбука нужно сделать:
* Проверить установлен ли python. Если нет - установить (можно по инструкии в LLM: как установить python на * название операционной системы * )
* Создать окружение, если оно не было создано на данном курсе. Необходимо открыть терминал в папке, где лежит данное задание и прописать команду. Иногда бывает нужно написать `python3` / `python3.13` для конкретной версии или просто если `python` не работает.
```bash
    python -m venv .venv
```
* Активировать окружение
```bash
    source .venv/bin/activate
```
* Установить все необходимые библиотеки с помошью `pip` или с помощью листа requirments.txt, например
```bash
    pip install jupyter notebook
    pip install scikit-learn
```
* Если вы выполняете задание в Visual Studio Code или подобном нужно скачать расширение `Jupyter`
* Если вы выполняете задание в Visual Studio Code или подобном **нужно выбрать в правом верхнем углу окружение** (Еnvironment). Выбирайте только что созданное окружение (скорее всего, именно оно будет рекомендуемым)
* Если вы выполняете задание в Jupyter Lab, то убедитесь, что открыли ноутбук в нужном окружении. В противном случае закройте сервер, активируйте окружение и только потом пропишите `jupyter notebook` в терминале


Вообще очень полезно каждый конкретный предмет/проект содержать в своем окружении, чтобы не происходило конфликтов версий разных библиотек. Если что-то не получается:
1. Поговорите с LLM, опишите свою проблему
2. Спросите у преподавателей

~~Но в целом можете вообще забить, прост скачайте библиотеки и главное, чтобы ячейки запускались~~


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn import metrics

...  # допиши необходимые импорты


Рассмотрим **данные о результатах ЕГЭ школьников**. В каждой строке представлены характеристики одного школьника, влияющие на его итоговые баллы.

В датасете содержатся следующие признаки:

* `hours_studied` — общее количество часов, потраченных школьником на изучение предмета;
* `previous_scores` — средний результат, полученный школьником за пробники;
* `extracurricular_activities` — участие во внеучебных активностях, возможные значения: `Yes`, `No`;
* `sleep_hours` — среднее количество часов сна в сутки;
* `sample_question_papers_practiced` — количество написанных школьником пробников;
* `performance_index` — **итоговый балл за ЕГЭ** школьника (целевая переменная).

Балл за ЕГЭ принимает значения от **10 до 100**, округлён до ближайшего целого числа, при этом более высокие значения соответствуют лучшей академической успеваемости.

**Задача:** предсказать *итоговые балл школьника* по остальным признакам.

Решение данной задачи может быть полезно для следующих целей:

* **Анализ факторов успеваемости:** выявление ключевых характеристик, которые сильнее всего влияют на результаты обучения.
* **Персонализация обучения:** рекомендации студентам по оптимальному распределению времени между учёбой, сном и внеучебной активностью.
* **Образовательная аналитика:** использование моделей для прогнозирования академических результатов и раннего выявления студентов группы риска.
* **Планирование учебного процесса:** помощь преподавателям и администраторам в разработке более эффективных образовательных стратегий.

Датасет содержит **10 000 наблюдений**, что позволяет применять и анализировать различные методы машинного обучения и статистического моделирования.

Загрузим и посмотрим на данные

In [None]:
data = ...

## Задание 1: Визуальный анализ

Хотим узнать как итоговый балл ЕГЭ зависит от признаков. Постройте графики зависимости таргета (`performance_index`) от каждого признака. Не забудьте подписать оси и графики.

Как строить графики? Можете посмотреть примеры из разобронного ноутбука, почитать <a href="https://matplotlib.org/3.5.3/api/_as_gen/matplotlib.pyplot.html">документацию</a> или уточнить у LLM, что делают те или иные методы

1. Здесь график зависимости баллов за ЕГЭ `performance_index` от часов бота `hours_studied`

2. Здесь график зависимости баллов за ЕГЭ `performance_index` от баллов за пробники `previous_scores`

3. Здесь график зависимости баллов за ЕГЭ `performance_index` от наличия/отсутсвия дополнительных активностей `extracurricular_activities`. При желании, можете преобразовать `Yes`/`No` в `1` или `0` соответственно. 

4. Нарисуйте оставшиеся графики по аналогии, при желании можно сделать функцию которая по столбцам с признаком и таргетом, названиями для осей рисовала итоговый график

5. Мы посмотрели на зависимости таргета от каждого признака, подведем итог с помощью <a href="https://seaborn.pydata.org/generated/seaborn.heatmap.html">матрицы корреляции</a>. Нарисуйте матрицу корреляции признаков и таргета. 

    Можете поискать пример в рассмотренном ноутбуке или распросить подробнее что это такое и как пользоваться LLM

## Задание 2: Преобразование данных
Прежде чем что-то обучать нам необходимо из одного большого датафрейма `data` выделить признаки и таргет, разделить данные на обучаюшую и тестовую выборки и преобразовать данные. Займемся этим.

1. Один из признаков не является числом, а принимает значения `Yes`, `No`. Хотим, чтобы вместо строк были числа `1` и `0` соответственно

In [None]:
data[...] = ...

2. Выделим в данных признаки и таргет с помощью методов `pandas`

In [None]:
X_data = ...
y_data = ...

3. Разделим все данные на обучающую и тестовую выборки с помощью <a href="https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html">`train_test_split`</a>. Закрепите `random_state` каким-нибудь конкретным числом для воспроизводимости результатов.

In [None]:
X_train, X_test, y_train, y_test = ...

## Задание 3: Модель от одного признака
В первом задании мы увидели, как зависит таргет от каждого целевого признака. Какой признак лучше всего описывает таргет?
**Ответ:**

Теперь мы хотим обучить линейную модель по одному признаку. Как это сделать?

1. Возьмем из обучающей и тестовой выборке по одному столбцу. По сути, это признак в который мы больше всего верим и считаем его наиболее важным для предсказания таргета

2. Обучим линейную регрессию на **обучающей выборке**. Для этого нужно создать элемент класса <a href="https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html">`LinearRegression`</a> и зафитить его на обучающей выборке.

3. С помошью нашей модели предскажем итоговый балл за ЕГЭ, как на тестовой выборке, так и на обучающей

4. Теперь нужно оценить насколько хороша наша модель. Для этого по предсказанию и таргету посчитаем две метрики:
    * $RMSE$ - <a href="https://scikit-learn.org/stable/modules/generated/sklearn.metrics.root_mean_squared_error.html"> `root_mean_squared_error`</a>. Ее мы считаем, поскольку метод наименьших квадартов минимизирует именно данную величину. Вот формула MSE: $y$- это таргет, $\hat y$ - это предсказание, $RMSE$ соответственно - это корень из величины $MSE$
    $$
    \mathrm{MSE} = \frac{1}{n}\sum_{i=1}^n (y_i - \hat y_i)^2
    $$
        Чем меньше - тем лучше. Но если эта штука совсем нулевая, то у вас что-то не так - ищите утечку данных.

    * $R^2-score$. Реализовано классом <a href="https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html"> `r2_score`</a> из `sklearn.metrics`. Как интерпритировать это значение?
        - (R^2 = 1) — идеальное предсказание
        - (R^2 = 0) — модель не лучше предсказания среднего
        - (R^2 < 0) — модель хуже константного бейзлайна
    $$
    R^2 = 1 - \frac{\sum (y_i - \hat y_i)^2}{\sum (y_i - \bar y)^2}
    $$    

In [None]:
rmse_one_feature_train = ...
rmse_one_feature_test = ...

r2_one_feature_train = ...
r2_one_feature_test = ...

5. Отдельно для обучающей и тестовой выборки нарисуйте графики зависимости таргета от выбранного признака, нанесети туда же предсказанные значения таргета

## Задание 4: Предсказание по всем признакам
Теперь построим аналогичную модель, но по всем признакам

1. Нужно преобразовать данные с помощью <a href="https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html"> `StandardScaler`</a>, поскольку признаки принимают разные значения - одни очень большие, другие поменьше

In [None]:
data_melted = data.melt()

plt.figure(figsize=(12, 6))
sns.boxplot(
    x='variable',
    y='value',
    data=data_melted,
    hue='variable',
    palette='Set2'
)
plt.title("Boxplot of Numerical Features (Outlier Detection)")
plt.xticks(rotation=45)
plt.show()

Обратите внимание, что scaler как и модель нужно фитить на обучающей выборке. Преобразовать нужно признаки из обеих выборок.

2. Теперь фитим модель и делаем предсказание, как в предыдущем задании

3. Считаем метрики как в предыдущем задании. Стали ли они лучше?

4. Посмотрим, какие значения принимают коэффициенты модели. Их можно взять у модели по `.coef_`. Далее напишите ответы на вопросы

Что говорят отрицательные значения о признаке?

Что значит околонулевое значение коэффициента?

Если значение коэффициента большое по модулю, это значит, что признак важный?

## Задание 5 (опционально)
Попробуйте улучшить `R2` на тестовой выборке. В качестве модели все еще следует использовать линейную регрессию. Вы можете взять часть признаков, сделать преобразование над признаком (возвести в квадрат весь столбец) или добавить новые признаки (например, произведение двух столбцов). Главное, следите, чтобы данные из тестовой выборки не утекли в обучающую или чтобы таргет не утек в признаки. Нарисуйте пару графиков по данной модели, а еще можете оставить здесь записи о тестировании разных моделях