----------------

# Отчет по лабораторной работе: "Множественная линйная регрессия"

---------

## Дата выполнения лабораторной работы

`04.01.2025`

---

## Название лабораторной работы 

`"Множественная линейная регрессия"`

---

## Цель лабораторной работы

`Построить модель Ridge-регрессии для прогнозирования целевой непрерывной переменной`


----------------------

## Задачи лабораторной работы

1. Подготовка данных.
2. Построение модели.
3. Оценка производительности модели: Оценить качество модели с использованием метрик, таких как RMSE и Q² на тестовой выборке.
4. Подбор гиперпараметров: Провести настройку параметра регуляризации (альфа) для нахождения оптимальной модели с минимальной ошибкой.
5. Анализ коэффициентов модели: Исследовать, как регуляризация влияет на величину коэффициентов и интерпретировать полученные результаты.
6. Интерпретация результатов.

----

## Материалы, использовавшиеся для выполнения лабораторной работы (программы, исходные файлы ?) 

1. Собственные файлы data.ipynb и data_report.ipynb из папки /data по локальному руководству данными. Там я описывала как я обрабатывала данные и генерировала дескрипторы. Сами сгенерированные данные, которые хранятся в папке data/learning.
2. [Официальная документация scikit-learn по применению Ridge-регрессии](https://scikit-learn.org/1.5/modules/generated/sklearn.linear_model.Ridge.html)
3. [Официальная документация scikit-learn по применению GridCV ](https://scikit-learn.org/1.6/modules/generated/sklearn.model_selection.GridSearchCV.html)

----

## Поэтапное изложение процедуры


Моделирование проводилось на следующих наборах дескрипторов:

1. Базовые дескрипторы: Представляют собой наиболее популярные параметры, описание которых приведено в файле ../data/data_report.ipynb.
2. Дескрипторы, отобранные с использованием L1-регуляризации: Набор признаков, сформированный с учетом регуляризации L1 (Lasso), что позволило выбрать наиболее значимые параметры. При этом использовался заранее вычисленный коэффициент регуляризации α (alpha), определенный на этапе отбора.
3. Дескрипторы, сформированные с помощью метода главных компонент (PCA): Использовались новые признаки, полученные в результате уменьшения размерности с учетом главных компонент.
Для оптимизации гиперпараметров Ridge-регрессии применялся метод GridSearchCV, который позволяет автоматизировать поиск оптимальных параметров путем перебора значений по заданной сетке.

Дополнительно моделирование проводилось с использованием тестовой выборки различных размеров:

* 1/3,
* 1/4,
* 1/5,
* 1/10 от общей выборки.
Это позволяло сравнить обучающую и предсказательную способности модели, а также оценить, как размер данных влияет на производительность и обобщающую способность Ridge-регрессии.

В ходе моделирования оценивались следующие метрики и параметры:

1. Качество прогнозирования: Метрики R² (коэффициент детерминации) и Q² (оценка предсказательной способности модели на тестовой выборке).
2. Время обучения: Затраты времени на выполнение процесса кросс-валидации.
3. Использование оперативной памяти: Оценка объема памяти, необходимого для обучения модели.
4. Объем памяти, занимаемой моделью: Итоговый размер модели после обучения.
Для наглядного представления результатов были построены графики, демонстрирующие предсказательную способность модели и ее поведение на различных наборах данных.

Особое внимание уделялось сравнению моделей, обученных на дескрипторах, отобранных с помощью L1-регуляризации. Это позволило исследовать влияние заранее известного значения коэффициента регуляризации (α) на производительность Ridge-регрессии.

-----

## Результаты работы (+ таблицы, графики, иллюстрации?, если требуются)

В результате лучшая модель исходя из GridCV была сохранена в pipeline вместе с обработкой данных. Это нужно для дальнейшей автоматизированной работы с данными. 

1. Масштабирование: нормализация vs стандартизация

* MinMaxScaler и StandardScaler показывают схожие результаты, но MinMaxScaler иногда дает чуть лучшее качество.

* PCA сильно ухудшает результаты: Q2 падает до 0.01–0.13, а RMSE возрастает до 1.19–1.27. Это говорит о том, что PCA не сохраняет важную информацию для Ridge-регрессии.

Вывод: MinMaxScaler и StandardScaler работают хорошо, но PCA ухудшает модель.

2. Размер обучающей выборки

В целом, уменьшение размера обучающей выборки не привело к сильному ухудшению качества модели. 

Однако для моделей с Lasso и MinMaxScaler уменьшение данных даже улучшило Q2.
Вывод: небольшая выборка не всегда снижает качество, особенно если используется хорошая регуляризация.

3. Время, память

Lasso требует больше памяти (до 0.18 MB RAM против 0.00 MB для обычных моделей). PCA моделей легкие, но бесполезные.Время обучения минимальное для большинства моделей.

4. Дескрипторы

PCA — плохой выбор: Q2 оказался низким (0.01–0.13),  RMSE высокий.
Lasso (с отбором признаков) улучшает качество → Q2= 0.69, RMSE = 0.67
Базовые дескрипторы (без Lasso) хуже Lasso, но лучше PCA.
Вывод: Lasso (отбор признаков) лучше, PCA — худший вариант.


In [2]:
import pandas as pd

pd.read_csv("ridge.csv")

Unnamed: 0,model,size_x_test,r2_train,q2_test,rmse,mean_time_fit_s_cv,mean_ram_fit_mb,size_model_pipeline_mb,grade,params
0,RidgeMinMaxSc_33%,33%,0.65,0.65,0.8,0.0,0.0,0.0,False,"{'alpha': np.float64(0.11), 'solver': 'svd'}"
1,RidgeMinMaxSc_25%,25%,0.66,0.64,0.79,0.01,0.0,0.0,False,"{'alpha': np.float64(0.06999999999999999), 'so..."
2,RidgeMinMaxSc_20%,20%,0.66,0.67,0.77,0.01,0.0,0.0,False,"{'alpha': np.float64(0.05), 'solver': 'lsqr'}"
3,RidgeMinMaxSc_10%,10%,0.66,0.67,0.83,0.0,0.0,0.0,False,"{'alpha': np.float64(0.01), 'solver': 'auto'}"
4,RidgeStdSc_33%,33%,0.65,0.66,0.8,0.0,0.0,0.0,False,"{'alpha': np.float64(4.58), 'solver': 'auto'}"
5,RidgeStdSc_25%,25%,0.66,0.64,0.79,0.0,0.0,0.0,False,"{'alpha': np.float64(5.13), 'solver': 'lsqr'}"
6,RidgeStdSc_20%,20%,0.66,0.67,0.77,0.0,0.0,0.0,False,"{'alpha': np.float64(1.12), 'solver': 'lsqr'}"
7,RidgeStdSc_10%,10%,0.66,0.67,0.83,0.0,0.0,0.0,False,"{'alpha': np.float64(0.26), 'solver': 'svd'}"
8,RidgeLassoStdSc_33%,33%,0.83,0.67,0.71,0.01,0.09,0.01,True,"{'alpha': 0.011, 'solver': 'lsqr'}"
9,RidgeLassoStdSc_25%,25%,0.83,0.62,0.77,0.02,0.03,0.01,False,"{'alpha': 0.011, 'solver': 'lsqr'}"


----

## Выводы 


* Лучший вариант: Ridge + L1-регяризация.

* PCA — плохой выбор, снижает качество.

* Маленькая выборка (10–20%) не портит модель, если есть L1-регуляризация.

* MinMaxScaler и StandardScaler примерно равны, но MinMaxScaler слегка лучше.
