# Практическая работа №4
## Тема: «Линейная регрессия»
### Выполнил студент: ???
#### ВАРИАНТ: (ваш dataset [название, ссылка])


### Линейная регрессия

Линейная регрессия используется для прогнозирования непрерывной переменной (зависимой переменной) на основе одной или нескольких независимых переменных. Она строит линейную зависимость между независимыми и зависимой переменными, что позволяет предсказывать значение зависимой переменной на основе значений независимых переменных.

Линейная регрессия в машинном обучении — это статистический метод, который используется для прогнозирования значения одной переменной (зависимой) на основе значений одной или нескольких других переменных (независимых). Этот метод основан на построении линейной зависимости между независимыми и зависимой переменными, что позволяет моделировать взаимосвязь между ними и делать прогнозы на основе новых данных.

#### Принципы Линейной Регрессии

**Линейная зависимость:** Предполагается, что между независимыми и зависимой переменными существует линейная зависимость. Это означает, что изменение в независимой переменной приводит к прямо пропорциональному изменению в зависимой переменной.
Остаточная независимость: Остатки (разница между наблюдаемыми и прогнозируемыми значениями) не должны иметь идентифицируемой закономерности. Это помогает избежать выбросов и обеспечивает точность модели.

**Гомоскедастичность:** Предполагается, что невязки имеют постоянную дисперсию или стандартное отклонение от среднего для каждого значения независимой переменной. Это помогает обеспечить стабильность и надежность прогнозов.

**Нормальность:** Предполагается, что невязки распределены нормально. Это помогает в интерпретации результатов и проверке гипотез.

**Основные характеристики линейной регрессии:**

- **Цель:** Прогнозирование непрерывной переменной.
- **Модель:** Линейная функция независимых переменных.
- **Применение:** Простой анализ и предсказание линейных данных и трендов. Работа с переменными, линейно зависящими от одной-двух-трех других переменных. Используется в экономике, биологии, социологии и других областях для прогнозирования.

    - **Прогнозирование цен на недвижимость:** Используя данные о площади, количестве комнат, расположении и других факторах, можно прогнозировать цену на продажу дома.

    - **Анализ влияния температуры на урожай:** Исходя из исторических данных о температуре и урожае, можно оценить, как изменение температуры влияет на урожай.

    - **Прогнозирование заболеваний:** Используя данные о пациенте, такие как возраст, пол, медицинская история, можно прогнозировать вероятность развития определенного заболевания.

- **Плюсы:** Очень простая и интуитивная модель машинного обучения. Проста в реализации, быстра в работе.

- **Минусы:** Хорошо работает только на очень простых зависимостях. Плохо предсказывает сложные зависимости.

Если у вас есть последовательность чисел [10, 20, 30, 40, 50, x], то линейная регрессия легко предскажет, что на месте x должно быть число 60. Этот алгоритм предсказывает простые линейные зависимости в данных и значения в рамках трендов.

![image.png](attachment:image.png)



Для демонстрации применения линейной регрессии можно использовать следующий пример кода на Python с использованием библиотеки scikit-learn:

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import numpy as np

from sklearn.metrics import accuracy_score, recall_score, f1_score

import warnings
# Игнорировать все предупреждения
warnings.filterwarnings('ignore')

# Пример данных
X = np.array([[1, 1], [1, 2], [2, 2], [2, 3]]) # Независимые переменные
y = np.dot(X, np.array([1, 2])) + 3 # Зависимая переменная

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# Создание и обучение модели линейной регрессии
model = LinearRegression()
model.fit(X_train, y_train)

# Прогнозирование на тестовых данных
y_pred = model.predict(X_test)

# Вывод коэффициентов модели
print("Коэффициенты модели:", model.coef_)
print("Свободный член модели:", model.intercept_)

# Оценка модели
accuracy = accuracy_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

print(f"Accuracy: {accuracy}")
print(f"Recall: {recall}")
print(f"F1 Score: {f1}")


**Коэффициенты модели.** В контексте линейной регрессии, коэффициенты модели также играют ключевую роль, но они интерпретируются немного иначе, поскольку линейная регрессия предсказывает непрерывную переменную, а не категориальную. Коэффициенты линейной регрессии показывают, насколько сильно каждый признак влияет на предсказанное значение.

Коэффициенты линейной регрессии помогают понять, какие признаки наиболее важны для предсказания целевой переменной. Это может быть полезно для интерпретации модели и выбора признаков для дальнейшего анализа или для создания новых признаков.

**Свободный член.** Свободный член (или смещение) в модели линейной регрессии представляет собой константу, которая добавляется к линейной комбинации признаков для получения предсказанного значения. В контексте линейной регрессии, свободный член позволяет модели быть смещенной относительно оси Y, что особенно важно, когда данные не проходят через начало координат (0,0).

В библиотеке scikit-learn, свободный член модели линейной регрессии можно получить с помощью атрибута intercept_ обученной модели.Свободный член модели показывает, насколько сильно модель смещена относительно оси Y. Если свободный член положительный, это означает, что модель смещена вверх относительно оси Y. Если свободный член отрицательный, модель смещена вниз относительно оси Y. Свободный член играет важную роль в интерпретации модели линейной регрессии, позволяя нам понять базовый уровень предсказанного значения, когда все признаки равны нулю.

Точность (Accuracy)
Точность измеряет, какую долю предсказаний модель сделала правильно. Она рассчитывается как отношение числа правильных предсказаний к общему числу предсказаний.

Полнота (Recall)
Полнота измеряет, какую долю положительных примеров модель смогла правильно идентифицировать. Она рассчитывается как отношение числа истинно положительных результатов к сумме истинно положительных и ложно отрицательных результатов.

F1-мера (F1 Score)
F1-мера является средним между точностью и полнотой и используется для оценки моделей, где важно найти баланс между этими двумя метриками. Она рассчитывается как дважды произведение отношения точности и полноты к сумме точности и полноты.

Эти метрики помогают оценить, насколько хорошо модель может предсказывать выживание пассажиров на "Титанике" на основе предоставленных признаков, учитывая как правильность предсказаний, так и способность модели идентифицировать положительные примеры.

#### Задание 1. Загрузить данные из dataset "Титаник" 

#### Задание 2. Произвести предобработку данных dataset "Титаник" и сохранить результаты каждый в отдельный датафрейм
1. Удалить все путые заначения и сохранить результаты в датафрейм df_del
2. Замена на конкретное значение все путые  и сохранить результаты в датафрейм df_num
3. Заменить все путые заначения на среднее значение и сохранить результаты в датафрейм df_means
4. Заменить все путые заначения на медеанные значение и сохранить результаты в датафрейм df_medians
5. Замена на предыдущее или следующее значение и сохранить результаты в датафрейм df_fb_fill

#### Задание 3. Приметить к каждому датафрейму алгоритм линейной регресси

#### Задание 4. Произвести оценку обученности модели разными метриками
1. accuracy
2. recall
3. Precision 
4. F1-Score

#### Задание 5. Определить наиболее эффективную метрику

#### Задание 6. Загрузить ваш dataset и произвести его описание


#### Задание 7. Произвести предобработку вашего dataset  и сохранить результаты каждый в отдельный датафрейм
1. Удалить все путые заначения и сохранить результаты в датафрейм mydf_del
2. Замена на конкретное значение все путые  и сохранить результаты в датафрейм mydf_num
3. Заменить все путые заначения на среднее значение и сохранить результаты в датафрейм mydf_means
4. Заменить все путые заначения на медеанные значение и сохранить результаты в датафрейм mydf_medians
5. Замена на предыдущее или следующее значение и сохранить результаты в датафрейм mydf_fb_fill

#### Задание 8. Приметить к каждому датафрейму алгоритм линейной регресси

#### Задание 9. Произвести оценку обученности модели разными метриками
1. accuracy
2. recall
3. Precision 
4. F1-Score

#### Задание 10. Определить наиболее эффективную метрику