## Анализ влияния признаков с помощью линейной регрессии vs Корреляция Пирсона

Линейная регрессия и корреляция Пирсона являются двумя различными статистическими методами, используемыми для анализа взаимосвязи между переменными. Однако они имеют разные цели и интерпретации:

1. **Корреляция Пирсона**:
   - Измеряет степень линейной зависимости между двумя переменными.
   - Значение корреляции Пирсона находится в диапазоне от -1 до 1. Значение близкое к 1 указывает на сильную прямую корреляцию, значение близкое к -1 указывает на сильную обратную корреляцию, а значение близкое к 0 указывает на отсутствие корреляции.
   - Не позволяет делать выводы о причинно-следственной связи.

2. **Линейная регрессия**:
   - Целью является предсказание значения одной переменной на основе значений одной или нескольких других переменных.
   - Позволяет оценить влияние каждого признака на зависимую переменную. Коэффициенты регрессии показывают, насколько среднее значение зависимой переменной изменяется при изменении одного из признаков на единицу, при условии, что все остальные признаки остаются постоянными.
   - Может быть использована для оценки причинно-следственных связей, хотя для этого требуются дополнительные предпосылки.

В этом семинаре мы рассмотрим, как можно использовать линейную регрессию для анализа влияния признаков на зависимую переменную.

In [None]:
import statsmodels.api as sm
import numpy as np

# Допустим, у вас есть DataFrame `house_data` со столбцами 'price', 'size' и 'bedrooms'
# На данный момент мы просто создадим имитацию этого DataFrame для демонстрации
np.random.seed(42)
house_data = {
    'size': np.random.randint(50, 200, 100),
    'bedrooms': np.random.randint(1, 5, 100),
    'price': np.random.randint(50000, 300000, 100)
}

X = house_data['size']
y = np.log(house_data['price'])  # Мы берем логарифм цены для нормализации

# Добавляем константный столбец для пересечения
X = sm.add_constant(X)

# Создаем модель OLS (Ordinary Least Squares) и подгоняем ее
model = sm.OLS(y, X)
fitted = model.fit()
fitted.summary()

0,1,2,3
Dep. Variable:,y,R-squared:,0.021
Model:,OLS,Adj. R-squared:,0.011
Method:,Least Squares,F-statistic:,2.104
Date:,"Sat, 09 Sep 2023",Prob (F-statistic):,0.15
Time:,09:09:55,Log-Likelihood:,-58.475
No. Observations:,100,AIC:,121.0
Df Residuals:,98,BIC:,126.2
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,11.8123,0.133,88.839,0.000,11.548,12.076
x1,0.0015,0.001,1.451,0.150,-0.001,0.004

0,1,2,3
Omnibus:,8.245,Durbin-Watson:,2.172
Prob(Omnibus):,0.016,Jarque-Bera (JB):,6.538
Skew:,-0.52,Prob(JB):,0.038
Kurtosis:,2.301,Cond. No.,385.0


## Интерпретация результатов

На основе результатов линейной регрессии можно сделать следующие выводы:

1. **R-squared**: Наша модель объясняет всего 2.1% вариации в логарифме цены на основе размера дома. Это довольно низкое значение, что может указывать на то, что размер дома сам по себе не является сильным предиктором цены в этом конкретном наборе данных.

2. **Коэффициенты**: Уклон (коэффициент для `x1`) равен 0.0015, что означает, что при увеличении размера дома на одну единицу логарифм цены увеличивается на 0.0015. Однако стоит отметить, что p-значение для этого коэффициента равно 0.150, что больше обычного порога значимости в 0.05. Это означает, что мы не можем отвергнуть нулевую гипотезу о том, что размер дома не влияет на цену.

3. **Практическое значение**: Несмотря на то, что размер дома может интуитивно казаться важным фактором, влияющим на цену, в этом конкретном наборе данных он не является статистически значимым предиктором. Это может быть связано с тем, что у нас имитированный набор данных, или с тем, что есть другие, более важные факторы, которые влияют на цену дома.

## Использование реальных данных

Для демонстрации анализа влияния признаков с помощью линейной регрессии на реальных данных мы будем использовать набор данных о ценах на жилье в Бостоне. Этот набор данных включает в себя информацию о различных атрибутах домов в Бостоне и их медианных значениях цен. Давайте загрузим этот набор данных и проведем анализ.

In [None]:
from sklearn.datasets import load_boston
import pandas as pd

# Загрузка набора данных
boston_data = load_boston()
df_boston = pd.DataFrame(boston_data.data, columns=boston_data.feature_names)
df_boston['MEDV'] = boston_data.target

# Просмотр первых пяти строк набора данных
df_boston.head()

In [None]:
# Выбор признаков для анализа
X_real = df_boston[['RM', 'LSTAT', 'PTRATIO']]
X_real = sm.add_constant(X_real)  # Добавляем константный столбец для пересечения
y_real = df_boston['MEDV']

# Создаем модель OLS (Ordinary Least Squares) и подгоняем ее
model_real = sm.OLS(y_real, X_real)
fitted_real = model_real.fit()
fitted_real.summary()

0,1,2,3
Dep. Variable:,MEDV,R-squared:,0.679
Model:,OLS,Adj. R-squared:,0.677
Method:,Least Squares,F-statistic:,353.3
Date:,"Sat, 09 Sep 2023",Prob (F-statistic):,2.69e-123
Time:,09:14:28,Log-Likelihood:,-1553.0
No. Observations:,506,AIC:,3114.0
Df Residuals:,502,BIC:,3131.0
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,18.5671,3.913,4.745,0.000,10.879,26.255
RM,4.5154,0.426,10.603,0.000,3.679,5.352
LSTAT,-0.5718,0.042,-13.540,0.000,-0.655,-0.489
PTRATIO,-0.9307,0.118,-7.911,0.000,-1.162,-0.700

0,1,2,3
Omnibus:,202.072,Durbin-Watson:,0.901
Prob(Omnibus):,0.0,Jarque-Bera (JB):,1022.153
Skew:,1.7,Prob(JB):,1.1e-222
Kurtosis:,9.076,Cond. No.,402.0


## Интерпретация результатов на реальных данных

На основе результатов линейной регрессии для реального набора данных о ценах на жилье в Бостоне можно сделать следующие выводы:

1. **R-squared**: Наша модель объясняет 67.9% вариации в медианной стоимости домов на основе комбинации признаков 'RM', 'LSTAT' и 'PTRATIO'. Это гораздо выше, чем в имитированном примере, что указывает на то, что эти признаки действительно имеют сильное влияние на цену дома в этом наборе данных.

2. **Коэффициенты**: Каждый из коэффициентов имеет практическое значение. Например, увеличение среднего количества комнат на одну единицу приводит к увеличению медианной стоимости домов на 4.5154 тысячи долларов. Однако увеличение процента населения с более низким статусом или соотношения учеников и учителей приводит к уменьшению стоимости дома.

3. **Практическое значение**: Эти результаты подтверждают интуитивное представление о том, что количество комнат в доме положительно влияет на его стоимость, в то время как более высокий процент населения с более низким статусом или более высокое соотношение учеников и учителей может уменьшить стоимость дома.