## Многофакторный регресионный анализ

В качестве данных для анализа имеем: социально-экономические показатели для каждого штата США (всего 51 штат)
Задачи:
1) Получить уравнение множественной линейной регрессии

2) Определить факторы, имеющие сильную статистическую взаимосвязь

3) Процентно предположить:
+ на сколько увеличится/уменьшится процент людей в бедности, при увеличении количества людей с средним образованием на 1%
+ на сколько увеличится/уменьшится процент людей в бедности, при увеличении количества людей проживающих в столичной области на 1%
    
4) Показать изменчивость зависимой переменной


In [9]:
import pandas as pd #импортируем pandas as pd
data_states= pd.read_csv('states.csv') #прочитаем csv и создадим наш DataFrame
print(data_states.head()) #Выведем первые 5 строк нашей таблицы

        state  metro_res  white  hs_grad  poverty  female_house
0     Alabama       55.4   71.3     79.9     14.6          14.2
1      Alaska       65.6   70.8     90.6      8.3          10.8
2     Arizona       88.2   87.7     83.8     13.3          11.1
3    Arkansas       52.5   81.0     80.9     18.0          12.1
4  California       94.4   77.5     81.1     12.8          12.6


Будем использовать переменные metro_res, white, hs_grad, female_house  для предсказания зависимая переменной(ЗП) - poverty
переменные: 

+ metro_res - процент людей, проживающией в столичной области
+ white - процент белокожего населения
+ hs_grad - процент людей с высшем образованием
+ poverty - процент людей в бедности
+ female_houst - процент семей, где женщины - домохозяйки

In [8]:
import statsmodels.formula.api as smf #импортируем
import statsmodels.api as sm #имортируем

model = smf.ols(formula = 'poverty ~ metro_res + white + hs_grad + female_house', data=data_states).fit()

model.summary()

0,1,2,3
Dep. Variable:,poverty,R-squared:,0.642
Model:,OLS,Adj. R-squared:,0.61
Method:,Least Squares,F-statistic:,20.58
Date:,"Mon, 13 Mar 2023",Prob (F-statistic):,8.88e-10
Time:,17:15:42,Log-Likelihood:,-103.39
No. Observations:,51,AIC:,216.8
Df Residuals:,46,BIC:,226.4
Df Model:,4,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,66.4765,12.590,5.280,0.000,41.134,91.819
metro_res,-0.0563,0.020,-2.881,0.006,-0.096,-0.017
white,-0.0481,0.033,-1.456,0.152,-0.115,0.018
hs_grad,-0.5547,0.105,-5.288,0.000,-0.766,-0.344
female_house,0.0505,0.243,0.208,0.836,-0.439,0.540

0,1,2,3
Omnibus:,3.254,Durbin-Watson:,1.891
Prob(Omnibus):,0.197,Jarque-Bera (JB):,3.043
Skew:,0.585,Prob(JB):,0.218
Kurtosis:,2.75,Cond. No.,6500.0


<ins>Вывод:</ins>

-В колонке coef расчитаны коэфициенты таким образом, чтобы наша модель максимально хорошо описывала взаимосвязь ЗП со всеми НП (подобранные методом наименьших квадратов)
-В колонке Std.Eror - стандартную ошибку
-t - Т-критерий
-P - уровень значимости

+ Уравнение регрессии: Бедность(poverty) = 66.4765 + (-0.0563)*metro_res + (-0.0481)*white + (-0.5547)*hs_grad + 0.0505*female_house
+ В штате, где уровень людей со всеми исследуемыми предикторами (независимыми переменными) будет равен нулю, будет 66.4765%(=b0) людей, проживающих за чертой бедности.
+ мы получили p-value < 0.05 только для двух факторов: проживание в столичной области (metro_res) и уровень образования(hs_grad). То делаем вывод, что только эти факторы имеют статистически значимую взаимосвязь с исследуемой зависимой переменной - бедностью населения (poverty)
+ С каждым 1% увеличения людей, имеющих среднее образование, количество людей, проживающих в бедности уменьшается на 0.5547%
+ С каждым 1% увеличения людей, проживающих в столичной области, количество людей, проживающих в бедности уменьшается на 0.0563%

61% (=Adj. R-squared) изменчивости нашей зависимой переменной объясняется нашей моделью.


