# Inferência com Regressão Linear

- A reta escolhida será a que mais se aproximar dos pontos, a que "erra" menos - conforme falado em materiais passados

## Equação de uma reta

$y_{i} = bx + a$
b = coeficinete angular (`coef_`) e a = coeficiente linear (`intercept_`)

> Porém, para que os coeficientes façam sentido, precisamos que a regressão linear cumpra uma série de premissas. O cumprimento delas garante que a gente tenha estimadores chamados de BLUE, best linear unbiased estimators (melhores estimadores lineares não-viesados).


# EQUAÇÃO E INTRODUÇÃO FORMAL DOS CONCEITOS

- Quando procuramos entender a influência de mais de uma variável, assim como estarmos cientes de que nenhum modelo irá conseguir passar por todos os pontos, temos aqui o termo de erro `e`, que ditará a distância entre cada um dos pontos com o modelo linear que melhor se ajusta aos dados apresentados. Nesse exemplo apresentado, podemos obter um modelo teórico que se assemelha a:

$y_{i} = a + b_{1}x_{1} + b_{2}x_{2} + ... + b_{n}x_{n} + e$

> onde cada **b** representa cada uma das variáveis independentes


## Modelo tradicional

$y_{i} = \beta_{0} + \beta_{1}x_{1} + \beta_{2}x_{2} + ... + \beta_{n}x_{n} + e$

> 1. y é a variável dependente (~target)
> 2. β0 é o intercepto, ou seja, o valor de y quando as variáveis independentes são zero
> 3. βn é a n-ésima variável independente (~feature) e é o resíduo, a diferença entre o valor previsto pelo modelo e o valor observado

# Premissas de uma Regressão Linear

Para o modelo ser entendido como um modelo de regressão linear e sem viés, precisamos garantir essas 5 premissas:

1. linearidade nos parâmetros, 
2. amostragem aleatória, 
3. média condicional do termo de erro igual a zero, 
4. ausência de multicolinearidade perfeita
5. homocedasticidade
> Para saber mais sobre: https://www.youtube.com/watch?v=5W8xhnL39dw


# Exemplo Prático

In [4]:
! pip install wooldridge

import pandas as pd
from wooldridge import *
import statsmodels.formula.api as smf
import warnings

warnings.filterwarnings('ignore')




In [5]:
gpa = dataWoo('GPA2') # type: ignore
gpa.head()

Unnamed: 0,sat,tothrs,colgpa,athlete,verbmath,hsize,hsrank,hsperc,female,white,black,hsizesq
0,920,43,2.04,1,0.48387,0.1,4,40.0,1,0,0,0.01
1,1170,18,4.0,0,0.82813,9.4,191,20.319149,0,1,0,88.360001
2,810,14,1.78,1,0.88372,1.19,42,35.294117,0,1,0,1.4161
3,940,40,2.42,0,0.80769,5.71,252,44.133099,0,1,0,32.604099
4,1180,18,2.61,0,0.73529,2.14,86,40.186916,0,1,0,4.5796


In [7]:
results = smf.ols('colgpa ~ hsperc + sat', data=gpa).fit()
print(results.summary())

                            OLS Regression Results                            
Dep. Variable:                 colgpa   R-squared:                       0.273
Model:                            OLS   Adj. R-squared:                  0.273
Method:                 Least Squares   F-statistic:                     777.9
Date:                Tue, 30 Apr 2024   Prob (F-statistic):          1.77e-287
Time:                        17:08:25   Log-Likelihood:                -3481.3
No. Observations:                4137   AIC:                             6969.
Df Residuals:                    4134   BIC:                             6988.
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      1.3918      0.072     19.454      0.0

## Métricas 

1. p-valor: p-valor indica a probabilidade de obter um resultado igual ou mais extremo do que o observado, assumindo que a hipótese nula seja verdadeira

2. $R² = 1 - \frac{SS_{res}}{SS_{tot}}$

- SSRes (Soma dos Quadrados dos Resíduos): representa a soma dos quadrados das diferenças entre os valores observados e os valores previstos pelo modelo de regressão. Essa métrica mensura a variabilidade não explicada pelo modelo, ou seja, a parcela de variabilidade que não pode ser explicada pelas variáveis independentes incluídas no modelo. Quanto menor for o valor de SSR, maior será a capacidade do modelo em explicar a variabilidade nos dados.

- SSTot (Soma Total dos Quadrados): representa a soma dos quadrados das diferenças entre os valores observados da variável dependente e a média dos valores observados. Essa métrica mensura a variabilidade total da variável dependente, independente do modelo. Em outras palavras, ela representa a variabilidade que existe nos dados antes de aplicar qualquer modelo de regressão.


- Obs: Adj. R-Squared: O r-quadrado tem uma "falha" que é a de que ele aumenta (ou mantém) seu valor na medida que aumentamos o número de coeficientes. O R-quadrado ajustado, por outro lado, leva em conta o número de preditores no modelo. Aumentará apenas se a nova variável melhorar o modelo mais do que seria esperado por acaso. Ele diminuirá quando uma variável não útil for adicionada.

3. $R²_{adj} = 1 - \frac{(1 - R²)(n - 1)}{n - k - 1}$

4. F-Statistic: Significância do modelo. A estatística F é uma medida estatística utilizada na análise de regressão linear para avaliar a significância global do modelo. Ela é calculada a partir da comparação entre a variabilidade explicada pelo modelo e a variabilidade não explicada. A F-statistic representa o valor calculado da estatística F, enquanto a Prob (F-statistic) é o p-valor associado a essa estatística. O p-valor é usado para testar a hipótese nula de que não há relação entre as variáveis independentes e a variável dependente. Se o valor p for menor que um determinado nível de significância (geralmente 0,05), rejeita-se a hipótese nula e conclui-se que o modelo é estatisticamente significativo.

In [1]:
import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt
import statsmodels.formula.api as smf
import warnings

warnings.filterwarnings('ignore')


## Variáveis 

age: age of primary beneficiary

sex: insurance contractor gender, female, male

bmi: Body mass index, providing an understanding of body, weights that are relatively high or low relative to height,
objective index of body weight (kg / m ^ 2) using the ratio of height to weight, ideally 18.5 to 24.9

children: Number of children covered by health insurance / Number of dependents

smoker: Smoking

region: the beneficiary's residential area in the US, northeast, southeast, southwest, northwest.

charges: Individual medical costs billed by health insurance

In [2]:
insurance = pd.read_csv('insurance.csv')
insurance.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552


In [3]:
insurance['region'].value_counts()

region
southeast    364
southwest    325
northwest    325
northeast    324
Name: count, dtype: int64

In [5]:
insurance.describe()

Unnamed: 0,age,bmi,children,charges
count,1338.0,1338.0,1338.0,1338.0
mean,39.207025,30.663397,1.094918,13270.422265
std,14.04996,6.098187,1.205493,12110.011237
min,18.0,15.96,0.0,1121.8739
25%,27.0,26.29625,0.0,4740.28715
50%,39.0,30.4,1.0,9382.033
75%,51.0,34.69375,2.0,16639.912515
max,64.0,53.13,5.0,63770.42801
