<a href="https://colab.research.google.com/github/cfreis/machine_learning/blob/colabs/colabs/reg_lin_multipla.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Regressões
Como visto no [módulo anterior](https://colab.research.google.com/drive/1KgLuBU10fCtw0gepcUyI63xVWi8FguCY?usp=sharing), uma regressão é uma técnica estatística que permite inferir o valor de uma variável dependente, baseando-se nos valores de uma ou mais variáveis independentes.

Existem, assim três tipos básicos de regressões:
* [Regressão linear simples;](https://colab.research.google.com/drive/1KgLuBU10fCtw0gepcUyI63xVWi8FguCY?usp=sharing)
* Regressão linear múltipla;
* [Regressão logística.](https://colab.research.google.com/drive/1AixN6GvAPY3U-JlR9PS-GbICACTeZwkC?usp=sharing)



# Regressão linear múltipla

Uma regressão linear é considerada múltipla quando tenta realizar suas previsões, não mais com uma única variável preditora, mas com um conjunto delas.

<center><img src="https://drive.google.com/uc?export=download&id=1v9s1LSetZJwx4ZjT6SeOJItm4GZJvF7O" width="200">
</center>

Conforme o exemplo, podemos estimar o valor do salário de um funcionário (variável dependente) levando-se em consideração o número de horas trabalhadas, aescolaridade do funcionário e a experiência que ele possui, sendo estas três consideradas variáveis independentes.

O objetivo ainda é encontrar uma equação de reta que minimize os erros ou resíduos. Só que desta vez serão utilizadas $n$ variáveis preditoras.

<div style="text-align: center; margin-top: 10px; font-family: Arial, sans-serif;">
<img src = "https://drive.google.com/uc?export=download&id=18drHfaG4ASLKjF9Tf0hrkpjgQFFstgNs" width=600>
    <p>Figura 1: Minimização do erro</p>
</div>

A equação geral de tal reta será

$
y = \alpha +\beta_1 x_1 +\beta_2 x_2 + \cdots +\beta_n x_n+ \epsilon\\
\text{onde:}\\
y \text{ - variável dependente}\\
x_i \text{ - variáveis independentes}\\
\alpha \text{ - constante ou intercept}\\
\beta_i \text{ - coeficiente de cada variável}\\
\epsilon \text{ - erro ou variação de y não explicada pelo modelo}
$

O $\beta_i$ indica o quanto a variável $x_i$ influencia nas variações de $y$.

Assim como na regressão linear simples, a regressão lineal multipla, ou multivariada, também possui aluns pressupostos que devemos respeitar, sob pena de realizarmos predições inacuradas.


## Pressupostos da Regressão Linear

Como visto anteriormente, aqui também devemos analisar se nosso dataset e o modelo treinado, sertificando-se que se adequam aos pressupostos da regressão linear para que ela seja eficiente na realização de previsões.

Os quatro primeiros são exatamente os mesmos da regressão linear simples e para maiores detalhes, consulte [esse notebook.](https://colab.research.google.com/drive/1KgLuBU10fCtw0gepcUyI63xVWi8FguCY?usp=sharing)

### 1. Linearidade dos dados
Como a regressão linear realiza previsões baseada em uma equação de reta, quanto mais linear for o dataset, maiores serão as chances de obtermos previsões acuradas.

### 2. Independência dos erros
Cada erro, ou a diferença entre o observado e o previsto, deve ser independendo dos demais, não exercendo influência sobre os demais resíduos.

### 3. Homocedasticidade dos erros
Todos os resíduos devem ter variância semelhante.

### 4. Normalidade na distribuição dos erros

Os resíduos encontrados devem possuir uma distribuição normal próxima à normal.

### 5. Não apresentar multicolinearidade de dados
Como agora possuímos diversas variáveis independentes, é importante que estas variáveis sejam independentes entre si, não apresentando nenhuma correlação numérica quando observadas duas a duas.

Isso significa que duas variáveis preditoras não podem aprentar covariância. Por exemplo, desejamos prever o valor de venda de um imóvel e escolhermos como variáveis independentes, dentre outras, a metragem quadrada do imóvel e o seu número de quartos. Na maioria dos casos, o acréscimo de um quarto na casa implica em um aumento na metragem quadrada dela, e vice-versa. Desta forma, metragem e número de quartos irão variar de forma conjunta em um grande número de casos.

Essa correlação torna a determinação dos coeficientes das variáveis correlacionadas bastante difícil e imprecisa. Nestes casos, devemos modificar o set de variáveis preditoras de forma a evitar tais correlações.

Uma forma eficiênte de determinar multicolinearidade é criar novas regressôes lineares para cada uma das variáveis independentes, tendo como preditores as demais variáveis.

Assim, tome-se como base a regressão abaixo, cujos preditos são $\hat{y}$

$
\hat{y} = \alpha +\beta_1 x_1 +\beta_2 x_2 +\cdots +\beta_n x_n\\
$

Cria-se uma nova regressão linear onde o preditor $x_1$ se tranforma em variável dependente das demais variáveis independentes

$
\hat{x}_1 = a_1 +b_2 x_2 +b_3 x_3+ \cdots +b_n x_n\\
$

Caso $\hat{x}_1$ possa ser prevista com certa precisão, obter-se-á um $R^2$ elevado e confiável. Isso significa que a informação contida em $\hat{x}_1$ já encontra-se inserida nas demais variáveis preditoras, podendo, assim, ser descartada.





#### Cálculo do VIF e T
O VIF (Variande Inflacion Factor) e o T (Tolerance) são duas métricas correlacionadas e que servem para determinar se as variáveis independentes possuem multicolinearidade.

É realizado o cálculo de $R^2$ para cada variável independente em função das demais variáveis preditoras.

$
R_1^2 \text{ em } \hat{x}_1 =  a_1 +b_2 x_2 +b_3 x_3+ \cdots +b_n x_n\\
R_2^2 \text{ em } \hat{x}_2 =  a_2 +b_1 x_1 +b_3 x_3+ \cdots +b_n x_n\\
\cdots\\
R_{n}^2 \text{ em } \hat{x}_n =  a_n +b_1 x_1 +b_2 x_2+ \cdots +b_{n-1} x_{n-1}\\
$

E determina-se o VIF

$
VIF_j = \dfrac{1}{1-R_j^2}\\
\text{e}\\
T_j = {1-R_j^2} = \dfrac{1}{VIF_j}
$

Os resultados podem ser interpretados da seguinte forma:

|VIF|T|	Multicolinearidade|
|---|---|---|
|1|	1|Nenhuma|
|1 > V > 5| 0.2 < T < 1|	Moderada e aceitável|
|VIF ≥ 5| T ≤ 0.2|	Alta, podendo distorcer resultados|
|VIF ≥ 10|T ≤	0.1| Grave e exige ação|

A biblioteca ```statsmodels.stats.outliers_influence``` implementa a função ```variance_inflation_factor``` que realiza a tarefa.

In [6]:
import numpy as np
import pandas as pd
from statsmodels.stats.outliers_influence import variance_inflation_factor
from statsmodels.tools.tools import add_constant

def calculate_vif(X):
  # Adicione uma constante (intercept) ao DataFrame
  #X = add_constant(df)  # Inclui uma coluna de 1s para o intercepto

  # Calcule VIF para cada variável
  vif_data = pd.DataFrame()
  vif_data["Variável"] = X.columns
  vif_data["VIF"] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
  vif_data["Tolerância"] = 1 / vif_data["VIF"]  # Tolerância = 1/VIF
  vif_data["Resultado"] = np.where(
    vif_data["Tolerância"] < 0.1,
    "Possível multicolinearidade",
    "OK")

  print(vif_data)


print('Com multicolinearidade')
data_com = {
    'X1': [1, 2, 3, 4, 5],
    'X2': [2, 3, 5, 5, 6],
    'X3': [10, 17,14, 2, 1]
}
calculate_vif(pd.DataFrame(data_com))

print('\nSem multicolinearidade')

data_sem = {
    'V1': [1, 22, 3, 48, 5],
    'V2': [2, 3, 5, 5, 6],
    'V3': [10, 17,14, 2, 1]
}
calculate_vif(pd.DataFrame(data_sem))



Com multicolinearidade
  Variável         VIF  Tolerância                    Resultado
0       X1  158.380672    0.006314  Possível multicolinearidade
1       X2  191.253071    0.005229  Possível multicolinearidade
2       X3    5.837598    0.171303                           OK

Sem multicolinearidade
  Variável       VIF  Tolerância Resultado
0       V1  1.808263    0.553017        OK
1       V2  2.606815    0.383610        OK
2       V3  1.733601    0.576834        OK


In [None]:
###

# import pandas as pd

# # Create a DataFrame of coefficients (for multi-feature datasets)
# coef_df = pd.DataFrame({
#     "Feature": X_train.columns if hasattr(X_train, 'columns') else [f"X{i}" for i in range(X_train.shape[1])],
#     "Coefficient": model.coef_
# })
# print(coef_df)