# Regressão Linear
- A regressão linear é uma técnica estatística utilizada para modelar a relação entre uma variável dependente (ou resposta) e uma ou mais variáveis independentes (ou preditoras). **O objetivo é encontrar a equação de uma linha reta que melhor represente a relação entre essas variáveis**. Desta forma, ela pode ser considerada um processo estatístico que procura determinar a equação matemática mais adequada para definir a relação entre duas variáveis.

![image-4.png](attachment:image-4.png)

- Ao realizar uma análise de regressão linear, o objetivo é encontrar uma equação que explique a relação entre as variáveis envolvidas.  **Essa equação, envolve coeficientes  que são ajustados de modo a minimizar a diferença entre os valores previstos pela equação e os valores observados nos dados.**
- Olhando para nossos pontos, podemos tentar explicá-los com alguma reta, mas note que nenhuma reta cruza todos os pontos, afinal, é impossível ter um fenômeno que seja perfeitamente descrito por uma reta. O que a gente busca é algo que se aproxime da relação observada, **a reta escolhida será a que mais se aproximar dos pontos, a que 'erra' menos.**
- Em uma análise de regressão linear simples, a equação que descreve a relação entre uma variável dependente y e uma variável independente X é geralmente representada como:

![image-6.png](attachment:image-6.png)

- Onde:
 
    - y é a variável dependente (a que está sendo prevista). 
    - X é a variável independente (a que está sendo usada para prever y). 
    - β0 é o coeficiente linear, intercepto da linha de regressão, o ponto onde a reta cruza o eixo y (o valor de y quando X é zero). 
    - β1 é o coeficiente angular, indica a inclinação da reta (quanto y varia para cada unidade de variação em X). 
    - ϵ é o termo de erro, representando a variação não explicada na variável dependente.
---   

##  Estimando os Coeficientes 
- De forma resumida, o processo de estimar os coeficientes de um modelo de regressão linear envolve os seguintes passos:
    - Definir a reta de regressão: Para qualquer i-ésima observação, a previsão para y é dada por y^= B0 + B1* x1.
    - Cálculo dos resíduos: A diferença entre o valor observado yi e o valor previsto yi^ é chamada de resíduo ei =yi − yi^.
    - Soma dos quadrados dos resíduos (RSS): A RSS é a soma dos quadrados de todos os resíduos:
        - RSS=(y1−(β0^−β1^x1))²+(y2−(β0^−β1^x2))²+...+(yn−(β0^−β1^xn))²
    - Estimar os coeficientes: Os coeficientes β0 ^ e  β1^ são estimados de maneira que minimizem a RSS e a abordagem mais comum é pelo método dos mínimos quadrados:
        - **Método dos mínimos Quadrados:** O procedimento de mínimos quadrados **é uma abordagem específica para realizar esse ajustamento linear**. Ele estabelece que a melhor reta é aquela que minimiza a soma dos quadrados das diferenças entre os valores previstos pela reta e os valores reais observados. **Em outras palavras, procuramos minimizar a soma dos quadrados dos resíduos (distâncias verticais entre os pontos e a reta ajustada)**.
    
![image-13.png](attachment:image-13.png)

- Onde:
    - yi é o valor observado da variável dependente para o i-ésimo ponto nos seus dados.
    - yi^ é o valor predito da variável dependente para o i-ésimo ponto, obtido a partir da equação da linha de regressão.
 

    - **Distâncias na Direção Vertical:** Ao considerar a variável y como aleatória (ou seja, sujeita a variação), **as distâncias que estamos tentando minimizar são medidas na direção vertical (y-y^)**. Em um gráfico bidimensional, isso significa que estamos considerando as distâncias verticais entre cada ponto de dados e a reta de ajuste.

![image-10.png](attachment:image-10.png)

### Método dos Mínimos Quadrados:
- Definir a Equação da Regressão Linear: y^i=β0+ β1*xi
- Substituir y^i na Função do método dos mínimos quadrados: 
    ![image-14.png](attachment:image-14.png)
- Para minimizar a função de custo no método dos mínimos quadrados, igualamos as derivadas parciais a zero para encontrar os valores dos coeficientes que minimizam a soma dos quadrados dos resíduos.
- Então, supondo que temos os seguintes valores:
    - x1=1, y1=3
    - x2=3, y2=7
    - x3=4, y3=9
- Então, teríamos a seguinte função:
- Ʃ = (y1- (B0 + B1x1))² + (y2- (B0 + B1x2))² + (y3- (B0 + B1x3))²
- Ʃ =(3 - (B0 + B1))² + (7- (B0 + 3B1))² + (9 - (B0 + 4B1))²
- Ʃ =(3 - B0 - B1)² + (7- B0 - 3B1)² + (9 - B0 - 4B1)²
- Utilizamos a regra da cadeia:
- Derivada parcial em relação a B0= 2 * (3 - B0 - B1)  +   2 * (7- B0 - 3B1) + 2 * (9 - B0 - 4B1) = 0
- Derivada parcial em relação a B0= 2 * (3 - B0 - B1) * -1  +   2 * (7- B0 - 3B1) * -1  + 2 * (9 - B0 - 4B1) * -1  = 0
- Derivada parcial em relação a B0= -6 + 2B0 + 2B1 - 14 + 2B0 + 6B1 -18 + 2B0 + 8B1 = 0
- Derivada parcial em relação a B0= -38 + 6B0 +16B1 = 0 
- Derivada parcial em relação a B0=  6B0 + 16B1 = 38, simplificando: 
- Derivada parcial em relação a B0=  3B0 + 8B1  = 19
---
- Ʃ =(3 - B0 - B1)² + (7- B0 - 3B1)² + (9 - B0 - 4B1)²
- Derivada parcial em relação a B1= 2 * (3 - B0 - B1)  +   2 * (7- B0 - 3B1) + 2 * (9 - B0 - 4B1) = 0
- Derivada parcial em relação a B0= 2 * (3 - B0 - B1) * -1  +   2 * (7- B0 - 3B1) * -3  + 2 * (9 - B0 - 4B1) * -4  = 0
- Derivada parcial em relação a B1= -6 + 2B0 +  2B1 - 42 + 6B0 + 18B1 - 72 + 8B0 + 32B1
- Derivada parcial em relação a B1= -120 + 16B0 +  52B1 = 0
- Derivada parcial em relação a B1= 16B0 + 52B1 = 120, simplificando: 
- Derivada parcial em relação a B1= 4B0 + 13B1 = 30
---
- Sistema de equação:
-  3B0 + 8B1  = 19   * (-4)  = -12B0 - 32B1 = -76
-  4B0 + 13B1 = 30  *  (3) =    12B0 + 39B1 = 90  
- 7B1 = 14
- Valor do B1= 14/7 = 2
---
- Valor do B0= 3B0 + (8 * 2) = 19
- Valor do B0= 3B0 + (8 * 2) = 19
- Valor do B0= 3B0 + 16 = 19
- Valor do B0= 3B0 = 19 - 16
- Valor do B0= 3B0 = 3
- Valor do B0= B0 = 3/3
- Valor do B0= B0 = 1
- **Portanto, a equação da reta  é: y = 2B1 + 1**
- Aqui está uma representação gráfica:

![image-22.png](attachment:image-22.png)

- Obtemos os mesmo valores no Excel:
![image-25.png](attachment:image-25.png)
---

### Termos: 

- **Resíduo**: Quando estamos falando do erro para um ponto específico nos dados de treinamento (diferença entre o valor observado e o valor previsto pelo modelo para esse ponto), **estamos falando do resíduo**, isso é representado como ei = yi - yi^, onde yi é o valor observador e yi^ é o valor previsto pelo modelo para o ponto i.

![image-11.png](attachment:image-11.png)

- **Termo do erro**: Por outro lado, quando  estamos falando do conjunto de todos os resíduos em um conjunto de dados, ou seja, a diferença entre o valor real e o valor previsto para todos os pontos de dados, considerando o modelo como um todo, estamos falando do **Termo do erro**, representado por (ϵ).
- **Função de Custo (Cost Function):** Já quando queremos quantificar a discrepância entre as previsões feitas pelo modelo e os valores reais observados nos dados de treinamento, usamos uma métrica conhecida como **função de custo**, ela é usada como uma métrica para avaliar a qualidade das previsões do modelo em relação aos dados de treinamento e guiar o processo de treinamento do modelo. No contexto da regressão, uma função de custo frequentemente usada em problemas de regressão é o Erro Quadrático Médio - MSE, mas pode variar dependendo do problema.
    - <span style="background-color:lightgreen">**O objetivo durante o treinamento do modelo é minimizar essa função de custo, ou seja, ajustar os parâmetros do modelo de forma que a discrepância entre as previsões e os valores reais seja a menor possível**.</span>

## Regressão Linear Múltipla 
-  A regressão linear múltipla é uma extensão da regressão linear simples, onde temos múltiplas variáveis independentes para prever uma variável dependente. A equação da regressão linear múltipla é dada por:

![image-12.png](attachment:image-12.png)

- Onde:
    - y é a variável dependente (a que está sendo prevista). 
    - X1, X2, ...,Xp são as variáveis independentes (ou características) que estão sendo usadas para prever y. 
    - β0  é o intercepto da linha de regressão, que representa o valor de y quando todas as variáveis independentes são zero.
    - β1, β2,...,βp são os coeficientes angulares, que indicam a mudança esperada  em y para uma unidade de mudança em cada uma das variáveis independentes, mantendo todas as outras variáveis constantes.
    - ϵ é o termo de erro, representando a variação não explicada na variável dependente.
    
## Exemplos:

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error

In [2]:
df = pd.read_csv('insurance.csv')

In [3]:
df.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552


In [4]:
df.shape

(1338, 7)

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1338 entries, 0 to 1337
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       1338 non-null   int64  
 1   sex       1338 non-null   object 
 2   bmi       1338 non-null   float64
 3   children  1338 non-null   int64  
 4   smoker    1338 non-null   object 
 5   region    1338 non-null   object 
 6   charges   1338 non-null   float64
dtypes: float64(2), int64(2), object(3)
memory usage: 73.3+ KB


### Como queremos apenas demonstrar o uso da regressão linear, não vamos nos preocupar, neste momento, com o pré-processamento dos dados:
- Vamos remover as colunas categóricas para não precisarmos tratá-las, apenas para este exemplo.
- Na construção de um modelo, devemos tratá-las e não simplesmente removê-las.

In [6]:
#Removendo colunas categóricas
df = df.drop(['sex', 'smoker','region'], axis=1)
df.head()

Unnamed: 0,age,bmi,children,charges
0,19,27.9,0,16884.924
1,18,33.77,1,1725.5523
2,28,33.0,3,4449.462
3,33,22.705,0,21984.47061
4,32,28.88,0,3866.8552


## Divisão dos dados

In [7]:
X = df.drop('charges', axis =1)
y = df['charges']

In [8]:
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size = 0.3, random_state = 100)

In [9]:
modelo = LinearRegression()
modelo.fit(X_treino, y_treino)

In [10]:
y_pred = modelo.predict(X_teste)

In [11]:
#Avaliando o modelo
mean_absolute_error(y_teste, y_pred)

8899.594165897634

In [12]:
mean_squared_error(y_teste, y_pred)

129209552.77458598

In [13]:
np.sqrt(mean_squared_error(y_teste, y_pred))

11367.037994771812

--- 
## Regressão Polinomial
- Quando os dados têm uma relação não linear, um modelo de regressão linear simples pode não capturar bem essa relação. Por exemplo, se seus dados seguem uma curva quadrática ou cúbica, uma linha reta não será capaz de ajustar esses dados corretamente.
- A regressão polinomial é uma técnica que permite ajustar modelos lineares a dados não lineares. Fazemos isso transformando as características originais em novas características que incluem potências dessas características.
- Exemplo de dados não lineares:
![image.png](attachment:image.png)
- Claramente, uma linha reta nunca se ajustará corretamente a esses dados. **Então, podemos usar a classe PolynomialFeatures do Scikit-Learn para transformar nossos dados de treinamento, adicionando o quadrado (polinômio de segundo grau) de cada característica no conjunto de treinamento como uma nova característica.**
- É importante escalonar as características antes de aplicar a regressão polinomial, pois características com diferentes escalas podem afetar a performance do modelo.

In [14]:
from sklearn.preprocessing import PolynomialFeatures

poly_features = PolynomialFeatures(degree=2, include_bias=False)
X_poly = poly_features.fit_transform(X)

- Instanciação da Classe PolynomialFeatures:
    - degree=2: Especifica o grau do polinômio. Neste caso, estamos criando características polinomiais até o segundo grau (quadrático). 
    - Para uma característica x, isso incluirá x e x². 
    - Para duas características x1 e x2, isso incluirá x1, x2, x1², x2² e x1x2. 
- Exemplo prático:

In [15]:
# Para uma única característica
import numpy as np

X = np.array([[2], [3], [4]])
X 

array([[2],
       [3],
       [4]])

In [16]:
from sklearn.preprocessing import PolynomialFeatures

poly_features = PolynomialFeatures(degree=2, include_bias=False)
X_poly = poly_features.fit_transform(X)
X_poly

array([[ 2.,  4.],
       [ 3.,  9.],
       [ 4., 16.]])

In [17]:
# Para duas características
X = np.array([[2, 3], [3, 4], [4, 5]])

poly_features = PolynomialFeatures(degree=2, include_bias=False)
X_poly = poly_features.fit_transform(X)
X_poly

array([[ 2.,  3.,  4.,  6.,  9.],
       [ 3.,  4.,  9., 12., 16.],
       [ 4.,  5., 16., 20., 25.]])

- Vantagens da Regressão Polinomial:
    - Permite que modelos lineares capturem relações complexas entre características e a variável alvo.
    - Você pode ajustar o grau do polinômio para capturar mais complexidade nos dados.
- Desvantagens:
    - Explosão Combinatória: O número de características pode crescer rapidamente, tornando o modelo mais complexo e computacionalmente caro.
    - Overfitting: Modelos com polinômios de alto grau podem ajustar-se muito bem aos dados de treinamento, mas não generalizar bem para novos dados
---