# Regressão Linear

Nessa aula, iremos tratar dos seguintes conteúdos:
- Introdução a Regressões
- Regressão Linear Simples
- Métricas de Regressões
- Regressão Linear Múltipla
- Regressão Polinomial

## Introdução a Regressões

A regressão tem por objetivo explicar a associação de variáveis quantitativas, sendo sempre uma delas a variável do objetivo do estudo, aqui chamada de **dependente**, pois veremos que o seu valor dependerá de outras informações, chamadas de **variáveis independentes**, das quais ao menos uma precisa ser também quantitativa.

<img src = "./imgs/reg_lin_pontos.png" width = "30%"></img>

O intuito do modelo de regressão linear é definirmos uma reta que melhor se ajusta aos dados.

<img src = "./imgs/reg_lin_explicacao.png" width = "30%"></img>

A seguir veremos casos de Regressão Linear Simples, Múltipla e Polinomial:

## Regressão Linear Simples

Na regressão linear simples, temos o modelo como: $Y \approx \beta_0 + \beta_1 X$

- $Y$ é a variável dependente, pois é escrita em função de variável $X$
- $X$ é a variável independente, pois a partir dela chegaremos em valores estimados de $Y$, também denotado por $\hat{Y}$
- $\beta_0$ é chamado de **intercepto** pois define o valor que intercepta o eixo $y$ quando $x = 0$. Muitas vezes pode ser interpretado como o valor mínimo associado ao determinado experimento.
- $\beta_1$ é chamado de **coeficiente angular**, ou ainda, **coeficiente de proporcionalidade**, pois define a qual taxa as variáveis $X$ e $Y$ se relacionam.

A questão agora é, como encontramos os valores de $\tilde{\beta}$?

## Métodos de Estimação de Parâmetros
### Propriedades esperadas

<img src = "./imgs/vies.png" width = "50%"></img>

- A: não-viesado, pouco acurado e baixa precisão
- B: viesado, pouco acurado e baixa precisão
- C: não-viesado, muito acurada e boa precisão
- D: viesada, pouco acurada e alta precisão

Queremos sempre um BLUE - Best Linear unbiased estimator

### OLS ou Mínimos Quadrados Ordinários
Um dos procedimentos mais usados para obter estimadores é aquele que se baseia no princípio dos mínimos quadrados, introduzido por Gauss em 1794, mas que primeiro apareceu com esse nome no apêndice do tratado de Legendre, Nouvelles Méthodes pour la Determination des Orbites des Comètes, publicado em Paris em 1806. Gauss somente viria a publicar seus resultados em 1809, em Hamburgo. Ambos utilizaram o princípio em conexão com problemas de Astronomia e Física.

Um engenheiro está estudando a resistência Y de uma fibra em função de seu diâmetro X e notou que as variáveis são aproximadamente proporcionais, isto é, elas obedecem à relação

$$Y  = \beta_0 + \beta_1X$$

em que $\beta_0$ representa o valor mínimo de resistência e $\beta_1$ é o coeficiente de proporcionalidade. Agora ele deseja estimar estes parâmetros baseado numa amostra colhida por meio de mensuração e testes. Dessa maneira podemos falar que o valor esperado de Y depende de X de tal forma que

$$E(Y|X) = \beta_0 + \beta_1X$$

pois os valores reais não se ajustam perfeitamente, ou seja

$$Y_i  = \hat{\beta}_0 + \hat{\beta}_1X_i + \epsilon_i$$

isto significa que

$$\epsilon_i = Y_i  - (\beta_0 + \beta_1X_i) = Y_i - E(Y_i|X_i) $$

<img src = "./imgs/reg_lin_erro.png" width = "50%"></img>

Como os erros podem ser positivos e negativos, e lembrando que a soma da diferença da média é sempre zero, o que queremos é minimizar a soma dos erros quadráticos, isto é:

$$Z = ||\epsilon||^2 = \sum_{i=1}^n\epsilon_i^2 = \sum_{i=1}^n[Y_i - E(Y_i)]^2 = \sum_{i=1}^n[Y_i - \beta_0 - \beta_1X_i]^2$$

Derivando parcialmente com relação a cada parâmetro $\beta$, igualando a zero e resolvendo o sistema de equações, chegamos que

$$
\large
\begin{cases}
\hat{\beta}_1=\frac{\sum_{i=1}^n (x_i- \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2} = \frac{\sigma_{xy}}{\sigma_{xx}} = \frac{covar(x, y)}{var(x)}\\
\hat{\beta}_0= \bar{y}-\hat{\beta_1}\bar{x}
\end{cases}
$$

### Máxima Verossimilhança

A função de verossimilhança é definida por:

$$L(\theta; \tilde{x}) = \prod_{i=1}^nf(x_i;\theta)$$

Neste caso queremos encontrar o valor mais verossímil de $\theta$, ou seja, queremos encontrar qual $\theta$ que maximiza essa função e portanto fazemos

$$\dfrac{\partial L(\theta; \tilde{x})}{\partial \theta} = 0$$

porém muitas vezes é mais fácil encontrar a log-verossimlhança, ou seja
$$\dfrac{\partial log(L(\theta; \tilde{x}))}{\partial \theta} = \dfrac{\partial l(\theta; \tilde{x})}{\partial \theta}= 0$$

pois

$$l(\theta; \tilde{x}) = log(L(\theta; \tilde{x})) = log(\prod_{i=1}^n f(x_i;\theta)) = \sum_{i=1}^n log(f(x_i;\theta))$$


#### Exemplo 1

In [None]:
#Import das bibliotecas necessárias
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
import pandas as pd
import statsmodels.formula.api as smf

In [None]:
#read dataset
dataset = pd.read_csv("./data/Salary_Data.csv")
dataset

In [None]:
#ols stats
reg_lin = smf.ols("Salary ~ YearsExperience", dataset).fit()
reg_lin

In [None]:
reg_lin.summary()

#### comecamos 21:15 
## Métricas de Regressões

Alguma das métricas que podemos utilizar para quantificar a acurácia do modelo, usamos por exemplo raiz quadrada da média dos erros quadráticos RMSE (*root mean squared error*), erro quadrático médio MSE (*mean squared error*) e o erro absoluto médio MAE (*mean absolute error*):<br><br>
$$
RMSE = \sqrt{\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2}
$$

$$
MSE = {\frac{1}{n}\sum_{i=1}^n (y_i-\hat{y}_i)^2}
$$

$$
MAE = {\frac{1}{n}\sum_{i=1}^n |y_i-\hat{y}_i|}
$$

Outra medida importante é o **coeficiente de determinação $R^2$**, que mede a proporção da variabilidade em Y que pode ser explicada a partir de X.

$$R^2 = 1-\frac{\sum_{i=1}^n (y_i-\hat{y}_i)^2}{\sum_{i=1}^n(y_i-\bar{y})^2}, \quad 0\leq R^2\leq 1$$

Entretanto essa é uma medida que precisa ser olhada com cautela dado que sempre aumenta a medida que incluímos variáveis no modelos, independentemente de explicar ou não a variável. Além disso ela pode aumentar ou diminuir de acordo com a amplitude de X.

Portanto surge o **coeficiente de determinação ajustado $\overline{R}^2$** dado por:

$$1-\dfrac{n-1}{n-2}(1-R^2)$$

#### Exemplo 2

In [None]:
dataset

In [None]:
# Importing the dataset
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, 1].values
#print(X)
#print(y)

# Splitting the dataset into the Training set and Test set
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 1/3, random_state = 0)

#print(X_train)
#print(X_test)

# Fitting Simple Linear Regression to the Training set
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, y_train)

# Predicting the Test set results
regressor.predict(np.array([1.1]).reshape(1,-1))
y_pred = regressor.predict(X_test)
print(X_test)
print(y_pred)
# Visualising the Training set results
plt.scatter(X_train, y_train, color = 'red')
plt.plot(X_train, regressor.predict(X_train), color = 'blue')
plt.title('Salary vs Experience (Training set)')
plt.xlabel('Years of Experience')
plt.ylabel('Salary')
plt.show()

# Visualising the Test set results
plt.scatter(X_test, y_test, color = 'red')
plt.plot(X_test, regressor.predict(X_test), color = 'blue')
plt.title('Salary vs Experience (Test set)')
plt.xlabel('Years of Experience')
plt.ylabel('Salary')
plt.show()

In [None]:
#metrics

### <font color = red>Pressuposições **NECESSÁRIAS**</font>

- A relação entre Y e X é **linear**
- Os valores de X são fixos (ou controlados)
- A média do erro é nula, isto é, $E(\epsilon_i) = 0$
- É necessário haver **homocedasticidade de variância**, ou seja, para cada valor de X, a variância do erro $\epsilon_i$ é sempre $\sigma^2$. O que implica que $Var(Y_i) = \sigma^2$
- O erro de uma observação é independente do erro de outra observação, ou seja:
$$cov(\epsilon_i, \epsilon_i') = 0$$
- Os erros têm distribuição normal (necessário para testes de hipóteses e determinação de intervalo de confiânça)
$$\epsilon \sim N(0, \sigma^2$$

Logo

$$Y\sim N(\beta_0 + \beta_1X, \sigma^2)$$

## Regressão Linear Múltipla

Na regressão linear múltipla, temos o modelo como: $Y = \beta_0 + \beta_1 X_1  + \beta_2 X_2 + ... + \beta_n X_n$

#### Exemplo 3

Para o exemplo de Regressão Linear Múltipla, iremos utilizar o dataset *Car_Prices.csv*, onde o objetivo é estimar o preço dos carros a partir de suas características.

In [None]:
import pandas as pd

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

In [None]:
#Carregando o CSV
cars = pd.read_csv('./data/CarPrice.csv')
cars.head()

In [None]:
# Algumas estatísticas interessantes sobre o dataset
cars.describe()

In [None]:
# Por curiosidade, vamos ver como está os valores desses carros
cars[['CarName', 'price']].sort_values(['price'],ascending=False)

In [None]:
plt.figure(figsize=(12,8))
sns.histplot(cars["price"], kde=True)
plt.show()

In [None]:
#Olhando os tipos de variáveis que temos na base
cars.dtypes

In [None]:
# Features categóricas ou em forma de string
cars[['CarName', 'fueltype', 'aspiration', 'doornumber', 'carbody', 'cylindernumber']].head(100)

Importante levantar que a regressão linear, seja ela simples ou múltipla, só suporta valores númericos. Dessa forma devemos tratar os dados categóricos da nossa base. Para isso vamos utilizar a função [get_dummies](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html), onde esta função transforma as variáveis categóricas em diversas colunas no DataFrame para cada uma das opções de categoria:

In [None]:
cars_with_dummies = pd.get_dummies(cars, prefix_sep='_', columns=['fueltype', 
                                                                  'aspiration', 
                                                                  'doornumber', 
                                                                  'carbody', 
                                                                  'cylindernumber'])

In [None]:
# Vamos dar uma olhada no que aconteceu com a base
cars_with_dummies.head()

Preparado a base, primeiro passo **importante** para podermos usar os dados no modelo é separar o dados em base de treino e teste (ou em alguns casos validação), onde a divisão fica da seguinte forma:
- **X :** todos os dados dispovínel sobre a dado que utilizamos exceto a resposta;
- **y :** Variável de resposta da nossa base.

In [None]:
X = cars_with_dummies.drop(['car_ID', 'CarName', 'price'], axis = 1)
y = cars_with_dummies['price']

Vamos utilizar para a separação da base em treino e teste a função [train_test_split](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html), onde os parâmetros da função que mais iremos utlizar são:
- **test_size:** Defini a porcentagem que será separada para a base de teste;
- **random_state:** Seed de aleatoriadade, para garantir a reprodutibilidade.

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state = 42)

Para o caso da Regressão Linear Múltipla, iremos utilizar a biblioteca do Scikit-Learn chamada [LinearRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html?highlight=linearregression#sklearn.linear_model.LinearRegression):

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
# Instancia o modelo
linreg = LinearRegression()

In [None]:
# Fit dos dados (ou seja, vamos passar os dados para o modelo aprender com eles)
linreg.fit(X_train, y_train)

In [None]:
# Para os dados novos, vamos definir a predição para a base de teste
y_pred = linreg.predict(X_test)

In [None]:
# Vamos criar um gráfico para comparar os Valores Reais com os Preditos
fig = plt.figure(figsize=(8,8))
l = plt.plot(y_pred, y_test, 'bo')
plt.setp(l, markersize=10)
plt.setp(l, markerfacecolor='C0')
plt.title('Comparação Valor Predito x Valor Real', fontsize=12)
plt.ylabel("True Value", fontsize=12)
plt.xlabel("Predict Value", fontsize=12)

# mostra os valores preditos e originais
xl = np.arange(min(y_test), 1.2*max(y_test),(max(y_test)-min(y_test))/10)
yl = xl
plt.plot(xl, yl, 'r--')

plt.show()

Vamos calcular o R2 para o modelo, importando a métrica [r2_score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html) diretamente do Scikit_Learn.

In [None]:
from sklearn.metrics import r2_score
R2 = r2_score(y_test, y_pred)
print('R2:', R2)

Algo interessante que podemos fazer com o modelo é definir quais variáveis são as mais relevantes na hora da predição dos valores, ou seja quais variáveis têm maiores coeficientes. Esse processo é muito recorrente em Machine Learning e é chamado de **Feature Importance**.

In [None]:
coefs = linreg.coef_

list_columns = X_train.columns
list_feature = []
list_score = []

for i, v in enumerate(coefs):
    list_feature.append(list_columns[i])
    list_score.append(v)

dictionary = {'Features': list_feature,
              'Scores': list_score}

df_features = pd.DataFrame(dictionary)
df_features = df_features.sort_values(by=['Scores'], ascending=False)
df_features.reset_index(inplace=True, drop=True)
#df_features.head(10)
df_features

## 

## Regressão Polinomial

Notem que o modelo não precisa ter termos lineares em X, mas apenas nos parâmetros necessitam ser lineares. Por exemplo, modelo abaixo ainda é linear nos parâmetros: $$y = \beta_0 + \beta_1 x + \beta_2 x^2$$

In [None]:
#ex

In [None]:
#corr

O macete para usar Regressão Linear para a predição com variáveis não lineares é fazermos uma transformação linear dos valores de X.

In [None]:
#poly
# define a transformação nos dados


# transforma os dados incluindo uma nova coluna com valores quadráticos


In [None]:
#mod

In [None]:
fig = plt.figure(figsize=(8,8))
l = plt.plot(y_pred, y, 'bo')
plt.setp(l, markersize=10)
plt.setp(l, markerfacecolor='C0')
plt.title('Comparação Valor Predito x Valor Real', fontsize=12)
plt.ylabel("True Value", fontsize=12)
plt.xlabel("Predict Value", fontsize=12)

# mostra a reta diagonal, que representa a predição perfeita
xl = np.arange(min(y), 1.2*max(y),(max(y)-min(y))/10)
yl = xl
plt.plot(xl, yl, 'r--')

plt.show()

In [None]:
plt.figure(figsize=(8,8))
plt.plot(x,y, 'ro', label='Dados originais')
plt.plot(x,y_pred, 'b-', label = 'Dados preditos')
plt.title('Distribuição dos Pontos + Regressão Linear')
plt.ylabel("y", fontsize=12)
plt.xlabel("x", fontsize=12)
plt.legend()
plt.show()

In [None]:
#r2

## 

## Exercícios

__1)__ O arquivo fish.csv consiste em um dataset com registro de características de 7 espécies diferentes de peixes comuns nas vendas do mercado de peixes. Com este conjunto de dados, um modelo de Regressão Linear para estimar o peso (Weight) dos peixes.

Não esqueça de explorar os dados, realizar o tratamento dos dados (analise o tipo dos dados, por exemplo), fazer a separação dos dados de treino e teste; e, por fim, avaliar a precisão do seu modelo.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score


pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

In [None]:
fish = pd.read_csv('./datasets/fish.csv')

In [None]:
fish.head()

## 

__2)__ Carregue os dados contidos no arquivo who-life-expectancy.csv (link abaixo), o qual contém diversas informações sobre os países do mundo inteiro, incluindo a expectativa de vida de sua população, entre os anos de 2000 e 2015. Seu objetivo é criar um modelo de Regressão Linear capaz de estimar a expectativa de vida da população de um país (em um determinado ano) dadas as demais informações sobre esse país.

Dica: Você deverá notar que esse dataset possui muitos dados ausentes (NaN), portanto, neste caso, será necessário realizar uma limpeza nos dados.

In [None]:
wle = pd.read_csv('./datasets/who-life-expectancy.csv')

In [None]:
wle.head()

## 

__3)__ O arquivo usa_housing.csv consiste em um dataset que contém informações sobre o preço de casas em determinadas regiões dos Estados Unidos. Uma descrição das colunas desse dataframes é apresentada abaixo:

- __Avg. Area Income:__ Média da renda dos residentes de onde a casa está localizada.
- __Avg. Area House Age:__ Média de idade das casas da mesma cidade.
- __Avg. Area Number of Rooms:__ Número médio de quartos para casas na mesma cidade.
- __Avg. Area Number of Bedrooms:__ Número médio de quartos para casas na mesma cidade.
- __Area Population:__ A população da cidade onde a casa está localizada.
- __Price:__ Preço de venda da casa.
- __Address:__ Endereço da casa.

Utilize os dados contidos nele para criar um modelo de regressão linear que seja capaz de estimar o preço de venda das casas.

In [None]:
houses = pd.read_csv('./datasets/usa_housing.csv')

In [None]:
houses.head()

## 

## Links, Artigos e Referências:

- [Scikit-Learn](https://scikit-learn.org/stable/index.html), Documentação do Scikit-Learn;
- [LinearRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html), Documentação da Regressão Linear;
- [Linear Regression - Detailed View](https://towardsdatascience.com/linear-regression-detailed-view-ea73175f6e86), artigo publicado pelo Towards Data Science.