**D1DAE: Análise Estatística para Ciência de Dados (2021.1)** <br/>
IFSP Campinas

Profs: Ricardo Sovat, Samuel Martins <br/><br/>

<a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png" /></a><br />This work is licensed under a <a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License</a>.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
sns.set_theme(style="whitegrid")

params = {'legend.fontsize': 'x-large',
          'figure.figsize': (15, 5),
         'axes.labelsize': 'x-large',
         'axes.titlesize':'x-large',
         'xtick.labelsize':'x-large',
         'ytick.labelsize':'x-large'}
plt.rcParams.update(params)

# <font color='#0C509E' style='font-size: 40px;'>Regressão Linear - Múltiplas variáveis</font>

## 1. Explorando o Dataset

Este dataset apresenta dados coletados de startups de New York, California e Florida.

**Dataset:** https://www.kaggle.com/farhanmd29/50-startups

### 1.1. Importando o Dataset

### 1.2. Informações básicas do dataset

In [None]:
print(f'O dataset possui {df.shape[0]} exemplos/amostras/linhas e {df.shape[1]} atributos/variáveis/colunas')

In [None]:
df.info()

<br/>**"Lucro"** é uma _variável dependente_ e todas as demais são _variáveis independentes_.

### 1.3. Estatísticas Descritivas

## 2. Analisando os Estados (Variável Categórica)

### 2.1. Proporção de observações por Estado

In [None]:
ax = sns.countplot(data=df, x='Estado')

n_registros = df.shape[0]

for bar in ax.patches:
    freq = bar.get_height()
    ax.annotate(f'{freq}\n({(freq * 100) / n_registros:.2f}%)',  # string a ser impressa
                (bar.get_x() + bar.get_width() / 2, bar.get_height()),  # posição inicial a ser impressa (x, y)
                ha='center', va='center',
                size=14, xytext=(0, 20),
                textcoords='offset points')

In [None]:
df.groupby('Estado').size()

### 2.2. Lucro médio (e desvio padrão) por Estado

### 2.3. Distribuição dos Lucros por Estado

### 2.4. Matriz de correlação

O **coeficiente de correlação** é uma medida que mede a associação linear entre duas variáveis. Seu valor varia de **_-1_** (associação negativa perfeita) e **_+1_** (associação positiva perfeita).
<img src="imagens/correlation_coefficient.png" width="70%" />

Fonte: https://dataz4s.com/statistics/correlation-coefficient/

<br/>Note que a correlação entre o **Lucro** e os investimentos em **P&D** é bem alta. Em uma escala menor, a correlação entre o **Lucro** e os investimentos em **Marketing** também é expressiva.

#### Correlação por Estado

<br/>

A correlação entre o **Lucro** e os investimentos em **P&D** é bem alta.<br/>
A correlação entre o **Lucro** e os investimentos em **Administração** não é expressiva, sendo perto de zero, o que sugere que tais variáveis não são correlatas.<br/>
A correlação entre o **Lucro** e os investimentos em **Marketing** é consideravelmente alta.<br/>

<br/>

A correlação entre o **Lucro** e os investimentos em **P&D** também é bem alta na _Florida_.<br/>
A correlação entre o **Lucro** e os investimentos em **Administração** não é expressiva, sendo perto de zero, o que sugere que tais variáveis não são correlatas.<br/>
A correlação entre o **Lucro** e os investimentos em **Marketing** é menor do que na _California_, mas ainda indica uma certa correlação entre as duas variáveis.<br/>

<br/>

A correlação entre o **Lucro** e os investimentos em **P&D** também é bem alta.<br/>
Diferente da _California_ e _Florida_, os invesimentos em **Aministração** parecem ter uma certa influência no **Lucro** das empresas de NY, uma vez que a correlação de tais variáveis é "relativamente" expressiva.<br/>
A correlação entre o **Lucro** e os investimentos em **Marketing** é consideravelmente alta.<br/>

### 2.5. Variável Dependente (y) vs Variáveis Independentes/Explicativas

## `pairplot`

Plota o relacionamento entre pares de variáveis em um dataset.

## `jointplot`
Plota o relacionamento entre duas variáveis e suas respectivas distribuições de frequência.

## `lmplot`
Plota a reta de regressão entre duas variáveis juntamente com suas respectivas dispersões.

### 2.6. Visualizando a Variável Dependente e 2 Variáveis Independentes

In [None]:
# pip install plotly
# jupyter labextension install jupyterlab-plotly

import plotly.express as px

fig = px.scatter_3d(df, x='P&D', y='Marketing', z='Lucro', width=1000, height=500)
fig.update_traces(marker=dict(size=5, line=dict(width=1)), selector=dict(mode='markers'))
fig.show()

## 4. Estimando um modelo linear

A **regressão linear** é uma abordagem para modelar o relacionamento entre variáveis independentes (explicativas) e dependentes numéricas, ajustando um modelo linear (p. ex., uma reta) para as observações de um conjunto treinamento.

Tal modelo linear é usado para a prever variáveis dependentes numéricas a partir das variáveis independentes de novas observações (ainda não vistas).

### 4.1. Transformando variáveis categóricas em Variáveis _Dummy_

### Alternativa: OneHotEncoder
https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html

##### Pros x Cons

1. Com o **_OneHotEnconder_**, podemos criar uma _função/modelo_ para criar as **dummy variables** a partir de nosso **conjunto de treinamento**. Podemos então aplicar tal modelo para novos dados, sem nenhum problema.

2. Com o **_OneHotEnconder_**, se o **conjunto de teste** possuir valores **NÃO** vistos no **conjunto de treinamento** para a _varável categórica_ a ser transformada em **dummy**, podemos informar a ação que desejamos tomar. Basta passarmos o parâmetro: handle_unknown{‘error’, ‘ignore’}. Isso é extremamente interessante quando já temos modelos treinados em produção, de modo que valores não suportados deverão ser identificados antes do uso do modelo.

No caso do ***get_dummies()***, precisaremos ter todos os dados de **treinamento e teste** na mesma tabela, a fim de mantermos a consistência da criação das variáveis dummy – p. ex: A coluna Estado_California deverá vir antes de Estado_Florida e Estado_New York – o que resolveria o caso (1). Tal junção também resolveria o caso (2), uma vez que a função criaria uma nova coluna para **todo novo valor** para a variável categórica. <br/>
Mas, note que isso limita seu uso em _PRODUÇÃO_, com modelos já treinados para um dado conjunto de valores categóricos, exigindo um retreinamento do modelo para todo novo conjunto de teste.

Fonte: https://stackoverflow.com/questions/36631163/what-are-the-pros-and-cons-between-get-dummies-pandas-and-onehotencoder-sciki

### 4.2. Evitando o Dummy Variable Trap

### 4.3. Extraindo as variáveis independentes e dependentes

#### Criando um DataFrame para armazenar as variáveis independentes/explicativas (X)

#### Criando uma Series para armazenar a variável dependente (y)

### 4.4. Dividindo o dataset em Conjunto de Treinamento e Conjunto de Teste

### 4.5. Verificando os tamanhos dos conjuntos de treino e teste

In [None]:
print(f'X_train.shape = {X_train.shape}, y_train.shape = {y_train.shape}')

In [None]:
print(f'X_test.shape = {X_test.shape}, y_test.shape = {y_test.shape}')

### 4.6. Treinando o modelo de Regressão Linear Simples com o Conjunto de Treinamento

### 4.7. Coeficiente de determinação (R²) do modelo linear estimado com o Conjunto de Treinamento

### Coeficiente de Determinação - R²

O coeficiente de determinação (R²) é uma medida resumida que diz quanto a linha de regressão ajusta-se aos dados. <br/>
Ele expressa a **quantidade da variância dos dados** que é explicada pelo modelo linear. <br/>
P. ex: R² = 0.7512 significa que o modelo linear explica 75.12% da variância da variável dependente a partir do regressores (variáveis independentes) incluídas naquele modelo linear.

$$R^2(y, \hat{y}) = 1 - \frac {\sum_{i=0}^{n-1}(y_i-\hat{y}_i)^2}{\sum_{i=0}^{n-1}(y_i-\bar{y}_i)^2}$$

In [None]:
print(f'R² = {}')

## 5. Predizendo os Lucros para as Amostras/Exemplos de Teste

### Visualizando os Erros

## 6. Medindo a "Acurácia" das Predições  - Métricas de Erro para Regressão

### Mean Absolute Error (MAE)
$$MAE = \frac{\sum_{i=1}^{n}|y_i - \hat{y}_i|}{n}$$

### Mean Squared Error (MSE)
$$MSE = \frac{\sum_{i=1}^{n}(y_i-\hat{y}_i)^2}{n}$$

Uma vez que os **erros** são elevados ao quadrado antes do cômputo do _erro médio_, o MSE dá maior peso para **erros grandes**, do que o MAE.

### Root Mean Squared Error (RMSE)
$$RMSE = \sqrt{MSE} = \sqrt{\frac{\sum_{i=1}^{n}(y_i-\hat{y}_i)^2}{n}}$$

Está é a métrica comumente usada para comparar modelos de regressão.

https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html

## 7. Interpretação dos Coeficientes Estimados

<img src="imgs/interpretacao_dos_coeficientes.png" width=700/>

### 7.1. Intercepto do modelo
O **intercepto** do modelo representa o _efeito médio_ em $Y$ (Lucro) tendo todas as variáveis independentes zeradas (excluídas do modelo). Como $x_4=x_5=0$, este cenário consiste do Estado da _California_. Portanto, o coeficiente de regressão para _California_ estará incluso no **intercepto** (veremos mais jajá).

### 7.2. Coeficientes de regressão
Os **coeficientes de regressão (hiperplano)** $b_1$, $b_2$, $b_3$, $b_4$ e $b_5$ são conhecidos como **coeficientes parciais de regressão** ou **coeficientes parciais angulares**. Em outras palavras:
- $b_1$ mede a variação no valor médio de $Y$ (Lucro), por unidade de variação em $x_1$ (P&D), mantendo-se os valores de $x_2$ (Administração), $x_3$ (Marketing), $x_4$ (Florida) e $x_5$ (New York) constantes.

Ele nos dá o _efeito "direto"_ de uma unidade de variação em $x_1$ sobre o valor médio de $Y$, excluídos os efeitos que as demais variáveis independentes possam ter sobre a média de $Y$.

De modo análogo podemos interpretar os demais coeficientes de regressão.

### 7.3. Interpretação dos Coeficientes Estimados

- **Intercepto → Excluindo o efeito das _variáveis independentes_** <br/>
($x_2=x_3=x_4=x_5=0$), o efeito médio no Lucro das startups seria de **\$ 42554.16**. Ao assumir $x_4=x_5=0$, estamos assumindo que o _Estado_ é a _California_. Assim, o coeficiente de regressão para _California_ está incluso neste **intercepto**. Se tivessemos mais variáveis categóricas que foram transformadas em variáveis _dummy_, todas as variáveis _dummy_ excluídas da tabela teriam seus coeficientes de regressão inclusos no **intercepto**.

- **P&D** → Mantendo-se os valores das outras _variáveis independentes_ **constantes**, o acréscimo de **$ 1 de investimento em P&D** gera uma variação média no Lucro das startups de **\$ 0.773467**.

- **Administração** → Mantendo-se os valores das outras _variáveis independentes_ **constantes**, o acréscimo de $ 1 de investimento em Administração gera uma variação média no Lucro das startups de **\$ 0.032885**.

*- *Marketing** → Mantendo-se os valores das outras _variáveis independentes_ **constantes**, o acréscimo de $ 1 de investimento em Marketing gera uma variação média no Lucro das startups de **\$ 0.036610**.

- **Startups na Florida** → Mantendo-se os valores das outras _variáveis independentes_ **constantes**, o fato da startup estar na Florida gera uma variação média no Lucro das startups de **\$ -959.284160**.
    
- **Startups em New York** → Mantendo-se os valores das outras _variáveis independentes_ **constantes**, o fato da startup estar em New York gera uma variação média no Lucro das startups de **\$ 699.369053**.

- **Startups na California** → Mesmo caso do _Intercepto_.

## 8. O LinearRegression do `sklearn` já trata o Dummy Variable Trap?

In [None]:
df_pre.head()

### 8.1. Obtendo os novos X e y

In [None]:
variaveis_independentes = df_pre.columns.to_list()
variaveis_independentes.remove('Lucro')
variaveis_independentes

In [None]:
X_dummy_trap = df_pre[variaveis_independentes]
X_dummy_trap.head()

In [None]:
y_dummy_trap = df_pre[variavel_dependente]
y_dummy_trap.head()

In [None]:
X.head()

In [None]:
X_dummy_trap.head()

In [None]:
y.head()

In [None]:
y_dummy_trap.head()

### 8.2. Dividindo o conjunto em Treinamento e Teste

In [None]:
test_size = 0.2  # taxa de amostras/exemplos que serão amostras de teste ==> neste caso, 20%

X_dummy_trap_train, X_dummy_trap_test, y_dummy_trap_train, y_dummy_trap_test = train_test_split(X_dummy_trap, y_dummy_trap, test_size=test_size, random_state=0)

In [None]:
X_train.head()

In [None]:
X_dummy_trap_train.head()

In [None]:
y_train.head()

In [None]:
y_dummy_trap_train.head()

### 8.3. Treinando o modelo de Regressão Linear sem tratar o Dummy Variable Trap

In [None]:
regressor_dummy_trap = LinearRegression()
regressor_dummy_trap.fit(X_dummy_trap_train, y_dummy_trap_train)  # fit == ajustar

### 8.4. Coeficiente de determinação (R²) do modelo linear estimado com o Conjunto de Treinamento

### Coeficiente de Determinação - R²

In [None]:
print(f'R² = {regressor_dummy_trap.score(X_dummy_trap_train, y_dummy_trap_train)}')

In [None]:
print(f'R² = {regressor.score(X_train, y_train)}')

### 8.5. Predizendo os Lucros para as Amostras/Exemplos de Teste

In [None]:
y_dummy_trap_pred = regressor_dummy_trap.predict(X_dummy_trap_test)

## 8.6. Erros - Métricas

In [None]:
MSE_dummy_trap = mean_squared_error(y_dummy_trap_test, y_dummy_trap_pred)
MSE_dummy_trap

In [None]:
MSE

<br/>

Tudo levar a crer que o modelo de **Regressão Linear** do _Scikit-learn_ já trate a **_dummy variable trap_**. Porém, não achei nenhuma documentação oficial que falasse isso.

## 9. _Overfitting:_ Sobreajustando nosso modelo

É um termo usado em estatística para descrever quando um modelo estatístico se **ajusta muito bem** ao conjunto de dados de trainamento, utilizados para treinar o modelo, mas se mostra _ineficaz_ para prever novos resultados não-vistos ==> **não generaliza para novos dados**.

## 9.1. Treinando um modelo de regressão linear com pouquíssimas amostras

### 9.1.1. Extraindo o conjunto de Treino e Teste

In [None]:
df_final.head()

In [None]:
X  # obtido em passos anteriores - sem o atributo 'Lucro'

In [None]:
y  # obtido em passos anteriores - atributo 'Lucro'

In [None]:
X2_train, X2_test, y2_train, y2_test = train_test_split(X, y, train_size=0.1, random_state=0)

In [None]:
X2_train

In [None]:
y2_train

In [None]:
X2_test

In [None]:
y2_test

### 9.1.2. Treinando o modelo de Regressão Linear

In [None]:
regressor2 = LinearRegression()
regressor2.fit(X2_train, y2_train)

### 9.1.3. Coeficiente de determinação (R²) do modelo linear estimado com o Conjunto de Treinamento

### Coeficiente de Determinação - R²

In [None]:
print(f'R² = {regressor2.score(X2_train, y2_train)}')

In [None]:
print(f'R² = {regressor.score(X_train, y_train)}')

## 9.2. Predizendo amostras de teste

In [None]:
y2_pred = regressor2.predict(X2_test)

## 9.3. Métricas de Acurácia

### 9.3.1 RMSE

In [None]:
RMSE2 = mean_squared_error(y2_test, y2_pred, squared=False)
RMSE2

In [None]:
RMSE # usando um conjunto de treinamento de 80% da base

### 9.3.2. MAE

In [None]:
MAE2 = mean_absolute_error(y2_test, y2_pred)
MAE2

In [None]:
MAE

### Soluções

1. Se o conjunto de dados é pequeno, aplique alguma técnica de Cross-validation (p. ex., k-fold) para evitar Overfitting durante seus experimentos
2. Obtenha mais dados representativos para o problemas, aumentando, assim, seu conjunto de treinamento.

## 10. Exercício: Comparando com outros modelos

Escolha outro conjunto de variáveis independentes (p. ex., ignore os investimentos em _Administração_) e treine outro modelo linear com o mesmo conjunto de treinamento. Compute as métricas de acurácia para o mesmo conjunto de teste e as compare com os resultados de usar todos as variáveis disponíveis.