**D1DAE: Análise Estatística para Ciência de Dados (2021.1)** <br/>
IFSP Campinas

Profs: Ricardo Sovat, Samuel Martins <br/><br/>

<a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png" /></a><br />This work is licensed under a <a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License</a>.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
params = {'legend.fontsize': 'x-large',
          'figure.figsize': (15, 5),
         'axes.labelsize': 'x-large',
         'axes.titlesize':'x-large',
         'xtick.labelsize':'x-large',
         'ytick.labelsize':'x-large'}
plt.rcParams.update(params)

# Regressão Linear Simples

## 1. Explorando o Dataset

Dataset fictício criado para explicar regressão linear simples. <br/>
https://www.kaggle.com/karthickveerakumar/salary-data-simple-linear-regression
    
O arquivo considerado neste notebook corresponde a tal dataset apenas com as linhas embaralhadas.

### 1.1. Importando o Dataset

### 1.2. Informações básicas do dataset

In [None]:
print(f'O dataset possui {df.shape[0]} exemplos/amostras/linhas e {df.shape[1]} atributos/variáveis/colunas')

### 1.3. Estatísticas Descritivas

In [None]:
df.describe()

In [None]:
fig, axes = plt.subplots(2, 2, figsize=(15, 10))

sns.histplot(data=df, x='Anos de Experiencia', kde=True, ax=axes[0, 0])
axes[0, 0].set_title('Hist. dos Anos de Experiência')

sns.boxplot(data=df, y='Anos de Experiencia', ax=axes[0, 1])
axes[0, 1].set_title('Boxplot dos Anos de Experiência')

sns.histplot(data=df, x='Salario', kde=True, ax=axes[1, 0], color='orange')
axes[1, 0].set_title('Hist. dos Salarios')

sns.boxplot(data=df, y='Salario', ax=axes[1, 1], color='orange')
axes[1, 1].set_title('Boxplot dos Salarios')

### 1.4. Matriz de correlação

O **coeficiente de correlação** é uma medida que mede a associação linear entre duas variáveis. Seu valor varia de **_-1_** (associação negativa perfeita) e **_+1_** (associação positiva perfeita).
<img src="imgs/correlation_coefficient.png" width="70%" />
Fonte: https://dataz4s.com/statistics/correlation-coefficient/

## 2. Variável Dependente (y) vs Variáveis Independentes/Explicativas (X)

### `pairplot`

Plota o relacionamento entre pares de variáveis em um dataset.

### `jointplot`
Plota o relacionamento entre duas variáveis e suas respectivas distribuições de frequência.

### `jointplot` com o modelo de regressão linear estimado

### `lmplot`
Plota a reta de regressão entre duas variáveis juntamente com suas respectivas dispersões.

## 3. Estimando um modelo de regressão linear

A **regressão linear** é uma abordagem para modelar o relacionamento entre variáveis independentes (explicativas) e dependentes numéricas, ajustando um modelo linear (p. ex., uma reta) para as observações de um conjunto treinamento.

Tal modelo linear é usado para a prever variáveis dependentes numéricas a partir das variáveis independentes de novas observações (ainda não vistas).

### 3.1. Extraindo as variáveis independentes e dependentes

#### Criando um DataFrame para armazenar as variáveis independentes/explicativas (X)

#### Criando uma Series para armazenar a variável dependente (y)

### 3.2. Dividindo o dataset em Conjunto de Treinamento e Conjunto de Teste

#### Verificando os tamanhos dos conjuntos de treino e teste

### 3.3. Treinando o modelo de Regressão Linear Simples com o Conjunto de Treinamento
https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html

A partir do conjunto de treinamento estabelecido, nossa reta é então: <br/>
**h(x) = 26555.24919634316 + 9300.51639707 * x**

O salário anual predito de um trabalhador **sem experiência (zero anos)** é de $ 26555.24 (_intercepto b0_).

**Para cada ano adicional de experiência**, o salário anual do trabalhador cresce em $ 9300.51 (_inclinação da reta - b1_).

### 3.4. Coeficiente de determinação (R²) do modelo linear estimado com o Conjunto de Treinamento

#### Coeficiente de Determinação - R²

O coeficiente de determinação (R²) é uma medida resumida que diz quanto a linha de regressão ajusta-se aos dados. É um valor entra 0 e 1. <br/>
Ele expressa a proporção de variância dos dados que é explicada pelo modelo linear. <br/>
P. ex: R² = 0,8234 significa que o modelo linear explica 82,34% da variância da variável dependente a partir do regressores (variáveis independentes) incluídas naquele modelo linear.

$$R^2(y, \hat{y}) = 1 - \frac {\sum_{i=0}^{n-1}(y_i-\hat{y}_i)^2}{\sum_{i=0}^{n-1}(y_i-\bar{y}_i)^2}$$

## 4. Predizendo os Salários para as Amostras/Exemplos de Teste

### 4.1. Predição

**Resíduos** são um medida de quão longe as predições estão do modelo linear (reta).

### 4.2. Visualizando os Registros com o Modelo Linear

### 4.3. Visualizando os Erros do Teste

## 5. Medindo a "Acurácia" das Predições  - Métricas de Erro para Regressão

Quanto as predições obtidas se diferem dos dados reais?

### Mean Absolute Error (MAE)
$$MAE = \frac{\sum_{i=1}^{n}|y_i - \hat{y}_i|}{n}$$

### Mean Squared Error (MSE)
$$MSE = \frac{\sum_{i=1}^{n}(y_i-\hat{y}_i)^2}{n}$$

Uma vez que os **erros** são elevados ao quadrado antes do cômputo do _erro médio_, o MSE dá maior peso para **erros grandes**, do que o MAE.

## Root Mean Squared Error (RMSE)
$$RMSE = \sqrt{MSE} = \sqrt{\frac{\sum_{i=1}^{n}(y_i-\hat{y}_i)^2}{n}}$$

Está é a métrica comumente usada para comparar modelos de regressão.

https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html

In [None]:
# squared: bool, default=True
## If True returns MSE value, if False returns RMSE value.



# Exercício

Conside o dataset indicado abaixo que contém **alturas** (em inches/polegadas) e **pesos** (em pounds/libras) de pessoas fictícias. <br/>
https://www.kaggle.com/mustafaali96/weight-height

Realize as seguintes tarefas:
- Divida o conjunto de dados em 80% para treinamento e 20% para teste
- Compute a correlação entre as variáveis do conjunto de treinamento
- Treine um modelo de regressão
  + Compute o coeficiente de determinação do modelo
  + Plote um scatterplot das duas variáveis contendo o modelo de regressão (reta)
- Faça a predição do conjunto de teste
  + Plote um scatterplot das duas variáveis contendo o modelo de regressão (reta)
  + Compute as métricas de erro para regressão