# Regressão - Treino do modelo
---
**Aula Prática 03**: Treinando modelo de regressão linear

**Objetivo**: Este notebook é uma aula prática focada no treinamento de modelos de regressão linear. Ele abrange desde a importação e preparação dos dados até a construção e avaliação de modelos de regressão. O objetivo principal é fornecer uma compreensão prática de como treinar e avaliar modelos de regressão linear utilizando diferentes conjuntos de dados.

Banco de dados:

**Gorjeta em restaurante**:

Dataset disponibilizado pelo pacote plotly

"One waiter recorded information about each tip he received over a period of a few months working in one restaurant. He collected several variables:

* tip in dollars,

* bill in dollars,

* sex of the bill payer,

* whether there were smokers in the party,

* day of the week,

* time of day,

* size of the party."

**Preço de carros usados**

[Disponivel no kaggle](https://www.kaggle.com/datasets/rishabhkarn/used-car-dataset/data)

[Disponível para download](https://drive.google.com/file/d/1Ny6GypPH4AtJi6CJHmEUEI3KN11hDuGG/view?usp=drive_link)

Usaremos o dado tratado na aula 2

## Import das principais funções e leitura dos dados


---

In [None]:
import pandas as pd #pacote para leitura dos dados
import numpy as np
import plotly.express as px

In [None]:
df_tips = px.data.tips()

In [None]:
df_tips.head()

In [None]:
path = 'dado_tratado.csv'
df = pd.read_csv(path)

In [None]:
df.head()

## Treino de modelo de regressão - dataset Tips

---


Para treinar um modelo de regressão utilizaremos o pacote sklearn.


### Separação do banco entre treino e teste
O primeiro passo para treinar um modelo é separar os dados em conjuntos de treino e teste. Para isso, utilizaremos a função `train_test_split` do `sklearn`.


``` python
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=.3, random_state=15)
```
* X: DataFrame contendo as features do modelo.
* Y: DataFrame contendo a variável target.
* test_size: Percentual de dados que será utilizado para teste (neste caso, 30%).
* random_state: Controla a aleatoriedade da divisão dos dados, garantindo reprodutibilidade.

Separar os dados em treino e teste é crucial para que possamos treinar o modelo com um conjunto de dados e avaliá-lo com outro, garantindo uma avaliação imparcial da performance do modelo.

### Treinamento do Modelo
Com os dados de treino e teste preparados, vamos treinar o nosso modelo de regressão linear utilizando o módulo `LinearRegression` do `sklearn`.


``` python
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, Y_train)
```


No código acima:
* model: Objeto do tipo LinearRegression que será utilizado para ajustar o modelo, realizar predições e armazenar os coeficientes do modelo.


``` python
# Para acessar os coeficientes
model.coef_
# Para acessar o intercepto
model.intercept_
# Para fazer predições
model.predict(Y_test)
```


### Avaliação do modelo
Para avaliar o modelo treinado, utilizaremos as métricas discutidas na aula teórica: erro médio quadrado, erro médio absoluto e o coeficiente de determinação (R²).


``` python
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Erro médio quadrado
mean_squared_error(Y_test, Y_predict)

# Erro médio absoluto
mean_absolute_error(Y_test, Y_predict)

# R2 score
r2_score(Y_test, Y_predict)
```

* mean_squared_error: Calcula o erro médio quadrado entre os valores preditos e os valores reais.
* mean_absolute_error: Calcula o erro médio absoluto entre os valores preditos e os valores reais.
* r2_score: Calcula o coeficiente de determinação, que indica a proporção da variância dos dados que é explicada pelo modelo.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

### Análise e processamento do dado

---

Exercício:


* Análise o banco de dados de tips através da correlação das variáveis, há correlação?
* Análise as variáveis categóricas e crie variáveis dummy para elas.


### Primeiro modelo


---


Exercício:


1. Construção do Modelo:

* Construa um modelo de regressão linear utilizando a variável total_bill para explicar a variável tip.
* Utilize 30% dos dados para o conjunto de teste.

2. Interpretação dos Coeficientes:
* Coeficiente: Qual é a interpretação do coeficiente da variável total_bill?
* Intercepto: Qual é a interpretação do intercepto do modelo?

3. Análise do Modelo:

* Realize as análises de apuração do modelo, incluindo métricas de avaliação como erro médio quadrado, erro médio absoluto e o coeficiente de determinação (R²).


Dica:

Ao utilizar uma única variável como preditora, é necessário modificar o formato dos dados para que eles sejam interpretados como uma matriz. Para isso, utilize o seguinte código:


``` python
model.fit(np.array(X_train).reshape(-1,1), Y_train)
```


### Modelo completo


---
Exercício:

1. Construção do Modelo:

* Construa um modelo de regressão linear utilizando todas as variáveis disponíveis no conjunto de dados.
* Utilize 30% dos dados para o conjunto de teste.

2. Interpretação dos Coeficientes:

* Coeficientes: Qual é a interpretação dos coeficientes das variáveis preditoras?
* Intercepto: Qual é a interpretação do intercepto do modelo?

3. Análise do Modelo:

* Realize a avaliação do modelo utilizando métricas como erro médio quadrado (MSE), erro médio absoluto (MAE) e o coeficiente de determinação (R²).
* Compare este modelo com o modelo anterior. Este modelo é melhor?

Dica:
Para obter um DataFrame com os coeficientes e seus respectivos nomes, utilize o seguinte código:

``` python
pd.DataFrame(model.coef_, index=X_train.columns[X_train.columns!='tip'])
```

In [None]:
variaveis = df_tips.columns[df_tips.columns!='tip']
df_tips[variaveis]

In [None]:
col_change = df_tips.dtypes[df_tips.dtypes == bool].index
for col in col_change:
  df_tips[col] = df_tips[col].astype(int)

## Treino de modelo de regressão - dataset preço carro

---
Exercício:
1. Análise de Correlação:
* Analise o conjunto de dados de preços de carros utilizando a matriz de correlação.
* Identifique se há alguma variável fortemente correlacionada com o preço dos carros.

### Primeiro modelo

---

Exercício:

1. Construção do Modelo:

* Construa um modelo de regressão linear utilizando a variável kms_driven para prever a variável price.
* Utilize 30% dos dados para o conjunto de teste.

2. Interpretação dos Coeficientes:

* Coeficiente: Qual é a interpretação do coeficiente da variável kms_driven?
* Intercepto: Qual é a interpretação do intercepto do modelo?

3. Análise do Modelo:

* Realize a avaliação do modelo utilizando métricas como erro médio quadrado (MSE), erro médio absoluto (MAE) e o coeficiente de determinação (R²).

### Modelo completo
---
Exercício:

1. Construção do Modelo:

* Construa um modelo de regressão linear utilizando todas as variáveis disponíveis no conjunto de dados.
* Utilize 30% dos dados para o conjunto de teste.

2. Interpretação dos Coeficientes:

* Coeficientes: Qual é a interpretação dos coeficientes das variáveis preditoras?
* Intercepto: Qual é a interpretação do intercepto do modelo?

3. Análise do Modelo:

* Realize a avaliação do modelo utilizando métricas como erro médio quadrado (MSE), erro médio absoluto (MAE) e o coeficiente de determinação (R²).
* Compare este modelo com o modelo anterior. Este modelo é melhor?

4. Ajuste do Modelo com Dados Filtrados:

* Remova as observações em que o preço (price) é maior que 90.
* Treine um novo modelo com os dados filtrados.

5. Interpretação dos Coeficientes (Modelo Filtrado):

* Coeficientes: Qual é a interpretação dos coeficientes das variáveis preditoras no novo modelo?
* Intercepto: Qual é a interpretação do intercepto do novo modelo?

6. Visualização das Predições:

* Plote um gráfico de predição vs. valor real.
* Você percebe algo estranho no gráfico?


### Transformação nos dados
---
Exercício:

1. Transformação da Variável price:

* Aplique a transformação logarítmica na variável price.

2. Ajuste do Modelo:

* Construa um modelo de regressão linear utilizando o logaritmo da variável price.

3. Visualização das Predições:

* Plote o exponencial das predições versus os valores reais.
* Avalie se o modelo melhorou após a transformação.