#Regressão - Treino do modelo
---
**Aula Prática 03**: Treinando modelo de regressão linear

**Objetivo**: Treinar um modelo de regressão linear

Banco de dados:

**Gorjeta em restaurante**:

Dataset disponibilizado pelo pacote plotly

"One waiter recorded information about each tip he received over a period of a few months working in one restaurant. He collected several variables:

* tip in dollars,

* bill in dollars,

* sex of the bill payer,

* whether there were smokers in the party,

* day of the week,

* time of day,

* size of the party."

**Preço de carros usados**

[Disponivel no kaggle](https://www.kaggle.com/datasets/rishabhkarn/used-car-dataset/data)

[Disponível para download](https://drive.google.com/file/d/1Ny6GypPH4AtJi6CJHmEUEI3KN11hDuGG/view?usp=drive_link)

Usaremos o dado tratado na aula 2

##Import das principais funções e leitura dos dados


---

In [None]:
import pandas as pd #pacote para leitura dos dados
import numpy as np
import plotly.express as px

In [None]:
df_tips = px.data.tips()

In [None]:
df_tips.head()

In [None]:
path = 'dado_tratado.csv'
df = pd.read_csv(path)

In [None]:
df.head()

## Treino de modelo de regressão - dataset Tips


---


Para treinar um modelo de regressão utilizaremos o pacote sklearn.


### Separação do banco entre treino e teste
O primeiro passo para se treinar um modelo é separar o banco entre treino e teste. Para isso utilizaremos a função train_test_split


``` python
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=.3, random_state=15)
```
No exemplo acima X é um dataframe contendo as features do modelo e Y um dataframe com a variável target.


O parâmetro test_size controla o percentual de dados que será utilizado para teste.


O parâmetro random_state controla a aleatoriedade da geração do dado, permitindo que ao reexecutar o código seja gerado os mesmos bancos de treino e teste.


É importante separar o banco entre treino e teste, pois utilizaremos o banco de treino para treinar modelos e o banco de teste para avaliar os modelos.


### Treino do modelo
Agora que já possuímos os dados de treino e teste vamos treinar o nosso modelo de regressão para isso utilizaremos o módulo LinearRegression


``` python
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, Y_train)
```


No código acima o objeto model é do tipo LinearRegression, nele iremos fazer o ajuste do nosso modelo, realizar predições e também ficará armazenado nele os coeficientes do modelo.


``` python
# Para acessar os coeficientes
model.coef_
# Para acessar o intercepto
model.intercept_
# Para fazer predições
model.predict(Y_test)
```


### Avaliação do modelo
Para avaliar o modelo treinado utilizaremos as métricas vistas na aula teórica.


``` python
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Erro médio quadrado
mean_squared_error(Y_test, X_test)

# Erro médio absoluto
mean_absolute_error(Y_test, X_test)

# R2 score
r2_score(Y_test, X_test)
```

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

### Análise e processamento do dado


---

Exercício:


* Análise o banco de dados de tips através da correlação das variáveis, há correlação?
* Análise as variáveis categóricas e crie variáveis dummy para elas.




### Primeiro modelo


---


Exercício:


* Construa um primeiro modelo utilizando a variável total_bill para explicar a variável tip. Use 30% do banco para teste.


* Qual a interpretação do coeficiente?
* Qual a interpretação do intercepto?
* Faça as análises de apuração do modelo


Dica:


Ao se usar uma única variável é necessário modificar o formato do dado para que ele seja uma matriz. Para isso faça:


``` python
model.fit(np.array(X_train).reshape(-1,1), Y_train)
```




### Modelo completo


---
Exercício:


* Construa um modelo utilizando todas as variáveis disponíveis no banco. Use 30% do banco para teste.


* Qual a interpretação do coeficiente?
* Qual a interpretação do intercepto?
* Faça as análises de apuração do modelo. Este modelo é melhor que o anterior?

Dica:

Para se obter um dataframe com os coeficientes e seus respectivos nomes faça:

``` python
pd.DataFrame(model.coef_, index=X_train.columns[X_train.columns!='tip'])
```

## Treino de modelo de regressão - dataset preço carro

---
Exercício:

* Análise o banco de dados de preço de carros utilizando a correlação.
* Há alguma variável correlacionada?

### Primeiro modelo

---

Exercício:


* Construa um primeiro modelo utilizando a variável kms_driven para explicar a variável price. Use 30% do banco para teste.


* Qual a interpretação do coeficiente?
* Qual a interpretação do intercepto?
* Faça as análises de apuração do modelo

#### Solução

### Modelo completo
---
Exercício:


* Construa um modelo utilizando todas as variáveis disponíveis no banco. Use 30% do banco para teste.

* Qual a interpretação do coeficiente?
* Qual a interpretação do intercepto?
* Faça as análises de apuração do modelo. Este modelo é melhor que o anterior?

Remova as observações em que price é maior que 90 e treine um novo modelo.

* Qual a interpretação do coeficiente?
* Qual a interpretação do intercepto?
* Plot a predição vs valor real, você percebe algo estranho?


### Transformação nos dados
---
Exercício:

* Transforme a variável price para o seu logaritmo
* Ajuste um modelo utilizando o logaritmo
* Plot o exponencial da predição vs valor real. O modelo melhorou?