#Regressão - Treino do modelo
---
**Aula Prática 03**: Treinando modelo de regressão linear

**Objetivo**: Treinar um modelo de regressão linear

Banco de dados:

**Gorjeta em restaurante**:

Dataset disponibilizado pelo pacote plotly

"One waiter recorded information about each tip he received over a period of a few months working in one restaurant. He collected several variables:

* tip in dollars,

* bill in dollars,

* sex of the bill payer,

* whether there were smokers in the party,

* day of the week,

* time of day,

* size of the party."

**Preço de carros usados**

[Disponivel no kaggle](https://www.kaggle.com/datasets/rishabhkarn/used-car-dataset/data)

[Disponível para download](https://drive.google.com/file/d/1Ny6GypPH4AtJi6CJHmEUEI3KN11hDuGG/view?usp=drive_link)

Usaremos o dado tratado na aula 2

##Import das principais funções e leitura dos dados


---

In [1]:
import pandas as pd #pacote para leitura dos dados
import numpy as np
import plotly.express as px

In [14]:
df_tips = px.data.tips()

In [3]:
df_tips.head()

In [4]:
path = 'dado_tratado.csv'
df = pd.read_csv(path)

In [5]:
df.head()

## Treino de modelo de regressão - dataset Tips


---


Para treinar um modelo de regressão utilizaremos o pacote sklearn.


### Separação do banco entre treino e teste
O primeiro passo para se treinar um modelo é separar o banco entre treino e teste. Para isso utilizaremos a função train_test_split


``` python
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=.3, random_state=15)
```
No exemplo acima X é um dataframe contendo as features do modelo e Y um dataframe com a variável target.


O parâmetro test_size controla o percentual de dados que será utilizado para teste.


O parâmetro random_state controla a aleatoriedade da geração do dado, permitindo que ao reexecutar o código seja gerado os mesmos bancos de treino e teste.


É importante separar o banco entre treino e teste, pois utilizaremos o banco de treino para treinar modelos e o banco de teste para avaliar os modelos.


### Treino do modelo
Agora que já possuímos os dados de treino e teste vamos treinar o nosso modelo de regressão para isso utilizaremos o módulo LinearRegression


``` python
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, Y_train)
```


No código acima o objeto model é do tipo LinearRegression, nele iremos fazer o ajuste do nosso modelo, realizar predições e também ficará armazenado nele os coeficientes do modelo.


``` python
# Para acessar os coeficientes
model.coef_
# Para acessar o intercepto
model.intercept_
# Para fazer predições
model.predict(Y_test)
```


### Avaliação do modelo
Para avaliar o modelo treinado utilizaremos as métricas vistas na aula teórica.


``` python
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Erro médio quadrado
mean_squared_error(Y_test, Y_predict)

# Erro médio absoluto
mean_absolute_error(Y_test, Y_predict)

# R2 score
r2_score(Y_test, Y_predict)
```

In [6]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

### Análise e processamento do dado


---

Exercício:


* Análise o banco de dados de tips através da correlação das variáveis, há correlação?
* Análise as variáveis categóricas e crie variáveis dummy para elas.




#### Solução

In [16]:
df_tips.corr(numeric_only=True)

In [8]:
df_tips[['sex']].value_counts(dropna=False)

In [9]:
df_tips[['smoker']].value_counts(dropna=False)

In [10]:
df_tips[['day']].value_counts(dropna=False)

In [11]:
df_tips[['time']].value_counts(dropna=False)

In [12]:
df_tips = pd.get_dummies(df_tips, drop_first=True)
df_tips.head()

### Primeiro modelo


---


Exercício:


* Construa um primeiro modelo utilizando a variável total_bill para explicar a variável tip. Use 30% do banco para teste.


* Qual a interpretação do coeficiente?
* Qual a interpretação do intercepto?
* Faça as análises de apuração do modelo


Dica:


Ao se usar uma única variável é necessário modificar o formato do dado para que ele seja uma matriz. Para isso faça:


``` python
model.fit(np.array(X_train).reshape(-1,1), Y_train)
```




#### Solução

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(df_tips['total_bill'],
                                                    df_tips['tip'],
                                                    test_size=.3,
                                                    random_state=15)

In [None]:
X_train.head()

In [None]:
model = LinearRegression()
model.fit(np.array(X_train).reshape(-1,1), Y_train)

In [None]:
model.coef_

In [None]:
model.intercept_

In [None]:
x_range = np.arange(0,10)

px.line(x=x_range, y=model.predict(x_range.reshape(-1,1)))

In [None]:
predicao = model.predict(np.array(X_test).reshape(-1,1))
real = Y_test


px.scatter(x=X_test, y=[Y_test, predicao])

In [None]:
mean_squared_error(Y_test, model.predict(np.array(X_test).reshape(-1,1)))

In [None]:
mean_absolute_error(Y_test, model.predict(np.array(X_test).reshape(-1,1)))

In [None]:
r2_score(Y_test, model.predict(np.array(X_test).reshape(-1,1)))

### Modelo completo


---
Exercício:


* Construa um modelo utilizando todas as variáveis disponíveis no banco. Use 30% do banco para teste.


* Qual a interpretação do coeficiente?
* Qual a interpretação do intercepto?
* Faça as análises de apuração do modelo. Este modelo é melhor que o anterior?

Dica:

Para se obter um dataframe com os coeficientes e seus respectivos nomes faça:

``` python
pd.DataFrame(model.coef_, index=X_train.columns[X_train.columns!='tip'])
```

#### Solução

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(df_tips.loc[:, df_tips.columns != 'tip'],
                                                    df_tips['tip'],
                                                    test_size=.3,
                                                    random_state=15)

In [None]:
model = LinearRegression()
model.fit(X_train, Y_train)

In [None]:
pd.DataFrame(model.coef_, index=df_tips.columns[df_tips.columns!='tip'])

In [None]:
model.intercept_

In [None]:
mean_squared_error(Y_test, model.predict(X_test))

In [None]:
mean_absolute_error(Y_test, model.predict(X_test))

In [None]:
r2_score(Y_test, model.predict(X_test))

## Treino de modelo de regressão - dataset preço carro

---
Exercício:

* Análise o banco de dados de preço de carros utilizando a correlação.
* Há alguma variável correlacionada?

#### Solução

In [None]:
df.corr()

In [None]:
df = df.drop(columns=['max_power'])

In [None]:
df[df.transmission_tratado_None==1]

In [None]:
df=df[df.transmission_tratado_None==0]

In [None]:
df = df.drop(columns=['ownsership_tratado_None', 'transmission_tratado_None'])

### Primeiro modelo

---

Exercício:


* Construa um primeiro modelo utilizando a variável kms_driven para explicar a variável price. Use 30% do banco para teste.


* Qual a interpretação do coeficiente?
* Qual a interpretação do intercepto?
* Faça as análises de apuração do modelo

#### Solução

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(df['kms_driven'],
                                                    df['price'],
                                                    test_size=.3,
                                                    random_state=15)

In [None]:
X_train.head()

In [None]:
Y_train.head()

In [None]:
X_train.shape, X_test.shape

In [None]:
model = LinearRegression()
model.fit(np.array(X_train).reshape(-1,1), Y_train)

In [None]:
model.coef_

In [None]:
model.intercept_

In [None]:
model.predict(np.array([[100]]))

In [None]:
import plotly.express as px

x_range = np.arange(0,10000)

px.line(x=x_range, y=model.predict(x_range.reshape(-1,1)))

In [None]:
px.scatter(x=X_train, y=Y_train, trendline="ols")

In [None]:
mean_squared_error(Y_test, model.predict(np.array(X_test).reshape(-1,1)))

In [None]:
mean_absolute_error(Y_test, model.predict(np.array(X_test).reshape(-1,1)))

In [None]:
r2_score(Y_test, model.predict(np.array(X_test).reshape(-1,1)))

### Modelo completo
---
Exercício:


* Construa um modelo utilizando todas as variáveis disponíveis no banco. Use 30% do banco para teste.

* Qual a interpretação do coeficiente?
* Qual a interpretação do intercepto?
* Faça as análises de apuração do modelo. Este modelo é melhor que o anterior?

Remova as observações em que price é maior que 90 e treine um novo modelo.

* Qual a interpretação do coeficiente?
* Qual a interpretação do intercepto?
* Plot a predição vs valor real, você percebe algo estranho?


#### Solução

In [None]:
var = [col for col in df.columns if col!='price']

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(df[var],
                                                    df['price'],
                                                    test_size=.3,
                                                    random_state=15)

In [None]:
model = LinearRegression()
model.fit(X_train, Y_train)

In [None]:
pd.DataFrame(model.coef_, index=var)

In [None]:
df.price.quantile([.9, .95, .99])

In [None]:
df = df[df.price < 90]

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(df[var],
                                                    df['price'],
                                                    test_size=.3,
                                                    random_state=15)
model = LinearRegression()
model.fit(X_train, Y_train)

In [None]:
pd.DataFrame(model.coef_, index=var)

In [None]:
model.intercept_

In [None]:
r2_score(Y_test, model.predict(X_test))

In [None]:
mean_absolute_error(Y_test, model.predict(X_test))

In [None]:
px.scatter(x=Y_train, y=model.predict(X_train))

### Transformação nos dados
---
Exercício:

* Transforme a variável price para o seu logaritmo
* Ajuste um modelo utilizando o logaritmo
* Plot o exponencial da predição vs valor real. O modelo melhorou?

#### Solução

In [None]:
model = LinearRegression()
model.fit(X_train, np.log(Y_train))
pd.DataFrame(np.round(model.coef_,4), index=var)

In [None]:
px.scatter(x=np.log(Y_train), y=model.predict(X_train))

In [None]:
px.scatter(x=Y_test, y=np.exp(model.predict(X_test)))