# Regressão - Treino do modelo
---
**Aula Prática 03**: Treinando modelo de regressão linear

**Objetivo**: Este notebook é uma aula prática focada no treinamento de modelos de regressão linear. Ele abrange desde a importação e preparação dos dados até a construção e avaliação de modelos de regressão. O objetivo principal é fornecer uma compreensão prática de como treinar e avaliar modelos de regressão linear utilizando diferentes conjuntos de dados.

Banco de dados:

**Gorjeta em restaurante**:

Dataset disponibilizado pelo pacote plotly

"One waiter recorded information about each tip he received over a period of a few months working in one restaurant. He collected several variables:

* tip in dollars,

* bill in dollars,

* sex of the bill payer,

* whether there were smokers in the party,

* day of the week,

* time of day,

* size of the party."

**Preço de carros usados**

[Disponivel no kaggle](https://www.kaggle.com/datasets/rishabhkarn/used-car-dataset/data)

[Disponível para download](https://drive.google.com/file/d/1Ny6GypPH4AtJi6CJHmEUEI3KN11hDuGG/view?usp=drive_link)

Usaremos o dado tratado na aula 2

## Import das principais funções e leitura dos dados


---

In [2]:
import pandas as pd #pacote para leitura dos dados
import numpy as np
import plotly.express as px

In [3]:
df_tips = px.data.tips()

In [4]:
df_tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [15]:
path = 'dado_tratado.csv'
df = pd.read_csv(path)

In [14]:
df.head()

Unnamed: 0,seats,kms_driven,mileage,engine,max_power,torque,price,registration_tratada_antes_2010,registration_tratada_depois 2020,fuel_type_Diesel,fuel_type_Petrol,ownsership_tratado_First Owner,ownsership_tratado_None,ownsership_tratado_Second Owner,ownsership_tratado_Third Owner,transmission_tratado_Manual,transmission_tratado_None
0,5,56000,7.81,2996.0,2996.0,333.0,63.75,False,False,False,True,True,False,False,False,False,False
1,5,30615,17.4,999.0,999.0,9863.0,8.99,False,True,False,True,True,False,False,False,False,False
2,5,24000,20.68,1995.0,1995.0,188.0,23.75,False,False,True,False,True,False,False,False,False,False
3,5,18378,16.5,1353.0,1353.0,13808.0,13.56,False,False,False,True,True,False,False,False,True,False
4,5,44900,14.67,1798.0,1798.0,17746.0,24.0,False,False,False,True,True,False,False,False,False,False


## Treino de modelo de regressão - dataset Tips

---


Para treinar um modelo de regressão utilizaremos o pacote sklearn.


### Separação do banco entre treino e teste
O primeiro passo para treinar um modelo é separar os dados em conjuntos de treino e teste. Para isso, utilizaremos a função `train_test_split` do `sklearn`.


``` python
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=.3, random_state=15)
```
* X: DataFrame contendo as features do modelo.
* Y: DataFrame contendo a variável target.
* test_size: Percentual de dados que será utilizado para teste (neste caso, 30%).
* random_state: Controla a aleatoriedade da divisão dos dados, garantindo reprodutibilidade.

Separar os dados em treino e teste é crucial para que possamos treinar o modelo com um conjunto de dados e avaliá-lo com outro, garantindo uma avaliação imparcial da performance do modelo.

### Treinamento do Modelo
Com os dados de treino e teste preparados, vamos treinar o nosso modelo de regressão linear utilizando o módulo `LinearRegression` do `sklearn`.


``` python
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, Y_train)
```


No código acima:
* model: Objeto do tipo LinearRegression que será utilizado para ajustar o modelo, realizar predições e armazenar os coeficientes do modelo.


``` python
# Para acessar os coeficientes
model.coef_
# Para acessar o intercepto
model.intercept_
# Para fazer predições
model.predict(Y_test)
```


### Avaliação do modelo
Para avaliar o modelo treinado, utilizaremos as métricas discutidas na aula teórica: erro médio quadrado, erro médio absoluto e o coeficiente de determinação (R²).


``` python
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Erro médio quadrado
mean_squared_error(Y_test, Y_predict)

# Erro médio absoluto
mean_absolute_error(Y_test, Y_predict)

# R2 score
r2_score(Y_test, Y_predict)
```

* mean_squared_error: Calcula o erro médio quadrado entre os valores preditos e os valores reais.
* mean_absolute_error: Calcula o erro médio absoluto entre os valores preditos e os valores reais.
* r2_score: Calcula o coeficiente de determinação, que indica a proporção da variância dos dados que é explicada pelo modelo.

In [22]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.model_selection import train_test_split


### Análise e processamento do dado

---

Exercício:


* Análise o banco de dados de tips através da correlação das variáveis, há correlação?
* Análise as variáveis categóricas e crie variáveis dummy para elas.


### Primeiro modelo


---


Exercício:


1. Construção do Modelo:

* Construa um modelo de regressão linear utilizando a variável total_bill para explicar a variável tip.
* Utilize 30% dos dados para o conjunto de teste.

2. Interpretação dos Coeficientes:
* Coeficiente: Qual é a interpretação do coeficiente da variável total_bill?
* Intercepto: Qual é a interpretação do intercepto do modelo?

3. Análise do Modelo:

* Realize as análises de apuração do modelo, incluindo métricas de avaliação como erro médio quadrado, erro médio absoluto e o coeficiente de determinação (R²).


Dica:

Ao utilizar uma única variável como preditora, é necessário modificar o formato dos dados para que eles sejam interpretados como uma matriz. Para isso, utilize o seguinte código:


``` python
model.fit(np.array(X_train).reshape(-1,1), Y_train)
```


In [42]:
X_train, X_test, Y_train, Y_test = train_test_split(df_tips['total_bill'], df_tips['tip'], test_size=.3, random_state=15)


In [43]:
np.array(X_train)

array([10.33, 32.4 , 22.82,  9.78, 40.17,  7.25,  7.56, 17.82, 15.69,
       41.19, 17.81, 13.27, 17.07, 15.69, 21.16, 24.01, 18.35, 26.41,
       30.14, 26.86, 26.59, 40.55, 10.65, 12.16, 31.85, 14.73, 20.08,
       35.26, 28.55, 34.81, 23.68, 48.27, 25.29, 34.63, 10.63, 18.43,
       20.23, 16.99, 22.49, 24.52, 17.31, 11.87, 43.11, 12.69, 20.27,
        7.74,  3.07, 18.29, 15.81, 11.59, 28.17, 13.16, 21.01, 13.81,
       27.2 , 16.27, 17.26, 20.29, 11.35, 17.51, 20.69, 34.3 , 17.78,
       25.56, 15.95, 18.24,  8.35, 30.06, 13.39, 10.07, 14.83, 24.06,
       22.23, 24.55, 38.07, 25.28, 15.01, 20.53, 22.42, 15.98, 21.7 ,
       28.15, 12.02,  9.6 , 20.45, 10.33, 12.66, 28.97, 16.97, 18.28,
       13.13, 10.09, 10.29, 16.66, 13.94, 19.08, 20.69, 11.61,  8.52,
       14.  , 24.71, 17.92, 19.65, 12.6 , 27.18, 28.44, 12.76, 32.68,
       18.29, 19.82,  8.51, 50.81, 16.45, 26.88, 24.59, 12.46, 35.83,
       25.89, 20.92, 19.81, 15.77, 10.59, 10.07, 17.46, 13.  ,  9.94,
       15.48, 12.54,

In [44]:
model = LinearRegression()
model.fit(np.array(X_train).reshape(-1, 1), Y_train)


# generate confusion matrix
print(model.coef_)
print(model.intercept_)

[0.10460459]
0.9544635765372393


### Modelo completo


---
Exercício:

1. Construção do Modelo:

* Construa um modelo de regressão linear utilizando todas as variáveis disponíveis no conjunto de dados.
* Utilize 30% dos dados para o conjunto de teste.

2. Interpretação dos Coeficientes:

* Coeficientes: Qual é a interpretação dos coeficientes das variáveis preditoras?
* Intercepto: Qual é a interpretação do intercepto do modelo?

3. Análise do Modelo:

* Realize a avaliação do modelo utilizando métricas como erro médio quadrado (MSE), erro médio absoluto (MAE) e o coeficiente de determinação (R²).
* Compare este modelo com o modelo anterior. Este modelo é melhor?

Dica:
Para obter um DataFrame com os coeficientes e seus respectivos nomes, utilize o seguinte código:

``` python
pd.DataFrame(model.coef_, index=X_train.columns[X_train.columns!='tip'])
```

In [72]:
from sklearn.linear_model import LinearRegression

variaveis = df_tips.columns[df_tips.columns!='tip']
df_tips[variaveis]

Unnamed: 0,total_bill,size,sex_Male,smoker_Yes,day_Sat,day_Sun,day_Thur,time_Lunch
0,16.99,2,0,0,0,1,0,0
1,10.34,3,1,0,0,1,0,0
2,21.01,3,1,0,0,1,0,0
3,23.68,2,1,0,0,1,0,0
4,24.59,4,0,0,0,1,0,0
...,...,...,...,...,...,...,...,...
239,29.03,3,1,0,1,0,0,0
240,27.18,2,0,1,1,0,0,0
241,22.67,2,1,1,1,0,0,0
242,17.82,2,1,0,1,0,0,0


In [66]:
from sklearn.linear_model import LinearRegression

X_train, X_test, Y_train, Y_test = train_test_split(df_tips[variaveis], df_tips['tip'], test_size=.3, random_state=15)


df_tips = pd.get_dummies(df_tips, drop_first=True)
df_tips.head()

# Convert true and false to 1 and 

Unnamed: 0,total_bill,tip,size,sex_Male,smoker_Yes,day_Sat,day_Sun,day_Thur,time_Lunch
0,16.99,1.01,2,False,False,False,True,False,False
1,10.34,1.66,3,True,False,False,True,False,False
2,21.01,3.5,3,True,False,False,True,False,False
3,23.68,3.31,2,True,False,False,True,False,False
4,24.59,3.61,4,False,False,False,True,False,False


In [67]:
col_change = df_tips.dtypes[df_tips.dtypes == bool].index
for col in col_change:
  df_tips[col] = df_tips[col].astype(int)

KeyError: "['sex', 'smoker', 'day', 'time'] not in index"

## Treino de modelo de regressão - dataset preço carro

---
Exercício:
1. Análise de Correlação:
* Analise o conjunto de dados de preços de carros utilizando a matriz de correlação.
* Identifique se há alguma variável fortemente correlacionada com o preço dos carros.

### Primeiro modelo

---

Exercício:

1. Construção do Modelo:

* Construa um modelo de regressão linear utilizando a variável kms_driven para prever a variável price.
* Utilize 30% dos dados para o conjunto de teste.

2. Interpretação dos Coeficientes:

* Coeficiente: Qual é a interpretação do coeficiente da variável kms_driven?
* Intercepto: Qual é a interpretação do intercepto do modelo?

3. Análise do Modelo:

* Realize a avaliação do modelo utilizando métricas como erro médio quadrado (MSE), erro médio absoluto (MAE) e o coeficiente de determinação (R²).

### Modelo completo
---
Exercício:

1. Construção do Modelo:

* Construa um modelo de regressão linear utilizando todas as variáveis disponíveis no conjunto de dados.
* Utilize 30% dos dados para o conjunto de teste.

2. Interpretação dos Coeficientes:

* Coeficientes: Qual é a interpretação dos coeficientes das variáveis preditoras?
* Intercepto: Qual é a interpretação do intercepto do modelo?

3. Análise do Modelo:

* Realize a avaliação do modelo utilizando métricas como erro médio quadrado (MSE), erro médio absoluto (MAE) e o coeficiente de determinação (R²).
* Compare este modelo com o modelo anterior. Este modelo é melhor?

4. Ajuste do Modelo com Dados Filtrados:

* Remova as observações em que o preço (price) é maior que 90.
* Treine um novo modelo com os dados filtrados.

5. Interpretação dos Coeficientes (Modelo Filtrado):

* Coeficientes: Qual é a interpretação dos coeficientes das variáveis preditoras no novo modelo?
* Intercepto: Qual é a interpretação do intercepto do novo modelo?

6. Visualização das Predições:

* Plote um gráfico de predição vs. valor real.
* Você percebe algo estranho no gráfico?


### Transformação nos dados
---
Exercício:

1. Transformação da Variável price:

* Aplique a transformação logarítmica na variável price.

2. Ajuste do Modelo:

* Construa um modelo de regressão linear utilizando o logaritmo da variável price.

3. Visualização das Predições:

* Plote o exponencial das predições versus os valores reais.
* Avalie se o modelo melhorou após a transformação.