<h1 style='color: green; font-size: 36px; font-weight: bold;'>Projeto de Regressão Linear</h1>

# <font color='red' style='font-size: 30px;'>Estimando um Modelo de Regressão Linear para o Consumo</font>
<hr style='border: 2px solid red;'>


**Objetivo notebook**

O objetivo desse notebook é construir alguns modelos de `Regressão Linear`.

# Regresão Linear
<hr>

<p style='font-size: 20px; line-height: 2; margin: 10px 50px; text-align: justify;'>A análise de regressão diz respeito ao estudo da dependência de uma variável (a variável <b>dependente</b>) em relação a uma ou mais variáveis, as variáveis explanatórias, visando estimar e/ou prever o valor médio da primeira em termos dos valores conhecidos ou fixados das segundas.</p>

## Importando bibliotecas

In [1]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style("darkgrid")
%matplotlib inline


## Leitura dos dados

In [2]:
dados = pd.read_csv('../Data/raw/Consumo_cerveja.csv', sep=';')
dados.head(5)

Unnamed: 0,data,temp_media,temp_min,temp_max,chuva,fds,consumo
0,01/01/2015,27.3,23.9,32.5,0.0,0,25461
1,02/01/2015,27.02,24.5,33.5,0.0,0,28972
2,03/01/2015,24.82,22.4,29.9,0.0,1,30814
3,04/01/2015,23.98,21.5,28.6,1.2,1,29799
4,05/01/2015,23.82,21.0,28.3,0.0,0,28900


## Criando os datasets de treino e de teste

In [3]:
from sklearn.model_selection import train_test_split

In [4]:
y = dados['consumo']
X = dados[['temp_max', 'chuva', 'fds']]

In [5]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=2811)

# Salva os conjuntos em arquivos CSV
X_train.to_csv('../Data/processed/X_train_1.csv', index=False)
X_test.to_csv('../Data/processed/X_test_1.csv', index=False)

y_train.to_frame(name='target').to_csv('../Data/processed/y_train_1.csv', index=False)
y_test.to_frame(name='target').to_csv('../Data/processed/y_test_1.csv', index=False)

In [6]:
print(f'Tamanho do conjunto de treino: {X_train.shape}')
print(f'Tamanho do conjunto de teste: {X_test.shape}')

Tamanho do conjunto de treino: (255, 3)
Tamanho do conjunto de teste: (110, 3)


In [7]:
X_train.head(5)

Unnamed: 0,temp_max,chuva,fds
195,27.6,0.0,0
344,30.3,0.0,0
288,35.7,0.0,0
59,26.3,3.0,1
220,26.2,0.0,1


## Instanciando a classe *LinearRegression()* e treinando

In [8]:
from sklearn.linear_model import LinearRegression
from sklearn import metrics

In [9]:
modelo = LinearRegression()
modelo.fit(X_train, y_train)

In [10]:
import pickle

# Salvar
with open('../models/linear_regression_1.pkl', 'wb') as f:
    pickle.dump(modelo, f)


## Coeficiente de Determinação - R²

### 📈 Interpretação de R² em Regressão Linear

O coeficiente de determinação (R²) é uma medida resumida que diz quanto a linha de regressão ajusta-se aos dados. É um valor entra 0 e 1.

---

### ✅ 1. `modelo.score(X_train, y_train)`

**O que faz:**

Calcula o **coeficiente de determinação R²** no **conjunto de treino**.

$$
R^2 = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2}
$$


**Interpretação:**

- **1.0** → modelo explica perfeitamente a variabilidade.
- **0.0** → modelo não explica nada além da média.
- **Valor negativo** → modelo pior que um modelo que apenas prediz a média.

---

### ✅ 2. `metrics.r2_score(y_test, y_previsto)`

**O que faz:**

Calcula o **R² no conjunto de teste**, comparando os valores reais com os previstos.

**Equivalente a:**

```python
modelo.score(X_test, y_test)
```

**Utilidade:**

Avalia a **capacidade preditiva** do modelo em dados nunca vistos. Ideal para verificar **overfitting** ou **underfitting**.

---

🧠 **Resumo**

Use `score()` para verificar o ajuste em treino e `r2_score()` para desempenho em teste. 

### Obtendo o coeficiente de determinação (R²) do modelo estimado com os dados de TREINO

In [11]:
X_train.head(3)

Unnamed: 0,temp_max,chuva,fds
195,27.6,0.0,0
344,30.3,0.0,0
288,35.7,0.0,0


In [12]:
y_train[0:3]

195    28742
344    30740
288    27387
Name: consumo, dtype: int64

In [13]:
coef_r2_train = modelo.score(X_train, y_train)
print(f'Coeficiente de Determinação (R²): {coef_r2_train}')

Coeficiente de Determinação (R²): 0.7336167014928967


### Previsões

In [14]:
y_previsto = modelo.predict(X_test)
y_previsto[:5]

array([26094.90177526, 25056.13191497, 23852.14792684, 29361.63643926,
       25603.92132216])

### Coeficiente de Determinação (R²) para as previsões

In [15]:
y_test[0:3]

5     28218
83    22401
40    21137
Name: consumo, dtype: int64

In [16]:
y_previsto[0:3]

array([26094.90177526, 25056.13191497, 23852.14792684])

In [17]:
coef_r2_test = metrics.r2_score(y_test, y_previsto)
print(f'Coeficiente de Determinação (R²): {coef_r2_test}')

Coeficiente de Determinação (R²): 0.690736466775069


In [18]:
# Ele internamente calcula y_pred = modelo.predict(X_test) e depois aplica r2_score.
modelo.score(X_test, y_test)

0.690736466775069

# <font color='red' style='font-size: 30px;'>Obtendo Previsões Pontuais</font>
<hr style='border: 2px solid red;'>

In [19]:
entrada = X_test[0:1]
entrada

Unnamed: 0,temp_max,chuva,fds
5,30.5,12.2,0


In [20]:
modelo.predict(entrada)[0]

np.float64(26094.901775262017)

In [21]:
temp_max=40
chuva=0
fds=1

entrada = pd.DataFrame(
    [[temp_max, chuva, fds]], 
    columns=['temp_max', 'chuva', 'fds'])


print(f'Previsão estimada: {modelo.predict(entrada)[0]}')

Previsão estimada: 38742.53003734184
