# 2 - Modelo Linear.ipynb ‚Äî Modelo Preditivo Baseline (Regress√£o Linear)

Este notebook implementa a *primeira vers√£o* de um modelo preditivo para estimar a **demanda hor√°ria** do pronto-socorro.

Seguiremos estas etapas:
1. Sele√ß√£o das features e prepara√ß√£o dos dados
2. Divis√£o treino/teste respeitando series temporais
3. Treinamento do modelo baseline (Regress√£o Linear)
4. Predi√ß√£o
5. Avalia√ß√£o com MAE, RMSE, MAPE e R¬≤
6. Gr√°ficos de diagn√≥stico

---

# 1. Importar bibliotecas e configura√ß√µes iniciais

### 1.0 Instala√ß√µes

In [38]:
# ! pip install scikit-learn

### 1.1 Importa√ß√µes

In [39]:
import pandas as pd
import numpy as np
import altair as alt
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, r2_score, root_mean_squared_error, mean_squared_error

import locale

### 1.2 Configura√ß√µes de bibliotecas

In [40]:
# Desabilitar a limita√ß√£o de linhas em gr√°ficos do Altair
alt.data_transformers.disable_max_rows()

DataTransformerRegistry.enable('default')

In [41]:
locale.setlocale(locale.LC_ALL, 'pt_BR.UTF-8')

'pt_BR.UTF-8'

# 2. Importar e tratar dados

### 2.1 Importando dados

In [42]:
CAMINHO_DADOS = '../data/raw/dataset_pronto_socorro.csv'

df = pd.read_csv(CAMINHO_DADOS)

In [43]:
df.head()

Unnamed: 0,datetime,day_of_week,month,is_weekend,temperature,rain_mm,demand
0,2023-01-01 00:00:00,6,1,1,24.483571,0.353269,29.0
1,2023-01-01 01:00:00,6,1,1,21.308678,5.847757,30.0
2,2023-01-01 02:00:00,6,1,1,25.238443,1.141991,30.0
3,2023-01-01 03:00:00,6,1,1,29.615149,0.524987,33.0
4,2023-01-01 04:00:00,6,1,1,20.829233,0.82061,33.0


### 2.2 Tratamento de Dados

In [44]:
# Converter coluna de data/hora para datetime e definir √≠ndice
if 'datetime' in df.columns:
    df['datetime'] = pd.to_datetime(df['datetime'])
    df = df.set_index('datetime')

In [45]:
# Criando features temporais
df['hour'] = df.index.hour
df['is_weekend'] = df['day_of_week'].isin([5, 6]).astype(int)
df['month'] = df.index.month

# 3 Desenvolvimento de Modelo Preditivo

### 3.1 Sele√ß√£o das vari√°veis do modelo

In [46]:
# Sele√ß√£o das features para o baseline

# Features : Vari√°veis utilizadas para prever a demanda
features = ['hour', 'day_of_week', 'is_weekend', 'month', 'temperature', 'rain_mm']

# Target: Vari√°vel que queremos prever
target = 'demand'

In [47]:
# Definindo os dataframes de features e target
X = df[features]
y = df[target]

### 3.2 Divis√£o dos dados em treino/teste

- **Para s√©ries temporais, √© fundamental respeitar a ordem cronol√≥gica dos eventos**

In [48]:
# Neste caso, est√° sendo utilizada uma separa√ß√£o simples, onde 80% dos dados s√£o usados para treino e 20% para teste.
split_ratio = 0.8
split_point = int(len(df) * split_ratio)

In [49]:
# Divindo os dados em treino e teste
X_train, X_test = X.iloc[:split_point], X.iloc[split_point:]
y_train, y_test = y.iloc[:split_point], y.iloc[split_point:]

In [50]:
print(f"Registros treino: {locale.format_string('%d',len(X_train),grouping=True)}")
print(f"Registros teste:  {locale.format_string('%d',len(X_test),grouping=True)}")

Registros treino: 14.016
Registros teste:  3.505


### 3.3 Treinar Regress√£o Linear (Baseline)

In [51]:
# Treinando o modelo de regress√£o linear
model = LinearRegression()
model.fit(X_train, y_train)

0,1,2
,fit_intercept,True
,copy_X,True
,tol,1e-06
,n_jobs,
,positive,False


In [52]:
# Resultado do modelo
print("Intercepto:", model.intercept_)
print("Coeficientes:")
for feat, coef in zip(features, model.coef_):
    print(f"{feat}: {coef:.4f}")

Intercepto: 26.886682094892613
Coeficientes:
hour: -0.2375
day_of_week: 0.0307
is_weekend: 4.9953
month: -0.6637
temperature: 0.0050
rain_mm: 0.0115


### 3.4 Predi√ß√µes

In [53]:
y_pred = model.predict(X_test)

# 4. An√°lise detalhada do resultado

### 4.1 Criar dataframe com resultados

In [54]:
df_eval = pd.DataFrame({
    "y_true": y_test,
    "y_pred": y_pred
})

In [55]:
# Erro residual
# Residual positivo = modelo subestimou
# Residual negativo = modelo superestimou

df_eval["residual"] = df_eval["y_true"] - df_eval["y_pred"]

In [56]:
df_eval.head()

Unnamed: 0_level_0,y_true,y_pred,residual
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2024-08-07 00:00:00,20.0,21.773658,-1.773658
2024-08-07 01:00:00,19.0,21.524931,-2.524931
2024-08-07 02:00:00,20.0,21.271025,-1.271025
2024-08-07 03:00:00,16.0,21.066547,-5.066547
2024-08-07 04:00:00,21.0,20.79549,0.20451


## 4.2 M√©tricas de Avalia√ß√£o

#### 4.2.1 Erro absoluto m√©dio
https://scikit-learn.org/stable/modules/model_evaluation.html#mean-absolute-error

O **Erro Absoluto M√©dio (MAE)** mede, em m√©dia, o quanto as previs√µes do modelo se afastam dos valores reais, considerando apenas a magnitude do erro. Ele √© calculado pela m√©dia das diferen√ßas absolutas entre o valor observado e o valor predito:

$$\frac{1}{n}\sum_{i=0}^{n-1}|y_{i}-\hat{y}_{i}|$$

- Por trabalhar com valores absolutos, o MAE n√£o penaliza tanto erros grandes quanto outras m√©tricas, como o MSE. 
- Ele √© intuitivo e f√°cil de interpretar: **indica ‚Äúquanto o modelo erra‚Äù, em m√©dia, na mesma unidade da vari√°vel predita**.

**Como avaliar o MAE:**
- Quanto menor o MAE, melhor o desempenho do modelo. 
- Um bom valor depende da escala da vari√°vel-alvo, por isso √© importante compar√°-lo com benchmarks simples (como m√©dias m√≥veis) e com outros modelos testados. 
- Tamb√©m √© √∫til analisar se o MAE √© coerente com o n√≠vel de precis√£o desejado para o problema.

In [57]:
mae = mean_absolute_error(df_eval['y_true'], df_eval['y_pred'])
print("MAE:", mae)

MAE: 3.1658019959167865


#### 4.2.2 Raiz do Erro Quadr√°tico M√©dio

https://scikit-learn.org/stable/modules/model_evaluation.html#mean-squared-error

A **Raiz do Erro Quadr√°tico M√©dio (RMSE)** mede o desvio m√©dio entre valores observados e preditos, mas com uma caracter√≠stica importante: **ela penaliza mais fortemente erros maiores**, pois calcula primeiro o erro quadr√°tico m√©dio (MSE) e depois extrai sua raiz quadrada: 
$$ \sqrt{\frac{1}{n}\sum_{i=0}^{n-1}\left(y_{i}-\hat{y}_{i}\right)^2}$$

**Por elevar os erros ao quadrado, a m√©trica √© mais sens√≠vel a valores discrepantes (outliers) e a previs√µes muito distantes do real.**

**Como avaliar o RMSE:**

- Assim como no MAE, valores menores indicam melhor desempenho. **Por√©m, por penalizar mais erros altos, a RMSE costuma ser maior que o MAE**. 
- √â especialmente √∫til quando erros grandes s√£o mais prejudiciais no contexto do problema. Compare o RMSE com outros modelos e com benchmarks para verificar se o desempenho est√° adequado √† escala e √† necessidade do projeto.


In [58]:
# RMSE penaliza erros grandes ‚Üí √≥timo para detectar picos que o modelo perdeu.
rmse = root_mean_squared_error(df_eval['y_true'], df_eval['y_pred'])
print("RMSE:", rmse)

RMSE: 3.929591882930698


#### 4.2.3 Erro Percentual Absoluto M√©dio

O **Erro Percentual Absoluto M√©dio (MAPE)** expressa, em termos percentuais, o quanto as previs√µes se afastam dos valores reais. Ele calcula a m√©dia dos erros absolutos divididos pelo valor observado, **permitindo interpretar o desempenho do modelo como um percentual de erro**:

$$\frac{100}{ùëõ}\sum_{i=0}^{n-1}\left|\frac{y_i-\hat{y}_i}{y_i}\right|$$

Por ser uma m√©trica percentual, o MAPE facilita a compara√ß√£o entre modelos e entre diferentes escalas de dados. No entanto, pode ser inst√°vel quando valores reais s√£o muito pr√≥ximos de zero, j√° que isso aumenta excessivamente o valor do erro relativo.

**Como avaliar o MAPE:**

- Quanto menor o percentual, melhor o modelo. Como refer√™ncia geral, erros abaixo de 10% costumam indicar boa precis√£o, embora isso dependa do dom√≠nio do problema. 
- √â importante verificar se n√£o h√° muitos valores pequenos em y, pois eles distorcem o MAPE ‚Äî caso isso ocorra, outras m√©tricas podem ser mais adequadas.

In [59]:
# MAPE ajuda a entender o erro percentual, mas pode distorcer quando valores s√£o pequenos.
mape = np.mean(np.abs(df_eval["residual"] / df_eval["y_true"])) * 100
print(f"MAPE: {mape:.2f}%")

MAPE: 18.95%


#### 4.2.4 Coeficiente de Determina√ß√£o (R¬≤)

O **Coeficiente de Determina√ß√£o (R¬≤)** indica qu√£o bem o modelo consegue explicar a variabilidade dos dados reais. **Ele compara o desempenho do modelo com um modelo base que sempre prev√™ a m√©dia dos valores observados**. Sua f√≥rmula geral √©:

$$ 1 - \frac{\sum_{i=0}^{n-1}\left(y_{i}-\hat{y}_{i}\right)^2}{\sum_{i=0}^{n-1}\left(y_{i}-\bar{y}_{i}\right)^2}$$

Um valor de R¬≤ = 1 indica um ajuste perfeito, enquanto R¬≤ = 0 significa que o modelo n√£o √© melhor do que simplesmente prever a m√©dia. Valores negativos podem ocorrer quando o modelo √© pior que o modelo base.

**Como avaliar o R¬≤:**

- Quanto mais pr√≥ximo de 1, melhor o modelo explica a varia√ß√£o dos dados. **Por√©m, √© importante analisar o R¬≤ em conjunto com outras m√©tricas, pois um R¬≤ alto n√£o garante que as previs√µes individuais sejam precisas.** 
- Em s√©ries temporais, especialmente, √© comum que o R¬≤ seja mais baixo devido √† complexidade dos padr√µes.

In [60]:
r2 = r2_score(df_eval['y_true'], df_eval['y_pred'])
print("R¬≤:", r2)

R¬≤: 0.24696353066566212


## 4.3 Distribui√ß√£o dos Res√≠duos

In [61]:
# Se os res√≠duos n√£o forem centrados em 0 ‚Üí vi√©s no modelo.
# Caudas pesadas ‚Üí eventos extremos n√£o capturados.

In [62]:
# Histograma
hist =alt.Chart(df_eval.reset_index()).mark_bar().encode(
    x=alt.X("residual", bin=alt.Bin(maxbins=50), title='Distribui√ß√£o dos Res√≠duos'),
    y=alt.Y('count()',title='Frequ√™ncia')
)
# Linha vertical no zero
linha_zero = (
    alt.Chart(pd.DataFrame({"x": [0]}))
    .mark_rule(color="black")
    .encode(x="x:Q")
)
# KDE (curva suavizada) ‚Äî opcional
kde = (
    alt.Chart(df_eval.reset_index())
    .transform_density(
        "residual",
        as_=["residual", "density"]
    )
    .mark_line(color="red")
    .encode(
        x="residual:Q",
        y="density:Q"
    )
)

(hist + linha_zero + kde).resolve_scale(
    y="independent"
).properties(
    width=600,
    height=300,
    title="Distribui√ß√£o dos res√≠duos"
)


### 4.4 Error por Hora do dia

- Este gr√°fico revela se o modelo falha no come√ßo, meio ou final do dia.
- Se os erros forem sistematicamente altos em certas horas ‚Üí falta de features temporais.

In [63]:
df_hour = df_eval.copy()
df_hour["hour"] = X_test["hour"]

hour_mae = df_hour.groupby("hour",as_index=False)["residual"].apply(lambda x: np.mean(np.abs(x)))
hour_mae.head()

Unnamed: 0,hour,residual
0,0,3.547716
1,1,3.499799
2,2,3.236725
3,3,3.405983
4,4,3.262916


In [73]:
chart = (
    alt.Chart(hour_mae)
    .mark_bar()
    .encode(
        x=alt.X("hour:O", title="Hora do dia"),
        y=alt.Y("residual:Q", title="Erro absoluto m√©dio (MAE)"),
    )
    .properties(
        width=600,
        height=300,
        title="MAE por hora do dia"
    )
)

chart

### 4.5 Erro por dia da Semana

- A demanda hospitalar costuma variar muito entre domingo e segunda.
- Se o baseline n√£o captura ‚Üí ser√° necess√°rio adicionar lags.

In [67]:
df_dow = df_eval.copy()
df_dow["day_of_week"] = X_test["day_of_week"]

dow_mae = df_dow.groupby("day_of_week",as_index=False)["residual"].apply(lambda x: np.mean(np.abs(x)))
dow_mae.head()

Unnamed: 0,day_of_week,residual
0,0,3.16317
1,1,3.164267
2,2,3.210317
3,3,3.201825
4,4,3.117501


In [69]:
chart = (
    alt.Chart(dow_mae)
    .mark_bar()
    .encode(
        x=alt.X("day_of_week:O", title="Dia da Semana"),
        y=alt.Y("residual:Q", title="Erro absoluto m√©dio (MAE)"),
    )
    .properties(
        width=600,
        height=300,
        title="MAE por dia da semana"
    )
)

chart

### 4.6 Compara√ß√£o Real vs. Predi√ß√£o agregado por dia

- Linear Regression pode acertar n√≠vel m√©dio mas errar amplitude.
- Se o modelo suaviza demais ‚Üí pode exigir modelos n√£o lineares.

In [None]:
df_daily = df_eval[["y_true", "y_pred"]].resample("D").sum().reset_index()
df_daily.head()

Unnamed: 0,datetime,y_true,y_pred
0,2024-08-07,421.0,456.728481
1,2024-08-08,399.0,457.370599
2,2024-08-09,381.0,458.047106
3,2024-08-10,518.0,578.68594
4,2024-08-11,523.0,579.392136


In [None]:
# Converte para formato long (necess√°rio para m√∫ltiplas linhas no Altair)
df_long = df_daily.melt(id_vars="datetime", value_vars=["y_true", "y_pred"],
                       var_name="tipo", value_name="valor")
df_long.head()

Unnamed: 0,datetime,tipo,valor
0,2024-08-07,y_true,421.0
1,2024-08-08,y_true,399.0
2,2024-08-09,y_true,381.0
3,2024-08-10,y_true,518.0
4,2024-08-11,y_true,523.0


In [None]:
chart = (
    alt.Chart(df_long)
    .mark_line()
    .encode(
        x=alt.X("datetime:T", title="Data"),
        y=alt.Y("valor:Q", title="Demanda"),
        color=alt.Color("tipo:N", title="S√©rie", scale=alt.Scale(
            domain=["y_true", "y_pred"],
            range=["black", "steelblue"]
        )),
        tooltip=["data:T", "tipo:N", "valor:Q"]
    )
    .properties(
        width=1400,
        height=700,
        title="Demanda di√°ria ‚Äî Real vs Prevista"
    )
)

chart

### 4.7 Res√≠duos ao longo de tempo

- Ver se h√° per√≠odos em que o modelo erra sistematicamente (vi√©s temporal).
- Ver se h√° heterocedasticidade (erro aumenta em per√≠odos de pico).

In [None]:
# Linha dos res√≠duos
residual_line = (
    alt.Chart(df_eval.reset_index())
    .mark_line()
    .encode(
        x=alt.X("datetime:T", title="Data"),
        y=alt.Y("residual:Q", title="Res√≠duo")
    )
)

# Linha horizontal em zero
linha_zero = (
    alt.Chart(pd.DataFrame({"y": [0]}))
    .mark_rule(color="black")
    .encode(y="y:Q")
)

chart = (
    (residual_line + linha_zero)
    .properties(
        width=1200,
        height=400,
        title="Res√≠duos ao longo do tempo"
    )
)

chart

### 4.8 Interpreta√ß√£o dos coeficientes do modelo

- coef > 0 ‚Üí aumenta demanda
- coef < 0 ‚Üí reduz demanda
  
- Permite validar coer√™ncia com conhecimento hospitalar.

In [None]:
coef_df = pd.DataFrame({
    "feature": features,
    "coef": model.coef_
})

coef_df.sort_values("coef", ascending=False)

Unnamed: 0,feature,coef
2,is_weekend,4.995281
1,dayofweek,0.030721
5,rain_mm,0.011516
4,temperature,0.005007
0,hour,-0.237546
3,month,-0.663652


### 4.9 Import√¢ncia padronizada (coef*std)

- Isso mostra quais vari√°veis mais impactam a previs√£o na pr√°tica.
- Muito √∫til para justificar a evolu√ß√£o do modelo.

In [None]:
stds = X_train.std()

coef_imp_df = pd.DataFrame({
    "feature": features,
    "coef": model.coef_,
    "std": stds,
})

coef_imp_df["importance_std"] = coef_imp_df["coef"] * coef_imp_df["std"]
coef_imp_df.sort_values("importance_std", ascending=False)

Unnamed: 0,feature,coef,std,importance_std
is_weekend,is_weekend,4.995281,0.451886,2.257298
dayofweek,dayofweek,0.030721,2.004345,0.061575
temperature,temperature,0.005007,5.009017,0.025078
rain_mm,rain_mm,0.011516,0.990856,0.011411
hour,hour,-0.237546,6.922434,-1.6444
month,month,-0.663652,3.227015,-2.141613


# 5. Conclus√£o

- Com os resultados obtidos, podemos notar que apesar de ser capaz de estimar o valor m√©dio pr√≥ximo, o modelo de regress√£o linear utilizando apenas estas informa√ß√µes b√°sicas, falha em prever oscila√ß√µes entre horas e dias.
- Apesar do bom resultado, mesmo para um modelo e modelagem de dados simples, temos como pr√≥ximos passos para melhorar o resultado deste modelo, incorporar vari√°veis que auxiliem o modelo na identifica√ß√£o de padr√µes na s√©rie temporal, como janelas de m√©dias e desvios m√≥veis, bem como o hist√≥rico da demanda em algumas janelas de tempo.