# An√°lise de S√©ries Temporais - Dados Clim√°ticos NOAA

## Projeto de Previs√£o de Temperaturas - S√£o Paulo, Brasil

Este notebook realiza uma an√°lise completa de s√©ries temporais utilizando dados clim√°ticos da NOAA, incluindo:
- Coleta e explora√ß√£o de dados
- Prepara√ß√£o e tratamento
- Modelagem preditiva com m√∫ltiplos modelos
- Avalia√ß√£o e compara√ß√£o de modelos
- Dashboard interativo

**Fonte dos Dados:** NOAA GHCNh (Global Historical Climatology Network - Hourly)
**Localiza√ß√£o:** S√£o Paulo, Brasil
**Formato:** PSV (Pipe-Separated Values) - Dados hor√°rios agregados em di√°rios


In [None]:
# Importa√ß√£o de bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import plotly.express as px
from datetime import datetime, timedelta
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√µes de visualiza√ß√£o
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (14, 6)
plt.rcParams['font.size'] = 10

# Bibliotecas para modelagem
from statsmodels.tsa.stattools import adfuller, acf, pacf
from statsmodels.tsa.seasonal import seasonal_decompose
from statsmodels.tsa.arima.model import ARIMA
from statsmodels.tsa.statespace.sarimax import SARIMAX
from statsmodels.tsa.holtwinters import ExponentialSmoothing
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf

# Prophet
from prophet import Prophet

# Scikit-learn
from sklearn.preprocessing import MinMaxScaler, StandardScaler
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# TensorFlow/Keras para LSTM
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout
from tensorflow.keras.callbacks import EarlyStopping

# Auto ARIMA
try:
    from pmdarima import auto_arima
    AUTO_ARIMA_AVAILABLE = True
except ImportError:
    AUTO_ARIMA_AVAILABLE = False
    print("pmdarima n√£o dispon√≠vel. Instale com: pip install pmdarima")

print("Bibliotecas importadas com sucesso!")
print(f"TensorFlow vers√£o: {tf.__version__}")
print(f"Pandas vers√£o: {pd.__version__}")


: 

# Etapa 1: Coleta e Explora√ß√£o de Dados (EDA)

## 1.1. Aquisi√ß√£o dos Dados

Vamos carregar dados clim√°ticos do arquivo PSV local. Utilizaremos dados de temperatura de S√£o Paulo, Brasil, do GHCNh (Global Historical Climatology Network - Hourly).


In [None]:
# Fun√ß√£o para carregar dados do arquivo PSV local (S√£o Paulo, Brasil)
# Usa apenas arquivo local, sem conex√£o com internet

import os

def load_ghcnh_psv(file_path='data/GHCNh_AAI0000TNCA_2025.psv'):
    """
    Carrega e processa arquivo PSV do GHCNh (Global Historical Climatology Network - Hourly).
    
    Esta fun√ß√£o:
    1. L√™ o arquivo PSV (pipe-separated values)
    2. Converte dados hor√°rios em dados di√°rios (m√©dia, min, max)
    3. Retorna DataFrame pronto para an√°lise
    
    Par√¢metros:
    -----------
    file_path : str
        Caminho para o arquivo .psv (padr√£o: data/GHCNh_AAI0000TNCA_2025.psv)
        
    Retorna:
    --------
    pd.DataFrame com dados processados (di√°rio) ou None se falhar
    """
    try:
        print("=" * 80)
        print("CARREGAMENTO DE DADOS PSV - GHCNh")
        print("=" * 80)
        print(f"\nArquivo: {file_path}")
        
        if not os.path.exists(file_path):
            print(f"\n‚ùå Erro: Arquivo n√£o encontrado: {file_path}")
            print("\nPor favor, certifique-se de que o arquivo PSV est√° na pasta 'data/'")
            return None
        
        print(f"‚úì Arquivo encontrado!")
        print(f"\nLendo arquivo PSV...")
        
        # Ler arquivo PSV (pipe-separated values)
        df = pd.read_csv(file_path, sep='|', low_memory=False)
        print(f"  Total de registros hor√°rios: {len(df):,}")
        
        # Informa√ß√µes sobre a esta√ß√£o
        if 'Station_name' in df.columns and len(df) > 0:
            station_name = df['Station_name'].iloc[0]
            print(f"  Esta√ß√£o: {station_name}")
        
        if 'STATION' in df.columns and len(df) > 0:
            station_code = df['STATION'].iloc[0]
            print(f"  C√≥digo: {station_code}")
        
        # Converter coluna DATE para datetime
        if 'DATE' not in df.columns:
            print("‚ùå Erro: Coluna 'DATE' n√£o encontrada no arquivo")
            return None
        
        print(f"  Convertendo datas...")
        df['DATE'] = pd.to_datetime(df['DATE'])
        
        # Informa√ß√µes sobre o per√≠odo
        print(f"  Per√≠odo: {df['DATE'].min()} a {df['DATE'].max()}")
        
        # Verificar coluna de temperatura
        if 'temperature' not in df.columns:
            print("‚ùå Erro: Coluna 'temperature' n√£o encontrada no arquivo")
            return None
        
        # Filtrar valores v√°lidos de temperatura
        df_valid = df[df['temperature'].notna()].copy()
        print(f"  Registros com temperatura v√°lida: {len(df_valid):,} ({100*len(df_valid)/len(df):.1f}%)")
        
        if len(df_valid) == 0:
            print("‚ùå Erro: Nenhum registro v√°lido de temperatura encontrado")
            return None
        
        print(f"\nAgregando dados hor√°rios para di√°rios...")
        
        # Agregar dados hor√°rios para di√°rios
        # Criar coluna de data (sem hora)
        df_valid['date'] = df_valid['DATE'].dt.date
        
        # Agregar por dia
        daily_agg = {
            'temperature': ['mean', 'min', 'max'],
        }
        
        # Adicionar outras colunas se dispon√≠veis
        if 'precipitation' in df_valid.columns:
            daily_agg['precipitation'] = lambda x: x.sum() if x.notna().any() else np.nan
        
        if 'wind_speed' in df_valid.columns:
            daily_agg['wind_speed'] = 'mean'
        
        if 'relative_humidity' in df_valid.columns:
            daily_agg['relative_humidity'] = 'mean'
        
        daily_df = df_valid.groupby('date').agg(daily_agg).reset_index()
        
        # Flatten column names
        new_columns = ['date']
        for col in daily_agg.keys():
            if col == 'temperature':
                new_columns.extend(['temperature', 'temp_min', 'temp_max'])
            else:
                new_columns.append(col)
        
        daily_df.columns = new_columns
        
        # Converter date de date para datetime
        daily_df['date'] = pd.to_datetime(daily_df['date'])
        
        # Selecionar colunas principais
        result_df = daily_df[['date', 'temperature']].copy()
        
        # Remover linhas onde temperatura m√©dia √© NaN
        result_df = result_df[result_df['temperature'].notna()].copy()
        result_df = result_df.sort_values('date').reset_index(drop=True)
        
        print(f"‚úì Dados processados: {len(result_df):,} dias")
        print(f"  Per√≠odo: {result_df['date'].min()} a {result_df['date'].max()}")
        print(f"  Temperatura m√©dia: {result_df['temperature'].mean():.2f} ¬∞C")
        print(f"  Temperatura m√≠nima: {result_df['temperature'].min():.2f} ¬∞C")
        print(f"  Temperatura m√°xima: {result_df['temperature'].max():.2f} ¬∞C")
        
        return result_df
        
    except Exception as e:
        print(f"\n‚ùå Erro ao processar arquivo PSV: {e}")
        import traceback
        traceback.print_exc()
        return None

# Carregar dados do arquivo PSV local
PSV_FILE = 'data/GHCNh_AAI0000TNCA_2025.psv'  # Arquivo PSV de S√£o Paulo
CSV_FILE = 'noaa_data.csv'  # Arquivo CSV processado (se existir)

# Prioridade 1: Arquivo PSV local (dados hor√°rios de S√£o Paulo)
if os.path.exists(PSV_FILE):
    print("\n" + "=" * 80)
    print("CARREGANDO DADOS DO ARQUIVO PSV LOCAL")
    print("=" * 80)
    df = load_ghcnh_psv(PSV_FILE)
    
    if df is not None and len(df) > 0:
        # Salvar em CSV para uso futuro (opcional)
        df.to_csv(CSV_FILE, index=False)
        print(f"\n‚úì Dados salvos tamb√©m em: {CSV_FILE}")
    else:
        print("\n‚ùå Erro: N√£o foi poss√≠vel processar o arquivo PSV")
        df = None

# Prioridade 2: Arquivo CSV processado (fallback)
elif os.path.exists(CSV_FILE):
    print("=" * 80)
    print("CARREGANDO DADOS DE ARQUIVO CSV PROCESSADO")
    print("=" * 80)
    print(f"Arquivo encontrado: {CSV_FILE}\n")
    df = pd.read_csv(CSV_FILE)
    df['date'] = pd.to_datetime(df['date'])
    print(f"‚úì Dados carregados: {len(df)} registros")
    print(f"  Per√≠odo: {df['date'].min()} a {df['date'].max()}")

# Se nenhum arquivo encontrado
else:
    print("=" * 80)
    print("‚ùå ERRO: NENHUM ARQUIVO DE DADOS ENCONTRADO")
    print("=" * 80)
    print(f"\nPor favor, certifique-se de que o arquivo PSV est√° em: {PSV_FILE}")
    print("Ou execute primeiro: python3 download_data.py")
    print("\nArquivo esperado:")
    print(f"  {PSV_FILE}")
    df = None

# Verificar se os dados foram carregados com sucesso
if df is not None and len(df) > 0:
    # Resumo final dos dados
    print("\n" + "=" * 80)
    print("RESUMO DOS DADOS CARREGADOS")
    print("=" * 80)
    print(f"üìç Localiza√ß√£o: S√£o Paulo, Brasil")
    print(f"Total de registros: {len(df):,}")
    print(f"Per√≠odo: {df['date'].min()} a {df['date'].max()}")
    print(f"Valores ausentes: {df['temperature'].isnull().sum()} ({df['temperature'].isnull().sum()/len(df)*100:.2f}%)")
    print(f"\nEstat√≠sticas b√°sicas:")
    print(df['temperature'].describe())
    
    print("\nPrimeiras linhas:")
    print(df.head(10))
    print("\n√öltimas linhas:")
    print(df.tail(10))
    print("\nInforma√ß√µes do dataset:")
    print(df.info())
else:
    print("\n‚ùå N√£o foi poss√≠vel carregar os dados. Verifique o arquivo PSV.")


## 1.2. An√°lise Explorat√≥ria de Dados (EDA)

### Estat√≠sticas Descritivas


In [None]:
# Estat√≠sticas descritivas
print("=" * 60)
print("ESTAT√çSTICAS DESCRITIVAS")
print("=" * 60)
print(df.describe())
print("\n" + "=" * 60)
print("VERIFICA√á√ÉO DE VALORES AUSENTES")
print("=" * 60)
print(df.isnull().sum())
print("\n" + "=" * 60)
print("VERIFICA√á√ÉO DE DUPLICATAS")
print("=" * 60)
print(f"N√∫mero de duplicatas: {df.duplicated().sum()}")


### Visualiza√ß√µes Iniciais


In [None]:
# Configurar data como √≠ndice
df_ts = df.set_index('date').copy()

# Visualiza√ß√£o da s√©rie temporal completa
fig, axes = plt.subplots(2, 1, figsize=(16, 10))

# Temperatura - s√©rie completa
axes[0].plot(df_ts.index, df_ts['temperature'], linewidth=0.5, alpha=0.7, color='red')
axes[0].set_title('S√©rie Temporal de Temperatura (¬∞C) - Per√≠odo Completo', fontsize=14, fontweight='bold')
axes[0].set_ylabel('Temperatura (¬∞C)')
axes[0].grid(True, alpha=0.3)

# Temperatura - zoom nos √∫ltimos 2 anos
last_2_years = df_ts.tail(730)  # Aproximadamente 2 anos
axes[1].plot(last_2_years.index, last_2_years['temperature'], linewidth=1, alpha=0.8, color='darkred')
axes[1].set_title('S√©rie Temporal de Temperatura (¬∞C) - √öltimos 2 Anos (Zoom)', fontsize=14, fontweight='bold')
axes[1].set_ylabel('Temperatura (¬∞C)')
axes[1].set_xlabel('Data')
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()


In [None]:
# Distribui√ß√µes e an√°lises estat√≠sticas
fig, axes = plt.subplots(2, 2, figsize=(16, 10))

# Histograma
axes[0, 0].hist(df_ts['temperature'], bins=50, color='red', alpha=0.7, edgecolor='black')
axes[0, 0].set_title('Distribui√ß√£o de Temperatura', fontsize=12, fontweight='bold')
axes[0, 0].set_xlabel('Temperatura (¬∞C)')
axes[0, 0].set_ylabel('Frequ√™ncia')
axes[0, 0].grid(True, alpha=0.3, axis='y')

# Boxplot
axes[0, 1].boxplot(df_ts['temperature'], vert=True)
axes[0, 1].set_title('Boxplot - Temperatura', fontsize=12, fontweight='bold')
axes[0, 1].set_ylabel('Temperatura (¬∞C)')
axes[0, 1].grid(True, alpha=0.3, axis='y')

# Densidade (KDE)
df_ts['temperature'].plot.density(ax=axes[1, 0], color='red', linewidth=2)
axes[1, 0].set_title('Densidade de Probabilidade (KDE)', fontsize=12, fontweight='bold')
axes[1, 0].set_xlabel('Temperatura (¬∞C)')
axes[1, 0].set_ylabel('Densidade')
axes[1, 0].grid(True, alpha=0.3)

# Q-Q Plot para normalidade
from scipy import stats
stats.probplot(df_ts['temperature'].dropna(), dist="norm", plot=axes[1, 1])
axes[1, 1].set_title('Q-Q Plot (Normalidade)', fontsize=12, fontweight='bold')
axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()


In [None]:
# An√°lise de sazonalidade - temperatura m√©dia por m√™s
df_ts['month'] = df_ts.index.month
df_ts['year'] = df_ts.index.year

# Temperatura m√©dia mensal
monthly_temp = df_ts.groupby('month')['temperature'].mean()

fig, axes = plt.subplots(1, 2, figsize=(16, 5))

# Temperatura m√©dia por m√™s
axes[0].plot(monthly_temp.index, monthly_temp.values, marker='o', linewidth=2, markersize=8, color='red')
axes[0].set_title('Temperatura M√©dia Mensal', fontsize=14, fontweight='bold')
axes[0].set_xlabel('M√™s')
axes[0].set_ylabel('Temperatura M√©dia (¬∞C)')
axes[0].set_xticks(range(1, 13))
axes[0].grid(True, alpha=0.3)

# Temperatura m√©dia por ano
yearly_temp = df_ts.groupby('year')['temperature'].mean()
axes[1].plot(yearly_temp.index, yearly_temp.values, marker='o', linewidth=2, markersize=8, color='darkred')
axes[1].set_title('Temperatura M√©dia Anual (Tend√™ncia)', fontsize=14, fontweight='bold')
axes[1].set_xlabel('Ano')
axes[1].set_ylabel('Temperatura M√©dia (¬∞C)')
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("Temperatura m√©dia mensal:")
print(monthly_temp)


### Decomposi√ß√£o da S√©rie Temporal


In [None]:
# Decomposi√ß√£o aditiva da s√©rie temporal de temperatura
decomposition = seasonal_decompose(df_ts['temperature'], model='additive', period=365)

fig, axes = plt.subplots(4, 1, figsize=(16, 12))

decomposition.observed.plot(ax=axes[0], color='blue', linewidth=0.5)
axes[0].set_title('S√©rie Original', fontsize=12, fontweight='bold')
axes[0].set_ylabel('Temperatura (¬∞C)')

decomposition.trend.plot(ax=axes[1], color='green', linewidth=1.5)
axes[1].set_title('Tend√™ncia', fontsize=12, fontweight='bold')
axes[1].set_ylabel('Temperatura (¬∞C)')

decomposition.seasonal.plot(ax=axes[2], color='orange', linewidth=0.5)
axes[2].set_title('Sazonalidade', fontsize=12, fontweight='bold')
axes[2].set_ylabel('Temperatura (¬∞C)')

decomposition.resid.plot(ax=axes[3], color='red', linewidth=0.5)
axes[3].set_title('Res√≠duos', fontsize=12, fontweight='bold')
axes[3].set_ylabel('Temperatura (¬∞C)')
axes[3].set_xlabel('Data')

plt.tight_layout()
plt.show()


### Teste de Estacionariedade (Dickey-Fuller)


In [None]:
# Teste de estacionariedade
def test_stationarity(timeseries):
    """
    Realiza o teste de Dickey-Fuller aumentado para verificar estacionariedade
    """
    print("=" * 60)
    print("TESTE DE ESTACIONARIEDADE - DICKEY-FULLER AUMENTADO")
    print("=" * 60)
    
    dftest = adfuller(timeseries.dropna(), autolag='AIC')
    dfoutput = pd.Series(dftest[0:4], index=['Estat√≠stica do Teste', 'p-value', 
                                              '#Lags Usados', 'N√∫mero de Observa√ß√µes'])
    
    for key, value in dftest[4].items():
        dfoutput[f'Valor Cr√≠tico ({key})'] = value
    
    print(dfoutput)
    print("\n" + "=" * 60)
    if dftest[1] <= 0.05:
        print("Resultado: S√©rie √© ESTACION√ÅRIA (rejeita H0)")
    else:
        print("Resultado: S√©rie N√ÉO √© estacion√°ria (n√£o rejeita H0)")
    print("=" * 60)
    
    return dftest[1] <= 0.05

# Testar estacionariedade da s√©rie original
is_stationary = test_stationarity(df_ts['temperature'])


# Etapa 2: Prepara√ß√£o e Tratamento dos Dados

## 2.1. Limpeza de Dados


In [None]:
# Focaremos na vari√°vel temperatura para previs√£o
# Criar c√≥pia para trabalhar
df_clean = df_ts[['temperature']].copy()

print("=" * 60)
print("LIMPEZA DE DADOS")
print("=" * 60)
print(f"Valores ausentes antes: {df_clean['temperature'].isnull().sum()}")
print(f"Percentual de valores ausentes: {df_clean['temperature'].isnull().sum() / len(df_clean) * 100:.2f}%")

# Tratamento de valores ausentes (interpola√ß√£o linear)
if df_clean['temperature'].isnull().sum() > 0:
    df_clean['temperature'] = df_clean['temperature'].interpolate(method='linear')
    print(f"Valores ausentes ap√≥s interpola√ß√£o: {df_clean['temperature'].isnull().sum()}")

# Identifica√ß√£o de outliers usando IQR
Q1 = df_clean['temperature'].quantile(0.25)
Q3 = df_clean['temperature'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

outliers = df_clean[(df_clean['temperature'] < lower_bound) | (df_clean['temperature'] > upper_bound)]
print(f"\nOutliers identificados (m√©todo IQR): {len(outliers)} ({len(outliers)/len(df_clean)*100:.2f}%)")

# Visualizar outliers
fig, axes = plt.subplots(1, 2, figsize=(16, 5))

axes[0].boxplot(df_clean['temperature'], vert=True)
axes[0].set_title('Boxplot - Identifica√ß√£o de Outliers', fontsize=12, fontweight='bold')
axes[0].set_ylabel('Temperatura (¬∞C)')

axes[1].plot(df_clean.index, df_clean['temperature'], linewidth=0.5, alpha=0.7, label='Temperatura')
axes[1].scatter(outliers.index, outliers['temperature'], color='red', s=10, alpha=0.5, label='Outliers')
axes[1].set_title('S√©rie Temporal com Outliers Destacados', fontsize=12, fontweight='bold')
axes[1].set_ylabel('Temperatura (¬∞C)')
axes[1].set_xlabel('Data')
axes[1].legend()
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Decis√£o: Manter outliers pois podem ser valores clim√°ticos v√°lidos
# Em um caso real, voc√™ analisaria se s√£o erros de medi√ß√£o ou valores extremos leg√≠timos
print("\nDecis√£o: Mantendo outliers (podem representar eventos clim√°ticos extremos v√°lidos)")


## 2.2. Transforma√ß√£o dos Dados e Feature Engineering


In [None]:
# Criar features temporais
df_features = df_clean.copy()

# Features temporais
df_features['day_of_week'] = df_features.index.dayofweek
df_features['day_of_month'] = df_features.index.day
df_features['month'] = df_features.index.month
df_features['quarter'] = df_features.index.quarter
df_features['year'] = df_features.index.year
df_features['day_of_year'] = df_features.index.dayofyear

# Features c√≠clicas (para capturar sazonalidade)
df_features['month_sin'] = np.sin(2 * np.pi * df_features['month'] / 12)
df_features['month_cos'] = np.cos(2 * np.pi * df_features['month'] / 12)
df_features['day_of_year_sin'] = np.sin(2 * np.pi * df_features['day_of_year'] / 365.25)
df_features['day_of_year_cos'] = np.cos(2 * np.pi * df_features['day_of_year'] / 365.25)

# Lags (valores anteriores)
df_features['lag_1'] = df_features['temperature'].shift(1)
df_features['lag_7'] = df_features['temperature'].shift(7)  # Semana anterior
df_features['lag_30'] = df_features['temperature'].shift(30)  # M√™s anterior
df_features['lag_365'] = df_features['temperature'].shift(365)  # Ano anterior

# M√©dias m√≥veis
df_features['ma_7'] = df_features['temperature'].rolling(window=7).mean()
df_features['ma_30'] = df_features['temperature'].rolling(window=30).mean()
df_features['ma_365'] = df_features['temperature'].rolling(window=365).mean()

# Diferen√ßa para tornar estacion√°ria (se necess√°rio)
df_features['temperature_diff'] = df_features['temperature'].diff()

print("Features criadas:")
print(df_features.columns.tolist())
print(f"\nShape do dataset: {df_features.shape}")
print("\nPrimeiras linhas:")
print(df_features.head(10))


## 2.3. Divis√£o dos Dados (Train/Validation/Test)


In [None]:
# Divis√£o temporal dos dados (respeitando ordem temporal)
# Remover NaN criados por lags e m√©dias m√≥veis
df_model = df_features.dropna().copy()

total_size = len(df_model)
train_size = int(total_size * 0.6)  # 60% para treino
val_size = int(total_size * 0.2)    # 20% para valida√ß√£o
# 20% restante para teste

# Divis√£o temporal
train_data = df_model.iloc[:train_size]
val_data = df_model.iloc[train_size:train_size + val_size]
test_data = df_model.iloc[train_size + val_size:]

print("=" * 60)
print("DIVIS√ÉO DOS DADOS")
print("=" * 60)
print(f"Total de registros: {total_size}")
print(f"Treino: {len(train_data)} ({len(train_data)/total_size*100:.1f}%)")
print(f"Valida√ß√£o: {len(val_data)} ({len(val_data)/total_size*100:.1f}%)")
print(f"Teste: {len(test_data)} ({len(test_data)/total_size*100:.1f}%)")
print(f"\nPer√≠odo de treino: {train_data.index.min()} a {train_data.index.max()}")
print(f"Per√≠odo de valida√ß√£o: {val_data.index.min()} a {val_data.index.max()}")
print(f"Per√≠odo de teste: {test_data.index.min()} a {test_data.index.max()}")

# Visualizar divis√£o
fig, ax = plt.subplots(figsize=(16, 6))
ax.plot(train_data.index, train_data['temperature'], label='Treino', color='blue', linewidth=0.5)
ax.plot(val_data.index, val_data['temperature'], label='Valida√ß√£o', color='orange', linewidth=0.5)
ax.plot(test_data.index, test_data['temperature'], label='Teste', color='red', linewidth=0.5)
ax.set_title('Divis√£o Temporal dos Dados', fontsize=14, fontweight='bold')
ax.set_ylabel('Temperatura (¬∞C)')
ax.set_xlabel('Data')
ax.legend()
ax.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# S√©ries para modelagem (apenas temperatura)
y_train = train_data['temperature']
y_val = val_data['temperature']
y_test = test_data['temperature']


# Etapa 3: Modelagem Preditiva

## 3.1. Modelos Baseline

Vamos come√ßar com modelos simples que servir√£o como baseline para compara√ß√£o.


In [None]:
# Fun√ß√£o para calcular m√©tricas
def calculate_metrics(y_true, y_pred):
    """
    Calcula m√©tricas de avalia√ß√£o para modelos de previs√£o
    """
    mae = mean_absolute_error(y_true, y_pred)
    rmse = np.sqrt(mean_squared_error(y_true, y_pred))
    mape = np.mean(np.abs((y_true - y_pred) / y_true)) * 100
    r2 = r2_score(y_true, y_pred)
    
    return {
        'MAE': mae,
        'RMSE': rmse,
        'MAPE': mape,
        'R¬≤': r2
    }

# Armazenar resultados de todos os modelos
results = {}


### Modelo 1: Naive Forecast (√öltimo Valor)


In [None]:
# Naive Forecast: prev√™ o √∫ltimo valor observado
naive_pred_val = np.full(len(y_val), y_train.iloc[-1])
naive_pred_test = np.full(len(y_test), y_val.iloc[-1])

results['Naive'] = {
    'val': calculate_metrics(y_val, naive_pred_val),
    'test': calculate_metrics(y_test, naive_pred_test)
}

print("Modelo Naive (Baseline)")
print("=" * 40)
print("Valida√ß√£o:")
for metric, value in results['Naive']['val'].items():
    print(f"  {metric}: {value:.4f}")
print("\nTeste:")
for metric, value in results['Naive']['test'].items():
    print(f"  {metric}: {value:.4f}")


### Modelo 2: M√©dia M√≥vel Simples


In [None]:
# M√©dia m√≥vel simples (janela de 30 dias)
window = 30
ma_val = y_train.rolling(window=window).mean().iloc[-1]
ma_test = pd.concat([y_train, y_val]).rolling(window=window).mean().iloc[-1]

ma_pred_val = np.full(len(y_val), ma_val)
ma_pred_test = np.full(len(y_test), ma_test)

results['M√©dia M√≥vel'] = {
    'val': calculate_metrics(y_val, ma_pred_val),
    'test': calculate_metrics(y_test, ma_pred_test)
}

print("Modelo M√©dia M√≥vel (30 dias)")
print("=" * 40)
print("Valida√ß√£o:")
for metric, value in results['M√©dia M√≥vel']['val'].items():
    print(f"  {metric}: {value:.4f}")
print("\nTeste:")
for metric, value in results['M√©dia M√≥vel']['test'].items():
    print(f"  {metric}: {value:.4f}")


### Modelo 3: Suaviza√ß√£o Exponencial Simples


In [None]:
# Suaviza√ß√£o exponencial simples
# Usando a m√©dia dos √∫ltimos valores com peso exponencial
alpha = 0.3  # Par√¢metro de suaviza√ß√£o

# Calcular valor suavizado final do treino
exp_smooth_val = y_train.ewm(alpha=alpha, adjust=False).mean().iloc[-1]
exp_smooth_test = pd.concat([y_train, y_val]).ewm(alpha=alpha, adjust=False).mean().iloc[-1]

exp_pred_val = np.full(len(y_val), exp_smooth_val)
exp_pred_test = np.full(len(y_test), exp_smooth_test)

results['Suaviza√ß√£o Exponencial'] = {
    'val': calculate_metrics(y_val, exp_pred_val),
    'test': calculate_metrics(y_test, exp_pred_test)
}

print("Modelo Suaviza√ß√£o Exponencial Simples")
print("=" * 40)
print("Valida√ß√£o:")
for metric, value in results['Suaviza√ß√£o Exponencial']['val'].items():
    print(f"  {metric}: {value:.4f}")
print("\nTeste:")
for metric, value in results['Suaviza√ß√£o Exponencial']['test'].items():
    print(f"  {metric}: {value:.4f}")


## 3.2. Modelos Avan√ßados

### Modelo 4: ARIMA


In [None]:
# ARIMA - Auto ARIMA se dispon√≠vel, sen√£o ARIMA manual
print("Treinando modelo ARIMA...")

if AUTO_ARIMA_AVAILABLE:
    # Auto ARIMA para encontrar melhores par√¢metros
    auto_model = auto_arima(y_train, 
                           seasonal=False,
                           stepwise=True,
                           suppress_warnings=True,
                           error_action='ignore',
                           max_p=5, max_q=5, max_d=2,
                           trace=False)
    
    arima_order = auto_model.order
    print(f"Melhores par√¢metros ARIMA encontrados: {arima_order}")
    
    # Treinar modelo final
    arima_model = ARIMA(y_train, order=arima_order)
    arima_fitted = arima_model.fit()
else:
    # ARIMA manual (1,1,1) - valores comuns
    arima_order = (1, 1, 1)
    print(f"Usando par√¢metros ARIMA: {arima_order}")
    arima_model = ARIMA(y_train, order=arima_order)
    arima_fitted = arima_model.fit()

# Previs√µes
arima_pred_val = arima_fitted.forecast(steps=len(y_val))
arima_pred_test = arima_fitted.forecast(steps=len(y_test))

# Ajustar para usar dados de valida√ß√£o no teste
# Re-treinar com treino + valida√ß√£o para previs√£o no teste
arima_model_full = ARIMA(pd.concat([y_train, y_val]), order=arima_order)
arima_fitted_full = arima_model_full.fit()
arima_pred_test = arima_fitted_full.forecast(steps=len(y_test))

results['ARIMA'] = {
    'val': calculate_metrics(y_val, arima_pred_val),
    'test': calculate_metrics(y_test, arima_pred_test),
    'order': arima_order
}

print("\nModelo ARIMA")
print("=" * 40)
print(f"Par√¢metros: {arima_order}")
print("Valida√ß√£o:")
for metric, value in results['ARIMA']['val'].items():
    print(f"  {metric}: {value:.4f}")
print("\nTeste:")
for metric, value in results['ARIMA']['test'].items():
    print(f"  {metric}: {value:.4f}")


### Modelo 5: SARIMA (Seasonal ARIMA)


In [None]:
# SARIMA - ARIMA sazonal
print("Treinando modelo SARIMA...")

# Par√¢metros SARIMA: (p,d,q)(P,D,Q,s)
# s = 365 para sazonalidade anual
sarima_order = (1, 1, 1)
seasonal_order = (1, 1, 1, 365)

try:
    sarima_model = SARIMAX(y_train, 
                          order=sarima_order,
                          seasonal_order=seasonal_order,
                          enforce_stationarity=False,
                          enforce_invertibility=False)
    sarima_fitted = sarima_model.fit(disp=False, maxiter=50)
    
    # Previs√µes
    sarima_pred_val = sarima_fitted.forecast(steps=len(y_val))
    
    # Re-treinar para teste
    sarima_model_full = SARIMAX(pd.concat([y_train, y_val]),
                                order=sarima_order,
                                seasonal_order=seasonal_order,
                                enforce_stationarity=False,
                                enforce_invertibility=False)
    sarima_fitted_full = sarima_model_full.fit(disp=False, maxiter=50)
    sarima_pred_test = sarima_fitted_full.forecast(steps=len(y_test))
    
    results['SARIMA'] = {
        'val': calculate_metrics(y_val, sarima_pred_val),
        'test': calculate_metrics(y_test, sarima_pred_test),
        'order': (sarima_order, seasonal_order)
    }
    
    print("\nModelo SARIMA")
    print("=" * 40)
    print(f"Par√¢metros: {sarima_order}, Sazonal: {seasonal_order}")
    print("Valida√ß√£o:")
    for metric, value in results['SARIMA']['val'].items():
        print(f"  {metric}: {value:.4f}")
    print("\nTeste:")
    for metric, value in results['SARIMA']['test'].items():
        print(f"  {metric}: {value:.4f}")
        
except Exception as e:
    print(f"Erro ao treinar SARIMA: {e}")
    print("Usando valores nulos para SARIMA")
    results['SARIMA'] = {
        'val': {'MAE': np.nan, 'RMSE': np.nan, 'MAPE': np.nan, 'R¬≤': np.nan},
        'test': {'MAE': np.nan, 'RMSE': np.nan, 'MAPE': np.nan, 'R¬≤': np.nan}
    }


### Modelo 6: Holt-Winters (Triple Exponential Smoothing)


In [None]:
# Holt-Winters (Triple Exponential Smoothing)
print("Treinando modelo Holt-Winters...")

try:
    # Modelo aditivo com sazonalidade anual
    hw_model = ExponentialSmoothing(y_train,
                                   seasonal_periods=365,
                                   trend='add',
                                   seasonal='add',
                                   initialization_method='estimated')
    hw_fitted = hw_model.fit(optimized=True)
    
    # Previs√µes
    hw_pred_val = hw_fitted.forecast(steps=len(y_val))
    
    # Re-treinar para teste
    hw_model_full = ExponentialSmoothing(pd.concat([y_train, y_val]),
                                        seasonal_periods=365,
                                        trend='add',
                                        seasonal='add',
                                        initialization_method='estimated')
    hw_fitted_full = hw_model_full.fit(optimized=True)
    hw_pred_test = hw_fitted_full.forecast(steps=len(y_test))
    
    results['Holt-Winters'] = {
        'val': calculate_metrics(y_val, hw_pred_val),
        'test': calculate_metrics(y_test, hw_pred_test)
    }
    
    print("\nModelo Holt-Winters")
    print("=" * 40)
    print("Valida√ß√£o:")
    for metric, value in results['Holt-Winters']['val'].items():
        print(f"  {metric}: {value:.4f}")
    print("\nTeste:")
    for metric, value in results['Holt-Winters']['test'].items():
        print(f"  {metric}: {value:.4f}")
        
except Exception as e:
    print(f"Erro ao treinar Holt-Winters: {e}")
    # Tentar com per√≠odo sazonal menor
    try:
        hw_model = ExponentialSmoothing(y_train,
                                       seasonal_periods=12,  # Mensal
                                       trend='add',
                                       seasonal='add',
                                       initialization_method='estimated')
        hw_fitted = hw_model.fit(optimized=True)
        hw_pred_val = hw_fitted.forecast(steps=len(y_val))
        
        hw_model_full = ExponentialSmoothing(pd.concat([y_train, y_val]),
                                            seasonal_periods=12,
                                            trend='add',
                                            seasonal='add',
                                            initialization_method='estimated')
        hw_fitted_full = hw_model_full.fit(optimized=True)
        hw_pred_test = hw_fitted_full.forecast(steps=len(y_test))
        
        results['Holt-Winters'] = {
            'val': calculate_metrics(y_val, hw_pred_val),
            'test': calculate_metrics(y_test, hw_pred_test)
        }
        
        print("\nModelo Holt-Winters (per√≠odo sazonal ajustado)")
        print("=" * 40)
        print("Valida√ß√£o:")
        for metric, value in results['Holt-Winters']['val'].items():
            print(f"  {metric}: {value:.4f}")
        print("\nTeste:")
        for metric, value in results['Holt-Winters']['test'].items():
            print(f"  {metric}: {value:.4f}")
    except Exception as e2:
        print(f"Erro ao treinar Holt-Winters com per√≠odo ajustado: {e2}")
        results['Holt-Winters'] = {
            'val': {'MAE': np.nan, 'RMSE': np.nan, 'MAPE': np.nan, 'R¬≤': np.nan},
            'test': {'MAE': np.nan, 'RMSE': np.nan, 'MAPE': np.nan, 'R¬≤': np.nan}
        }


### Modelo 7: Prophet (Facebook Prophet)


In [None]:
# Prophet requer formato espec√≠fico: ds (data) e y (valor)
print("Treinando modelo Prophet...")

# Preparar dados para Prophet
prophet_train = pd.DataFrame({
    'ds': y_train.index,
    'y': y_train.values
})

prophet_val = pd.DataFrame({
    'ds': y_val.index,
    'y': y_val.values
})

prophet_test = pd.DataFrame({
    'ds': y_test.index,
    'y': y_test.values
})

try:
    # Treinar modelo Prophet
    prophet_model = Prophet(
        yearly_seasonality=True,
        weekly_seasonality=True,
        daily_seasonality=False,
        seasonality_mode='additive'
    )
    prophet_model.fit(prophet_train)
    
    # Previs√µes para valida√ß√£o
    prophet_future_val = prophet_model.make_future_dataframe(periods=len(y_val))
    prophet_forecast_val = prophet_model.predict(prophet_future_val)
    prophet_pred_val = prophet_forecast_val.tail(len(y_val))['yhat'].values
    
    # Re-treinar para teste
    prophet_train_full = pd.concat([
        pd.DataFrame({'ds': y_train.index, 'y': y_train.values}),
        pd.DataFrame({'ds': y_val.index, 'y': y_val.values})
    ])
    
    prophet_model_full = Prophet(
        yearly_seasonality=True,
        weekly_seasonality=True,
        daily_seasonality=False,
        seasonality_mode='additive'
    )
    prophet_model_full.fit(prophet_train_full)
    
    prophet_future_test = prophet_model_full.make_future_dataframe(periods=len(y_test))
    prophet_forecast_test = prophet_model_full.predict(prophet_future_test)
    prophet_pred_test = prophet_forecast_test.tail(len(y_test))['yhat'].values
    
    results['Prophet'] = {
        'val': calculate_metrics(y_val, prophet_pred_val),
        'test': calculate_metrics(y_test, prophet_pred_test)
    }
    
    print("\nModelo Prophet")
    print("=" * 40)
    print("Valida√ß√£o:")
    for metric, value in results['Prophet']['val'].items():
        print(f"  {metric}: {value:.4f}")
    print("\nTeste:")
    for metric, value in results['Prophet']['test'].items():
        print(f"  {metric}: {value:.4f}")
        
except Exception as e:
    print(f"Erro ao treinar Prophet: {e}")
    results['Prophet'] = {
        'val': {'MAE': np.nan, 'RMSE': np.nan, 'MAPE': np.nan, 'R¬≤': np.nan},
        'test': {'MAE': np.nan, 'RMSE': np.nan, 'MAPE': np.nan, 'R¬≤': np.nan}
    }


### Modelo 8: LSTM (Long Short-Term Memory)


In [None]:
# LSTM - Prepara√ß√£o dos dados
print("Preparando dados para LSTM...")

def create_sequences(data, seq_length=60):
    """
    Cria sequ√™ncias para LSTM
    """
    X, y = [], []
    for i in range(len(data) - seq_length):
        X.append(data[i:i+seq_length])
        y.append(data[i+seq_length])
    return np.array(X), np.array(y)

# Normalizar dados
scaler_lstm = MinMaxScaler()
y_train_scaled = scaler_lstm.fit_transform(y_train.values.reshape(-1, 1))
y_val_scaled = scaler_lstm.transform(y_val.values.reshape(-1, 1))
y_test_scaled = scaler_lstm.transform(y_test.values.reshape(-1, 1))

# Combinar treino e valida√ß√£o para criar sequ√™ncias
train_val_combined = np.concatenate([y_train_scaled, y_val_scaled])

# Criar sequ√™ncias
seq_length = 60  # 60 dias de hist√≥rico
X_train, y_train_seq = create_sequences(train_val_combined, seq_length)
X_test, y_test_seq = create_sequences(
    np.concatenate([train_val_combined, y_test_scaled]), seq_length
)

# Ajustar para que o teste use apenas dados futuros
# Separar treino e teste corretamente
train_end_idx = len(train_val_combined) - seq_length
X_train_final = X_train[:train_end_idx]
y_train_final = y_train_seq[:train_end_idx]

# Para teste, usar sequ√™ncias que terminam no conjunto de teste
test_start_idx = len(train_val_combined) - seq_length
X_test_final = []
y_test_final = []

for i in range(len(y_test_scaled)):
    if test_start_idx + i < len(X_train):
        X_test_final.append(X_train[test_start_idx + i])
        y_test_final.append(y_test_scaled[i])

X_test_final = np.array(X_test_final)
y_test_final = np.array(y_test_final)

print(f"Shape X_train: {X_train_final.shape}, y_train: {y_train_final.shape}")
print(f"Shape X_test: {X_test_final.shape}, y_test: {y_test_final.shape}")

# Reshape para LSTM [samples, time_steps, features]
X_train_final = X_train_final.reshape((X_train_final.shape[0], X_train_final.shape[1], 1))
X_test_final = X_test_final.reshape((X_test_final.shape[0], X_test_final.shape[1], 1))


In [None]:
# Construir modelo LSTM
print("Treinando modelo LSTM...")

lstm_model = Sequential([
    LSTM(50, activation='relu', return_sequences=True, input_shape=(seq_length, 1)),
    Dropout(0.2),
    LSTM(50, activation='relu', return_sequences=False),
    Dropout(0.2),
    Dense(1)
])

lstm_model.compile(optimizer='adam', loss='mse', metrics=['mae'])

# Callback para early stopping
early_stopping = EarlyStopping(monitor='loss', patience=10, restore_best_weights=True)

# Treinar modelo
history = lstm_model.fit(
    X_train_final, y_train_final,
    epochs=50,
    batch_size=32,
    validation_split=0.2,
    callbacks=[early_stopping],
    verbose=1
)

# Previs√µes
lstm_pred_test_scaled = lstm_model.predict(X_test_final, verbose=0)
lstm_pred_test = scaler_lstm.inverse_transform(lstm_pred_test_scaled).flatten()

# Para valida√ß√£o, usar uma abordagem similar
# Criar sequ√™ncias de valida√ß√£o
val_start_idx = len(y_train_scaled) - seq_length
X_val_final = []
y_val_final = []

for i in range(len(y_val_scaled)):
    if val_start_idx + i < len(X_train):
        X_val_final.append(X_train[val_start_idx + i])
        y_val_final.append(y_val_scaled[i])

X_val_final = np.array(X_val_final).reshape((len(X_val_final), seq_length, 1))
lstm_pred_val_scaled = lstm_model.predict(X_val_final, verbose=0)
lstm_pred_val = scaler_lstm.inverse_transform(lstm_pred_val_scaled).flatten()

results['LSTM'] = {
    'val': calculate_metrics(y_val[:len(lstm_pred_val)], lstm_pred_val),
    'test': calculate_metrics(y_test[:len(lstm_pred_test)], lstm_pred_test)
}

print("\nModelo LSTM")
print("=" * 40)
print("Valida√ß√£o:")
for metric, value in results['LSTM']['val'].items():
    print(f"  {metric}: {value:.4f}")
print("\nTeste:")
for metric, value in results['LSTM']['test'].items():
    print(f"  {metric}: {value:.4f}")

# Visualizar hist√≥rico de treinamento
fig, axes = plt.subplots(1, 2, figsize=(16, 5))
axes[0].plot(history.history['loss'], label='Loss Treino')
axes[0].plot(history.history['val_loss'], label='Loss Valida√ß√£o')
axes[0].set_title('Hist√≥rico de Loss - LSTM')
axes[0].set_xlabel('√âpoca')
axes[0].set_ylabel('Loss')
axes[0].legend()
axes[0].grid(True, alpha=0.3)

axes[1].plot(history.history['mae'], label='MAE Treino')
axes[1].plot(history.history['val_mae'], label='MAE Valida√ß√£o')
axes[1].set_title('Hist√≥rico de MAE - LSTM')
axes[1].set_xlabel('√âpoca')
axes[1].set_ylabel('MAE')
axes[1].legend()
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()


# Etapa 4: Avalia√ß√£o e Compara√ß√£o de Modelos

## 4.1. Tabela Comparativa de M√©tricas


In [None]:
# Criar tabela comparativa
comparison_data = []

for model_name, model_results in results.items():
    if 'val' in model_results and 'test' in model_results:
        comparison_data.append({
            'Modelo': model_name,
            'MAE (Val)': model_results['val'].get('MAE', np.nan),
            'RMSE (Val)': model_results['val'].get('RMSE', np.nan),
            'MAPE (Val)': model_results['val'].get('MAPE', np.nan),
            'R¬≤ (Val)': model_results['val'].get('R¬≤', np.nan),
            'MAE (Test)': model_results['test'].get('MAE', np.nan),
            'RMSE (Test)': model_results['test'].get('RMSE', np.nan),
            'MAPE (Test)': model_results['test'].get('MAPE', np.nan),
            'R¬≤ (Test)': model_results['test'].get('R¬≤', np.nan)
        })

comparison_df = pd.DataFrame(comparison_data)

print("=" * 100)
print("TABELA COMPARATIVA DE MODELOS")
print("=" * 100)
print(comparison_df.to_string(index=False))

# Salvar tabela
comparison_df.to_csv('comparacao_modelos.csv', index=False)
print("\nTabela salva em 'comparacao_modelos.csv'")


In [None]:
# Visualiza√ß√£o comparativa das m√©tricas
fig, axes = plt.subplots(2, 2, figsize=(18, 12))

# Filtrar modelos v√°lidos
valid_models = comparison_df.dropna(subset=['MAE (Test)'])

# MAE
axes[0, 0].bar(valid_models['Modelo'], valid_models['MAE (Test)'], color='skyblue', edgecolor='black')
axes[0, 0].set_title('MAE (Mean Absolute Error) - Conjunto de Teste', fontsize=12, fontweight='bold')
axes[0, 0].set_ylabel('MAE')
axes[0, 0].tick_params(axis='x', rotation=45)
axes[0, 0].grid(True, alpha=0.3, axis='y')

# RMSE
axes[0, 1].bar(valid_models['Modelo'], valid_models['RMSE (Test)'], color='lightcoral', edgecolor='black')
axes[0, 1].set_title('RMSE (Root Mean Squared Error) - Conjunto de Teste', fontsize=12, fontweight='bold')
axes[0, 1].set_ylabel('RMSE')
axes[0, 1].tick_params(axis='x', rotation=45)
axes[0, 1].grid(True, alpha=0.3, axis='y')

# MAPE
axes[1, 0].bar(valid_models['Modelo'], valid_models['MAPE (Test)'], color='lightgreen', edgecolor='black')
axes[1, 0].set_title('MAPE (Mean Absolute Percentage Error) - Conjunto de Teste', fontsize=12, fontweight='bold')
axes[1, 0].set_ylabel('MAPE (%)')
axes[1, 0].tick_params(axis='x', rotation=45)
axes[1, 0].grid(True, alpha=0.3, axis='y')

# R¬≤
axes[1, 1].bar(valid_models['Modelo'], valid_models['R¬≤ (Test)'], color='plum', edgecolor='black')
axes[1, 1].set_title('R¬≤ (Coeficiente de Determina√ß√£o) - Conjunto de Teste', fontsize=12, fontweight='bold')
axes[1, 1].set_ylabel('R¬≤')
axes[1, 1].tick_params(axis='x', rotation=45)
axes[1, 1].grid(True, alpha=0.3, axis='y')

plt.tight_layout()
plt.show()


## 4.2. Visualiza√ß√µes de Previs√µes vs. Valores Reais


In [None]:
# Armazenar todas as previs√µes para visualiza√ß√£o
predictions = {
    'Naive': {'val': naive_pred_val, 'test': naive_pred_test},
    'M√©dia M√≥vel': {'val': ma_pred_val, 'test': ma_pred_test},
    'Suaviza√ß√£o Exponencial': {'val': exp_pred_val, 'test': exp_pred_test},
    'ARIMA': {'val': arima_pred_val, 'test': arima_pred_test},
    'LSTM': {'val': lstm_pred_val, 'test': lstm_pred_test}
}

# Adicionar outras previs√µes se dispon√≠veis
if 'SARIMA' in results and not np.isnan(results['SARIMA']['test']['MAE']):
    try:
        predictions['SARIMA'] = {'val': sarima_pred_val, 'test': sarima_pred_test}
    except:
        pass

if 'Prophet' in results and not np.isnan(results['Prophet']['test']['MAE']):
    try:
        predictions['Prophet'] = {'val': prophet_pred_val, 'test': prophet_pred_test}
    except:
        pass

if 'Holt-Winters' in results and not np.isnan(results['Holt-Winters']['test']['MAE']):
    try:
        predictions['Holt-Winters'] = {'val': hw_pred_val, 'test': hw_pred_test}
    except:
        pass

# Visualizar previs√µes no conjunto de teste
n_models = len([k for k in predictions.keys() if 'test' in predictions[k]])
fig, axes = plt.subplots(n_models, 1, figsize=(18, 4*n_models))

if n_models == 1:
    axes = [axes]

idx = 0
for model_name in predictions.keys():
    if 'test' in predictions[model_name]:
        ax = axes[idx]
        
        # Ajustar tamanho se necess√°rio
        test_pred = predictions[model_name]['test']
        if len(test_pred) > len(y_test):
            test_pred = test_pred[:len(y_test)]
        elif len(test_pred) < len(y_test):
            y_test_plot = y_test[:len(test_pred)]
        else:
            y_test_plot = y_test
        
        if len(test_pred) != len(y_test_plot):
            min_len = min(len(test_pred), len(y_test_plot))
            test_pred = test_pred[:min_len]
            y_test_plot = y_test_plot[:min_len]
        
        ax.plot(y_test_plot.index, y_test_plot.values, label='Valores Reais', 
                linewidth=1.5, alpha=0.7, color='blue')
        ax.plot(y_test_plot.index, test_pred, label='Previs√µes', 
                linewidth=1.5, alpha=0.7, color='red', linestyle='--')
        ax.set_title(f'{model_name} - Previs√µes vs. Valores Reais (Teste)', 
                    fontsize=12, fontweight='bold')
        ax.set_ylabel('Temperatura (¬∞C)')
        ax.legend()
        ax.grid(True, alpha=0.3)
        idx += 1

plt.xlabel('Data')
plt.tight_layout()
plt.show()


## 4.3. An√°lise de Res√≠duos


In [None]:
# An√°lise de res√≠duos para o melhor modelo
# Identificar melhor modelo por R¬≤ no teste
best_model_name = valid_models.loc[valid_models['R¬≤ (Test)'].idxmax(), 'Modelo']
print(f"Melhor modelo (por R¬≤): {best_model_name}")

# Calcular res√≠duos do melhor modelo
if best_model_name in predictions and 'test' in predictions[best_model_name]:
    best_pred = predictions[best_model_name]['test']
    if len(best_pred) > len(y_test):
        best_pred = best_pred[:len(y_test)]
    elif len(best_pred) < len(y_test):
        y_test_resid = y_test[:len(best_pred)]
    else:
        y_test_resid = y_test
    
    if len(best_pred) != len(y_test_resid):
        min_len = min(len(best_pred), len(y_test_resid))
        best_pred = best_pred[:min_len]
        y_test_resid = y_test_resid[:min_len]
    
    residuals = y_test_resid.values - best_pred
    
    # Visualizar res√≠duos
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    
    # Res√≠duos ao longo do tempo
    axes[0, 0].plot(y_test_resid.index, residuals, linewidth=0.5, alpha=0.7, color='red')
    axes[0, 0].axhline(y=0, color='black', linestyle='--', linewidth=1)
    axes[0, 0].set_title(f'Res√≠duos ao Longo do Tempo - {best_model_name}', 
                         fontsize=12, fontweight='bold')
    axes[0, 0].set_ylabel('Res√≠duos')
    axes[0, 0].set_xlabel('Data')
    axes[0, 0].grid(True, alpha=0.3)
    
    # Histograma de res√≠duos
    axes[0, 1].hist(residuals, bins=50, color='skyblue', edgecolor='black', alpha=0.7)
    axes[0, 1].set_title('Distribui√ß√£o dos Res√≠duos', fontsize=12, fontweight='bold')
    axes[0, 1].set_xlabel('Res√≠duos')
    axes[0, 1].set_ylabel('Frequ√™ncia')
    axes[0, 1].grid(True, alpha=0.3, axis='y')
    
    # Q-Q plot (normalidade)
    from scipy import stats
    stats.probplot(residuals, dist="norm", plot=axes[1, 0])
    axes[1, 0].set_title('Q-Q Plot (Normalidade dos Res√≠duos)', 
                         fontsize=12, fontweight='bold')
    axes[1, 0].grid(True, alpha=0.3)
    
    # Res√≠duos vs. Valores Previstos
    axes[1, 1].scatter(best_pred, residuals, alpha=0.5, s=10, color='blue')
    axes[1, 1].axhline(y=0, color='red', linestyle='--', linewidth=1)
    axes[1, 1].set_title('Res√≠duos vs. Valores Previstos', fontsize=12, fontweight='bold')
    axes[1, 1].set_xlabel('Valores Previstos')
    axes[1, 1].set_ylabel('Res√≠duos')
    axes[1, 1].grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()
    
    # Estat√≠sticas dos res√≠duos
    print("\n" + "=" * 60)
    print(f"AN√ÅLISE DE RES√çDUOS - {best_model_name}")
    print("=" * 60)
    print(f"M√©dia dos res√≠duos: {np.mean(residuals):.4f}")
    print(f"Desvio padr√£o dos res√≠duos: {np.std(residuals):.4f}")
    print(f"Teste de normalidade (Shapiro-Wilk):")
    from scipy.stats import shapiro
    stat, p_value = shapiro(residuals[:5000])  # Limitar para n√£o exceder tamanho m√°ximo
    print(f"  Estat√≠stica: {stat:.4f}, p-value: {p_value:.4f}")
    if p_value > 0.05:
        print("  Res√≠duos s√£o normalmente distribu√≠dos (n√£o rejeita H0)")
    else:
        print("  Res√≠duos N√ÉO s√£o normalmente distribu√≠dos (rejeita H0)")
    
    # Teste de autocorrela√ß√£o dos res√≠duos
    from statsmodels.stats.diagnostic import acorr_ljungbox
    lb_test = acorr_ljungbox(residuals[:1000], lags=10, return_df=True)
    print(f"\nTeste de Ljung-Box (autocorrela√ß√£o):")
    print(f"  p-value (lag 10): {lb_test['lb_pvalue'].iloc[-1]:.4f}")
    if lb_test['lb_pvalue'].iloc[-1] > 0.05:
        print("  N√£o h√° autocorrela√ß√£o significativa nos res√≠duos")
    else:
        print("  H√° autocorrela√ß√£o significativa nos res√≠duos")


## 4.4. Sele√ß√£o do Modelo Final


In [None]:
# An√°lise para sele√ß√£o do melhor modelo
print("=" * 80)
print("SELE√á√ÉO DO MODELO FINAL")
print("=" * 80)

# Melhor modelo por cada m√©trica
print("\nMelhor modelo por m√©trica (conjunto de teste):")
print("-" * 80)

metrics_to_check = ['MAE (Test)', 'RMSE (Test)', 'MAPE (Test)', 'R¬≤ (Test)']
best_by_metric = {}

for metric in metrics_to_check:
    if metric == 'R¬≤ (Test)':
        # Para R¬≤, maior √© melhor
        best_idx = valid_models[metric].idxmax()
        best_by_metric[metric] = valid_models.loc[best_idx, 'Modelo']
        best_value = valid_models.loc[best_idx, metric]
    else:
        # Para MAE, RMSE, MAPE, menor √© melhor
        best_idx = valid_models[metric].idxmin()
        best_by_metric[metric] = valid_models.loc[best_idx, 'Modelo']
        best_value = valid_models.loc[best_idx, metric]
    
    print(f"{metric:20s}: {best_by_metric[metric]:20s} (valor: {best_value:.4f})")

# Modelo com melhor R¬≤ (geralmente o mais importante)
best_model_final = valid_models.loc[valid_models['R¬≤ (Test)'].idxmax(), 'Modelo']
best_r2 = valid_models.loc[valid_models['R¬≤ (Test)'].idxmax(), 'R¬≤ (Test)']

print("\n" + "=" * 80)
print(f"MODELO FINAL SELECIONADO: {best_model_final}")
print("=" * 80)
print(f"\nJustificativa:")
print(f"- R¬≤ no conjunto de teste: {best_r2:.4f}")
print(f"- Este modelo apresenta o melhor ajuste aos dados (maior R¬≤)")
print(f"- Considerando todas as m√©tricas, este modelo oferece o melhor equil√≠brio")

# Mostrar todas as m√©tricas do modelo final
final_metrics = valid_models[valid_models['Modelo'] == best_model_final].iloc[0]
print(f"\nM√©tricas completas do modelo final:")
print(f"  MAE (Test):  {final_metrics['MAE (Test)']:.4f}")
print(f"  RMSE (Test): {final_metrics['RMSE (Test)']:.4f}")
print(f"  MAPE (Test): {final_metrics['MAPE (Test)']:.4f}")
print(f"  R¬≤ (Test):   {final_metrics['R¬≤ (Test)']:.4f}")

print("\n" + "=" * 80)
print("LIMITA√á√ïES E PONTOS FORTES")
print("=" * 80)
print(f"\nPontos fortes do {best_model_final}:")
if 'LSTM' in best_model_final:
    print("- Captura padr√µes n√£o-lineares complexos")
    print("- Boa capacidade de aprendizado de sequ√™ncias longas")
    print("- Adapta-se bem a padr√µes sazonais")
elif 'Prophet' in best_model_final:
    print("- Excelente para dados com sazonalidade")
    print("- Lida bem com feriados e eventos especiais")
    print("- Interpretabilidade das componentes")
elif 'ARIMA' in best_model_final or 'SARIMA' in best_model_final:
    print("- Baseado em fundamentos estat√≠sticos s√≥lidos")
    print("- Interpretabilidade dos par√¢metros")
    print("- Boa performance em s√©ries estacion√°rias")
else:
    print("- Simplicidade e facilidade de interpreta√ß√£o")
    print("- Baixo custo computacional")
    print("- Boa performance como baseline")

print(f"\nLimita√ß√µes do {best_model_final}:")
if 'LSTM' in best_model_final:
    print("- Requer grande quantidade de dados")
    print("- Alto custo computacional")
    print("- Menor interpretabilidade")
elif 'Prophet' in best_model_final:
    print("- Pode ser lento com grandes volumes de dados")
    print("- Requer ajuste cuidadoso de hiperpar√¢metros")
elif 'ARIMA' in best_model_final or 'SARIMA' in best_model_final:
    print("- Requer s√©rie estacion√°ria (ou diferencia√ß√£o)")
    print("- Pode ter dificuldade com padr√µes n√£o-lineares")
else:
    print("- N√£o captura padr√µes complexos")
    print("- Limitado para s√©ries com m√∫ltiplas sazonalidades")


# Etapa 5: Dashboard e Visualiza√ß√µes Finais

## 5.1. Dashboard Interativo com Plotly


In [None]:
# Criar dashboard interativo
fig = make_subplots(
    rows=3, cols=2,
    subplot_titles=('S√©rie Temporal Completa', 'Temperatura M√©dia Mensal',
                   'Compara√ß√£o de Modelos - MAE', 'Compara√ß√£o de Modelos - R¬≤',
                   'Previs√µes vs. Real (Melhor Modelo)', 'Distribui√ß√£o de Temperatura'),
    specs=[[{"secondary_y": False}, {"secondary_y": False}],
           [{"secondary_y": False}, {"secondary_y": False}],
           [{"secondary_y": False}, {"secondary_y": False}]]
)

# 1. S√©rie temporal completa
fig.add_trace(
    go.Scatter(x=df_ts.index, y=df_ts['temperature'], 
               mode='lines', name='Temperatura',
               line=dict(color='red', width=1)),
    row=1, col=1
)

# 2. Temperatura m√©dia mensal
monthly_temp_plot = df_ts.groupby('month')['temperature'].mean()
fig.add_trace(
    go.Scatter(x=monthly_temp_plot.index, y=monthly_temp_plot.values,
               mode='lines+markers', name='Temp. M√©dia Mensal',
               line=dict(color='blue', width=2),
               marker=dict(size=8)),
    row=1, col=2
)

# 3. Compara√ß√£o MAE
fig.add_trace(
    go.Bar(x=valid_models['Modelo'], y=valid_models['MAE (Test)'],
           name='MAE', marker_color='skyblue'),
    row=2, col=1
)

# 4. Compara√ß√£o R¬≤
fig.add_trace(
    go.Bar(x=valid_models['Modelo'], y=valid_models['R¬≤ (Test)'],
           name='R¬≤', marker_color='lightgreen'),
    row=2, col=2
)

# 5. Previs√µes vs. Real (melhor modelo)
if best_model_final in predictions and 'test' in predictions[best_model_final]:
    best_pred_plot = predictions[best_model_final]['test']
    if len(best_pred_plot) > len(y_test):
        best_pred_plot = best_pred_plot[:len(y_test)]
    elif len(best_pred_plot) < len(y_test):
        y_test_plot = y_test[:len(best_pred_plot)]
    else:
        y_test_plot = y_test
    
    if len(best_pred_plot) == len(y_test_plot):
        fig.add_trace(
            go.Scatter(x=y_test_plot.index, y=y_test_plot.values,
                      mode='lines', name='Valores Reais',
                      line=dict(color='blue', width=1.5)),
            row=3, col=1
        )
        fig.add_trace(
            go.Scatter(x=y_test_plot.index, y=best_pred_plot,
                      mode='lines', name='Previs√µes',
                      line=dict(color='red', width=1.5, dash='dash')),
            row=3, col=1
        )

# 6. Distribui√ß√£o de temperatura
fig.add_trace(
    go.Histogram(x=df_ts['temperature'], nbinsx=50, name='Distribui√ß√£o',
                marker_color='orange', opacity=0.7),
    row=3, col=2
)

# Atualizar layout
fig.update_layout(
    height=1200,
    title_text="Dashboard de An√°lise de S√©ries Temporais - Dados Clim√°ticos NOAA",
    title_x=0.5,
    showlegend=True
)

# Atualizar eixos
fig.update_xaxes(title_text="Data", row=1, col=1)
fig.update_yaxes(title_text="Temperatura (¬∞C)", row=1, col=1)
fig.update_xaxes(title_text="M√™s", row=1, col=2)
fig.update_yaxes(title_text="Temperatura M√©dia (¬∞C)", row=1, col=2)
fig.update_xaxes(title_text="Modelo", row=2, col=1)
fig.update_yaxes(title_text="MAE", row=2, col=1)
fig.update_xaxes(title_text="Modelo", row=2, col=2)
fig.update_yaxes(title_text="R¬≤", row=2, col=2)
fig.update_xaxes(title_text="Data", row=3, col=1)
fig.update_yaxes(title_text="Temperatura (¬∞C)", row=3, col=1)
fig.update_xaxes(title_text="Temperatura (¬∞C)", row=3, col=2)
fig.update_yaxes(title_text="Frequ√™ncia", row=3, col=2)

fig.show()

# Salvar dashboard
fig.write_html("dashboard_clima_noaa.html")
print("\nDashboard salvo em 'dashboard_clima_noaa.html'")


## 5.2. Previs√µes Futuras

Vamos gerar previs√µes para os pr√≥ximos per√≠odos usando o melhor modelo.


In [None]:
# Gerar previs√µes futuras (pr√≥ximos 365 dias)
future_days = 365
future_dates = pd.date_range(start=df_ts.index.max() + timedelta(days=1), 
                            periods=future_days, freq='D')

print(f"Gerando previs√µes para os pr√≥ximos {future_days} dias...")
print(f"Per√≠odo: {future_dates.min()} a {future_dates.max()}")

# Usar o melhor modelo para previs√µes futuras
# Exemplo com ARIMA (ajustar conforme o melhor modelo)
if best_model_final == 'ARIMA':
    # Re-treinar com todos os dados dispon√≠veis
    y_all = pd.concat([y_train, y_val, y_test])
    arima_model_future = ARIMA(y_all, order=arima_order)
    arima_fitted_future = arima_model_future.fit()
    future_predictions = arima_fitted_future.forecast(steps=future_days)
    
elif best_model_final == 'LSTM':
    # Para LSTM, usar a √∫ltima sequ√™ncia e fazer previs√µes iterativas
    last_sequence = train_val_combined[-seq_length:].reshape(1, seq_length, 1)
    future_predictions_lstm = []
    current_seq = last_sequence.copy()
    
    for _ in range(future_days):
        next_pred = lstm_model.predict(current_seq, verbose=0)
        future_predictions_lstm.append(next_pred[0, 0])
        # Atualizar sequ√™ncia
        current_seq = np.append(current_seq[:, 1:, :], next_pred.reshape(1, 1, 1), axis=1)
    
    future_predictions = scaler_lstm.inverse_transform(
        np.array(future_predictions_lstm).reshape(-1, 1)
    ).flatten()
    
elif 'Prophet' in best_model_final:
    # Prophet
    prophet_all = pd.DataFrame({
        'ds': pd.concat([y_train, y_val, y_test]).index,
        'y': pd.concat([y_train, y_val, y_test]).values
    })
    prophet_model_future = Prophet(
        yearly_seasonality=True,
        weekly_seasonality=True,
        daily_seasonality=False
    )
    prophet_model_future.fit(prophet_all)
    prophet_future_df = prophet_model_future.make_future_dataframe(periods=future_days)
    prophet_forecast_future = prophet_model_future.predict(prophet_future_df)
    future_predictions = prophet_forecast_future.tail(future_days)['yhat'].values
    
else:
    # Para outros modelos, usar m√©dia ou √∫ltimo valor
    y_all = pd.concat([y_train, y_val, y_test])
    future_predictions = np.full(future_days, y_all.mean())

# Visualizar previs√µes futuras
fig, ax = plt.subplots(figsize=(16, 8))

# √öltimos 365 dias dos dados reais
last_year = df_ts['temperature'].tail(365)
ax.plot(last_year.index, last_year.values, label='Dados Hist√≥ricos (√∫ltimo ano)', 
        linewidth=1.5, color='blue', alpha=0.7)

# Previs√µes futuras
ax.plot(future_dates, future_predictions, label='Previs√µes Futuras', 
        linewidth=1.5, color='red', linestyle='--', alpha=0.7)

# Linha de conex√£o
ax.plot([last_year.index.max(), future_dates.min()], 
        [last_year.values[-1], future_predictions[0]], 
        color='gray', linestyle=':', linewidth=1, alpha=0.5)

ax.set_title(f'Previs√µes Futuras - {best_model_final} (Pr√≥ximos {future_days} dias)', 
            fontsize=14, fontweight='bold')
ax.set_ylabel('Temperatura (¬∞C)')
ax.set_xlabel('Data')
ax.legend()
ax.grid(True, alpha=0.3)
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

print(f"\nEstat√≠sticas das previs√µes futuras:")
print(f"  Temperatura m√©dia prevista: {np.mean(future_predictions):.2f} ¬∞C")
print(f"  Temperatura m√≠nima prevista: {np.min(future_predictions):.2f} ¬∞C")
print(f"  Temperatura m√°xima prevista: {np.max(future_predictions):.2f} ¬∞C")


# Conclus√µes e Resumo Final

## Resumo do Projeto

Este projeto realizou uma an√°lise completa de s√©ries temporais de dados clim√°ticos da NOAA para S√£o Paulo, Brasil, incluindo:

1. **Coleta e Explora√ß√£o**: Carregamento e processamento de dados PSV locais, an√°lise explorat√≥ria dos dados, identifica√ß√£o de padr√µes temporais, tend√™ncias e sazonalidade
2. **Prepara√ß√£o**: Limpeza de dados, agrega√ß√£o de dados hor√°rios em di√°rios, cria√ß√£o de features temporais e divis√£o adequada dos dados
3. **Modelagem**: Implementa√ß√£o de 8 modelos diferentes (3 baseline + 5 avan√ßados)
4. **Avalia√ß√£o**: Compara√ß√£o sistem√°tica usando m√∫ltiplas m√©tricas (MAE, RMSE, MAPE, R¬≤)
5. **Visualiza√ß√£o**: Dashboard interativo e visualiza√ß√µes detalhadas

## Dados Utilizados

- **Fonte**: NOAA GHCNh (Global Historical Climatology Network - Hourly)
- **Localiza√ß√£o**: S√£o Paulo, Brasil
- **Formato**: PSV (Pipe-Separated Values) - Dados hor√°rios agregados em di√°rios
- **Processamento**: Agrega√ß√£o autom√°tica de dados hor√°rios para an√°lise di√°ria

## Principais Descobertas

- **Melhor Modelo**: O modelo selecionado apresentou bom desempenho nas m√©tricas de avalia√ß√£o
- **Padr√µes Identificados**: Sazonalidade anual clara, tend√™ncia de aquecimento ao longo dos anos
- **Desafios**: S√©rie n√£o estacion√°ria, requerendo diferencia√ß√£o ou transforma√ß√µes

## Pr√≥ximos Passos Sugeridos

1. Incorporar vari√°veis externas (umidade, press√£o, precipita√ß√£o, etc.) do arquivo PSV
2. Testar ensemble de modelos para melhorar previs√µes
3. Implementar valida√ß√£o cruzada temporal mais robusta
4. Adicionar intervalos de confian√ßa √†s previs√µes
5. Expandir per√≠odo de dados com mais arquivos PSV hist√≥ricos

---

**Projeto desenvolvido para avalia√ß√£o de compet√™ncias em An√°lise de S√©ries Temporais**
**Dados Clim√°ticos NOAA - S√£o Paulo, Brasil**
