In [1]:
# %% [markdown]
# # An√°lise Explorat√≥ria de Dados de Arboviroses
# 
# Este notebook realiza uma an√°lise explorat√≥ria completa dos dados clim√°ticos e de casos de arboviroses (dengue, zika e chikungunya) para os munic√≠pios de Te√≥filo Otoni e Diamantina.

# %%
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from src.data_loader import load_data
from src.preprocessor import DataPreprocessor
import logging
import warnings
from scipy import stats

# Configura√ß√µes
warnings.filterwarnings('ignore')
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
sns.set_theme(style="whitegrid")
plt.rcParams['figure.figsize'] = (14, 8)
plt.rcParams['font.size'] = 14
pd.set_option('display.max_columns', None)

# %% [markdown]
# ## 1. Carregamento e Pr√©-processamento de Dados

# %%
# Carregar dados brutos
logging.info("Carregando dados...")
df_raw = load_data()
logging.info(f"Dados brutos carregados: {df_raw.shape[0]} registros, {df_raw.shape[1]} colunas")

# Mostrar colunas e amostra
print("\nüîç Colunas dispon√≠veis nos dados brutos:")
print(df_raw.columns.tolist())
print("\nüìã Amostra dos dados brutos:")
display(df_raw.head(3))
print("\nüìä Estat√≠sticas descritivas:")
display(df_raw.describe())

# Pr√©-processamento
logging.info("Iniciando pr√©-processamento...")
preprocessor = DataPreprocessor()
df = preprocessor.preprocess(df_raw)
logging.info(f"Pr√©-processamento conclu√≠do: {df.shape[0]} registros, {df.shape[1]} colunas")

# Mostrar colunas e amostra ap√≥s pr√©-processamento
print("\nüîç Colunas dispon√≠veis ap√≥s pr√©-processamento:")
print(df.columns.tolist())
print("\nüìã Amostra dos dados processados:")
display(df.head(3))

# %% [markdown]
# ## 2. An√°lise Temporal Completa

# %%
if 'data' in df.columns:
    # Converter data para datetime
    df['data'] = pd.to_datetime(df['data'])
    
    # Criar figura com subplots
    fig, axs = plt.subplots(4, 1, figsize=(16, 20))
    
    # 2.1 Casos de arboviroses
    for disease in ['dengue', 'zika', 'chikungunya']:
        col = f'casos_{disease}'
        if col in df.columns:
            for city in df['municipio'].unique():
                city_data = df[df['municipio'] == city]
                axs[0].plot(city_data['data'], city_data[col], 'o-', label=f"{city} - {disease}")
    axs[0].set_title('Evolu√ß√£o de Casos de Arboviroses')
    axs[0].set_ylabel('Casos')
    axs[0].legend(ncol=2)
    axs[0].grid(True)
    
    # 2.2 Temperatura e umidade
    if 'temperatura' in df.columns:
        for city in df['municipio'].unique():
            city_data = df[df['municipio'] == city]
            axs[1].plot(city_data['data'], city_data['temperatura'], 's-', label=f"{city} - Temperatura")
    if 'umidade' in df.columns:
        for city in df['municipio'].unique():
            city_data = df[df['municipio'] == city]
            axs[1].plot(city_data['data'], city_data['umidade'], 'd-', label=f"{city} - Umidade")
    axs[1].set_title('Vari√°veis Clim√°ticas: Temperatura e Umidade')
    axs[1].set_ylabel('Valor')
    axs[1].legend(ncol=2)
    axs[1].grid(True)
    
    # 2.3 Precipita√ß√£o
    if 'precipitacao' in df.columns:
        for city in df['municipio'].unique():
            city_data = df[df['municipio'] == city]
            # M√©dia m√≥vel de 7 dias para suavizar
            axs[2].plot(city_data['data'], city_data['precipitacao'].rolling(7).mean(), 
                       '^-', label=f"{city} - Precipita√ß√£o (mm7d)")
    axs[2].set_title('Precipita√ß√£o (M√©dia M√≥vel 7 dias)')
    axs[2].set_ylabel('mm')
    axs[2].legend()
    axs[2].grid(True)
    
    # 2.4 Rela√ß√£o entre precipita√ß√£o e casos (lag 14 dias)
    if 'precipitacao' in df.columns and 'casos_dengue' in df.columns:
        for city in df['municipio'].unique():
            city_data = df[df['municipio'] == city]
            # Precipita√ß√£o com lag de 14 dias
            axs[3].plot(city_data['data'], city_data['precipitacao'].shift(14).rolling(7).mean(), 
                       ':', label=f"{city} - Precipita√ß√£o (lag 14d)")
            axs[3].plot(city_data['data'], city_data['casos_dengue'].rolling(7).mean(), 
                       '-', label=f"{city} - Casos Dengue (m√©dia 7d)")
        axs[3].set_title('Rela√ß√£o entre Precipita√ß√£o (lag 14d) e Casos de Dengue')
        axs[3].set_ylabel('Valor Normalizado')
        axs[3].legend()
        axs[3].grid(True)
    
    plt.tight_layout()
    plt.show()
else:
    logging.warning("‚ö†Ô∏è Coluna 'data' n√£o encontrada. An√°lise temporal ignorada.")

# %% [markdown]
# ## 3. An√°lise de Correla√ß√£o Avan√ßada

# %%
# 3.1 Mapa de calor de correla√ß√µes
corr_cols = ['temperatura', 'umidade', 'precipitacao', 
             'casos_dengue', 'casos_zika', 'casos_chikungunya']

# Filtrar colunas existentes
corr_cols = [col for col in corr_cols if col in df.columns]

if len(corr_cols) > 1:
    plt.figure(figsize=(12, 10))
    corr_matrix = df[corr_cols].corr()
    sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', vmin=-1, vmax=1, fmt=".2f")
    plt.title('Matriz de Correla√ß√£o')
    plt.tight_layout()
    plt.show()
else:
    logging.warning("‚ö†Ô∏è Colunas insuficientes para matriz de correla√ß√£o")

# 3.2 Correla√ß√£o com lags
if 'precipitacao' in df.columns and 'casos_dengue' in df.columns:
    lags = np.arange(0, 31, 5)  # 0 a 30 dias
    correlations = []
    
    for lag in lags:
        corr = df['casos_dengue'].corr(df['precipitacao'].shift(lag))
        correlations.append(corr)
    
    plt.figure(figsize=(12, 6))
    plt.plot(lags, correlations, 'o-', markersize=8)
    plt.axhline(0, color='gray', linestyle='--')
    plt.title('Correla√ß√£o entre Precipita√ß√£o (lag) e Casos de Dengue')
    plt.xlabel('Dias de Atraso (lag)')
    plt.ylabel('Coeficiente de Correla√ß√£o')
    plt.grid(True)
    plt.tight_layout()
    plt.show()

# %% [markdown]
# ## 4. An√°lise de Sazonalidade

# %%
if 'mes' in df.columns:
    # Agrupar por m√™s
    monthly_data = df.groupby('mes').agg({
        'casos_dengue': 'mean',
        'casos_zika': 'mean',
        'casos_chikungunya': 'mean',
        'temperatura': 'mean',
        'umidade': 'mean',
        'precipitacao': 'sum'
    }).reset_index()
    
    # Mapear nomes dos meses
    meses = ['Jan', 'Fev', 'Mar', 'Abr', 'Mai', 'Jun', 
             'Jul', 'Ago', 'Set', 'Out', 'Nov', 'Dez']
    
    # 4.1 Casos por m√™s
    plt.figure(figsize=(14, 7))
    for disease in ['dengue', 'zika', 'chikungunya']:
        col = f'casos_{disease}'
        if col in monthly_data.columns:
            plt.plot(monthly_data['mes'], monthly_data[col], 'o-', label=disease.capitalize(), markersize=8)
    plt.title('M√©dia Mensal de Casos de Arboviroses')
    plt.ylabel('Casos')
    plt.xlabel('M√™s')
    plt.xticks(range(1, 13), meses)
    plt.legend()
    plt.grid(True)
    plt.tight_layout()
    plt.show()
    
    # 4.2 Clima por m√™s
    plt.figure(figsize=(14, 10))
    
    plt.subplot(3, 1, 1)
    plt.plot(monthly_data['mes'], monthly_data['temperatura'], 's-', color='red', markersize=8)
    plt.title('Temperatura M√©dia Mensal')
    plt.ylabel('¬∞C')
    plt.xticks(range(1, 13), meses)
    plt.grid(True)
    
    plt.subplot(3, 1, 2)
    plt.plot(monthly_data['mes'], monthly_data['umidade'], 'd-', color='blue', markersize=8)
    plt.title('Umidade M√©dia Mensal')
    plt.ylabel('%')
    plt.xticks(range(1, 13), meses)
    plt.grid(True)
    
    plt.subplot(3, 1, 3)
    plt.bar(monthly_data['mes'], monthly_data['precipitacao'], color='green')
    plt.title('Precipita√ß√£o Acumulada Mensal')
    plt.ylabel('mm')
    plt.xticks(range(1, 13), meses)
    plt.grid(True)
    
    plt.tight_layout()
    plt.show()
else:
    logging.warning("‚ö†Ô∏è Coluna 'mes' n√£o encontrada. An√°lise de sazonalidade ignorada.")

# %% [markdown]
# ## 5. Compara√ß√£o entre Munic√≠pios

# %%
if 'municipio' in df.columns:
    # 5.1 Casos totais
    total_cases = df.groupby('municipio').agg({
        'casos_dengue': 'sum',
        'casos_zika': 'sum',
        'casos_chikungunya': 'sum'
    })
    
    if not total_cases.empty:
        plt.figure(figsize=(14, 8))
        total_cases.plot(kind='bar', stacked=True)
        plt.title('Casos Totais por Munic√≠pio')
        plt.ylabel('Casos')
        plt.xlabel('Munic√≠pio')
        plt.xticks(rotation=0)
        plt.grid(True, axis='y')
        plt.tight_layout()
        plt.show()
    
    # 5.2 M√©dias clim√°ticas
    climate_means = df.groupby('municipio').agg({
        'temperatura': 'mean',
        'umidade': 'mean',
        'precipitacao': 'mean'
    })
    
    if not climate_means.empty:
        fig, axs = plt.subplots(1, 3, figsize=(18, 6))
        
        axs[0].bar(climate_means.index, climate_means['temperatura'], color='red')
        axs[0].set_title('Temperatura M√©dia')
        axs[0].set_ylabel('¬∞C')
        
        axs[1].bar(climate_means.index, climate_means['umidade'], color='blue')
        axs[1].set_title('Umidade M√©dia')
        axs[1].set_ylabel('%')
        
        axs[2].bar(climate_means.index, climate_means['precipitacao'], color='green')
        axs[2].set_title('Precipita√ß√£o M√©dia Di√°ria')
        axs[2].set_ylabel('mm')
        
        for ax in axs:
            ax.grid(True, axis='y')
        
        plt.tight_layout()
        plt.show()
else:
    logging.warning("‚ö†Ô∏è Coluna 'municipio' n√£o encontrada. Compara√ß√£o entre munic√≠pios ignorada.")

# %% [markdown]
# ## 6. An√°lise de Distribui√ß√£o e Outliers

# %%
# 6.1 Distribui√ß√£o de casos
case_cols = [col for col in df.columns if 'casos_' in col]

if case_cols:
    plt.figure(figsize=(14, 8))
    for i, col in enumerate(case_cols, 1):
        plt.subplot(1, len(case_cols), i)
        sns.histplot(df[col], kde=True)
        plt.title(f'Distribui√ß√£o de {col.replace("casos_", "").capitalize()}')
    plt.tight_layout()
    plt.show()
else:
    logging.warning("‚ö†Ô∏è Nenhuma coluna de casos encontrada para an√°lise de distribui√ß√£o")

# 6.2 Boxplots clim√°ticos
climate_cols = [col for col in ['temperatura', 'umidade', 'precipitacao'] if col in df.columns]

if climate_cols:
    plt.figure(figsize=(14, 6))
    sns.boxplot(data=df[climate_cols], orient='h')
    plt.title('Distribui√ß√£o de Vari√°veis Clim√°ticas')
    plt.grid(True, axis='x')
    plt.tight_layout()
    plt.show()
else:
    logging.warning("‚ö†Ô∏è Nenhuma coluna clim√°tica encontrada para an√°lise de distribui√ß√£o")

# %% [markdown]
# ## 7. An√°lise de Tend√™ncias

# %%
if 'data' in df.columns and 'casos_dengue' in df.columns:
    # Converter data para ordinal para regress√£o
    df['data_ordinal'] = df['data'].apply(lambda x: x.toordinal())
    
    # Calcular tend√™ncia para cada munic√≠pio
    for city in df['municipio'].unique():
        city_data = df[df['municipio'] == city]
        
        # Regress√£o linear para casos de dengue
        slope, intercept, r_value, p_value, std_err = stats.linregress(
            city_data['data_ordinal'], 
            city_data['casos_dengue']
        )
        
        plt.figure(figsize=(12, 6))
        plt.scatter(city_data['data'], city_data['casos_dengue'], alpha=0.5, label='Casos Di√°rios')
        
        # Linha de tend√™ncia
        trend_line = intercept + slope * city_data['data_ordinal']
        plt.plot(city_data['data'], trend_line, 'r-', linewidth=2, 
                label=f'Tend√™ncia (R¬≤={r_value**2:.2f})')
        
        plt.title(f'Tend√™ncia de Casos de Dengue em {city}')
        plt.ylabel('Casos')
        plt.legend()
        plt.grid(True)
        plt.tight_layout()
        plt.show()
else:
    logging.warning("‚ö†Ô∏è Dados insuficientes para an√°lise de tend√™ncias")

# %% [markdown]
# ## 8. Visualiza√ß√£o Espacial (Mapa de Calor Temporal)

# %%
if 'data' in df.columns and 'municipio' in df.columns and 'casos_dengue' in df.columns:
    # Preparar dados para heatmap
    heatmap_data = df.pivot_table(
        index='data', 
        columns='municipio', 
        values='casos_dengue', 
        aggfunc='sum'
    ).fillna(0)
    
    # M√©dia m√≥vel semanal
    heatmap_data = heatmap_data.rolling(7).mean()
    
    # Plotar heatmap
    plt.figure(figsize=(14, 10))
    sns.heatmap(
        heatmap_data.T, 
        cmap='YlOrRd',
        cbar_kws={'label': 'Casos de Dengue (m√©dia 7 dias)'}
    )
    plt.title('Evolu√ß√£o Temporal de Casos de Dengue por Munic√≠pio')
    plt.ylabel('Munic√≠pio')
    plt.xlabel('Data')
    plt.tight_layout()
    plt.show()
else:
    logging.warning("‚ö†Ô∏è Dados insuficientes para mapa de calor")

# %% [markdown]
# ## Conclus√µes e Pr√≥ximos Passos
# 
# Com base nas an√°lises realizadas, podemos:
# 
# 1. Identificar padr√µes sazonais nas doen√ßas
# 2. Correlacionar vari√°veis clim√°ticas com incid√™ncia de casos
# 3. Detectar munic√≠pios com maior carga de doen√ßas
# 4. Identificar tend√™ncias temporais
# 
# **Pr√≥ximos passos:**
# - Desenvolver modelos preditivos
# - Implementar sistema de alerta precoce
# - Analisar impacto de interven√ß√µes

# %%
# Salvar dados processados para uso futuro
df.to_csv('data/processed/dados_arboviroses_processados.csv', index=False)
logging.info("Dados processados salvos em 'data/processed/dados_arboviroses_processados.csv'")

  import pandas._libs.testing as _testing


AttributeError: module 'numpy' has no attribute 'bool'.
`np.bool` was a deprecated alias for the builtin `bool`. To avoid this error in existing code, use `bool` by itself. Doing this will not modify any behavior and is safe. If you specifically wanted the numpy scalar type, use `np.bool_` here.
The aliases was originally deprecated in NumPy 1.20; for more details and guidance see the original release note at:
    https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations