# üìä An√°lise de Dados: Projeto Clima+ 200 (Jaime Basso)

Este *notebook* realiza a **An√°lise Explorat√≥ria de Dados (EDA)** e a visualiza√ß√£o dos dados sumarizados. O foco √© correlacionar as **leituras di√°rias dos sensores IoT (Am√¥nia, Temperatura, Umidade, etc.)** com as m√©tricas de desempenho zoot√©cnico dos lotes, testando a efici√™ncia do novo modelo de reaproveitamento de calor e ambi√™ncia, conforme o escopo estrat√©gico do projeto. üêîüìà

Os dados utilizados foram gerados a partir do processamento do banco de dados `clima.db` e est√£o prontos para an√°lise.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

# Configura√ß√£o inicial para melhor visualiza√ß√£o dos gr√°ficos
sns.set_theme(style="whitegrid", palette="viridis")

# üìÇ Defini√ß√£o de Paths (Usando pathlib para um c√≥digo mais "pythonico")
from pathlib import Path

# Assumindo que este notebook est√° em 'src' e os dados em '../data/processed'
project_root = Path(os.getcwd()).parent.parent if 'src' in os.getcwd().split(os.sep) else Path(os.getcwd()).parent
processed_data_directory = project_root / 'data' / 'processed'

# üì• Carregar dados sumarizados
try:
    daily_iot_df = pd.read_csv(processed_data_directory / 'daily_iot_summary.csv')
    lote_performance_df = pd.read_csv(processed_data_directory / 'lote_performance_summary.csv')

    print("‚úÖ Dados IoT Di√°rios Carregados:")
    print(daily_iot_df.head().to_markdown(index=False))
    
    print("\n‚úÖ Desempenho dos Lotes Carregado:")
    print(lote_performance_df.head().to_markdown(index=False))
    
except FileNotFoundError as e:
    print(f"‚ùå ERRO: Arquivo n√£o encontrado. Verifique o path: {e.filename}")
    # Encerrar ou criar DataFrames vazios para evitar erro no resto do notebook
    daily_iot_df = pd.DataFrame()
    lote_performance_df = pd.DataFrame()

--- 
## üîç An√°lise Explorat√≥ria de Dados (EDA) e Tipos de Dados

Verificar a estrutura, valores faltantes e estat√≠sticas b√°sicas √© crucial antes da an√°lise principal.

In [None]:
if not daily_iot_df.empty:
    print("\n‚ú® Daily IoT Summary Info:")
    daily_iot_df.info()
    print("\nüìà Daily IoT Summary Describe:")
    print(daily_iot_df.describe().T.to_markdown())

if not lote_performance_df.empty:
    print("\n‚ú® Lote Performance Summary Info:")
    lote_performance_df.info()
    print("\nüìà Lote Performance Summary Describe:")
    print(lote_performance_df.describe().T.to_markdown())

--- 
## üßπ Limpeza e Pr√©-processamento de Dados

Converter colunas de **data** para o tipo *datetime* √© essencial para manipula√ß√£o e visualiza√ß√£o de s√©ries temporais.

In [None]:
if not daily_iot_df.empty:
    # Assumindo que o formato '%d/%m/%Y' (dia/m√™s/ano) est√° correto.
    daily_iot_df['Data'] = pd.to_datetime(daily_iot_df['Data'], format='%d/%m/%Y', errors='coerce')
    daily_iot_df = daily_iot_df.dropna(subset=['Data']) # Remove linhas com data inv√°lida
    daily_iot_df = daily_iot_df.sort_values(by='Data').reset_index(drop=True)
    print("Data Types after IoT conversion:")
    print(daily_iot_df[['Data']].info())

if not lote_performance_df.empty:
    # Assumindo o mesmo formato para a data de alojamento
    lote_performance_df['data_alojamento'] = pd.to_datetime(lote_performance_df['data_alojamento'], format='%d/%m/%Y', errors='coerce')
    lote_performance_df = lote_performance_df.dropna(subset=['data_alojamento'])
    print("\nData Types after Lote conversion:")
    print(lote_performance_df[['data_alojamento']].info())

--- 
## üñºÔ∏è Visualiza√ß√µes e An√°lise de Tend√™ncias

Visualiza√ß√µes s√£o a melhor forma de encontrar *insights* sobre a ambi√™ncia e o desempenho.

In [None]:
if not daily_iot_df.empty and 'Grandeza' in daily_iot_df.columns:
    # Exemplo 1: Valores di√°rios m√©dios por 'Grandeza' (S√©rie Temporal)
    plt.figure(figsize=(15, 7))
    # Usando style mais limpo do sns
    sns.lineplot(data=daily_iot_df, x='Data', y='average_valor', hue='Grandeza')
    plt.title('M√©dias Di√°rias dos Sensores IoT ao Longo do Tempo', fontsize=16)
    plt.xlabel('Data', fontsize=12)
    plt.ylabel('Valor M√©dio', fontsize=12)
    plt.legend(title='Grandeza', bbox_to_anchor=(1.05, 1), loc=2)
    plt.xticks(rotation=45)
    plt.tight_layout()
    plt.show()

In [None]:
if not lote_performance_df.empty:
    # Exemplo 2: Desempenho do Lote - Taxa de Mortalidade por Grupo de Teste
    plt.figure(figsize=(10, 6))
    # Usando boxplot para ver a distribui√ß√£o e outliers
    sns.boxplot(data=lote_performance_df, x='lote_composto', y='mortalidade_percent', hue='teste_realizado')
    plt.title('Distribui√ß√£o da Mortalidade (%) por Lote e Teste', fontsize=16)
    plt.xlabel('Lote Composto', fontsize=12)
    plt.ylabel('Mortalidade (%)', fontsize=12)
    plt.tight_layout()
    plt.show()

In [None]:
if not lote_performance_df.empty:
    # Exemplo 3: Matriz de Correla√ß√£o entre Vari√°veis Zoot√©cnicas e Ambi√™ncia
    
    # Aten√ß√£o: Lista de colunas duplicadas corrigida e refinada!
    correlation_cols = [
        # M√©tricas Zoot√©cnicas
        'mortalidade_percent', 'idade_abate', 'conversao_ajustada', 'iep', 'peso_medio',
        'remuneracao_sqr_meter_brl', # Indicador Financeiro
        'aero_parcial', 'condenacao_efetiva_kg', 'contaminacao_parcial', # Indicadores de Qualidade
        # M√©tricas de Ambi√™ncia Agregadas (se existirem na sumariza√ß√£o do lote)
        'avg_umidade', 'avg_temperatura', 'avg_amonia', 'avg_corrente', 'avg_energia', 'avg_pressao'
    ]

    # Filtrar colunas existentes e com dados (sem ser s√≥ NaN)
    existing_correlation_cols = [
        col for col in correlation_cols 
        if col in lote_performance_df.columns and not lote_performance_df[col].isnull().all()
    ]

    if len(existing_correlation_cols) > 1:
        plt.figure(figsize=(12, 10))
        # Calcula a correla√ß√£o e gera o mapa de calor
        corr_matrix = lote_performance_df[existing_correlation_cols].corr()
        sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt='.2f', linewidths=.5, linecolor='black')
        plt.title('Matriz de Correla√ß√£o entre Desempenho e Ambi√™ncia', fontsize=16)
        plt.tight_layout()
        plt.show()
    else:
        print("‚ö†Ô∏è N√£o h√° colunas suficientes ou relevantes para an√°lise de correla√ß√£o no DataFrame de Desempenho do Lote.")

--- 
## üí° Insights e Conclus√µes (A Ser Preenchido)

Ap√≥s a execu√ß√£o das c√©lulas acima, use esta se√ß√£o para registrar as principais descobertas. 
Foque em: 

1.  **Diferen√ßa Am√¥nia/Temperatura:** H√° uma correla√ß√£o clara entre o uso do Clima+ 200 (*teste_realizado*) e os n√≠veis m√©dios de am√¥nia/temperatura? (KPI de qualidade do ar)
2.  **Impacto Zoot√©cnico:** Qual √© a correla√ß√£o entre as vari√°veis de ambi√™ncia (principalmente **Am√¥nia**) e o **IEP** ou **Convers√£o Alimentar Ajustada**? (KPI de efici√™ncia/custo)
3.  **Sugest√£o de A√ß√£o:** O que os dados sugerem em rela√ß√£o ao modelo de reaproveitamento de calor? H√° um *case* claro para a expans√£o da tecnologia? (Alinhamento estrat√©gico e ESG)