# Script 1 ‚Äî Configura√ß√£o Geral e Importa√ß√µes  
Carrega as bibliotecas e define os caminhos dos arquivos.  
Tudo que o projeto usa come√ßa daqui.

In [1]:
import pandas as pd
import numpy as np
import re
import os
from pathlib import Path

# Configura√ß√£o de visualiza√ß√£o
pd.set_option('display.max_columns', None)

# --- DEFINI√á√ÉO DE CAMINHOS INTELIGENTE ---
# Detecta automaticamente onde este script est√° rodando
if '__file__' in globals():
    BASE_DIR = Path(__file__).parent 
else:
    BASE_DIR = Path.cwd() # Caso esteja rodando no Jupyter

# Estrutura esperada: app/data/raw e app/data/processed
# Se n√£o achar, tenta procurar a partir da raiz
if (BASE_DIR / "app" / "data").exists():
    DATA_DIR = BASE_DIR / "app" / "data"
else:
    # Fallback: Assume que estamos na raiz e a pasta data est√° em ./app/data
    DATA_DIR = BASE_DIR / "app" / "data"

DIR_RAW = DATA_DIR / "raw"
DIR_PROCESSED = DATA_DIR / "processed"

# Garante que a pasta de sa√≠da existe
os.makedirs(DIR_PROCESSED, exist_ok=True)

print(f"üìÇ Diret√≥rio RAW: {DIR_RAW}")
print(f"üíæ Diret√≥rio PROCESSED: {DIR_PROCESSED}")

# Caminhos dos arquivos
path_telemetria = DIR_RAW / "telemetria_detalhada_30dias.csv"
path_producao   = DIR_RAW / "historico_producao_1ano.csv"
path_eventos    = DIR_RAW / "eventos_industriais.csv"

# --- VALIDA√á√ÉO INICIAL ---
print("\nüîç Verificando arquivos de entrada...")
arquivos_necessarios = [
    ("Telemetria", path_telemetria),
    ("Produ√ß√£o", path_producao),
    ("Eventos", path_eventos)
]

arquivos_faltando = []
for nome, caminho in arquivos_necessarios:
    if caminho.exists():
        print(f"  ‚úÖ {nome}: OK")
    else:
        print(f"  ‚ùå {nome}: N√ÉO ENCONTRADO em {caminho}")
        arquivos_faltando.append(nome)

if arquivos_faltando:
    print(f"\n‚ö†Ô∏è  ATEN√á√ÉO CR√çTICA: Faltam arquivos! Execute o simulador primeiro.")
    print(f"   Script: simulador_industrial_hibrido.py")
    # N√£o para o script aqui para permitir depura√ß√£o, mas avisa forte

üìÇ Diret√≥rio RAW: c:\Users\anaca\OneDrive\√Årea de Trabalho\projetosenai\app\data\raw
üíæ Diret√≥rio PROCESSED: c:\Users\anaca\OneDrive\√Årea de Trabalho\projetosenai\app\data\processed

üîç Verificando arquivos de entrada...
  ‚úÖ Telemetria: OK
  ‚úÖ Produ√ß√£o: OK
  ‚úÖ Eventos: OK


# Script 2 ‚Äî Processamento da Telemetria  
Aqui fa√ßo a limpeza das leituras da m√°quina, padronizo temperatura, arrumo datas  
e gero a vers√£o ‚ÄúSilver‚Äù dos dados de telemetria.

In [2]:
print("\nüì• Processando Telemetria (Sensor Data)...")

# 1. Ingest√£o com tratamento de erro
try:
    telemetria_df = pd.read_csv(path_telemetria)
    print(f"  üìä Linhas carregadas: {len(telemetria_df):,}")
except FileNotFoundError:
    print("‚ùå Erro Cr√≠tico: Arquivo de telemetria n√£o encontrado.")
    # Cria dataframe vazio para n√£o quebrar o resto
    telemetria_df = pd.DataFrame(columns=["timestamp", "maquina_id", "temp_matriz_c", "pressao_mpa", "umidade_pct", "ciclo_tempo_s"])

if not telemetria_df.empty:
    # 2. Tratamento de Data
    telemetria_df["timestamp"] = pd.to_datetime(telemetria_df["timestamp"], errors="coerce")

    # 3. Fun√ß√£o de Limpeza de Temperatura (Regex)
    def clean_temp(x):
        if pd.isna(x): return None
        x_str = re.sub(r"[^0-9\.,-]", "", str(x))
        x_str = x_str.replace(",", ".") 
        try:
            return float(x_str)
        except:
            return None

    # Aplica a limpeza
    telemetria_df["temp_matriz_c"] = telemetria_df["temp_matriz_c"].apply(clean_temp)

    # 4. Inputa√ß√£o (Forward Fill)
    telemetria_df["temp_matriz_c"] = telemetria_df["temp_matriz_c"].ffill()
    
    # Seguran√ßa: Se ainda houver NaN (no in√≠cio), preenche com a m√©dia
    if telemetria_df["temp_matriz_c"].isna().sum() > 0:
        media_temp = telemetria_df["temp_matriz_c"].mean()
        telemetria_df["temp_matriz_c"] = telemetria_df["temp_matriz_c"].fillna(media_temp)
        print(f"  ‚ö†Ô∏è  Valores iniciais nulos preenchidos com a m√©dia ({media_temp:.1f}¬∞C)")

    # 5. Garantir Tipos Num√©ricos
    cols_float = ["pressao_mpa", "umidade_pct", "ciclo_tempo_s"]
    for col in cols_float:
        if col in telemetria_df.columns:
            telemetria_df[col] = pd.to_numeric(telemetria_df[col], errors="coerce")

    # 6. Ordena√ß√£o e Salvamento
    telemetria_df = telemetria_df.sort_values(["maquina_id", "timestamp"]).reset_index(drop=True)

    save_path = DIR_PROCESSED / "telemetria_silver.csv"
    telemetria_df.to_csv(save_path, index=False)

    print(f"‚úÖ Telemetria salva em: {save_path}")
    print("\nüìà Relat√≥rio de Qualidade:")
    print(f"  ‚Ä¢ Per√≠odo: {telemetria_df['timestamp'].min()} a {telemetria_df['timestamp'].max()}")
    print(f"  ‚Ä¢ M√°quinas: {telemetria_df['maquina_id'].nunique()}")
    print(f"  ‚Ä¢ Taxa de Defeitos Global: {telemetria_df['flag_defeito'].mean()*100:.2f}%")


üì• Processando Telemetria (Sensor Data)...
  üìä Linhas carregadas: 648,000
‚úÖ Telemetria salva em: c:\Users\anaca\OneDrive\√Årea de Trabalho\projetosenai\app\data\processed\telemetria_silver.csv

üìà Relat√≥rio de Qualidade:
  ‚Ä¢ Per√≠odo: 2025-10-24 05:00:00.961210 a 2025-11-23 01:59:54.961210
  ‚Ä¢ M√°quinas: 2
  ‚Ä¢ Taxa de Defeitos Global: 47.21%


# Script 3 ‚Äî Processamento da Produ√ß√£o  
Calculo taxa de refugo, padronizo sinaliza√ß√µes, arrumo datas  
e gero a vers√£o ‚ÄúSilver‚Äù dos dados de produ√ß√£o.

In [3]:
print("\nüì• Processando Hist√≥rico de Produ√ß√£o...")

try:
    producao_df = pd.read_csv(path_producao)
    print(f"  üìä Linhas carregadas: {len(producao_df):,}")
except FileNotFoundError:
    print("‚ùå Erro Cr√≠tico: Arquivo de produ√ß√£o n√£o encontrado.")
    producao_df = pd.DataFrame()

if not producao_df.empty:
    # 2. Tratamento de Data
    producao_df["timestamp"] = pd.to_datetime(producao_df["timestamp"], errors="coerce")

    # 3. Engenharia de Atributos (KPIs)
    # Taxa de Refugo (tratando divis√£o por zero)
    producao_df["taxa_refugo"] = producao_df["pecas_refugadas"] / producao_df["pecas_produzidas"]
    producao_df["taxa_refugo"] = producao_df["taxa_refugo"].replace([np.inf, -np.inf], 0).fillna(0)

    # Flag bin√°ria: Houve produ√ß√£o?
    producao_df["produziu_algo"] = (producao_df["pecas_produzidas"] > 0).astype(int)

    # Custo estimado (Configur√°vel)
    TARIFA_ENERGIA = 0.80 # R$/kWh
    producao_df["custo_energia_estimado"] = producao_df["consumo_kwh"] * TARIFA_ENERGIA
    
    # Dados Sazonais (Para an√°lise futura)
    producao_df["mes"] = producao_df["timestamp"].dt.month
    producao_df["dia_semana"] = producao_df["timestamp"].dt.dayofweek # 0=Seg, 6=Dom

    # 4. Ordena√ß√£o e Salvamento
    producao_df = producao_df.sort_values(["maquina_id", "timestamp"]).reset_index(drop=True)

    save_path_prod = DIR_PROCESSED / "producao_silver.csv"
    producao_df.to_csv(save_path_prod, index=False)

    print(f"‚úÖ Produ√ß√£o salva em: {save_path_prod}")
    print("\nüìà Resumo Financeiro/Produ√ß√£o:")
    print(f"  ‚Ä¢ Total Produzido: {producao_df['pecas_produzidas'].sum():,} pe√ßas")
    print(f"  ‚Ä¢ Custo Energia Total: R$ {producao_df['custo_energia_estimado'].sum():,.2f}")
    print(f"  ‚Ä¢ Taxa M√©dia Refugo: {producao_df['taxa_refugo'].mean()*100:.2f}%")


üì• Processando Hist√≥rico de Produ√ß√£o...
  üìä Linhas carregadas: 17,522
‚úÖ Produ√ß√£o salva em: c:\Users\anaca\OneDrive\√Årea de Trabalho\projetosenai\app\data\processed\producao_silver.csv

üìà Resumo Financeiro/Produ√ß√£o:
  ‚Ä¢ Total Produzido: 13,629,627 pe√ßas
  ‚Ä¢ Custo Energia Total: R$ 168,797.30
  ‚Ä¢ Taxa M√©dia Refugo: 2.10%


# Script 4 ‚Äî Processamento dos Eventos Industriais  
Padronizo o texto dos eventos, converto severidade para n√∫mero  
e gero a vers√£o ‚ÄúSilver‚Äù dos eventos da f√°brica.

In [4]:
print("\nüì• Processando Eventos e Alarmes...")

try:
    eventos_df = pd.read_csv(path_eventos)
    print(f"  üìä Eventos carregados: {len(eventos_df):,}")
except FileNotFoundError:
    print("‚ùå Erro Cr√≠tico: Arquivo de eventos n√£o encontrado.")
    eventos_df = pd.DataFrame()

if not eventos_df.empty:
    # 2. Tratamento de Data
    eventos_df["timestamp"] = pd.to_datetime(eventos_df["timestamp"], errors="coerce")

    # 3. Padroniza√ß√£o de Texto
    cols_texto = ["evento", "severidade", "origem"]
    for col in cols_texto:
        if col in eventos_df.columns:
            eventos_df[col] = eventos_df[col].astype(str).str.strip().str.capitalize()

    # 4. Mapeamento de Severidade
    map_sev = {"Baixa": 1, "M√©dia": 2, "Alta": 3}
    eventos_df["sev_codigo"] = eventos_df["severidade"].map(map_sev).fillna(0).astype(int)

    # 5. Garantir ID √∫nico (Seguran√ßa)
    if "evento_id" in eventos_df.columns:
        eventos_df["evento_id"] = eventos_df["evento_id"].str.strip().str.upper()
    else:
        # Cria IDs se n√£o existirem (Fallback)
        eventos_df["evento_id"] = [f"EVT-AUTO-{i+1:04d}" for i in range(len(eventos_df))]
        print("  ‚ö†Ô∏è  Coluna 'evento_id' n√£o encontrada. IDs gerados automaticamente.")

    # 6. Ordena√ß√£o e Salvamento
    eventos_df = eventos_df.sort_values(["timestamp"]).reset_index(drop=True)

    save_path_evt = DIR_PROCESSED / "eventos_silver.csv"
    eventos_df.to_csv(save_path_evt, index=False)

    print(f"‚úÖ Eventos salvos em: {save_path_evt}")
    
    print("\nüìä Top 5 Problemas Mais Frequentes (Pareto):")
    top_problemas = eventos_df["evento"].value_counts().head(5)
    for problema, qtd in top_problemas.items():
        print(f"  ‚Ä¢ {problema}: {qtd} ocorr√™ncias")


üì• Processando Eventos e Alarmes...
  üìä Eventos carregados: 200
‚úÖ Eventos salvos em: c:\Users\anaca\OneDrive\√Årea de Trabalho\projetosenai\app\data\processed\eventos_silver.csv

üìä Top 5 Problemas Mais Frequentes (Pareto):
  ‚Ä¢ Falha de press√£o: 45 ocorr√™ncias
  ‚Ä¢ Baixa umidade: 43 ocorr√™ncias
  ‚Ä¢ Falha de motor: 40 ocorr√™ncias
  ‚Ä¢ Sobrecarga el√©trica: 37 ocorr√™ncias
  ‚Ä¢ Parada programada: 35 ocorr√™ncias
