In [5]:
import pandas as pd
from sqlalchemy import create_engine
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
import requests
import json
import time

# 1. CONECTAR E CARREGAR DADOS DO POSTGRES
# (Certifique-se de que o passo anterior no FastAPI /ingest foi executado)
engine = create_engine("postgresql://admin:admin@postgres:5432/weather_db")
df = pd.read_sql("SELECT * FROM weather_data", engine)

# ---------------------------------------------------------
# 2. TRATAMENTO DE DADOS (CORRIGIDO)
# ---------------------------------------------------------

# A. Converter Data
df['DATA'] = pd.to_datetime(df['DATA'])
df['DATA_DIA'] = df['DATA'].dt.date

# B. Forçar colunas numéricas (para evitar erro de texto)
cols_to_fix = ['TEMPERATURA', 'UMIDADE', 'VENTO_VELOCIDADE', 'PRECIPITACAO']
for col in cols_to_fix:
    df[col] = pd.to_numeric(df[col], errors='coerce')

# C. Média diária (Agrupamento Temporal)
df_daily = df.groupby(['CODIGO_ESTACAO', 'DATA_DIA']).agg({
    'TEMPERATURA': 'mean',
    'UMIDADE': 'mean',
    'VENTO_VELOCIDADE': 'mean',
    'PRECIPITACAO': 'sum' 
}).reset_index()

# D. Perfil da Estação (Média Histórica)
# --- CORREÇÃO AQUI: numeric_only=True ---
# Isso impede que ele tente calcular a média da coluna DATA_DIA
df_profile = df_daily.groupby('CODIGO_ESTACAO').mean(numeric_only=True).reset_index()

# ---------------------------------------------------------
# 3. MACHINE LEARNING (K-MEANS)
# ---------------------------------------------------------
scaler = StandardScaler()
cols_to_cluster = ['TEMPERATURA', 'UMIDADE', 'VENTO_VELOCIDADE', 'PRECIPITACAO']

# Treinando o modelo
X_scaled = scaler.fit_transform(df_profile[cols_to_cluster])
kmeans = KMeans(n_clusters=3, random_state=42)
df_profile['CLUSTER_ID'] = kmeans.fit_predict(X_scaled)

print("Clusterização concluída com sucesso! Veja os grupos:")
print(df_profile[['CODIGO_ESTACAO', 'CLUSTER_ID']])

# ---------------------------------------------------------
# 4. ENVIAR PARA THINGSBOARD (Output)
# ---------------------------------------------------------
print("\n--- DADOS PARA O DASHBOARD ---")
for index, row in df_profile.iterrows():
    payload = {
        "temperature_avg": row['TEMPERATURA'],
        "rain_avg": row['PRECIPITACAO'],
        "cluster_id": int(row['CLUSTER_ID'])
    }
    print(f"Estação: {row['CODIGO_ESTACAO']} | Payload: {payload}")

Clusterização concluída com sucesso! Veja os grupos:
   CODIGO_ESTACAO  CLUSTER_ID
0     A001_RECIFE           1
1  A002_PETROLINA           2
2    A003_CARUARU           1
3  A004_GARANHUNS           1
4  A005_ARARIPINA           0

--- DADOS PARA O DASHBOARD ---
Estação: A001_RECIFE | Payload: {'temperature_avg': 26.09140478211658, 'rain_avg': 232.90322580645162, 'cluster_id': 1}
Estação: A002_PETROLINA | Payload: {'temperature_avg': 31.355035512167515, 'rain_avg': 28.70967741935484, 'cluster_id': 2}
Estação: A003_CARUARU | Payload: {'temperature_avg': 22.957952037351443, 'rain_avg': 120.96774193548387, 'cluster_id': 1}
Estação: A004_GARANHUNS | Payload: {'temperature_avg': 22.958918647425012, 'rain_avg': 114.35483870967742, 'cluster_id': 1}
Estação: A005_ARARIPINA | Payload: {'temperature_avg': 31.53815817770232, 'rain_avg': 27.903225806451612, 'cluster_id': 0}


  super()._check_params_vs_input(X, default_n_init=10)
