In [2]:
import pandas as pd
from sqlalchemy import create_engine
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
import mlflow
import matplotlib.pyplot as plt

# ---------------------------------------------------------
# 1. Configurar MLFlow (Modo Local)
# ---------------------------------------------------------
# Usamos SQLite local para garantir que funcione sem erros de rede (403/Forbidden)
mlflow.set_tracking_uri("sqlite:///mlflow.db")
mlflow.set_experiment("Agrupamento_Estacoes_PE")

# ---------------------------------------------------------
# 2. Carregar Dados do Banco
# ---------------------------------------------------------
# Conexão com o container do Postgres
engine = create_engine("postgresql://admin:admin@postgres:5432/weather_db")

# Lemos a VIEW que você criou no schema.sql.
# Ela já traz as médias diárias calculadas, facilitando o trabalho do Python.
df_daily = pd.read_sql("SELECT * FROM view_medias_diarias", engine)

print("Dados carregados do banco:")
print(df_daily.head())

# ---------------------------------------------------------
# 3. Criar Perfil da Estação (Média Histórica)
# ---------------------------------------------------------
# O Tópico 7.4 pede para agrupar as estações baseando-se no comportamento geral delas.
# Por isso, tiramos a média de todo o período para cada estação.

# Definimos explicitamente as colunas numéricas para evitar erro com 'data_dia'
colunas_analise = ['temperatura', 'umidade', 'vento_velocidade', 'precipitacao']

# Agrupa por estação e calcula a média das variáveis climáticas
df_profile = df_daily.groupby('codigo_estacao')[colunas_analise].mean().reset_index()

# ---------------------------------------------------------
# 4. Clustering (K-Means) com Registro no MLFlow
# ---------------------------------------------------------
with mlflow.start_run():
    # A. Normalização (Essencial para o K-Means não dar peso errado)
    scaler = StandardScaler()
    X = scaler.fit_transform(df_profile[colunas_analise])
    
    # B. Rodar o K-Means
    # k=3 (Tentando separar em: Litoral, Agreste, Sertão)
    kmeans = KMeans(n_clusters=3, random_state=42, n_init=10)
    df_profile['cluster_id'] = kmeans.fit_predict(X)
    
    # C. Registrar no MLFlow (Requisito do projeto)
    mlflow.log_param("k", 3)
    mlflow.log_metric("inertia", kmeans.inertia_)
    
    # Salva o modelo virtualmente
    mlflow.sklearn.log_model(kmeans, "modelo_clustering_clima")
    
    print("\nModelo K-Means treinado e registrado no MLFlow com sucesso!")

# ---------------------------------------------------------
# 5. Visualização (Mapa Estático para o Relatório)
# ---------------------------------------------------------
# Como o banco não tem Lat/Lon, usamos um dicionário fixo das estações de PE
coords = {
    'A001_RECIFE':    [-8.05, -34.88], 
    'A002_PETROLINA': [-9.39, -40.50],
    'A003_CARUARU':   [-8.28, -35.97], 
    'A004_GARANHUNS': [-8.89, -36.49],
    'A005_ARARIPINA': [-7.57, -40.49]
}

plt.figure(figsize=(10, 6))

# Cores para diferenciar os grupos
colors = {0: 'red', 1: 'blue', 2: 'green'}

# Plotar cada estação no mapa
for idx, row in df_profile.iterrows():
    estacao = row['codigo_estacao']
    cluster = row['cluster_id']
    
    # Pega lat/lon do dicionário (ou usa 0,0 se não achar)
    lat, lon = coords.get(estacao, [0, 0])
    
    plt.scatter(lon, lat, c=colors.get(cluster, 'gray'), s=300, edgecolors='black', label=f"Cluster {cluster}")
    plt.text(lon, lat + 0.15, estacao, fontsize=9, ha='center', fontweight='bold')

# Ajustes visuais do gráfico
plt.title("Tópico 7.4: Agrupamento de Estações Meteorológicas (PE)", fontsize=14)
plt.xlabel('Longitude')
plt.ylabel('Latitude')
plt.grid(True, linestyle='--', alpha=0.6)

# Remove legendas duplicadas
handles, labels = plt.gca().get_legend_handles_labels()
by_label = dict(zip(labels, handles))
plt.legend(by_label.values(), by_label.keys(), title="Grupos Climáticos")

# Salvar a imagem para colocar no relatório
plt.savefig('mapa_clusters_final.png')
plt.show()

# ---------------------------------------------------------
# 6. Exibir Tabela Final (Evidence)
# ---------------------------------------------------------
print("\n--- Resultado do Agrupamento ---")
print(df_profile[['codigo_estacao', 'cluster_id']])

2025/12/03 22:22:45 INFO mlflow.store.db.utils: Creating initial MLflow database tables...
2025/12/03 22:22:45 INFO mlflow.store.db.utils: Updating database tables
2025-12-03 22:22:45 INFO  [alembic.runtime.migration] Context impl SQLiteImpl.
2025-12-03 22:22:45 INFO  [alembic.runtime.migration] Will assume non-transactional DDL.
2025-12-03 22:22:45 INFO  [alembic.runtime.migration] Running upgrade  -> 451aebb31d03, add metric step
2025-12-03 22:22:46 INFO  [alembic.runtime.migration] Running upgrade 451aebb31d03 -> 90e64c465722, migrate user column to tags
2025-12-03 22:22:46 INFO  [alembic.runtime.migration] Running upgrade 90e64c465722 -> 181f10493468, allow nulls for metric values
2025-12-03 22:22:46 INFO  [alembic.runtime.migration] Running upgrade 181f10493468 -> df50e92ffc5e, Add Experiment Tags Table
2025-12-03 22:22:46 INFO  [alembic.runtime.migration] Running upgrade df50e92ffc5e -> 7ac759974ad8, Update run tags with larger limit
2025-12-03 22:22:46 INFO  [alembic.runtime.mig

KeyError: "None of [Index(['temperatura', 'umidade', 'vento_velocidade', 'precipitacao'], dtype='object')] are in the [columns]"