In [None]:
# ==============================
# Setup
# ==============================
import pandas as pd
import matplotlib.pyplot as plt

# Arquivos gerados pelo detectar_folha.py
ARQ_DETALHADO = "../data/suspeitas_folha.parquet"
ARQ_RESUMO = "../data/resumo_clusters_folha.parquet"

# ==============================
# Carregando dados
# ==============================
df_det = pd.read_parquet(ARQ_DETALHADO)
df_res = pd.read_parquet(ARQ_RESUMO)

print(f"[INFO] Linhas detalhadas: {len(df_det)}")
print(f"[INFO] Clusters no resumo: {df_res['cluster_id'].nunique()}")

# ==============================
# Estatísticas básicas
# ==============================
display(df_res.describe())

# ==============================
# Histograma do Score
# ==============================
plt.figure(figsize=(8,5))
df_res["score"].hist(bins=20, color="steelblue", edgecolor="black")
plt.title("Distribuição de Scores de Indício de Folha")
plt.xlabel("Score")
plt.ylabel("Número de clusters")
plt.grid(axis="y", alpha=0.4)
plt.show()

# ==============================
# Top clusters por score
# ==============================
top_clusters = df_res.sort_values("score", ascending=False).head(10)
print("\n[INFO] Top 10 clusters mais fortes:\n")
display(top_clusters)

# ==============================
# Análise da entropia de credor
# ==============================
plt.figure(figsize=(8,5))
plt.scatter(df_res["entropia_credor"], df_res["score"], alpha=0.6)
plt.title("Score x Entropia de Credor")
plt.xlabel("Entropia de Credor")
plt.ylabel("Score")
plt.grid(True, alpha=0.4)
plt.show()

# ==============================
# Frequência de palavras-chave
# ==============================
palavras_stats = df_det.groupby("cluster_id")["n_palavras_chave"].first()
plt.figure(figsize=(8,5))
palavras_stats.value_counts().sort_index().plot(kind="bar", color="darkorange")
plt.title("Distribuição do nº de palavras-chave por cluster")
plt.xlabel("Quantidade de palavras-chave encontradas")
plt.ylabel("Número de clusters")
plt.show()

# ==============================
# Amostra de clusters suspeitos
# ==============================
amostra = df_det[df_det["cluster_id"].isin(top_clusters["cluster_id"].values)]
print("\n[INFO] Amostra de empenhos dos clusters mais fortes:\n")
display(amostra[[
    "cluster_id", "ente", "idunid", "ano", "credor", "valor", "historico", "score"
]].head(20))
