In [10]:
import pandas as pd
import glob

# ===============================
# 1) Localizar os CSVs
# ===============================
pagerank_file = glob.glob("/app/dados/output_pagerank/part-*.csv")[0]
lpa_file = glob.glob("/app/dados/output_lpa/part-*.csv")[0]

# Ler os CSVs
pagerank_df = pd.read_csv(pagerank_file)
lpa_df = pd.read_csv(lpa_file)

# ===============================
# 2) Top N jogos por PageRank
# ===============================
top_n = 20
top_pagerank = pagerank_df.sort_values("pagerank_score", ascending=False).head(top_n)

print("=== Top {} jogos por PageRank ===".format(top_n))
print(top_pagerank[["boardgame_id", "boardgame_title", "pagerank_score"]])

# Salvar tabela
top_pagerank.to_csv("/app/dados/top_pagerank.csv", index=False)

# ===============================
# 3) Comunidades LPA
# ===============================
# Agrupar por comunidade
lpa_grouped = lpa_df.groupby("community_label").agg({
    "boardgame_id": list,
    "boardgame_title": list
}).reset_index()

# Mostrar as primeiras 10 comunidades
print("\n=== Primeiras 10 comunidades do LPA ===")
for _, row in lpa_grouped.head(10).iterrows():
    print(f"Comunidade {row['community_label']}: {len(row['boardgame_id'])} jogos")
    print(", ".join(row['boardgame_title']))
    print("-"*50)

# Salvar tabela completa
lpa_grouped.to_csv("/app/dados/lpa_grouped.csv", index=False)

print("\nTabelas salvas em /app/dados/top_pagerank.csv e /app/dados/lpa_grouped.csv")


=== Top 20 jogos por PageRank ===
    boardgame_id                                boardgame_title  \
0         167791                              Terraforming Mars   
1         162886                                  Spirit Island   
2         316554                                 Dune: Imperium   
3         187645                           Star Wars: Rebellion   
4         220308                                   Gaia Project   
5         115746                War of the Ring: Second Edition   
6         291457                   Gloomhaven: Jaws of the Lion   
7         342942                                       Ark Nova   
8         161936                      Pandemic Legacy: Season 1   
9         174430                                     Gloomhaven   
10        224517                              Brass: Birmingham   
11        233078              Twilight Imperium: Fourth Edition   
12        192135                                 Too Many Bones   
13        284378            