In [None]:
import polars as pl
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import os

In [None]:
# 📌 Caminho do arquivo consolidado
processed_data_path = "data/processed/articles.parquet"

# 📌 Verificar se o arquivo existe
if not os.path.exists(processed_data_path):
    raise FileNotFoundError(f"Arquivo {processed_data_path} não encontrado!")

# 📌 Carregar os dados processados
df = pl.read_parquet(processed_data_path)

# 📌 Converter para Pandas para facilitar visualizações
df_pd = df.to_pandas()

In [None]:
# 📊 Estatísticas básicas
stats = {
    "Total de artigos": len(df_pd),
    "Bases de dados únicas": df_pd["source"].nunique(),
    "Periódicos únicos": df_pd["journal"].nunique(),
    "Autores únicos": df_pd["authors"].nunique(),
}

In [None]:
# 📊 Contagem de artigos por base de dados
plt.figure(figsize=(10, 5))
sns.countplot(y=df_pd["source"], order=df_pd["source"].value_counts().index, palette="viridis")
plt.xlabel("Quantidade de Artigos")
plt.ylabel("Base de Dados")
plt.title("Distribuição de Artigos por Base de Dados")
plt.show()

In [None]:
# 📊 Distribuição dos artigos por ano
df_pd["pub_date"] = pd.to_datetime(df_pd["pub_date"], errors="coerce")
df_pd["Ano"] = df_pd["pub_date"].dt.year

plt.figure(figsize=(10, 5))
sns.histplot(df_pd["Ano"].dropna(), bins=15, kde=True, color="blue")
plt.xlabel("Ano de Publicação")
plt.ylabel("Quantidade de Artigos")
plt.title("Distribuição dos Artigos ao Longo do Tempo")
plt.show()

In [None]:
# 📊 Top 10 periódicos com mais artigos
top_journals = df_pd["journal"].value_counts().head(10)

plt.figure(figsize=(10, 5))
sns.barplot(x=top_journals.values, y=top_journals.index, palette="magma")
plt.xlabel("Quantidade de Artigos")
plt.ylabel("Periódico")
plt.title("Top 10 Periódicos com Mais Artigos Publicados")
plt.show()

In [None]:
# Exibir estatísticas básicas
import ace_tools as tools

stats_df = pd.DataFrame(stats.items(), columns=["Métrica", "Valor"])
tools.display_dataframe_to_user(name="Estatísticas Básicas", dataframe=stats_df)