In [1]:
# scripts/exploracao_merge_dataset.ipynb

# ==========================
#   EDA - MERGE DATASET
# ==========================
# (1) Setup inicial
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scripts.loader import load_merge_master

# Caminho para o master_metadata que deseja explorar
MASTER_PATH = '../metadata/master_metadata_audio_balanced.csv'  # ajuste conforme a modalidade

# (2) Carregar os dados (usando o loader.py)
df = load_merge_master(MASTER_PATH)
print(f"Total de músicas no dataset: {len(df)}")
display(df.head())

# (3) Resumo dos campos
print("\nCampos disponíveis:", df.columns.tolist())
print("\nInformações do DataFrame:")
display(df.info())
display(df.describe(include='all'))

# (4) Contagem por Split (se existir)
for split_col in ['split_70_15_15', 'split_40_30_30']:
    if split_col in df.columns:
        display(df[split_col].value_counts())
        df[split_col].value_counts().plot.pie(autopct='%1.1f%%', title=f'Proporção de {split_col}')
        plt.ylabel('')
        plt.show()

# (5) Distribuição por Quadrante
if 'quadrant' in df.columns:
    sns.countplot(x='quadrant', data=df)
    plt.title('Distribuição por Quadrante Emocional')
    plt.xlabel('Quadrante')
    plt.ylabel('Nº de Músicas')
    plt.show()

# (6) Distribuição por Ano (year ou ActualYear)
for year_col in ['year', 'ActualYear', 'Year']:
    if year_col in df.columns:
        plt.figure(figsize=(10,4))
        sns.histplot(df[year_col].dropna(), bins=20, kde=True)
        plt.title(f'Distribuição por Ano ({year_col})')
        plt.xlabel('Ano')
        plt.ylabel('Nº de Músicas')
        plt.show()
        break

# (7) Distribuição por Gêneros (top 15)
for gcol in ['genres', 'Genres']:
    if gcol in df.columns:
        from collections import Counter
        gen = df[gcol].dropna().str.cat(sep=';').split(';')
        gen = [g.strip().lower() for g in gen if g.strip()]
        top_gen = Counter(gen).most_common(15)
        genres_df = pd.DataFrame(top_gen, columns=['Gênero', 'Frequência'])
        plt.figure(figsize=(10,5))
        sns.barplot(y='Gênero', x='Frequência', data=genres_df)
        plt.title('Top 15 Gêneros Musicais')
        plt.show()
        break

# (8) Top artistas e músicas
for acol in ['artist', 'Artist']:
    if acol in df.columns:
        top_artists = df[acol].value_counts().head(10)
        print('\nTop 10 artistas:')
        display(top_artists)
        top_artists.plot.bar(title='Top 10 Artistas')
        plt.xlabel('Artista')
        plt.ylabel('Nº de músicas')
        plt.show()
        break

for tcol in ['title', 'Title']:
    if tcol in df.columns:
        print('\nExemplo de músicas:')
        display(df[[tcol]].sample(10))
        break

# (9) Histograma de arousal e valence (se existirem)
for acol in ['arousal', 'valence']:
    if acol in df.columns:
        sns.histplot(df[acol], bins=20, kde=True)
        plt.title(f'Distribuição de {acol}')
        plt.xlabel(acol.capitalize())
        plt.ylabel('Nº de Músicas')
        plt.show()

# (10) Heatmap arousal x valence
if all(c in df.columns for c in ['arousal', 'valence']):
    plt.figure(figsize=(6,5))
    sns.scatterplot(data=df, x='valence', y='arousal', hue='quadrant' if 'quadrant' in df.columns else None, alpha=0.5)
    plt.title('Distribuição Arousal x Valence')
    plt.show()

# (11) Análise de dados faltantes
plt.figure(figsize=(12,5))
sns.heatmap(df.isnull(), cbar=False)
plt.title('Mapa de Dados Faltantes')
plt.show()

print("EDA concluída! Salve gráficos ou copie tabelas para o relatório final.")



ModuleNotFoundError: No module named 'scripts.loader'