# DatasetLoader - Tutorial Básico

Este notebook demonstra funções básicas do DatasetLoader para carregar:
1. O dataset unificado completo
2. Alguns splits específicos

Objetivo: Testar o funcionamento do loader e visualizar os dados carregados

In [47]:
# Importar bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import sys
import os
sys.path.append('/workspace/BigDataProject')   # Adicionar path pai ao path

# Importar o DatasetLoader e suas funções auxiliares
from scripts.loader import DatasetLoader, load_dataset, load_splits

# Inicializar o loader
try:
    loader = DatasetLoader()
    print("DatasetLoader inicializado com sucesso!")
except Exception as e:
    print(f"Erro ao inicializar o loader: {e}")
    print(f"Caminho atual: {os.getcwd()}")
    print("Verificando existência do ficheiro loader.py...")
    if os.path.exists("../scripts/loader.py"):
        print("Ficheiro loader.py encontrado!")
    else:
        print("Ficheiro loader.py não encontrado!")

DatasetLoader inicializado com sucesso!


## 1. Carregando o Dataset Unificado

Primeiro, vamos carregar o dataset unificado completo usando o loader.

In [48]:
# Carregar o dataset unificado
try:
    unified_dataset = loader.load_base_dataset("unified", balanced_only=False)
    
    # Mostrar informações básicas
    print(f"Dataset unificado carregado: {unified_dataset.shape[0]} registos, {unified_dataset.shape[1]} colunas")
    print("\nPrimeiras 5 linhas do dataset unificado:")
    display(unified_dataset.head())
except Exception as e:
    print(f"Erro ao carregar dataset unificado: {e}")
    
    # Verificar os caminhos dos arquivos
    base_path = "/workspace/BigDataProject/metadata/base"
    if os.path.exists(base_path):
        print(f"Path base existe: {base_path}")
        print("Ficheiros disponíveis:")
        print(os.listdir(base_path))
    else:
        print(f"Path base não encontrado: {base_path}")

Dataset unificado carregado: 3906 registos, 34 colunas

Primeiras 5 linhas do dataset unificado:


Unnamed: 0,Merge_id,Song_id,Lyric_id,bimodal,Quadrant,AllMusic Id,AllMusic Extraction Date,Artist,Title,Relevance,...,Sample,SampleURL,ActualYear,num_Genres,num_MoodsAll,Arousal,Valence,in_bimodal_balanced,in_audio_balanced,in_lyrics_balanced
0,A001_L051,A001,L051,True,Q4,MT0000291374,New,Louis Armstrong,What a Wonderful World,,...,,,1968,,,0.29375,0.89375,True,True,True
1,A002_L052,A002,L052,True,Q4,MT0001577585,Old,Rod Stewart,Country Comfort,1.493585,...,1.0,http://rovimusic.rovicorp.com/playback.mp3?c=s...,1970,,,0.3375,0.68125,False,True,True
2,A003_L053,A003,L053,True,Q3,MT0008469560,New,Stevie Wonder,Lately,,...,,,1980,,,0.25,0.225,True,True,True
3,A004_L054,A004,L054,True,Q3,MT0030326044,New,Johnny Cash,I'm So Lonesome I Could Cry,,...,,,1960,,,0.2,0.18125,True,True,True
4,A005_L055,A005,L055,True,Q1,MT0005204984,New,Prince,U Got the Look,,...,,,1987,,,0.7875,0.6875,True,True,True


## 2. Carregando Splits Específicos

Agora, vamos carregar alguns splits para demonstrar a flexibilidade do loader.

In [49]:
# Exemplo 1: Carregar split de áudio (70-15-15, apenas treino)
try:
    audio_train = loader.load_split_dataset(
        modality="audio",
        split_ratio="70_15_15",
        split_type="train",
        balanced_type="balanced"
    )

    # Mostrar informações do split de treino
    print(f"Split de treino de áudio carregado: {audio_train['audio']['train'].shape[0]} registos")
    print("\nPrimeiras 5 linhas do split de treino de áudio:")
    display(audio_train['audio']['train'].head())
except Exception as e:
    print(f"Erro ao carregar split de treino de áudio: {e}")
    
    # Verificar estrutura dos diretórios de split
    splits_path = "/workspace/BigDataProject/metadata/splits/audio"
    if os.path.exists(splits_path):
        print(f"Path de splits de áudio existe: {splits_path}")
        print("Ficheiros disponíveis:")
        print(os.listdir(splits_path))
    else:
        print(f"Path de splits de áudio não encontrado: {splits_path}")

Split de treino de áudio carregado: 2264 registos

Primeiras 5 linhas do split de treino de áudio:


Unnamed: 0,Song_id,Quadrant_x,AllMusic Id,AllMusic Extraction Date,Artist,Title,Relevance,Year,LowestYear,Duration,...,Arousal,Valence,in_audio_balanced,Quadrant_y,in_balanced_train,in_balanced_validate,in_balanced_test,in_complete_train,in_complete_validate,in_complete_test
1,A002,Q4,MT0001577585,Old,Rod Stewart,Country Comfort,1.493585,1970-??-??,,282.0,...,0.375,0.7125,True,Q4,True,False,False,True,False,False
3,A004,Q3,MT0030326044,New,Johnny Cash,I'm So Lonesome I Could Cry,,,,159.0,...,0.1625,0.225,True,Q3,True,False,False,False,False,True
6,A011,Q1,MT0013721184,New,The Beatles,P.S. I Love You,,,,,...,0.65,0.8375,True,Q1,True,False,False,False,False,True
7,A013,Q2,MT0002578360,New,The Clash,London Calling,,,,,...,0.7875,0.275,True,Q2,True,False,False,False,False,True
8,A014,Q1,MT0002349353,Old,Jamiroquai,Feels Just Like It Should,1.077651,20/06/2005,,274.0,...,0.9,0.7125,True,Q1,True,False,False,True,False,False


In [50]:
# Exemplo 2: Carregar split bimodal (40-30-30, todos os tipos)
try:
    bimodal_splits = loader.load_split_dataset(
        modality="bimodal",
        split_ratio="40_30_30",
        split_type="all",
        balanced_type="balanced"
    )

    # Mostrar informações de cada tipo de split
    for split_name, split_data in bimodal_splits['bimodal'].items():
        print(f"Split bimodal {split_name}: {split_data.shape[0]} registos")

    print("\nPrimeiras 5 linhas do split de validação bimodal:")
    display(bimodal_splits['bimodal']['validate'].head())
except Exception as e:
    print(f"Erro ao carregar splits bimodal: {e}")
    
    # Verificar estrutura dos diretórios de split
    splits_path = "/workspace/BigDataProject/metadata/splits/bimodal"
    if os.path.exists(splits_path):
        print(f"Path de splits bimodal existe: {splits_path}")
        print("Ficheiros disponíveis:")
        print(os.listdir(splits_path))
    else:
        print(f"PATH de splits bimodal não encontrado: {splits_path}")

Split bimodal train: 800 registos
Split bimodal validate: 600 registos
Split bimodal test: 600 registos

Primeiras 5 linhas do split de validação bimodal:


Unnamed: 0,Song_id,Lyric_id,Quadrant_x,AllMusic Id,AllMusic Extraction Date,Artist,Title,Relevance,Year,LowestYear,...,Arousal,Valence,in_bimodal_balanced,Quadrant_y,in_balanced_train,in_balanced_validate,in_balanced_test,in_complete_train,in_complete_validate,in_complete_test
133,MT0000008995,MT0000008995,Q3,MT0000008995,Old,Billie Holiday,You're Too Lovely to Last,1.058075,,,...,0.388125,0.34125,True,Q3,False,True,False,False,True,False
144,MT0000045345,MT0000045345,Q1,MT0000045345,Old,Ashanti,I Love You,1.036136,06/12/2005,06/12/2005,...,0.5175,0.7375,True,Q1,False,True,False,False,True,False
148,MT0000066236,MT0000066236,Q2,MT0000066236,Old,Void,My Rules,1.010531,1982-??-??,1982-??-??,...,0.54625,0.300625,True,Q2,False,True,False,False,True,False
149,MT0000066421,MT0000066421,Q4,MT0000066421,Old,Freddy Fender,Talk to Me,1.038508,19/08/1997,,...,0.333125,0.601875,True,Q4,False,True,False,False,True,False
173,MT0000146966,MT0000146966,Q1,MT0000146966,Old,The Black Crowes,Shake Your Moneymaker,1.039118,04/07/2000,04/07/2000,...,0.53125,0.85,True,Q1,False,True,False,False,True,False


In [51]:
# Exemplo 3: Carregar split de letras (40-30-30, apenas teste)
try:
    lyrics_test = loader.load_split_dataset(
        modality="lyrics",
        split_ratio="40_30_30",
        split_type="test",
        balanced_type="balanced"
    )

    # Mostrar informações do split de teste
    print(f"Split de teste de letras carregado: {lyrics_test['lyrics']['test'].shape[0]} registos")
    print("\nPrimeiras 5 linhas do split de teste de letras:")
    display(lyrics_test['lyrics']['test'].head())
except Exception as e:
    print(f"Erro ao carregar split de teste de letras: {e}")
    
    # Verificar estrutura dos diretórios de split
    splits_path = "/workspace/BigDataProject/metadata/splits/lyrics"
    if os.path.exists(splits_path):
        print(f"Path de splits de letras existe: {splits_path}")
        print("Fcheiros disponíveis:")
        print(os.listdir(splits_path))
    else:
        print(f"Path de splits de letras não encontrado: {splits_path}")

Split de teste de letras carregado: 720 registos

Primeiras 5 linhas do split de teste de letras:


Unnamed: 0,Lyric_id,Quadrant_x,AllMusic Id,AllMusic Extraction Date,Artist,Title,Relevance,Year,LowestYear,Duration,...,Arousal,Valence,in_lyrics_balanced,Quadrant_y,in_balanced_train,in_balanced_validate,in_balanced_test,in_complete_train,in_complete_validate,in_complete_test
47,L053,Q3,MT0008469560,New,Stevie Wonder,Lately,,,,244.0,...,0.2875,0.2,True,Q3,False,False,True,False,False,True
48,L054,Q3,MT0030326044,New,Johnny Cash,I'm so lonesome I could cry,,,,159.0,...,0.2375,0.1375,True,Q3,False,False,True,False,False,True
49,L055,Q1,MT0005204984,New,Prince,U Got the Look,,,,227.0,...,0.7875,0.6625,True,Q1,False,False,True,False,False,True
51,L059,Q1,MT0005942402,New,Natalie Cole,Our Love,,,,322.0,...,0.8375,0.9625,True,Q1,False,False,True,True,False,False
70,L080,Q4,MT0011392112,New,John Denver,White Christmas,,,,144.0,...,0.35,0.75,True,Q4,False,False,True,False,False,True


## 3. Utilizando Funções de Conveniência

As funções `load_dataset` e `load_splits` oferecem uma interface mais simples para carregar dados.

In [52]:
# Carregar dataset de áudio balanced usando a função de conveniência
try:
    audio_balanced = load_dataset("audio", balanced_only=True)
    print(f"Dataset de áudio balanced: {audio_balanced.shape[0]} registos")
    print("\nPrimeiras 5 linhas do dataset de áudio balanced:")
    display(audio_balanced.head())
except Exception as e:
    print(f"Erro ao carregar dataset de áudio balanced: {e}")

Dataset de áudio balanced: 3232 registos

Primeiras 5 linhas do dataset de áudio balanced:


Unnamed: 0,Song_id,Quadrant,AllMusic Id,AllMusic Extraction Date,Artist,Title,Relevance,Year,LowestYear,Duration,...,AppearancesTrackIDs,AppearancesAlbumIDs,Sample,SampleURL,ActualYear,num_Genres,num_MoodsAll,Arousal,Valence,in_audio_balanced
0,A001,Q4,MT0000291374,New,Louis Armstrong,What a Wonderful World,,,,139.0,...,,,,,1968,,,0.225,0.875,True
1,A002,Q4,MT0001577585,Old,Rod Stewart,Country Comfort,1.493585,1970-??-??,,282.0,...,"MT0001577585,MT0002372349,MT0002706336,MT00029...","MW0000073575,MW0000100670,MW0000100670,MW00001...",1.0,http://rovimusic.rovicorp.com/playback.mp3?c=s...,1970,,,0.375,0.7125,True
2,A003,Q3,MT0008469560,New,Stevie Wonder,Lately,,,,244.0,...,,,,,1980,,,0.2125,0.25,True
3,A004,Q3,MT0030326044,New,Johnny Cash,I'm So Lonesome I Could Cry,,,,159.0,...,,,,,1960,,,0.1625,0.225,True
4,A005,Q1,MT0005204984,New,Prince,U Got the Look,,,,227.0,...,,,,,1987,,,0.7875,0.7125,True


In [53]:
# Carregar múltiplos splits usando a função de conveniência
try:
    combined_splits = load_splits(
        modality=["audio", "bimodal"],  # Múltiplas modalidades
        split_ratio="70_15_15",
        split_type=["train", "test"],   # Apenas treino e teste
        balanced_type="balanced"
    )

    # Mostrar informações dos splits carregados
    for modality, splits in combined_splits.items():
        for split_type, data in splits.items():
            print(f"{modality} - {split_type}: {data.shape[0]} registos")

    # Mostrar as primeiras linhas do split de teste bimodal
    print("\nPrimeiras 5 linhas do split de teste bimodal:")
    display(combined_splits["bimodal"]["test"].head())
except Exception as e:
    print(f"Erro ao carregar múltiplos splits: {e}")

audio - train: 2264 registos
audio - test: 484 registos
bimodal - train: 1400 registos
bimodal - test: 300 registos

Primeiras 5 linhas do split de teste bimodal:


Unnamed: 0,Song_id,Lyric_id,Quadrant_x,AllMusic Id,AllMusic Extraction Date,Artist,Title,Relevance,Year,LowestYear,...,Arousal,Valence,in_bimodal_balanced,Quadrant_y,in_balanced_train,in_balanced_validate,in_balanced_test,in_complete_train,in_complete_validate,in_complete_test
140,MT0000040773,MT0000040773,Q1,MT0000040773,Old,The Andrews Sisters,Beer Barrel Polka,1.062091,,,...,0.60375,0.54375,True,Q1,False,False,True,False,False,True
143,MT0000044741,MT0000044741,Q3,MT0000044741,Old,Little Walter,Last Night,1.03746,08/06/1993,,...,0.431875,0.311875,True,Q3,False,False,True,False,False,True
146,MT0000059269,MT0000059269,Q3,MT0000059269,Old,Gene Autry,Mexicali Rose,1.056712,02/04/2002,,...,0.31125,0.1375,True,Q3,False,False,True,False,False,True
154,MT0000091401,MT0000091401,Q1,MT0000091401,New,Carl Perkins,Pink Pedal Pushers,,,,...,0.624375,0.796875,True,Q1,False,False,True,False,False,True
155,MT0000091781,MT0000091781,Q3,MT0000091781,Old,Marianne Faithfull,Love in the Afternoon,1.047878,,,...,0.36625,0.42625,True,Q3,False,False,True,False,False,True


## Conclusão

O DatasetLoader facilita o acesso aos dados do projeto MERGE, permitindo:
- Carregar o dataset unificado completo ou filtrado
- Selecionar modalidades específicas (audio, bimodal, lyrics)
- Acessar diferentes proporções de split (40-30-30, 70-15-15)
- Escolher entre dados balanced ou complete
- Selecionar fases específicas (treino, validação, teste)

Esta flexibilidade torna o trabalho com os dados mais eficiente para análise e desenvolvimento de modelos.