In [None]:
import json

# Lendo o JSON
with open("retornoJSON/henrique_tracks.json", "r", encoding="utf-8") as f:
    tracks_data = json.load(f)

# Se o JSON for um dicionário com a lista dentro de "items", ajusta automaticamente
if isinstance(tracks_data, dict):
    if "items" in tracks_data:
        tracks = tracks_data["items"]
    else:
        # tenta achar a primeira lista dentro do dicionário
        tracks = next((v for v in tracks_data.values() if isinstance(v, list)), [])
else:
    tracks = tracks_data

result_list = []

# Itera somente nas 10 primeiras faixas
for track in tracks[:10]:
    result_list.append({
        "track_id": track.get("id"),
        "track_name": track.get("name"),
        "artist": track["artists"][0]["name"] if track.get("artists") else None,
        "artist_id": track["artists"][0]["id"] if track.get("artists") else None,
        "artist_image": None,
        "album": track["album"]["name"] if track.get("album") else None,
        "album_image": track["album"]["images"][0]["url"] if track.get("album") and track["album"].get("images") else None,
        "popularity": track.get("popularity")
    })

print(json.dumps(result_list, indent=2, ensure_ascii=False))


In [3]:
# UTILIZA GEMINI PARA ENRIQUECIMENTO DAS 10 PRIMEIRAS MÚSICAS

import os
from google import genai
import json
import re

# Configuração da chave
os.environ["GOOGLE_SECRET_API_KEY"] = "AIzaSyAtr3Mo8sDr36QB1MjRTEb4pDbOFAifAXA"
google_api_key = os.environ['GOOGLE_SECRET_API_KEY']

client = genai.Client(api_key=google_api_key)

test_batch = result_list

prompt = f"""
Você é um especialista em música. 
Para cada música listada abaixo, retorne em JSON os seguintes campos:

- track_id
- track_name
- artist
- album
- genre (gênero principal)
- subgenre (subgênero, se aplicável)
- danceability (0-1)
- energy (0-1)
- mood (ex.: energetic, calm, happy, sad)
- release_year (ano do lançamento, se conhecido)
- era (década: 1980s, 1990s, 2000s, 2010s, 2020s)
- lyrics_theme (tema predominante da letra, se conhecido)
- instrumentalness (0-1, grau de instrumentalidade)
- explicit (True/False)

Se algum valor for desconhecido, preencha com uma aproximação baseada no gênero da música.

Músicas:
{test_batch}

Devolva apenas o JSON como lista de objetos, sem explicações adicionais.
"""
client = genai.Client(api_key=google_api_key)

response = client.models.generate_content(model="gemini-2.5-flash", contents=[prompt])

response.text


'```json\n[\n  {\n    "track_id": "0O26gtfjuscAOnQobjNPPL",\n    "track_name": "To the Hellfire",\n    "artist": "Lorna Shore",\n    "album": "To the Hellfire",\n    "genre": "Metal",\n    "subgenre": "Symphonic Deathcore",\n    "danceability": 0.2,\n    "energy": 0.95,\n    "mood": "Aggressive, intense, dark, powerful",\n    "release_year": 2021,\n    "era": "2020s",\n    "lyrics_theme": "Damnation, suffering, nihilism, hell, dark themes",\n    "instrumentalness": 0.05,\n    "explicit": true\n  },\n  {\n    "track_id": "073hEz6t5QDHqJFGccW6on",\n    "track_name": "Oblivion",\n    "artist": "Lorna Shore",\n    "album": "I Feel The Everblack Festering Within Me",\n    "genre": "Metal",\n    "subgenre": "Symphonic Deathcore",\n    "danceability": 0.2,\n    "energy": 0.9,\n    "mood": "Dark, intense, aggressive, melancholic",\n    "release_year": 2020,\n    "era": "2020s",\n    "lyrics_theme": "Despair, decay, existential dread, the end",\n    "instrumentalness": 0.05,\n    "explicit": tr

In [4]:
import json
import re

raw_text = response.text

# Remove markdown ```json ``` e aspas escapadas
clean_text = re.sub(r"```json|```", "", raw_text).replace('\\"', '"').strip()

# Regex para capturar todos os objetos {...} individualmente
matches = re.findall(r"\{.*?\}", clean_text, re.DOTALL)

enriched_tracks = []
for m in matches:
    try:
        obj = json.loads(m)
        enriched_tracks.append(obj)
    except json.JSONDecodeError:
        # Se falhar, podemos tentar corrigir vírgulas ou caracteres problemáticos
        m_fixed = re.sub(r",\s*}", "}", m)  # remove vírgulas finais
        m_fixed = re.sub(r",\s*\]", "]", m_fixed)  # remove vírgulas antes de colchetes
        try:
            obj = json.loads(m_fixed)
            enriched_tracks.append(obj)
        except json.JSONDecodeError:
            print("⚠️ Objeto ignorado por JSON inválido:", m[:60], "...")

print(f"✅ Total de objetos válidos: {len(enriched_tracks)}")

# Salva em arquivo JSON
if enriched_tracks:
    output_file = "retornoJSON/henrique_tracks_enriched.json"
    with open(output_file, "w", encoding="utf-8") as f:
        json.dump(enriched_tracks, f, ensure_ascii=False, indent=2)
    print(f"✅ Arquivo salvo em {output_file}")


✅ Total de objetos válidos: 10
✅ Arquivo salvo em retornoJSON/henrique_tracks_enriched.json


In [None]:
#%pip install scikit-learn

In [None]:
#compara utilizando modelo 

import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# ===============================
# 1️⃣ Ler arquivos JSON
# ===============================
base_geral = pd.read_json("retornoJSON/df_tracks_enriched.json")
base_usuario = pd.read_json("retornoJSON/henrique_tracks_enriched.json")

# ===============================
# 2️⃣ Selecionar features relevantes
# ===============================
features_numericas = ['danceability', 'energy', 'instrumentalness']
features_textuais = ['genre', 'subgenre', 'mood', 'lyrih_cs_theme']

# ===============================
# 3️⃣ Normalizar features numéricas
# ===============================
scaler = StandardScaler()
X_base_num = scaler.fit_transform(base_geral[features_numericas])
X_user_num = scaler.transform(base_usuario[features_numericas])

# ===============================
# 4️⃣ Transformar textos em vetores TF-IDF
# ===============================
def combinar_textos(df):
    return (
        df['genre'].fillna('') + ' ' +
        df['subgenre'].fillna('') + ' ' +
        df['mood'].fillna('') + ' ' +
        df['lyrics_theme'].fillna('')
    )

tfidf = TfidfVectorizer(stop_words='english')
X_base_text = tfidf.fit_transform(combinar_textos(base_geral))
X_user_text = tfidf.transform(combinar_textos(base_usuario))

# ===============================
# 5️⃣ Combinar representações numéricas + textuais
# ===============================
from scipy.sparse import hstack

X_base_total = hstack([X_base_text, X_base_num])
X_user_total = hstack([X_user_text, X_user_num])

# ===============================
# 6️⃣ Calcular similaridade de cosseno
# ===============================
similaridade = cosine_similarity(X_user_total, X_base_total)

# média da similaridade de todas as músicas do usuário
media_sim = similaridade.mean(axis=0)

# ===============================
# 7️⃣ Ordenar top recomendações
# ===============================
base_geral['similaridade'] = media_sim
recomendacoes = base_geral.sort_values('similaridade', ascending=False)

# ===============================
# 8️⃣ Exibir top 10 músicas recomendadas
# ===============================
cols = ['track_name', 'artist', 'album', 'genre', 'subgenre', 'similaridade']
recomendacoes[cols].head(5)

In [4]:
# Salva o resultado de recomendacoes[cols].head(5) em um arquivo .json
recomendacoes[cols].head(5).to_json(
    "retornoJSON/recommendation_henrique.json",
    orient="records",
    force_ascii=False,
    indent=2
)