# 🎶 Music RAG con Gemini + FAISS (versión final)

Este notebook carga el archivo `music_faiss_map_with_embeddings.json`, 
que contiene canciones, metadatos y sus embeddings vectoriales.

A partir de esos datos:
- Crea un índice FAISS para búsqueda semántica.
- Implementa un sistema **RAG (Retrieval-Augmented Generation)**.
- Usa un modelo **Gemini (Google Generative AI)** para responder preguntas.
- Añade "tools" que el modelo puede usar (búsqueda y metadatos).

Fuente de datos: `music_faiss_map_with_embeddings.json`


## Requisitos

Ejecuta en tu entorno (no en este notebook si no tienes permisos):

```bash
pip install -U google-generativeai faiss-cpu numpy pandas scikit-learn sentence-transformers


In [1]:
import json
from pathlib import Path

# Ruta del JSON combinado
p = Path("music_faiss_map_with_embeddings.json")
assert p.exists(), "❌ No se encontró music_faiss_map_with_embeddings.json."

data = json.loads(p.read_text(encoding="utf-8"))
print(f"✅ Canciones cargadas: {len(data['metadatas'])}")

# Mostrar ejemplo
first_key = list(data["metadatas"].keys())[0]
print("Ejemplo de canción:")
print(json.dumps(data["metadatas"][first_key], indent=2, ensure_ascii=False)[:800])


✅ Canciones cargadas: 50
Ejemplo de canción:
{
  "title": "Ascenseur Pour L'échafaud * Des Femmes Disparaissent",
  "artist": "The Miles Davis Quintet & Art Blakey & The Jazz Messengers",
  "url": "https://www.discogs.com/release/512290-The-Miles-Davis-Quintet-Art-Blakey-And-The-Jazz-Messengers-Ascenseur-Pour-L%C3%A9chafaud-Des-Femmes-Disp",
  "metadata": {
    "_title_from_api": "Ascenseur Pour L'échafaud * Des Femmes Disparaissent",
    "label": "Mercury",
    "format": "Vinyl LP Album Compilation Reissue Mono",
    "country": "Netherlands",
    "genre": "Jazz, Stage & Screen",
    "style": "Hard Bop, Soundtrack",
    "image": "https://i.discogs.com/_l5DFnKHo7ln3H94rZuqGe4dyWKtaDsY26JtyVCw5pk/rs:fit/g:sm/q:90/h:594/w:600/czM6Ly9kaXNjb2dz/LWRhdGFiYXNlLWlt/YWdlcy9SLTUxMjI5/MC0xMjgzMDg1OTY5/LmpwZWc.jpeg"
  },
  "embedding": [
    -0.0


In [2]:
import numpy as np
import faiss

metas = data["metadatas"]

# Extraer embeddings y doc_ids
embeddings = []
doc_ids = []
for doc_id, meta in metas.items():
    emb = meta.get("embedding")
    if emb:
        embeddings.append(np.array(emb, dtype=np.float32))
        doc_ids.append(doc_id)

emb_matrix = np.vstack(embeddings)
faiss.normalize_L2(emb_matrix)

dim = emb_matrix.shape[1]
index = faiss.IndexFlatIP(dim)
index.add(emb_matrix)

print(f"✅ Índice FAISS creado con {index.ntotal} canciones ({dim} dimensiones).")

def retrieve_similar(query_emb, k=5):
    q = np.asarray(query_emb, dtype=np.float32).reshape(1, -1)
    faiss.normalize_L2(q)
    D, I = index.search(q, k)
    results = []
    for score, idx in zip(D[0], I[0]):
        song_id = doc_ids[idx]
        meta = metas[song_id]
        results.append({
            "doc_id": song_id,
            "score": float(score),
            "meta": meta
        })
    return results


✅ Índice FAISS creado con 50 canciones (384 dimensiones).


In [3]:
from sentence_transformers import SentenceTransformer

model = SentenceTransformer("all-MiniLM-L6-v2")

def embed_query(query):
    return model.encode([query], convert_to_numpy=True)[0]

# Ejemplo
q = "Canciones de rock clásico con guitarras"
q_emb = embed_query(q)
results = retrieve_similar(q_emb, k=3)

for r in results:
    print("🎵", r["meta"].get("title"), "-", r["meta"].get("artist"), "| score:", round(r["score"], 3))


  from .autonotebook import tqdm as notebook_tqdm


🎵 Cannis b/w Mbukinya - Duma (6) | score: 0.428
🎵 Love, Strings & Jobim (The Eloquence Of Antonio Carlos Jobim) - Antonio Carlos Jobim | score: 0.363
🎵 Gehasst, Verdammt, Vergöttert - Böhse Onkelz | score: 0.357


In [4]:
def build_rag_prompt(query, retrieved_docs):
    context = ""
    for i, doc in enumerate(retrieved_docs):
        meta = doc["meta"]
        context += f"""
[Doc {i+1}]
Título: {meta.get('title', '')}
Artista: {meta.get('artist', '')}
Año: {meta.get('metadata', {}).get('released', '')}
Label: {meta.get('metadata', {}).get('label', '')}
Género: {meta.get('metadata', {}).get('genre', '')}
País: {meta.get('metadata', {}).get('country', '')}
Formato: {meta.get('metadata', {}).get('format', '')}
"""
    prompt = f"""
Eres un experto musical.
Usa el siguiente contexto para responder a la pregunta del usuario.

Contexto:
{context}

Pregunta del usuario:
{query}

Responde de forma clara y breve, usando los ejemplos relevantes.
"""
    return prompt

# Ejemplo
prompt = build_rag_prompt("Recomiéndame vinilos de rock europeo", results)
print(prompt[:800])



Eres un experto musical.
Usa el siguiente contexto para responder a la pregunta del usuario.

Contexto:

[Doc 1]
Título: Cannis b/w Mbukinya
Artista: Duma (6)
Año: 2021-05-28
Label: Sub Pop, Sub Pop
Género: Electronic, Rock
País: US
Formato: Vinyl 7" 45 RPM Single Club Edition Limited Edition Stereo

[Doc 2]
Título: Love, Strings & Jobim (The Eloquence Of Antonio Carlos Jobim)
Artista: Antonio Carlos Jobim
Año: 1966
Label: Warner Bros. Records
Género: Jazz
País: US
Formato: Vinyl LP Album Stereo

[Doc 3]
Título: Gehasst, Verdammt, Vergöttert
Artista: Böhse Onkelz
Año: 2014-03-00
Label: rule23 recordings
Género: Rock
País: Germany
Formato: Vinyl LP Compilation Reissue


Pregunta del usuario:
Recomiéndame vinilos de rock europeo

Responde de forma clara y breve, usando los ejemplos relevant


In [5]:
import google.generativeai as genai

genai.configure(api_key="AIzaSyCpq4zmtENPCLh3_v_CjC-D98mi4eFkKXI")  # ⚠️ Reemplaza con tu clave real

# Usa un modelo disponible (pro o flash)
MODEL_NAME = "models/gemini-2.5-flash" 

def call_gemini(prompt_text, model=MODEL_NAME):
    model_obj = genai.GenerativeModel(model)
    response = model_obj.generate_content(prompt_text)
    return response.text

# Ejemplo de prueba:
response = call_gemini(prompt)
print(response)


Te recomiendo el vinilo:

*   **Gehasst, Verdammt, Vergöttert** de Böhse Onkelz (2014) – Género: Rock, País: Germany.


In [6]:
def tool_search_similar(query_text, k=5):
    q_emb = embed_query(query_text)
    return retrieve_similar(q_emb, k)

def tool_get_metadata(doc_id):
    return metas.get(doc_id, {})

# Ejemplo
test = tool_search_similar("rock progresivo de los 70", k=2)
for t in test:
    print("🎧", t["meta"].get("title"), "-", t["meta"].get("artist"))


🎧 Kinematografia - Paktofonika
🎧 Cannis b/w Mbukinya - Duma (6)


In [10]:
query = "¿Qué discos tiene jazz?"
q_emb = embed_query(query)
retrieved = retrieve_similar(q_emb, k=4)
prompt = build_rag_prompt(query, retrieved)
print(f"Prompt construido para Gemini:\n{prompt}\n")


# Ejecutar Gemini (descomenta si tienes API KEY)
answer = call_gemini(prompt)
print("💬 Gemini responde:\n", answer)


Prompt construido para Gemini:

Eres un experto musical.
Usa el siguiente contexto para responder a la pregunta del usuario.

Contexto:

[Doc 1]
Título: Ascenseur Pour L'échafaud * Des Femmes Disparaissent
Artista: The Miles Davis Quintet & Art Blakey & The Jazz Messengers
Año: 
Label: Mercury
Género: Jazz, Stage & Screen
País: Netherlands
Formato: Vinyl LP Album Compilation Reissue Mono

[Doc 2]
Título: LAX
Artista: The Game (2)
Año: 2008
Label: Geffen Records
Género: Hip Hop
País: Europe
Formato: CD Album

[Doc 3]
Título: Love, Strings & Jobim (The Eloquence Of Antonio Carlos Jobim)
Artista: Antonio Carlos Jobim
Año: 1966
Label: Warner Bros. Records
Género: Jazz
País: US
Formato: Vinyl LP Album Stereo

[Doc 4]
Título: Kinematografia
Artista: Paktofonika
Año: 
Label: Gigant Records
Género: Hip Hop
País: Poland
Formato: CD Album Reissue


Pregunta del usuario:
¿Qué discos tiene jazz?

Responde de forma clara y breve, usando los ejemplos relevantes.


💬 Gemini responde:
 Los discos de j