# üåü ¬°Nuestra Receta Musical con el C√≥digo final para nuestro modelo de recomendaci√≥n sem√°ntica! üåü

Imagina que **somos** chefs en una cocina de alta tecnolog√≠a musical, y **hemos** preparado una receta para encontrar las canciones que mejor se adapten a nuestros sentimientos. ¬°Vamos a desglosarlo!

---

## 1. **Preparando los Ingredientes** ü•ëüé∂

### Limpieza del Texto: `remove_excessive_repetitions`
- **¬øQu√© hace?**  
  Elimina repeticiones excesivas en l√≠neas y palabras.  
  *Ejemplo: ¬°Nada de "otra vez, otra vez, otra vez!"*

- **Por qu√© lo usamos:**  
  **Nosotros** queremos que cada letra suene √∫nica y sin ruido. Hemos tenido que tirar a la papelera un preprocesamiento del texto excesivo 
  que hac√≠a que el sabor final fuera bastante agridulce y fuera de nuestra finalidad .

---

### Traducci√≥n Autom√°tica: `translate_to_english`
- **¬øQu√© hace?**  
  Detecta el idioma de la consulta y, si no est√° en ingl√©s, la traduce autom√°ticamente. Hemos usado ya muchos scripts del estilo, finalmente aqu√≠ es donde mejor funciona.
  Hemos probado adem√°s distintos traductores que busquen algo m√°s all√° pero no mejoraban en exceso o confund√≠an m√°s. As√≠ pues, si sabes ingl√©s escribe en ingl√©s, si no,
  a probar mezclita que no funciona nada mal y as√≠ se puede probar el producto local.

- **Por qu√© lo usamos:**  
  Para que **nuestro** modelo (RoBERTa) pueda entender la consulta a la perfecci√≥n, sin importar el idioma de entrada.  
  ![Traducci√≥n](https://img.icons8.com/emoji/48/000000/globe-with-meridians.png)

---

### Combinaci√≥n de Datos: `combined_text`
- **¬øQu√© hace?**  
  Une datos clave (nombre de la canci√≥n, artista, letra limpia, g√©neros, playlists, fecha de lanzamiento e idioma) en un solo bloque de texto.

- **Por qu√© lo usamos:**  
  As√≠, nosotros capturamos la esencia completa de cada canci√≥n en un solo vector informativo.

---

## 2. **El Secreto del Sabor: RoBERTa** üßô‚Äç‚ôÇÔ∏èüîÆ

- **¬øQu√© hace?**  
  Genera **embeddings** de 1024 dimensiones a partir del texto combinado, convirtiendo las letras en vectores num√©ricos que **nuestro** sistema puede comparar.

- **Por qu√© lo usamos:**  
  **Nosotros** elegimos a RoBERTa porque es un aut√©ntico maestro del lenguaje. ¬°Captura el contexto y las sutilezas de cada letra como ning√∫n otro!

---

## 3. **El Turbo Buscador: FAISS** üöÄüîç

- **¬øQu√© hace?**  
  Indexa los embeddings generados y permite realizar b√∫squedas ultrarr√°pidas entre miles de canciones.

- **Por qu√© lo usamos:**  
  Imagina tener miles de recetas y necesitar encontrar la ideal en un abrir y cerrar de ojos. **Nosotros** confiamos en FAISS para que cada b√∫squeda sea **r√°pida y precisa**.

---

## 4. **El Proceso Completo: De la Consulta al Resultado** üîÑ

1. **Preparaci√≥n de Datos:**  
   - Leemos el dataset y limpiamos las letras.
   - Creamos el "combo textual" uniendo toda la informaci√≥n relevante.

2. **Generaci√≥n de Embeddings:**  
   - RoBERTa transforma el combo en vectores m√°gicos que encapsulan la esencia de cada canci√≥n.

3. **Indexaci√≥n con FAISS:**  
   - Creamos un √≠ndice para realizar b√∫squedas s√∫per r√°pidas.

4. **Consulta del Usuario:**  
   - Si escribes algo como "amor y desamor en la m√∫sica latina", se traduce (si es necesario) y se convierte en un embedding.
   - FAISS busca en el √≠ndice y devuelve los 5 resultados m√°s similares.

---

## 5. **Resumen Visual y Din√°mico** üé®‚ú®

| **Herramienta**       | **Funci√≥n**                                            | **¬øPor qu√© la elegimos?**                                                 |
|-----------------------|--------------------------------------------------------|---------------------------------------------------------------------------|
| **RoBERTa**           | Transforma texto en embeddings de 1024 dimensiones     | Es el **maestro** del lenguaje que capta cada matiz de la letra.          |
| **FAISS**             | Indexa y busca r√°pidamente entre miles de embeddings    | Es el **turbo buscador** que encuentra resultados en un abrir y cerrar de ojos. |
| **Traducci√≥n & Detecci√≥n** | Traduce y detecta el idioma de la consulta           | Para que **nuestro** sistema entienda sin importar el idioma de entrada.    |
| **Pandas, NumPy & Pickle** | Manejo y almacenamiento de datos                      | Organizan, transforman y guardan los datos como unos aut√©nticos profesionales. |

---

## 6. **Conclusi√≥n: Nuestra Sinfon√≠a Perfecta** üéµ‚úÖ

Hemos combinado:
- La **magia de RoBERTa** para entender el alma de cada canci√≥n
- La **velocidad de FAISS** para encontrar coincidencias al instante
- Y herramientas adicionales que aseguran que cada dato est√© limpio y listo para brillar.

**Despu√©s de diversas pruebas esta es la combinaci√≥n que mas nos ha gustado, por supuesto tiene mucho que mejorar
un poquito de tiempo extra para la cocci√≥n es lo que nos ha faltado.**

¬°As√≠, cada b√∫squeda se convierte en una experiencia musical √∫nica y personalizada!  



In [1]:
import faiss  # Para b√∫squedas r√°pidas en el √≠ndice de embeddings
import numpy as np
import pandas as pd
from sentence_transformers import SentenceTransformer  # Para generar embeddings con RoBERTa
import torch  # Para usar la GPU si est√° disponible
import os  # Para manejar rutas de archivos
from deep_translator import GoogleTranslator  # Para traducci√≥n autom√°tica
from langdetect import detect  # Para detectar el idioma de un texto
import pickle  # Para guardar los embeddings correctamente

# =============================================================================
# üìå Funci√≥n para "sazonar" las letras y eliminar repeticiones excesivas
# =============================================================================
def remove_excessive_repetitions(text, max_reps=2):
    """
    Reduce repeticiones excesivas en el texto (l√≠neas y palabras consecutivas).
    """
    if not isinstance(text, str):
        return text

    # üü¢ Paso 1: Eliminar repeticiones de l√≠neas
    lines = text.splitlines()
    new_lines = []
    count = 1
    for i, line in enumerate(lines):
        if i > 0 and line.strip() == lines[i - 1].strip():
            count += 1
        else:
            count = 1
        if count <= max_reps:
            new_lines.append(line)
    text_no_line_reps = "\n".join(new_lines)

    # üü¢ Paso 2: Eliminar repeticiones de palabras consecutivas
    words = text_no_line_reps.split()
    new_words = []
    count = 1
    for i, word in enumerate(words):
        if i > 0 and word == words[i - 1]:
            count += 1
        else:
            count = 1
        if count <= max_reps:
            new_words.append(word)

    return " ".join(new_words)


# =============================================================================
# üìå Funci√≥n para traducir a ingl√©s la consulta del usuario
# =============================================================================
def translate_to_english(text):
    """
    Traduce la consulta del usuario a ingl√©s si no est√° en ingl√©s.
    """
    try:
        detected_lang = detect(text)
        if detected_lang != 'en':
            translated_text = GoogleTranslator(source='auto', target='en').translate(text)
            print(f"üåç Traducido: '{text}' ‚Üí '{translated_text}'")
            return translated_text
        return text
    except Exception as e:
        print(f"‚ùå Error al detectar idioma: {e}")
        return text


# =============================================================================
# üìå Rutas de los archivos
# =============================================================================
file_path = r"C:\Users\solan\Downloads\get_data_from_songs\data\cleaned_songs_data_v2.csv"
faiss_index_path = r"C:\Users\solan\Downloads\get_data_from_songs\src\lyrics_embeddings_faiss_IP.index"
embeddings_file = r"C:\Users\solan\Downloads\get_data_from_songs\src\lyrics_embeddings_roberta3.pkl"

# üìå Cargar el dataset
df = pd.read_csv(file_path)

# üìå Aplicar la funci√≥n para eliminar repeticiones en `processed_lyrics`
df['cleaned_lyrics'] = df['processed_lyrics'].apply(lambda x: remove_excessive_repetitions(x, max_reps=2))

# üìå Crear un gran "combo textual" que contenga toda la informaci√≥n relevante
df['combined_text'] = (
    df['song_name'].astype(str).fillna('') + " " +
    df['artist_name'].astype(str).fillna('') + " " +
    df['cleaned_lyrics'].astype(str).fillna('') + " " +
    df['combined_genres'].astype(str).fillna('') + " " +
    df['playlists_names'].astype(str).fillna('') + " " +
    df['album_release_date'].astype(str).fillna('') + " " +
    df['language'].astype(str).fillna('')
)


# =============================================================================
# üìå Configuraci√≥n del Dispositivo y Carga del Modelo
# =============================================================================
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"‚ö° Usando: {device.upper()}")

# üìå Inicializar RoBERTa (Modelo para generar embeddings)
model = SentenceTransformer('sentence-transformers/all-roberta-large-v1', device=device)

# =============================================================================
# üìå Generaci√≥n de Embeddings y Creaci√≥n del √çndice FAISS (SIN NORMALIZACI√ìN)
# =============================================================================
print("‚è≥ Generando nuevos embeddings (vectores de 1024 dimensiones)...")
embeddings_list = model.encode(df['combined_text'].tolist(), batch_size=32, show_progress_bar=True)

# üìå Convertir embeddings a un array de NumPy en formato float32
embeddings_np = np.array(embeddings_list, dtype=np.float32)
d = embeddings_np.shape[1]  # Dimensi√≥n del vector (1024 en este caso)

# üìå Crear el √≠ndice FAISS con `IndexFlatIP` (Producto Interno) sin normalizaci√≥n
index = faiss.IndexFlatIP(d)
index.add(embeddings_np)

# üìå Guardar FAISS en archivo con manejo de errores
try:
    faiss.write_index(index, faiss_index_path)
    print(f"‚úÖ FAISS `IndexFlatIP` guardado en {faiss_index_path}")
except Exception as e:
    print(f"‚ùå Error al guardar FAISS index: {e}")

# üìå Guardar embeddings en Pickle para futuras consultas (üî• SOLUCIONADO EL ERROR)
try:
    with open(embeddings_file, "wb") as f:
        pickle.dump(embeddings_list, f)  # Guardar correctamente como lista
    print(f"‚úÖ Embeddings guardados en {embeddings_file}")
except Exception as e:
    print(f"‚ùå Error al guardar embeddings en Pickle: {e}")


# =============================================================================
# üìå Ejemplo de Consulta y B√∫squeda en FAISS (üî• Ahora con Traducci√≥n)
# =============================================================================
query = "amor y desamor en la m√∫sica latina"
query_translated = translate_to_english(query)
print(f"\n‚è≥ Procesando consulta traducida: '{query_translated}'")

# üìå Generar el embedding de la consulta con RoBERTa
query_embedding = model.encode([query_translated], device=device, show_progress_bar=False)
query_embedding_np = np.array(query_embedding, dtype=np.float32)

# üìå Realizar la b√∫squeda en FAISS (top 5 resultados)
k = 5
distances, indices = index.search(query_embedding_np, k)

# üìå Mostrar resultados
if indices.size == 0:
    print("‚ùå No se encontraron resultados.")
else:
    results = []
    for i, idx in enumerate(indices[0]):
        sim_score = distances[0][i]
        song_info = df.iloc[idx].to_dict()
        song_info['similarity'] = sim_score
        results.append(song_info)

    results_df = pd.DataFrame(results)
    print("\nüîç Resultados de la b√∫squeda:")
    print(results_df[['song_name', 'artist_name', 'spotify_url', 'similarity']].to_string(index=False))



‚ö° Usando: CUDA
‚è≥ Generando nuevos embeddings (vectores de 1024 dimensiones)...


Batches:   0%|          | 0/4061 [00:00<?, ?it/s]

KeyboardInterrupt: 

In [None]:
import pandas as pd
import torch
import numpy as np
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
from deep_translator import GoogleTranslator
from langdetect import detect
import ipywidgets as widgets
from IPython.display import display, clear_output
import csv  # üîπ Importar correctamente para manejar QUOTE_ALL

# üìå Ruta de los archivos
embeddings_file_roberta = r"C:\Users\solan\Downloads\get_data_from_songs\src\clean_df_embeddings_roberta.pkl"
errores_file = r"C:\Users\solan\Downloads\get_data_from_songs\src\errores_canciones.csv"

# üìå Cargar el dataset con los embeddings
df = pd.read_pickle(embeddings_file_roberta)

# üìå Convertir embeddings a NumPy arrays (para mejor rendimiento)
df['embedding'] = df['embedding'].apply(lambda x: np.array(x))

# üìå Cargar modelo RoBERTa en GPU si est√° disponible
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"‚ö° Usando: {device.upper()}")

model = SentenceTransformer('all-roberta-large-v1', device=device)

def translate_to_english(text):
    """Traduce la frase del usuario a ingl√©s si no est√° en ingl√©s."""
    detected_lang = detect(text)
    if detected_lang != 'en':
        translated_text = GoogleTranslator(source='auto', target='en').translate(text)
        print(f"üåç Traducido '{text}' ‚ûù '{translated_text}'")
        return translated_text
    return text

def translate_to_spanish(text):
    """Traduce una letra de ingl√©s a espa√±ol."""
    return GoogleTranslator(source='en', target='es').translate(text) if isinstance(text, str) else "Traducci√≥n no disponible"

def search_songs(user_query, top_n=5):
    """Busca canciones en base a una frase del usuario."""
    translated_query = translate_to_english(user_query)
    query_embedding = model.encode(translated_query, convert_to_tensor=True).cpu().numpy()
    df['similarity'] = df['embedding'].apply(lambda x: cosine_similarity([x], [query_embedding])[0][0])
    top_songs = df.sort_values(by="similarity", ascending=False).head(top_n).copy()
    top_songs['translated_lyrics'] = top_songs['processed_lyrics'].apply(lambda x: translate_to_spanish(x[:500]) if isinstance(x, str) else "Traducci√≥n no disponible")
    return top_songs

def mostrar_resultados(resultados):
    """Muestra las canciones en un formato legible y permite seleccionar para corregir."""
    
    for index, row in resultados.iterrows():
        print("="*80)
        print(f"üéµ **Canci√≥n:** {row['song_name']}")
        print(f"üé§ **Artista:** {row['artist_name']}")
        print(f"üîó **Spotify:** {row['spotify_url']}")
        print(f"‚úÖ **Similaridad:** {row['similarity']:.4f}")
        print("\nüìú **Letra en Ingl√©s:**\n", row['processed_lyrics'][:500], "...")
        print("\nüåç **Traducci√≥n Espa√±ola:**\n", row['translated_lyrics'])
        print("="*80, "\n")
    
    seleccionar_canciones_para_correccion(resultados)

# üî¥ Variables globales necesarias para el widget
canciones_dropdown = widgets.SelectMultiple(
    options=[],
    description="Corregir:",
    layout=widgets.Layout(width="80%"),
    rows=5
)
guardar_button = widgets.Button(description="Guardar Errores", button_style="danger")
output = widgets.Output()

def seleccionar_canciones_para_correccion(resultados):
    """Permite al usuario seleccionar canciones para corregir y las guarda en errores_canciones.csv"""
    
    canciones_dropdown.options = [(f"{row['song_name']} - {row['artist_name']}", row["recording_id"]) for _, row in resultados.iterrows()]
    display(canciones_dropdown, guardar_button, output)

def guardar_errores(b):
    """Guarda las canciones seleccionadas en errores_canciones.csv"""
    with output:
        clear_output()
        seleccionados = list(canciones_dropdown.value)
        
        if not seleccionados:
            print("‚ö†Ô∏è No has seleccionado ninguna canci√≥n para corregir.")
            return
        
        # üìå Filtrar las canciones seleccionadas de TODAS las columnas originales
        errores_df = df[df["recording_id"].isin(seleccionados)].copy()
        
        # üîπ **Eliminar saltos de l√≠nea en `processed_lyrics`**
        errores_df['processed_lyrics'] = errores_df['processed_lyrics'].apply(lambda x: x.replace("\n", " ") if isinstance(x, str) else x)
        
        # üîπ **Evitar problemas con `embedding`**
        errores_df['embedding'] = errores_df['embedding'].apply(lambda x: str(x.tolist()) if isinstance(x, np.ndarray) else x)
        
        # üìå Guardar en CSV con comillas dobles y sin saltos de l√≠nea extra
        try:
            df_errores_previos = pd.read_csv(errores_file)
            errores_df = pd.concat([df_errores_previos, errores_df], ignore_index=True)
        except FileNotFoundError:
            pass  # Si no existe, creamos el archivo desde cero
        
        errores_df.to_csv(errores_file, index=False, encoding="utf-8", quoting=csv.QUOTE_ALL)

        print(f"‚úÖ Se han guardado {len(seleccionados)} canciones en '{errores_file}' para corregir despu√©s.")

# üìå Conectar el bot√≥n con la funci√≥n
guardar_button.on_click(guardar_errores)

# üîç Prueba con una consulta
user_input = "para andar por la playa sola"
resultados = search_songs(user_input, top_n=5)

# üìå Mostrar resultados y permitir correcci√≥n
mostrar_resultados(resultados)


‚ö° Usando: CUDA
üåç Traducido 'para andar por la playa sola' ‚ûù 'To walk on the beach alone'
üéµ **Canci√≥n:** nada me obliga
üé§ **Artista:** la pestilencia
üîó **Spotify:** https://open.spotify.com/track/1ZgffyEDYfzRqr54XQKuF4
‚úÖ **Similaridad:** 0.4243

üìú **Letra en Ingl√©s:**
 i would like to be able to go alone without depending on anyone and make my life just go out into the world and see what i find it may be love it may be hate i dont want anything to tie me down nobody i hate passports borders and governments and if my life runs and if my life runs and if my life runs the risk that matters is my solution and if my life runs and if my life runs and if my life runs and if my life runs the risk that matters is my solution and if my life runs and if my life runs and  ...

üåç **Traducci√≥n Espa√±ola:**
 Me gustar√≠a poder ir solo sin depender de nadie y hacer que mi vida salga al mundo y ver lo que me parece que puede ser amor, puede ser odio. gobiernos y si mi vida fun

SelectMultiple(description='Corregir:', layout=Layout(width='80%'), options=(('nada me obliga - la pestilencia‚Ä¶

Button(button_style='danger', description='Guardar Errores', style=ButtonStyle())

Output()

In [None]:
# üîç PRUEBA de velocidad con una consulta
user_input = "canciones que hablen sobre la literatura y los libros"
resultados = search_songs(user_input, top_n=5)

# üìå Mostrar resultados de forma clara
for index, row in resultados.iterrows():
    print("\n" + "="*100)
    print(f"üéµ **Canci√≥n:** {row['song_name']}")
    print(f"üé§ **Artista:** {row['artist_name']}")
    print(f"üîó **Spotify:** {row['spotify_url']}")
    print(f"‚úÖ **Similaridad:** {row['similarity']:.4f}")

    # Asegurar que processed_lyrics no sea NaN y convertirlo en string
    lyrics = str(row['processed_lyrics']) if pd.notna(row['processed_lyrics']) else "Letra no disponible"
    translated_lyrics = str(row['translated_lyrics']) if pd.notna(row['translated_lyrics']) else "Traducci√≥n no disponible"

    print("\nüìú **Letra Original (Primeros 800 caracteres):**\n", lyrics[:800], "...")
    print("\nüåç **Traducci√≥n Espa√±ola (Primeros 800 caracteres):**\n", translated_lyrics[:800], "...")
    print("="*100)  


üåç Traducido 'canciones que hablen sobre la literatura y los libros' ‚ûù 'songs that talk about literature and books'

üéµ **Canci√≥n:** the farmer and the viper
üé§ **Artista:** joshua powell  the great train robbery
üîó **Spotify:** https://open.spotify.com/track/3DJWrsP2Wk1OygdnoTMfgs
‚úÖ **Similaridad:** 0.5600

üìú **Letra Original (Primeros 800 caracteres):**
 Letra no disponible ...

üåç **Traducci√≥n Espa√±ola (Primeros 800 caracteres):**
 Traducci√≥n no disponible ...

üéµ **Canci√≥n:** these foolish things
üé§ **Artista:** etta james
üîó **Spotify:** https://open.spotify.com/track/1AWrGMHL33h4KtehJNQNcn
‚úÖ **Similaridad:** 0.5584

üìú **Letra Original (Primeros 800 caracteres):**
 Letra no disponible ...

üåç **Traducci√≥n Espa√±ola (Primeros 800 caracteres):**
 Traducci√≥n no disponible ...

üéµ **Canci√≥n:** cry to me
üé§ **Artista:** huey lewis  the news
üîó **Spotify:** https://open.spotify.com/track/6yDcWkihD4DebofZLohWPn
‚úÖ **Similaridad:** 0.5459

üìú