# 🎶 Traducción de Letras de Canciones

## Objetivo
El objetivo de este proyecto es detectar el idioma de las canciones y traducir aquellas que no estén en inglés. Esto nos permitirá entrenar eficazmente un modelo de Roberta con canciones de distintos países y variedad. 🌍🎤

## Descripción del Proceso

1. **Importación de Módulos y Configuración Inicial** 📦
    - Importamos las bibliotecas necesarias como `pandas`, `langdetect`, `googletrans`, `deep_translator`, entre otras.
    - Configuramos los límites de tamaño de campo y rutas de los archivos.

2. **Carga y Filtrado de Datos** 📂
    - Cargamos los archivos CSV con las letras de canciones.
    - Filtramos las canciones que no están en inglés y aquellas que no tienen traducción.

3. **Detección de Idioma y Traducción** 🌐
    - Utilizamos `langdetect` para detectar el idioma de las letras.
    - Traducimos las letras no inglesas usando `googletrans` y `deep_translator`.

4. **Limpieza y Procesamiento de Texto** 🧹
    - Limpiamos las letras eliminando saltos de línea y espacios múltiples.
    - Dividimos textos largos para evitar errores en la traducción.

5. **Guardado de Resultados y Manejo de Errores** 💾
    - Guardamos las letras traducidas en un nuevo archivo CSV.
    - Registramos los errores encontrados durante el proceso de traducción.

6. **Verificación y Análisis** 🔍
    - Verificamos las traducciones y analizamos los resultados.
    - Fusionamos los datos traducidos con el archivo original para obtener un dataset completo.

## Herramientas Utilizadas
- `pandas` para manipulación de datos.
- `langdetect` para detección de idioma.
- `googletrans` y `deep_translator` para traducción automática.
- `tqdm` para mostrar el progreso del procesamiento.
- `transformers` para utilizar modelos avanzados de traducción como MarianMT.

## Resultados Esperados
Al final del proyecto, esperamos tener un dataset completo con letras de canciones traducidas al inglés, listo para ser utilizado en el entrenamiento de modelos de procesamiento de lenguaje natural (NLP). 🎯📊

## Cosas que se han probado
- `transformers` para utilizar modelos avanzados de traducción como MarianMT.

In [None]:
import sys
import csv
import pandas as pd
from langdetect import detect
from deep_translator import GoogleTranslator
import re
from tqdm import tqdm  # Barra de progreso
import time
import os
from collections import deque  # Para mostrar solo los últimos 20 procesos

# 📌 Aumentar el límite del tamaño de campo
sys.setrecursionlimit(10000)
csv.field_size_limit(10**9)

# 📌 Configuración de archivos
file_path = os.path.join('data', 'filtrado_para_traduccion.csv')
output_file_path = os.path.join('data', 'traducidas.csv')
error_file_path = os.path.join('data', 'errors_log_traduccion.csv')
pause_time = 0.2  # Pausa para evitar bloqueos

# 📌 Inicializar el traductor
translator = GoogleTranslator(source="auto", target="en")

# 🔹 Función para limpiar texto antes de traducir
def clean_text(text):
    if pd.isna(text):
        return ""
    return re.sub(r'\s+', ' ', text.replace('\n', ' ').strip())

# 🔹 Función para dividir textos largas
def split_text(text, max_length=500):
    return [text[i:i+max_length] for i in range(0, len(text), max_length)]

# 📌 Cargar datos originales
data = pd.read_csv(file_path, encoding='utf-8', engine='python')

# 📌 Si existe `traducidas.csv`, cargarlo y limpiar duplicados
if os.path.exists(output_file_path):
    translated_data = pd.read_csv(output_file_path, encoding='utf-8', engine='python', on_bad_lines="skip")

    # 📌 Eliminar duplicados basados en `recording_id`
    translated_data = translated_data.drop_duplicates(subset=['recording_id'], keep='first')

    # 📌 Guardar el archivo limpio antes de fusionar
    translated_data.to_csv(output_file_path, index=False, encoding='utf-8')

    # 📌 Si `language` no existe en `traducidas.csv`, agregarlo
    if 'language' not in translated_data.columns:
        translated_data['language'] = pd.NA

    # 📌 Fusionar `data` con `translated_data`
    data = data.merge(translated_data[['recording_id', 'translated_lyrics', 'language']], on='recording_id', how='left', suffixes=('', '_prev'))
    data['translated_lyrics'] = data['translated_lyrics'].combine_first(data['translated_lyrics_prev'])
    data['language'] = data['language'].combine_first(data['language_prev'])  # Mantener el idioma original
    data.drop(columns=['translated_lyrics_prev', 'language_prev'], inplace=True)

print(f"🔍 Filas con traducción ya existente: {data['translated_lyrics'].notnull().sum()} de {len(data)}")

# 📌 Crear DataFrame para errores
errors = pd.DataFrame(columns=['index', 'lyrics', 'error_message'])

# 📌 Mantener solo los últimos 20 logs en la terminal
last_logs = deque(maxlen=20)

# 🔁 Procesar y traducir
for index, row in tqdm(data.iterrows(), total=data.shape[0], desc="🔄 Traduciendo canciones"):
    try:
        if pd.notnull(row['translated_lyrics']) and str(row['translated_lyrics']).strip() != "":
            continue  # Saltar si ya está traducido

        lyrics_cleaned = clean_text(row['lyrics'])

        # 🔹 Evitar traducciones de textos vacíos
        if not lyrics_cleaned.strip():
            last_logs.append(f"⚠️ Letra vacía o inválida para {row['recording_id']}. Saltando...")
            continue

        # 🔹 Detectar idioma
        try:
            lang = row['language'] if pd.notnull(row['language']) else detect(lyrics_cleaned)
        except:
            lang = "unknown"  # Si langdetect falla, marcar como "desconocido"

        last_logs.append(f"🧐 Procesando {row['recording_id']} - Texto: {lyrics_cleaned[:50]}... 🔍 Idioma detectado: {lang}")

        # 🔥 Si la canción ya está en inglés, no traducirla
        if lang == "en":
            last_logs.append(f"✅ Canción {row['recording_id']} ya está en inglés. Saltando...")
            continue  # Saltar a la siguiente canción

        # 🔹 Intentar traducir hasta 3 veces si la traducción es vacía
        max_retries = 3
        translation = ""
        for attempt in range(max_retries):
            try:
                text_parts = split_text(lyrics_cleaned)
                translation = " ".join([translator.translate(part, source="auto") for part in text_parts])
                if translation.strip() != "":
                    break  # Si la traducción es válida, salir del loop
            except:
                last_logs.append(f"⚠️ Intento {attempt + 1} fallido. Reintentando...")
                time.sleep(1)

        if translation.strip() == "":
            last_logs.append(f"❌ No se pudo traducir {row['recording_id']}. Guardando como error.")
            errors = pd.concat([errors, pd.DataFrame({'index': [index], 'error_message': ["Traducción vacía después de reintentos"]})])
            continue

        data.at[index, 'translated_lyrics'] = translation
        data.at[index, 'language'] = lang  # Guardar el idioma detectado

        # 📌 Verificar antes de escribir para evitar duplicados en `traducidas.csv`
        translated_data = pd.read_csv(output_file_path, encoding='utf-8', engine='python', on_bad_lines="skip")
        if not ((translated_data['recording_id'] == row['recording_id']).any()):
            # 📌 Guardar traducción + idioma detectado en `traducidas.csv`
            pd.DataFrame({
                'recording_id': [row['recording_id']], 
                'translated_lyrics': [translation], 
                'language': [lang]  
            }).to_csv(output_file_path, mode='a', header=False, index=False, encoding='utf-8', sep=",", quoting=csv.QUOTE_MINIMAL)

        time.sleep(pause_time)

    except Exception as e:
        errors = pd.concat([errors, pd.DataFrame({'index': [index], 'error_message': [str(e)]})])

# 📌 Mostrar solo los últimos 20 logs
print("\n".join(last_logs))

# 📌 Guardar errores en archivo
errors.to_csv(error_file_path, index=False, encoding="utf-8")

print("✅ Proceso completado. Archivo traducido guardado.")


In [None]:
import pandas as pd

# Ruta del archivo
file_path = os.path.join('data', 'final_idiomas_traducido.csv')

# Cargar el archivo CSV
df = pd.read_csv(file_path)

# Seleccionar las columnas de interés
columns_of_interest = ['artist_name', 'song_name', 'spotify_url', 'language', 'lyrics', 'translated_lyrics']

# Filtrar el DataFrame para mostrar solo las columnas de interés
df_filtered = df[columns_of_interest]

# Filtrar las filas donde el idioma no sea inglés ('en')
df_non_english = df_filtered[df_filtered['language'] != 'en']

# Mostrar las primeras filas del DataFrame filtrado
print("Primeras filas del DataFrame filtrado (idioma no inglés):")
print(df_non_english.sample())

# Mostrar las filas con valores nulos en las columnas de interés
print("\nFilas con valores nulos en las columnas de interés (idioma no inglés):")
print(df_non_english[df_non_english.isnull().any(axis=1)])

Primeras filas del DataFrame filtrado (idioma no inglés):
    artist_name        song_name  \
124       morat  como te atreves   

                                           spotify_url language  \
124  https://open.spotify.com/track/7M6CFruBrM5x7u0...       es   

                                                lyrics  \
124  hoy me pregunto que sera de ti te tuve cerca y...   

                                     translated_lyrics  
124  Today I wonder what it will be about you and n...  

Filas con valores nulos en las columnas de interés (idioma no inglés):
            artist_name                song_name  \
231       the saturdays  dont let me dance alone   
384           the hives   square one here i come   
445        say anything          high school low   
529         lara fabian     lamour existe encore   
546                rjd2            we come alive   
...                 ...                      ...   
4277          kvelertak         utrydd dei svake   
4312  katherine

In [None]:
df_non_english.sample(20)

Unnamed: 0,artist_name,song_name,spotify_url,language,lyrics,translated_lyrics
61496,yelle,le grand saut,https://open.spotify.com/track/6ro7kKnnbgMVllC2ij5VCL,fr,cours ne te retourne pas le futur ouvre grand ses bras jour j pour faire le bon choix je monte a bord du vaisseau aujourdhui le grand saut cours ne te retourne pas le futur ouvre grand ses bras jour j pour faire le bon choix je monte a bord du vaisseau aujourdhui le grand saut le hasard sorganise et il suivra mes pas je mimmunise la pluie ne tombe pas sur moi mon hoodie en maille de fer lui resistera en un eclair je lui ouvre la voie le hasard sorganise et il suivra mes pas je mimmunise la pluie ne tombe pas sur moi mon hoodie en maille de fer lui resistera en un eclair je lui ouvre la voie cours ne te retourne pas le futur ouvre grand ses bras jour j pour faire le bon choix je monte a bord du vaisseau aujourdhui le grand saut le grand saut,lessons do not turn you around the future opens big day J to make the right choice I go up on board the ship today the big leap course does not turn you around the future opens big day D to make the right choice I go up on boardFrom the vessel today the big jump the sorganized chance and he will follow my steps I mimminate the rain does not fall on me my hoodie in iron mesh will resist him in an enclosure I opens the way to him the sorganized chance and he will follow my steps I mimmise theRain does not fall on me my hoodie in iron mesh will resist him in a light I opens the way to him does not turn you around the future opens his day jar to make the right choice I climb on board the ship today the big jumpThe big jump
74538,bisz,indygo,https://open.spotify.com/track/2XVzSdrpRpJN2PWeifnDet,pl,zwrotka 1 urodziłeś się królem pokaż wszystkim koronę kłów berło pięści wznieś jak księżyc nad morzem głów twój tron nosisz ze sobą ciągle na spodzie stóp nie szata czyni króla masz na sobie tylko spojrzeń rój niebo jest twoim dachem orszakiem ptaki o świcie błazny masy dla ciebie jak ty dla nich bo żyjesz poza ich pogonią i za czym za słoną cenę zapłaci każdy z nich gdy obudzi się za zasłoną nie ma nic poza spokojnym oddechem pierś bóstwa rozszerza się wszechświatem potem zapada się w punkt aby na nowo wziąć wdech i spokojnie się wzwyż wznieść cichy proces żaden wydumany big bang między ziemią a niebem jest człowiek z głową w chmurach stąpając twardo przewodzę przez moje życie tę siłę która czyni ciężkość lekką baranek który jest lwem jestem piękną bestią zmieszaj najjaśniejszy błękit z jak najgłębszą czernią refren wszyscy którzy wrócili z biegunów zawsze będą ze mną weź najciemniejszą czerń zmieszaj ją z jasnoniebieskim wyzwolony od zwycięstw i klęsk obserwuj ich zmierzch w indygo indygo indygo indygo indygo indygo indygo bridge gdy już nie wiesz dokąd iść słuchaj krwi która krąży w tobie daj się ponieść daj się ponieść w kolorze twojej krwi tkwi symbol i odpowiedź daj się ponieść daj się ponieść zwrotka 2 masz w sobie coś co możesz pokazać tylko wybranym wciąż jest nas zbyt mało by doprowadzić do zmiany lecz każdy z nas ma moc by zacząć powoli wsączać łzy w serce skały aby poruszyć monolit wiemy że możemy sprawić aby świat był lepszy i kto musi wziąć na barki trud nowi architekci my bo tu miejsca dla nas brak wciąż i gdy tylko chcesz otworzyć się słyszysz że masz się zamknąć lecz jeśli myśleli że mogą kazać ci cokolwiek tylko ze względu na twoją słabość biada im nauka dla ciebie i dla nich oby stąd wynikła nie wszyscy jeszcze się poddali chodnikowy wilk brat z otchłani bólu rozpaczy niewiary po szczyty nieba zrozumienia wolności i chwały stratowany fortuny kołem wiem jedno że to odległość pomiędzy górą a dołem jest pełnią refren outro gdy już nie wiesz dokąd iść słuchaj krwi która krąży w tobie daj się ponieść daj się ponieść w kolorze twojej krwi tkwi symbol i odpowiedź włóż koronę włóż koronę,"verse 1 You were born king. Show all the crown of fangs crown. ""Moon at the sea of ​​your head your throne.For them because you live beyond their pursuit and for what the salty price will pay each of them when he wakes up behind the veil, there is nothing but the calm breath of the deity breast expands the universe then falls into a point to breathe in and calmly rise up a quiet processNo dug -out big bang between the earth and the sky is a man with my head in the clouds, walking hard, lead through my life this strength which makes the heavyness of a light lamb which is a lion I am a beautiful beast mix the brightest blue with the deepest black chorus the chorus everyone who returned from the poles will always be with meTake the darkest black, mix it with a light blue liberated from victories and disaster, watch their twilight in indigo indigo indigo indigo indigo bridge when you don't know where to go listen to blood that circulates in you let yourself be carried away let yourself be carried away in the color of your bloodLet yourself be carried away by the verse 2 you have something that you can only show the chosen ones are still too little to lead to change, but each of us has the power to start slowly on the heart of the rock to move the monolith we know that we can make the world to be the worldbetter and who has to take the effort new architects, we because there is still no places for us and whenever you want to open up you can hear that you have to close, but if they thought that they can have anything because of your weakness woe to you and for you and for youLet them result from here not everyone surrendered to the pavement wolf brother from the abyss of the pain of disbelief to the heavenly of the sky of understanding of freedom and glory, the stratified fortune, I know one thing that this distance between the mountain and bottom is the right chorus outro when you do not know where to go to where you listen to the blood that circulatesLet yourself be carried away in the color of your blood lies the symbol and answer put the crown put the crown"
39152,azad,du fehlst mir,https://open.spotify.com/track/0MRzijtXBacxFou0IU3uiT,de,"[Part I] Ich trag dich in meinem Herzen Ganz egal, wo ich auch sein mag Du bist immer mit mir, das ist keine Frage Es ist schmerzlich, wenn mein Herz bricht Eine Hälfte ist bei dir, immer wenn du weit entfernt bist Bis zu dem Tag, wo wir uns wiedersehen und es zusammenwächst Und ich bete zu Gott, dass es für immer zusammenhält Mein Leben, du bist alles für mich Ich leg dir meine Welt zu Füßen, das ist alles für dich Glaub mir, wenn du da bist Gibt es nichts mehr, was ich brauche hier um glücklich zu sein Es gibt viele Träume, doch ich wünsch mir nur ein' Er ist, dich für immer lächeln zu sehen Ich bin immer für dich da, hab mein Versprechen gegeben Engel, Worte sind zu schwach Um dieses starke Gefühl zu beschreiben Das ich für dich fühle, ich kann es nur zeigen Bin zuweilen am verzweifeln, frag mich oft wie geht's ihr Ich bin nicht komplett ohne dich... [Hook] Du fehlst mir Fehlst mir so sehr Dieses Leben ohne dich, es ist so leer Du fehlst mir Wünsch du wärst hier Dieser Schmerz zerbricht dieses Herz hier Du fehlst mir Fehlst mir so sehr Dieses Leben ohne dich, es ist so schwer Du fehlst mir Fehlst mir mein Engel Ich denk nur an dich, bis an mein Ende [Part II] Ich schließ die Augen und ich seh dich vor mir Diese Liebe, die ich habe Engel, geb' ich nur dir Du bist mein Licht, es wird wieder gut, bitte wein nicht Es bringt mich um, tief im Innern wie ein Einstich Gott ist groß und seine Wege unergründlich Engel, hab Vertrauen, sieh nach vorn und sei glücklich Denn er wird uns wieder vereinen Mach dir keine Sorgen, denk dran, du bist niemals allein Ich bin bei dir, in Gedanken, bis du wieder kommst Fühl mich leer ohne dich, ich bin wie benommen Das ist tiefe Liebe Denk an deine schönen Augen Mein Herz, in deren Glanz ich mich widerspiegel Du bist mein Lebenselixier Dieses Herz in mir, wem soll ichs geben, wenn nicht dir? Es ist Sehnsucht pur, die mich quält hier Weiß nich', wie ich leben soll ohne dich [Hook] [Part III] Ich frag' mich was du machst, frag mich wo du bist Frag mich wie's dir geht, Engel, ich denk nur an dich Du fehlst mir! Fehlst mir so sehr! Dieser Stein auf meinem Herzen, er ist so schwer Herr, bitte gib mir Kraft, diese Last zu tragen Ich bin am Boden, es erdrückt mich an manchen Tagen Warum muss es immer so sein? Ich krieg Krisen Könnt 'ne Knarre nehmen und um mich schießen Tränen fließen über mein Gesicht Meine Welt ist verdunkelt ohne dein Licht Und ich bin nicht mehr ich Nur ein Schatten meiner selbst, der langsam in sich zerbricht Ich will den Schmerz ersticken im Rauch Will ihn ertränken im Alk, aber er kommt wieder rauf Es gibt kein Heil für das Leid, das ich jetzt durchleb' hier Außer dich, mein Licht, Engel, du fehlst mir [Hook]","[Part I] I wear you in my heart, wherever I may be you are always with me, that's no question, it is painful when my heart breaks a half with you, whenever you are far away up toThe day when we see each other again and it grows together and I pray to God that it holds my life together forever, you are everything for me I put my world to feet, that's all for you think to me when you are thereThere is nothing more that I need to be happy here there are many dreams, but I only want one 'he is to see you forever I am always there for you, gave my promise angels, words are too weakTo describe this strong feeling that I feel for you, I can only show it, sometimes I am despair, ask me often how are you I am not completely without you ... [hook] I miss you so much without this life withoutyou, it is so empty You miss you wish you would be this pain this heart breaks here you lack I miss this life so much this life without you, it is as difficult as I miss my angel I just think of you, up to youMy end [Part II] I close my eyes and I see you in front of me this love that I have angels, I only give you my light, it will be good again, please do not change my inside, deep insideLike a puncture God is great and his paths are unfathomable, have trust, look ahead and be happy because he will unite us again, do not worry, remember, you are never alone with you, in your thoughts until you are backcome empty without you, I am how dazzling that is deep love think of your beautiful eyes my heart, in whose glory I reflect you are my elixir of life this heart in me, who should I give if not?It is longing pure that torments me here doesn't know how I should live without you [hook] [part iii] I ask myself what you do, ask me where you are, ask me, angel, I just thinkI miss you!I miss so much!This stone on my heart, it is so heavy, please give me strength to wear this load I am on the ground, it crushes me on some days why does it always have to be like that?I get crises can take a creak and shoot tears flow over my face my world is darkened without your light and I am no longer a shadow of myself that brakes slowly I want to suffocate the pain in the smokeDrown in the alk, but he comes up again there is no salvation for the suffering that I am now lying through here except you, my light, angel, you are missing [hook]"
53007,eagulls,opaque,https://open.spotify.com/track/3U1mmFAFcc0qppvTIDcTVj,,,
29099,still fresh,le même sort,https://open.spotify.com/track/167G8YzpXA7DJ4RH9Gd7mG,fr,intro ne peu importe le mode de vie on aura tous le même sort couplet 1 ok jai même pas un vélo sur le poignet jai peu vu les douaniers dans le métro je fraude ouais jme vois déjà à broadway came sous le kway jreste calme bien qulétat me uét limpression dêtre un pion dans un jeu de dames ouais jeune et djà fatigué sur les bons rails mais pas dticket gros jai lambition daudigier pullup pullup dj jveux partir sur une bonne note sans utiliser dantisèche jsuis celui qui veut grayer en période de disette refrain cherche la monnaie toute la life certains tisent toute la night tous coincés dans le même sort parce quon vit pas les mêmes galères touche pas le même salaire mais finit par le même sort parce quau bout du compte personne pour taider au fond dune teille de sky tu cherches des mayday peu importe le coût de la life quand séteint la night on en subit le même sort pont jsuis frappé par hé rattrapé par hé jsuis frappé par la réalité jsuis frappé par hé rattrapé par hé jsuis frappé par la réalité couplet 2 jsuis loin du féfé sur le poignet la misère ma empoigné mon coeur mon corps ont saigné jai pris des coups de poignards on ma dit garde ton calme attends mais jcrois plus en ces charlatans jvais péter un bleca maintenant cest en char que jattends personne ne vole son destin quil soit glorieux ou vulgaire plutôt quune mauvaise perte jpréfère quce soit de bonne guerre mon label simpatiente si jsors mon contrat tésau les enjeux nsont pas les mêmes donc remballe avec tes soces refrain pont couplet 3 parfois le coeur brisé criblé jaimerais me tirer jsuis pessimiste rare que la paix simisse jmattends au pire et jtiens encore en songeant à mon sort cest par la grande porte pas celle de derrière si jmen sort jmefforce dêtre patient même si jsais pas cqui mattend parfois atteint mais paré pour un bon plan jaimerais que tout passe vite ouais tout passe vite en un clin doeil avoir un carrière à la 2pac big refrain,Intro does not matter the lifestyle we will all have the same verse fate 1 ok I don't even have a bike on the wrist I have little seen the customs officers in the metro I fraud yeah I already see on Broadway Cam under the kway jreste calm althoughUtet of being a pawn in a game of ladies yeah young and djà tired on the right rails but not doticket big jai lambition daudigier poulup poulup dj jveux leave on a good note without using the jsuis jsuis who wantscurrency all the life certain all the night all stuck in the same fate because we do not live the same galleys do not touch the same salary but ends with the same fate because on the end of the account no one to the bottom of a sky you are looking forMayday regardless of the cost of the life when the Night Subsequently Suffices the same jsuis bridge fate struck by hey hey jsuis struck by the reality jsuis struck by hey caught by hey jsuis struck by reality verse 2 jsuis far from the féfé on féféThe wrist the misery my grab my heart my body has bled I took stabbings I was said to keep your calm waiting but I can more in these charlatans I fart a bleca now it is in chariot that jatrends no one steals his destiny that it is glorious orVulgar rather than a bad loss jpri that is good war my Simpatiente label if I have my contract for the stakes do not the same so booted with your chorus fabric soy sometimes the broken heart shunned I would like to shoot me jsuis pessimistic rare that peace similarat worst and still jet by thinking of my fate is by the big door not that behind if I go out to be patient even if I don't have a matter sometimes reached but adorned for a good plan I would like that everything goes quickly yeah everything goes quickly in aClin doeil have a career at 2Pac Big Réfrain
53430,holy wave,sir isaac nukem,https://open.spotify.com/track/42ASCwyFqut1to4IbB0VXe,es,mientras veías la porquería del mundo y nada más que su declive preferirías pensar que es absurdo que ya no te sirve y es mejor tirarlo y ves el potencial en la pérdida muere un poco para nacer mejor de un parto doloroso es el cambio y la celebración te guía la luna y te alimentas del sol crees que nada es real fuera de la dominación puro placer puro dolor aguanta el deseo sin consumarlo de piernas abiertas a la necesidad global y ves el potencial en la pérdida muere un poco para nacer mejor de un parto doloroso es el cambio y la celebración te guía la luna y te alimentas del sol muere un poco para nacer mejor de un parto doloroso es el cambio y la celebración te guía la luna y te alimentas del sol,While you saw the reason for the world and nothing more than its decline you would prefer to think that it is absurd that it no longer serves you and it is better to throw it and you see the potential in the loss dies a bit to be born better of a painful birth is the change and the celebration youGuide the moon and feed from the sun you think that nothing is real out of domination pure pleasure pure pain endures desire without consummating it open to global need and you see the potential in the loss dies a bit to be born better of a painful childbirthIt is the change and the celebration guides you the moon and you feed on the sun dies a bit to be born better of a painful birth is the change and the celebration guides you the moon and you feed on the sun
52352,booba,oklm,https://open.spotify.com/track/68XgYFn7NtFxvn8gZzqrEZ,fr,92 izi a coups dfusil se regla la querelle je ne fais ni dans la fantaisie ni dans la quenelle jtaurai demain ou apres demain cest du pareil au meme jsuis la branche alqaida du game jles fais sauter euxmemes jsuis la branche alqaida du game jles fais sauter euxmemes luna ma go sure sous les bras beni soit ce quelle devienne jai tout eu meme ce que je ne voulais pas jaime etre cque vous netes pas jai rien vu jai rien entendu mais jsais que vous ny etes pas sueur de taureau sous les draps nique ta mere on ty aidera vous jactez car vous nassumez pas tous ces millions sous mes pas non negro je nte connais pas si crime tu ne commets pas drapeau pirate sous les bras on se reconnaitra ma carriere est incroyable si jvais en enfer jpaie le voyage tu peux matteindre mais jsuis injoignable la hainezer que je trainezer est insoignable jsuis pas le negre ideal nan prison drogue sexe idealement jai quitte le terter au volant du rr loup de la casse jsuis un expert tas aime sucer jai aime cesaire au calme au calme au calme au calme au calme au calme au calme au calme jcontrole la zone jusquen guyana jai pose ltrone sur lfujiyama si je lattrape pauvre rihanna jvais la decouper sur place comme a benihana jtla mets dans le uczer en cas de ragnagna negro arme jamais vaincu sur la boitezer de banania on te trouvera dans une chicha tes quun sale rapiat tu vas faire ci tu vas faire ca arrete ton charabia jme suis jure detre loyal jsuis jnoune couronne cest ca detre royal mords a lhamecon ou cest la noyade je reste incompris ma carriere est incroyable,
79047,ana gabriel,solo quiero ser amada,https://open.spotify.com/track/3hHZV1O1yWYzxSczYEow2d,es,la misma ciudad y el frio congelando mis lagrimas sola quede y los recuerdos quebrandome el alma te amo y no te puedo olvidar de veras yo no logro escapar la nieve sin fin me vuelve a ese pasado que anoro una vez mas tu rostro se apodera de todo lo cierto es que te quiero besar y amarnos como nunca quizas nada de los dos quedo y sin embargo yo te espero ohhhhh te espero ohhhhh te espero yo no se si vuelva a verte yo no se que pasara no me importa nada nada solo quiero ser amada yo no se si vuelva a verte yo no se que pasara no me importa nada nada solo quiero ser amada la nieve sin fin me vuelve a ese pasado que anoro una vez mas tu rostro se apodera de todo lo cierto es que te quiero besar y amarnos como nunca quizas nada de los dos quedo y sin embargo yo te espero ohhhhh te espero ohhhhh te espero yo no se si vuelva a verte yo no se que pasara no me importa nada nada solo quiero ser amada ahhhh amada ahhhh amada,"The same city and the cold freezing my tears alone and the memories breaking the soul I love you and I cannot forget you really I can not escape the snow without that past that anorous that anorous once again your face takes hold of everythingThe truth is that I want to kiss you and love us as never maybe nothing of the two is and yet I wait for you Ohhhhh I wait for you Ohhhhh I wait for you I do not know if I see you again I do not know what happens I do not care nothing I just want to be lovedI don't know if I see you again, I don't know what happens, I don't care about anything, nothing I just want to be loved endless snow back to that past that anorous once again your face takes over all the truth is that I want to kiss you and love usAs I never may have nothing of the two, and yet I wait for you Ohhhhh I wait for you Ohhhhh I wait for you, I don't know if I see you again I don't know what happens I don't care about anything I just want to be loved Ahhhh Beloved Ahhhh Amada"
6743,crown the empire,the fear is real,https://open.spotify.com/track/0vQXl7PlR52pqyUOvQHaP3,es,hoy la mañana esta nublada llueven recuerdos de los dos que amarga la distancia lo que endulzo tu amor busco en un frasco de mermelada tal vez encuentre tu sabor de besos agridulces que extraña el corazón flotas en el aire como el aroma del café te has impregnado poco a poco aquí en mi piel yo necesito tus besos de anís porque la vida no sabe sin ti tú eres la esencia que tanto falta en mí el toque para ser feliz noche de luna sobre la mesa el chocolate y mi canción se quedaran a medias hasta escuchar tu vos flotas en el aire como el aroma del café te has impregnado poco a poco aquí en mi piel yo necesito tus besos de anís porque la vida no sabe sin ti tú eres la esencia que tanto falta en mí el toque para ser feliz yo necesito tus besos de anís porque la vida no sabe sin ti tú eres la esencia que tanto falta en mí el toque para ser feliz el toque para ser feliz,Today the morning is cloudy raining memories of the two that bitter the distance which I sweeten your love I look in a jar of jam maybe I will find your taste of bittersweet kisses that strange the heart floats in the air like the aroma of coffee you have impregnated littleSoon here in my skin I need your kisses from anise because life does not know without you you are the essence that the touch is missing so much to be a happy moon night on the table the chocolate and my song will stay halfway until they hearYour you float in the air as the aroma of coffee you have impregnated yourself little by little here in my skin I need your kisses of anise because life does not know without you you are the essence that the touch is missing so much to be happy I needYour kisses from anise because life does not know without you you are the essence that the touch is so happy to be happy to be happy
84026,adriano celentano,viola,https://open.spotify.com/track/1YR5nzAKu83lgNgNXLET0D,it,viola soli nella campagna viola col vento che ti spettina un po stesa sul fieno mentre il sola va giu una stella sul prato sei tu viola dormono le farfalle viola che incanto questa notte per noi mi sento forte la mia forza sei tu stringimi sempre amami cosi vero come la campagna il nostro grande amor la rugiada allalba bagna i nostri corpi uniti in un fior vedi si sveglia il sole e ancora ti ritrova con me tutto e piu bello piu bello perche dove ce lerba amore e vita ce vedi si sveglia il sole e ancora ti ritrova con me tutto e piu bello piu bello perche dove ce lerba amore e vita ce,Viola alone in the violet countryside with the wind that unwinds you a bit lying on the hay while the only one goes down a star on the lawn you are purple you sleep the purple butterflies that enchant last night for us I feel strong my strength you are you always love me so trueLike the campaign our great amor the dew to the wets wets our bodies united in a flower see the sun wakes up and still finds you everything with me and more beautiful more beautiful because where you lerba love and life you see the sun wakes up and againHe finds you everything with me and more beautiful more beautiful because where Lerba Love and Vita ce


#### 🤔💼 Otros intentos, pruebas etc...

In [None]:
from langdetect import detect
from googletrans import Translator
import pandas as pd
import sys
import csv

# Aumentar el límite del tamaño de campo
sys.setrecursionlimit(10000)
csv.field_size_limit(10**9) 

# Configuración inicial para prueba
file_path = r'C:\Users\solan\Downloads\get_data_from_songs\data\final_idiomas.csv'  # Ruta al archivo original
output_file_path = r'C:\Users\solan\Downloads\get_data_from_songs\data\archivo_prueba_traducido.csv'  # Ruta de salida para la prueba
error_file_path = r'C:\Users\solan\Downloads\get_data_from_songs\data\errors_log_prueba.csv'  # Ruta del archivo de errores para la prueba
translator = Translator()


# Cargar el archivo completo
data = pd.read_csv(file_path, encoding='utf-8', engine='python')

# Filtrar las filas que no están en inglés
non_english_rows = []
for index, row in data.iterrows():
    if pd.isna(row['language']) or row['language'] != 'en':
        non_english_rows.append(row)
    if len(non_english_rows) >= 100:  # Seleccionar solo las primeras 100
        break

# Crear un DataFrame con las primeras 100 filas que no son inglés
test_data = pd.DataFrame(non_english_rows)

# Añadir columna para letras traducidas si no existe
if 'translated_lyrics' not in test_data.columns:
    test_data['translated_lyrics'] = None

# Crear un DataFrame vacío para almacenar errores
errors = pd.DataFrame(columns=['index', 'lyrics', 'error_message'])

# Procesar y traducir
for index, row in test_data.iterrows():
    try:
        # Detectar idioma si no está indicado
        lang = row['language'] if pd.notnull(row['language']) else detect(row['lyrics'])
        
        # Traducir solo si no está en inglés
        if lang != 'en':
            translation = translator.translate(row['lyrics'], src=lang, dest='en')
            test_data.at[index, 'translated_lyrics'] = translation.text

    except Exception as e:
        # Registrar el error en el DataFrame de errores
        errors = pd.concat([errors, pd.DataFrame({'index': [index], 
                                                  'lyrics': [row['lyrics']], 
                                                  'error_message': [str(e)]})])

# Guardar los resultados de la prueba
test_data.to_csv(output_file_path, index=False, encoding='utf-8')
errors.to_csv(error_file_path, index=False, encoding='utf-8')
print("Prueba completada. Resultados y errores guardados.")



In [None]:
import pandas as pd

# 📂 Ruta del archivo original
file_path = r"C:\Users\solan\Downloads\get_data_from_songs\src\functions b\df_lyrics_faltan_traduc.csv"
output_filtered_path = r"C:\Users\solan\Downloads\get_data_from_songs\data\filtrado_para_traduccion.csv"

# 🔹 Cargar el archivo original
df = pd.read_csv(file_path, low_memory=False)

# 🔹 Filtrar: donde `language` no sea "en" y `translated_lyrics` esté vacío o NaN
df_filtered = df[(df['language'] != "en") & (df['translated_lyrics'].isna())]

# 🔹 Guardar el nuevo CSV para usar en la traducción
df_filtered.to_csv(output_filtered_path, index=False, encoding="utf-8")

print(f"✅ Archivo filtrado guardado en: {output_filtered_path}")


✅ Archivo filtrado guardado en: C:\Users\solan\Downloads\get_data_from_songs\data\filtrado_para_traduccion.csv


In [None]:
import sys
import csv
import pandas as pd
from langdetect import detect
from googletrans import Translator
import re
from tqdm import tqdm  # Importar tqdm para barra de progreso

# Aumentar el límite del tamaño de campo
sys.setrecursionlimit(10000)
csv.field_size_limit(10**9)

# Configuración inicial
file_path = r'C:\Users\solan\Downloads\get_data_from_songs\data\filtrado_para_traduccion.csvv'  # Ruta al archivo original
output_file_path = r'C:\Users\solan\Downloads\get_data_from_songs\data\df_scrap_traducido.csv'  # Ruta de salida
error_file_path = r'C:\Users\solan\Downloads\get_data_from_songs\data\errors_log_traduccion.csv'  # Archivo de errores
batch_size = 1000  # Guardar cada 1,000 filas procesadas
translator = Translator()

# Función para limpiar texto
def clean_text(text):
    if pd.isna(text):
        return ""
    # Reemplazar saltos de línea y espacios múltiples por un solo espacio
    text = re.sub(r'\s+', ' ', text.replace('\n', ' ').strip())
    return text

# Cargar datos
data = pd.read_csv(file_path, encoding='utf-8', engine='python')

# Añadir columna para letras traducidas si no existe
if 'translated_lyrics' not in data.columns:
    data['translated_lyrics'] = None

# Crear un DataFrame vacío para almacenar errores
errors = pd.DataFrame(columns=['index', 'lyrics', 'error_message'])

# Procesar y traducir con barra de progreso
for index, row in tqdm(data.iterrows(), total=data.shape[0], desc="Procesando letras de canciones"):
    try:
        # Verificar si ya existe una traducción
        if pd.notnull(row['translated_lyrics']):
            continue

        # Limpiar la letra antes de procesar
        lyrics_cleaned = clean_text(row['lyrics'])

        # Detectar idioma si no está indicado
        lang = row['language'] if pd.notnull(row['language']) else detect(lyrics_cleaned)

        # Traducir solo si no está en inglés
        if lang != 'en' and lyrics_cleaned:
            translation = translator.translate(lyrics_cleaned, src=lang, dest='en')
            data.at[index, 'translated_lyrics'] = translation.text

        # Guardar cada batch de filas procesadas
        if index % batch_size == 0:
            data.to_csv(output_file_path, index=False, encoding='utf-8')
            errors.to_csv(error_file_path, index=False, encoding='utf-8')

    except Exception as e:
        # Registrar el error en el DataFrame de errores
        errors = pd.concat([errors, pd.DataFrame({'index': [index], 
                                                  'lyrics': [row['lyrics']], 
                                                  'error_message': [str(e)]})])

# Guardar archivo final
data.to_csv(output_file_path, index=False, encoding='utf-8')
errors.to_csv(error_file_path, index=False, encoding='utf-8')
print("Proceso completado y archivo final guardado.")


Opcion deep trasnlator

In [None]:
from deep_translator import GoogleTranslator

# Crear un traductor de español a inglés
translator = GoogleTranslator(source="auto", target="en")

# Traducir una frase de prueba
translation = translator.translate("Hola mundo")
print(translation)  # Output: "Hello world"



Hello world


In [None]:
translated_data = translated_data.drop_duplicates(subset=['recording_id'])

data = data.merge(translated_data[['recording_id', 'translated_lyrics']], on='recording_id', how='left', suffixes=('', '_prev'))
data['translated_lyrics'] = data['translated_lyrics'].combine_first(data['translated_lyrics_prev'])
data.drop(columns=['translated_lyrics_prev'], inplace=True)


In [None]:
if os.path.exists(output_file_path):
    translated_data = pd.read_csv(output_file_path, encoding='utf-8', engine='python', on_bad_lines="skip")
    print("📌 Columnas en traducidas.csv:", translated_data.columns)


NameError: name 'os' is not defined

In [None]:
df_check = pd.read_csv(output_file_path)
print(df_check.head(10))  # Ver 10 primeras filas
print(f"Total de traducciones guardadas: {df_check['translated_lyrics'].notnull().sum()}")


               artist_name           song_name  \
0                     ceza  bir minik mikrofon   
1                 enjambre         sanguijuela   
2               ana tijoux                sube   
3               marcelo d2       malandro rife   
4                onda vaga           marineros   
5              avi buffalo   five little sluts   
6               alligatoah          der zensor   
7          no te va gustar   con la misma vara   
8                   tarkan               kayıp   
9  antony and the johnsons              flétta   

                           recording_id  danceable  not_danceable   male  \
0  0198cdde-58fb-47bd-a5e9-6878bbcc7f48      0.980          0.020  0.233   
1  040bb6bd-dd6e-4203-9df4-84832e70efcc      0.707          0.293  0.633   
2  043b6f7b-6234-4b21-ac9a-fecfaf701f24      0.918          0.082  0.238   
3  089be47b-8cf5-4343-9d31-fa157f519d54      0.847          0.153  0.100   
4  08e13e69-d662-45ed-a0de-c047e3665e82      0.731          0.269  0.

  df_check = pd.read_csv(output_file_path)


In [None]:
print(f"🔍 Filas con traducción ya existente: {num_translated} de {len(data)}")


🔍 Filas con traducción ya existente: 1650 de 37106


In [None]:
# Revisar cuántos valores traducidos había en el archivo antes de fusionar
print(f"Antes de fusionar, traducciones en archivo guardado: {translated_data['translated_lyrics'].notnull().sum()}")

# Revisar si después de merge() realmente se añadieron los valores
print(f"Después de fusionar, traducciones en el dataset actual: {data['translated_lyrics'].notnull().sum()}")

# Revisar si `recording_id` tiene coincidencias exactas entre ambos datasets
common_ids = data['recording_id'].isin(translated_data['recording_id']).sum()
print(f"Número de recording_id coincidentes entre datasets: {common_ids} de {len(data)}")

# Mostrar algunas filas para ver qué está pasando
print(data[['recording_id', 'translated_lyrics']].head(10))


Antes de fusionar, traducciones en archivo guardado: 1331
Después de fusionar, traducciones en el dataset actual: 1709
Número de recording_id coincidentes entre datasets: 37106 de 37106
                           recording_id  \
0  0198cdde-58fb-47bd-a5e9-6878bbcc7f48   
1  040bb6bd-dd6e-4203-9df4-84832e70efcc   
2  043b6f7b-6234-4b21-ac9a-fecfaf701f24   
3  089be47b-8cf5-4343-9d31-fa157f519d54   
4  08e13e69-d662-45ed-a0de-c047e3665e82   
5  0933b7b9-88f6-4537-ad65-39a6719f10f3   
6  0a9370ee-4384-4d0e-8615-451830b66e6f   
7  0b1ef0ee-351a-4005-8997-742e60b4133c   
8  0c13cab6-1e86-4794-9591-e00e0d179251   
9  0c2ebf24-0ad1-4906-a2ae-3777d1820e7e   

                                   translated_lyrics  
0  verse 1 sapr sapr falls on the ground there we...  
1  because of the heat I always said that if I do...  
2  lyrics of sube ft invincible intro panic room ...  
3  rogue rogue rogue rogue rogue rogue rogue rogu...  
4  we like the boat we like the wind although som...  
5  cacaro 

In [None]:
print(translated_data[['recording_id', 'translated_lyrics']].dropna().head(20))
print(f"Total de traducciones guardadas en el archivo: {translated_data['translated_lyrics'].notnull().sum()}")


                            recording_id  \
0   0198cdde-58fb-47bd-a5e9-6878bbcc7f48   
1   040bb6bd-dd6e-4203-9df4-84832e70efcc   
2   043b6f7b-6234-4b21-ac9a-fecfaf701f24   
3   089be47b-8cf5-4343-9d31-fa157f519d54   
4   08e13e69-d662-45ed-a0de-c047e3665e82   
5   0933b7b9-88f6-4537-ad65-39a6719f10f3   
6   0a9370ee-4384-4d0e-8615-451830b66e6f   
7   0b1ef0ee-351a-4005-8997-742e60b4133c   
8   0c13cab6-1e86-4794-9591-e00e0d179251   
9   0c2ebf24-0ad1-4906-a2ae-3777d1820e7e   
10  0f2a7497-ed10-48a8-a6eb-e0f2b72e96ec   
11  1065cb20-7451-436c-9490-82c6f97176f2   
12  106d4a91-cf27-41c7-b04a-b35539f0cc61   
13  12a621d9-020c-4397-9014-88c8772149f7   
14  14612e27-4c6d-4d58-aff1-8465ec85200b   
15  16726338-44a5-45f1-9b09-88145374c4c0   
16  1698666c-0010-431d-a702-ef210d50e10c   
18  1b944efe-dbfb-4051-b53b-7e182193a0cf   
19  1bf8b086-0c8e-47b6-9c15-e3ad7352948b   
20  1e9b3680-f8f2-471f-8ad7-81de92c92188   

                                    translated_lyrics  
0   verse 1 sapr sa

otro modelo - no

In [None]:
from transformers import MarianMTModel, MarianTokenizer
from langdetect import detect
import pandas as pd

# Configuración del modelo MarianMT
model_name = "Helsinki-NLP/opus-mt-es-en"  # Cambia el modelo según el idioma (ej. `es-en`, `fr-en`)
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)

# Función para traducir usando MarianMT
def translate_marian(texts, source_lang="es", target_lang="en"):
    inputs = tokenizer(texts, return_tensors="pt", padding=True, truncation=True)
    translated = model.generate(**inputs)
    return [tokenizer.decode(t, skip_special_tokens=True) for t in translated]

# Cargar datos del archivo
file_path = r'C:\ruta\a\final_idiomas.csv'  # Ruta del archivo original
output_file_path = r'C:\ruta\a\final_idiomas_traducido_marian.csv'  # Archivo de salida
data = pd.read_csv(file_path, encoding='utf-8')

# Añadir columna para letras traducidas si no existe
if 'translated_lyrics' not in data.columns:
    data['translated_lyrics'] = None

# Procesar y traducir
for index, row in data.iterrows():
    try:
        # Verificar si ya existe una traducción
        if pd.notnull(row['translated_lyrics']):
            continue
        
        # Detectar idioma si no está especificado
        lyrics = row['lyrics']
        lang = row['language'] if pd.notnull(row['language']) else detect(lyrics)

        # Traducir solo si el idioma no es inglés
        if lang != 'en' and pd.notnull(lyrics):
            translated_text = translate_marian([lyrics])[0]
            data.at[index, 'translated_lyrics'] = translated_text

    except Exception as e:
        print(f"Error al traducir en la fila {index}: {e}")

# Guardar archivo final con traducciones
data.to_csv(output_file_path, index=False, encoding='utf-8')
print(f"Traducciones completadas. Archivo guardado en {output_file_path}.")


In [None]:
pd.set_option('display.max_colwidth', None)

NameError: name 'pd' is not defined

In [None]:
import pandas as pd
import csv

# 📂 Rutas de los archivos
final_url_path = r"C:\Users\solan\Downloads\get_data_from_songs\data\final_url6.csv"
translated_lyrics_path = r"C:\Users\solan\Downloads\get_data_from_songs\data\final_idiomas_traducido.csv"
output_path = r"C:\Users\solan\Downloads\get_data_from_songs\data\final_with_translations1faltanscrap.csv"

# 1️⃣ Cargar los archivos CSV
df_final = pd.read_csv(final_url_path, low_memory=False)
df_translations = pd.read_csv(translated_lyrics_path, low_memory=False)

# 2️⃣ Verificar que 'recording_id' existe en ambos
if 'recording_id' not in df_final.columns or 'recording_id' not in df_translations.columns:
    raise KeyError("❌ ERROR: 'recording_id' no se encuentra en ambos datasets.")

# 3️⃣ Seleccionar solo la columna 'recording_id' y 'translated_lyrics' para fusionar
df_translations = df_translations[['recording_id', 'translated_lyrics']]

# 4️⃣ Reemplazar saltos de línea por un espacio simple y limpiar espacios extra
df_translations['translated_lyrics'] = df_translations['translated_lyrics'].astype(str).apply(lambda x: " ".join(x.split()))

# 5️⃣ Hacer el merge por 'recording_id'
df_merged = df_final.merge(df_translations, on='recording_id', how='left')

# 6️⃣ Guardar el archivo final con formato correcto
df_merged.to_csv(output_path, index=False, quoting=csv.QUOTE_ALL, lineterminator='\n')

print(f"✅ Archivo final guardado con las traducciones en: {output_path}")


✅ Archivo final guardado con las traducciones en: C:\Users\solan\Downloads\get_data_from_songs\data\final_with_translations1faltanscrap.csv


In [None]:
df_non_english.head()