```markdown
# Resumen del Código

Este Jupyter Notebook contiene varios bloques de código que realizan diferentes tareas relacionadas con la manipulación y procesamiento de datos de canciones en español. A continuación se presenta un resumen de cada bloque de código y su propósito:

1. **Filtrado de Canciones en Español**
    - Se importa el módulo `pandas`.
    - Se define la ruta del archivo CSV original y la ruta del nuevo archivo filtrado.
    - Se lee el archivo original en chunks (partes) para manejar grandes volúmenes de datos.
    - Se filtran las canciones que están en español y se seleccionan columnas específicas (`song_name`, `tag`, `artist_name`, `lyrics`, `language`).
    - Se concatenan los chunks filtrados y se guardan en un nuevo archivo CSV.

2. **Definición de la Ruta del Archivo Filtrado**
    - Se define la ruta del archivo CSV que contiene las canciones en español filtradas en el paso anterior.

3. **Combinación de Archivos CSV**
    - Se importan los módulos necesarios.
    - Se definen las rutas de los archivos CSV a combinar y la ruta del archivo combinado de salida.
    - Se cargan los archivos CSV.
    - Se verifica que las columnas clave (`artist_name`, `song_name`) estén presentes en ambos DataFrames.
    - Se actualizan las columnas en el DataFrame `final` con los valores de `final_idiomas`.
    - Se guarda el resultado combinado en un nuevo archivo CSV.

4. **Carga y Visualización del Archivo Filtrado**
    - Se define la ruta del archivo CSV filtrado.
    - Se carga el archivo CSV en un DataFrame y se muestra información básica y las primeras filas del DataFrame.

5. **Limpieza y División de Letras de Canciones**
    - Se importan los módulos necesarios (`pandas`, `re`, `os`).
    - Se carga el dataset filtrado en español.
    - Se define una función para limpiar las letras de las canciones, eliminando saltos de línea y frases irrelevantes del inicio.
    - Se aplica la función de limpieza a la columna `lyrics`.
    - Se crea una carpeta para guardar los archivos divididos.
    - Se divide el DataFrame en archivos de 10,000 canciones cada uno y se guardan como archivos CSV separados.

Este notebook proporciona un flujo de trabajo completo para filtrar, limpiar, combinar y dividir datos de canciones en español, facilitando su análisis y procesamiento posterior.
```

In [1]:
import pandas as pd

# 📌 Ruta del archivo original (CSV grande)
file_path = r"C:\Users\solan\Downloads\get_data_from_songs\data\genius_songs.csv"

# 📌 Ruta del nuevo archivo filtrado con solo español
filtered_file_path = r"C:\Users\solan\Downloads\get_data_from_songs\data\genius_songs_es.csv"

# 📌 Leer el archivo en chunks (por partes)
chunksize = 100000  # Ajusta según la RAM disponible
filtered_chunks = []

for chunk in pd.read_csv(file_path, chunksize=chunksize, encoding='utf-8'):
    filtered_chunk = chunk[chunk['language'] == 'es'][['song_name', 'tag', 'artist_name', 'lyrics', 'language']]
    filtered_chunks.append(filtered_chunk)

# 📌 Unir todos los chunks y guardarlos en un nuevo CSV
df_filtered = pd.concat(filtered_chunks)
df_filtered.to_csv(filtered_file_path, index=False, encoding='utf-8')

print(f"✅ Nuevo archivo guardado en: {filtered_file_path}")


✅ Nuevo archivo guardado en: C:\Users\solan\Downloads\get_data_from_songs\data\genius_songs_es.csv


In [2]:
file_path = r"C:\Users\solan\Downloads\get_data_from_songs\data\genius_songs_es.csv"

In [6]:
import pandas as pd

# Cargar los archivos
final_path = "C:/Users/solan/Downloads/get_data_from_songs/data/final_ok.csv"
final_idiomas_path = "C:/Users/solan/Downloads/get_data_from_songs/data/final_idiomas.csv"
output_path = "C:/Users/solan/Downloads/get_data_from_songs/data/final_combined.csv"

final = pd.read_csv(final_path)
final_idiomas = pd.read_csv(final_idiomas_path)

# Verificar las columnas clave para el merge
key_columns = ['artist_name', 'song_name']

# Comprobar que ambas columnas están presentes
if all(col in final.columns for col in key_columns) and all(col in final_idiomas.columns for col in key_columns):
    # Realizar la combinación asegurando que se respete el orden
    columns_to_update = ['spotify_url', 'album_name', 'album_release_date', 'duration_ms', 'popularity', 'language']

    # Actualizar las columnas en `final` con los valores de `final_idiomas`
    for col in columns_to_update:
        final[col] = final.set_index(key_columns)[col].combine_first(
            final_idiomas.set_index(key_columns)[col]
        ).reset_index(drop=True)

    # Guardar el resultado combinado
    final.to_csv(output_path, index=False)
    print(f"Archivo combinado guardado en: {output_path}")
else:
    print("Las columnas clave 'artist_name' y 'song_name' no están presentes en ambos DataFrames.")



  final_idiomas = pd.read_csv(final_idiomas_path)


Archivo combinado guardado en: C:/Users/solan/Downloads/get_data_from_songs/data/final_combined.csv


In [6]:
file_path = r"C:\Users\solan\Downloads\get_data_from_songs\data\genius_songs_es.csv"
df_es = pd.read_csv(file_path)
df_es.info()
df_es.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 275432 entries, 0 to 275431
Data columns (total 5 columns):
 #   Column       Non-Null Count   Dtype 
---  ------       --------------   ----- 
 0   song_name    275423 non-null  object
 1   tag          275432 non-null  object
 2   artist_name  275432 non-null  object
 3   lyrics       275432 non-null  object
 4   language     275432 non-null  object
dtypes: object(5)
memory usage: 10.5+ MB


Unnamed: 0,song_name,tag,artist_name,lyrics,language
0,gasolina remix,rap,daddy yankee,"Letra de ""Gasolina (Remix)"" ft. N.O.R.E., Lil ...",es
1,rompe,rap,daddy yankee,"[Letra de ""Rompe""]\n\n[Intro]\nYou know\nLos c...",es
2,we no speak americano remix,rap,pitbull,[Intro - Pitbull]\nThis is worldwide\nEso aqui...,es
3,suenos en realidad,rap,ozomatli,Todos que convierten suenos en realidad\nSu lu...,es
4,triste me pongo,rap,califas (mr. lil one & shisty),{Girl Singing Chorus 2X}\nEstoy tan enamorada ...,es


In [8]:
import pandas as pd
import re
import os

# 📌 Cargar dataset filtrado en español
file_path = r"C:\Users\solan\Downloads\get_data_from_songs\data\genius_songs_es.csv"
df = pd.read_csv(file_path)

# 📌 Función para limpiar letras de canciones
def clean_lyrics(lyrics):
    if pd.isna(lyrics):
        return ""  # Manejar valores nulos
    
    # 1️⃣ Quitar saltos de línea
    lyrics = lyrics.replace("\n", " ")

    # 2️⃣ Eliminar frases irrelevantes del inicio
    lyrics = re.sub(r"^\[?Letra de .*?\] ?", "", lyrics, flags=re.IGNORECASE)  # "Letra de..."
    lyrics = re.sub(r"^\[?Intro.*?\] ?", "", lyrics, flags=re.IGNORECASE)  # "Intro..."
    lyrics = re.sub(r"^\[?Verse .*?\] ?", "", lyrics, flags=re.IGNORECASE)  # "Verse..."
    lyrics = re.sub(r"^\[?Chorus.*?\] ?", "", lyrics, flags=re.IGNORECASE)  # "Chorus..."
    lyrics = re.sub(r"^\[?\w+\] ?", "", lyrics, flags=re.IGNORECASE)  # "[Verso 1]", "[Coro]", etc.

    return lyrics.strip()  # Quitar espacios extras

# 📌 Aplicar limpieza a la columna 'lyrics'
df['lyrics'] = df['lyrics'].apply(clean_lyrics)

# 📌 Crear carpeta para guardar los archivos divididos
output_folder = r"C:\Users\solan\Downloads\get_data_from_songs\data\split_datasets"
os.makedirs(output_folder, exist_ok=True)

# 📌 Dividir en archivos de 10,000 canciones
batch_size = 10000
num_batches = len(df) // batch_size + (1 if len(df) % batch_size != 0 else 0)

for i in range(num_batches):
    start = i * batch_size
    end = min((i + 1) * batch_size, len(df))
    df_batch = df.iloc[start:end]

    # 📌 Guardar cada fragmento como un CSV separado
    batch_filename = os.path.join(output_folder, f"genius_songs_batch_{i+1}.csv")
    df_batch.to_csv(batch_filename, index=False, encoding='utf-8')

    print(f"✅ Guardado: {batch_filename}")

print("🚀 ¡Todos los datasets divididos correctamente en bloques de 10,000 canciones!")


✅ Guardado: C:\Users\solan\Downloads\get_data_from_songs\data\split_datasets\genius_songs_batch_1.csv
✅ Guardado: C:\Users\solan\Downloads\get_data_from_songs\data\split_datasets\genius_songs_batch_2.csv
✅ Guardado: C:\Users\solan\Downloads\get_data_from_songs\data\split_datasets\genius_songs_batch_3.csv
✅ Guardado: C:\Users\solan\Downloads\get_data_from_songs\data\split_datasets\genius_songs_batch_4.csv
✅ Guardado: C:\Users\solan\Downloads\get_data_from_songs\data\split_datasets\genius_songs_batch_5.csv
✅ Guardado: C:\Users\solan\Downloads\get_data_from_songs\data\split_datasets\genius_songs_batch_6.csv
✅ Guardado: C:\Users\solan\Downloads\get_data_from_songs\data\split_datasets\genius_songs_batch_7.csv
✅ Guardado: C:\Users\solan\Downloads\get_data_from_songs\data\split_datasets\genius_songs_batch_8.csv
✅ Guardado: C:\Users\solan\Downloads\get_data_from_songs\data\split_datasets\genius_songs_batch_9.csv
✅ Guardado: C:\Users\solan\Downloads\get_data_from_songs\data\split_datasets\geniu