# EDA Basico

Este notebook realiza un EDA general del dataset **antes** de aplicar técnicas de minería de texto.

## Importación de Librerias

In [None]:
import warnings
from src.utils import path
import pandas as pd
import glob
import os
# Suppress all warnings
warnings.filterwarnings("ignore")

## Carga de DataSet

In [2]:
directorio_proyecto = path.obtener_ruta_local()
archivos_csv = glob.glob(os.path.join(directorio_proyecto+'\\data\\raw', '*.csv'))
print(f"Archivos CSV encontrados: {len(archivos_csv)}")
for archivo in archivos_csv:
    print(f"  - {os.path.basename(archivo)}")

Archivos CSV encontrados: 21
  - ArianaGrande.csv
  - Beyonce.csv
  - BillieEilish.csv
  - BTS.csv
  - CardiB.csv
  - CharliePuth.csv
  - ColdPlay.csv
  - Drake.csv
  - DuaLipa.csv
  - EdSheeran.csv
  - Eminem.csv
  - JustinBieber.csv
  - KatyPerry.csv
  - Khalid.csv
  - LadyGaga.csv
  - Maroon5.csv
  - NickiMinaj.csv
  - PostMalone.csv
  - Rihanna.csv
  - SelenaGomez.csv
  - TaylorSwift.csv


In [3]:
dataframes = []

for archivo in archivos_csv:
        df = pd.read_csv(archivo)
        print(f"\n✓ Leído: {os.path.basename(archivo)} - {len(df)} filas")
        dataframes.append(df)
dataframes


✓ Leído: ArianaGrande.csv - 308 filas

✓ Leído: Beyonce.csv - 406 filas

✓ Leído: BillieEilish.csv - 145 filas

✓ Leído: BTS.csv - 278 filas

✓ Leído: CardiB.csv - 75 filas

✓ Leído: CharliePuth.csv - 75 filas

✓ Leído: ColdPlay.csv - 344 filas

✓ Leído: Drake.csv - 466 filas

✓ Leído: DuaLipa.csv - 247 filas

✓ Leído: EdSheeran.csv - 296 filas

✓ Leído: Eminem.csv - 521 filas

✓ Leído: JustinBieber.csv - 348 filas

✓ Leído: KatyPerry.csv - 325 filas

✓ Leído: Khalid.csv - 64 filas

✓ Leído: LadyGaga.csv - 402 filas

✓ Leído: Maroon5.csv - 197 filas

✓ Leído: NickiMinaj.csv - 323 filas

✓ Leído: PostMalone.csv - 148 filas

✓ Leído: Rihanna.csv - 405 filas

✓ Leído: SelenaGomez.csv - 175 filas

✓ Leído: TaylorSwift.csv - 479 filas


[            Artist                                       Title  \
 0    Ariana Grande                              ​thank u, next   
 1    Ariana Grande                                     7 rings   
 2    Ariana Grande                             ​God is a woman   
 3    Ariana Grande                                Side To Side   
 4    Ariana Grande                      ​​no tears left to cry   
 ..             ...                                         ...   
 303  Ariana Grande  God is a Woman (Excuse me i love you LIVE)   
 304  Ariana Grande                                      Magic*   
 305  Ariana Grande                                  Right here   
 306  Ariana Grande                                     Venuss*   
 307  Ariana Grande          One last time_Ariana_Grande_(2014)   
 
                Album        Date  \
 0      thank u, next  2018-11-03   
 1      thank u, next  2019-01-18   
 2          Sweetener  2018-07-13   
 3    Dangerous Woman  2016-05-20   
 4       

In [4]:
df_unificado = pd.concat(dataframes, ignore_index=True)

print(f"\n{'='*50}")
print(f"Total de filas en archivo unificado: {len(df_unificado)}")
print(f"Columnas: {list(df_unificado.columns)}")
print(f"{'='*50}")


Total de filas en archivo unificado: 6027
Columnas: ['Artist', 'Title', 'Album', 'Date', 'Lyric', 'Year', 'Unnamed: 0']


In [5]:
df_unificado.head()

Unnamed: 0.1,Artist,Title,Album,Date,Lyric,Year,Unnamed: 0
0,Ariana Grande,"​thank u, next","thank u, next",2018-11-03,thought i'd end up with sean but he wasn't a m...,2018.0,
1,Ariana Grande,7 rings,"thank u, next",2019-01-18,yeah breakfast at tiffany's and bottles of bub...,2019.0,
2,Ariana Grande,​God is a woman,Sweetener,2018-07-13,you you love it how i move you you love it how...,2018.0,
3,Ariana Grande,Side To Side,Dangerous Woman,2016-05-20,ariana grande nicki minaj i've been here all ...,2016.0,
4,Ariana Grande,​​no tears left to cry,Sweetener,2018-04-20,right now i'm in a state of mind i wanna be in...,2018.0,


## Información General del Dataset

In [6]:
df_unificado.drop('Unnamed: 0', axis = 1, inplace = True)
df_unificado.drop('Album', axis = 1, inplace = True)

In [7]:
df_unificado.info()

<class 'pandas.DataFrame'>
RangeIndex: 6027 entries, 0 to 6026
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Artist  6027 non-null   str    
 1   Title   6027 non-null   str    
 2   Date    4278 non-null   str    
 3   Lyric   5981 non-null   str    
 4   Year    4278 non-null   float64
dtypes: float64(1), str(4)
memory usage: 11.2 MB


In [8]:
df_unificado.shape

(6027, 5)

In [9]:
df_unificado.Artist.value_counts()

Artist
Eminem           521
Taylor Swift     479
Drake            466
Beyoncé          406
Rihanna          405
Lady Gaga        402
Justin Bieber    348
Coldplay         344
Katy Perry       325
Nicki Minaj      323
Ariana Grande    308
Ed Sheeran       296
BTS (방탄소년단)      278
Dua Lipa         247
Maroon 5         197
Selena Gomez     175
Post Malone      148
Billie Eilish    145
Cardi B           75
Charlie Puth      75
Khalid            64
Name: count, dtype: int64

In [10]:
df_unificado.Year.value_counts()

Year
2020.0    418
2017.0    383
2018.0    347
2019.0    341
2016.0    326
2011.0    300
2013.0    268
2014.0    249
2010.0    237
2015.0    225
2009.0    216
2008.0    166
2012.0    162
2007.0    141
2006.0    113
2002.0     72
2005.0     52
2003.0     51
2000.0     46
1999.0     36
2021.0     32
2004.0     24
2001.0     24
1998.0     13
1996.0     13
1997.0     10
2022.0      3
1.0         3
1988.0      2
1990.0      2
1729.0      1
1993.0      1
1982.0      1
Name: count, dtype: int64

In [11]:
df_describe=df_unificado.describe()
df_describe.T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Year,4278.0,2011.837775,53.725459,1.0,2010.0,2014.0,2018.0,2022.0


## Análisis de Valores Faltantes

In [12]:
df_unificado.isnull().sum()

Artist       0
Title        0
Date      1749
Lyric       46
Year      1749
dtype: int64

## Limpieza de Valores Faltantes

In [18]:
import lyricsgenius
import itertools
import time

# ---- Agrega todas tus keys aquí ----
KEYS = [
    "-Y5VjHlWQWtY9RDevVPy5MO-racPemGyfzqoumD8Gp_A37ON3-4Qq3kfJi-HQhG-",
    "IY2Daf_4SWkQj_Cp0Kj0xr-cgkaTBZbDVDZw52IR8I12y4M40wCIFwqGnsaasVdn",
    "phP0idqih7-WC4QG26SaMBpV1zq-kq5ZmYjyOlS7wEXF4SIXgqjYh7tshqT0v3og",
    "xMlEaOLk1lE2l2k2_NQsUJSQyWa5dK-vyXx16ZEtC8TMwuLBnS-Z1uOWeCTrexRC",
    "GmBxVkZOb4BPK0_vsTFSQf3-FNZs6AEVodu1UZncDByy1Z2sZfk9JtjMJtTK1NcG",
]

LIMITE_POR_KEY = 90
key_ciclo = itertools.cycle(KEYS)
key_actual = next(key_ciclo)
requests_por_key = {k: 0 for k in KEYS}

def get_genius():
    return lyricsgenius.Genius(
        key_actual,
        skip_non_songs=True,
        remove_section_headers=True,
        verbose=False
    )

genius = get_genius()

def rotar_key():
    global key_actual, genius
    key_actual = next(key_ciclo)
    genius = get_genius()
    print(f"  -> Rotando a nueva key: {key_actual[:10]}...")

def obtener_datos_cancion(titulo, artista, reintentos=3):
    global genius, key_actual

    for intento in range(reintentos):
        try:
            if requests_por_key[key_actual] >= LIMITE_POR_KEY:
                print(f"  Key llegó al límite, rotando...")
                rotar_key()

            song = genius.search_song(titulo, artista)
            requests_por_key[key_actual] += 1

            if not song:
                return None

            datos = song.to_dict()
            release = datos.get("release_date_components")
            año = release.get("year") if release else None

            return año

        except Exception as e:
            if "429" in str(e):
                print(f"  429 detectado, rotando key...")
                rotar_key()
                time.sleep(5)
            else:
                print(f"  Error intento {intento+1}/{reintentos}: {e}")
                if intento < reintentos - 1:
                    time.sleep(5 * (intento + 1))

    return None

# Filtrar solo filas con Year nulo
mask = df_unificado['Year'].isna()
indices_nulos = df_unificado[mask].index.tolist()

for i in indices_nulos:
    row = df_unificado.loc[i]
    print(f"[{i}/{len(df_unificado)}] {row['Title']} - {row['Artist']}")

    anio = obtener_datos_cancion(row['Title'], row['Artist'])
    df_unificado.at[i, 'Year'] = float(anio) if anio else None

    print(f"  Año: {anio}")

    time.sleep(1.5)


print("\n¡Listo!")
print(df_unificado[['Artist', 'Title', 'Year']].head(10))

[96/6027] ​reMeMber - Ariana Grande
  Año: None
[101/6027] Nobody Does It Better - Ariana Grande
  Año: None
[127/6027] Be Alright (Demo) - Ariana Grande
  Año: None
[128/6027] All I Want for Christmas Is You - Ariana Grande
  Año: 2012
[129/6027] Ariana Grande’s Tattoos - Ariana Grande
  Año: None
[130/6027] Quit (Demo) - Ariana Grande
  Año: 2025
[139/6027] La Vie En Rose - Ariana Grande
  Año: None
[147/6027] Oh, Darling - Ariana Grande
  Año: 2023
[148/6027] I’ve Heard It Both Ways - Ariana Grande
  Año: 2011
[150/6027] Sweetener World Tour Dates - Ariana Grande
  Año: None
[152/6027] Unreleased Songs [Discography List] - Ariana Grande
  Año: None
[153/6027] Santa Tell Me (Dirty Version) - Ariana Grande
  Año: 2018
[154/6027] ​hopeless romantic* - Ariana Grande
  Año: 2017
[164/6027] Rollercoaster - Ariana Grande
  Año: 2011
[168/6027] The Way It Is - Ariana Grande
  Año: 2013
[176/6027] I Don’t Want To Be Alone For Christmas - Ariana Grande
  Año: None
[185/6027] Called My Mind* -

In [19]:
df_unificado.isnull().sum()

Artist       0
Title        0
Date      1248
Lyric       46
Year       781
dtype: int64

In [21]:
df_unificado.drop('Date', axis = 1, inplace = True)
df_unificado.isnull().sum()

Artist      0
Title       0
Lyric      46
Year      781
dtype: int64

In [22]:
df_unificado = df_unificado.dropna()
df_unificado.isnull().sum()

Artist    0
Title     0
Lyric     0
Year      0
dtype: int64

In [33]:
df_unificado[df_unificado['Year'] == 1.0]

Unnamed: 0,Artist,nombre_cancion,letra_cancion,Periodo,Genero
3040,Justin Bieber,Holy Covered by Christian Lamanna,lyrics,1.0,pop
3619,Lady Gaga,Devastated,soon,1.0,pop
3690,Lady Gaga,New York Girls,i'm just an ordinary superstar so far but alwa...,1.0,pop


In [34]:
df_unificado = df_unificado[df_unificado['Year'] != 1.0]

In [35]:
df_unificado.info()

<class 'pandas.DataFrame'>
Index: 5205 entries, 0 to 5207
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Artist          5205 non-null   str    
 1   nombre_cancion  5205 non-null   str    
 2   letra_cancion   5205 non-null   str    
 3   Periodo         5205 non-null   float64
 4   Genero          5205 non-null   str    
dtypes: float64(1), str(4)
memory usage: 10.3 MB


## Análisis de Duplicados

In [36]:
df_unificado.duplicated().sum()

np.int64(0)

## Agregar Genero

In [28]:
import requests
import time
import pandas as pd

MB_HEADERS = {"User-Agent": "MiApp/1.0 (pmarin9225@gmail.com)"}

def obtener_genero_musicbrainz(artista, reintentos=3):
    for intento in range(reintentos):
        try:
            url = "https://musicbrainz.org/ws/2/artist/"
            params = {
                "query": f'artist:"{artista}"',
                "fmt": "json",
                "limit": 1
            }
            r = requests.get(url, params=params, headers=MB_HEADERS, timeout=10)
            data = r.json()

            artistas = data.get("artists", [])
            if not artistas:
                return None

            # Sacar género de los tags
            tags = artistas[0].get("tags", [])
            if tags:
                # Ordenar por count para tomar el más relevante
                tags_ordenados = sorted(tags, key=lambda x: x.get("count", 0), reverse=True)
                return tags_ordenados[0].get("name")

            return None

        except Exception as e:
            print(f"  Error intento {intento+1}/{reintentos} '{artista}': {e}")
            if intento < reintentos - 1:
                time.sleep(5 * (intento + 1))

    return None

# Lista única de artistas
artistas = sorted(df_unificado['Artist'].unique().tolist())
print(f"Total artistas a procesar: {len(artistas)}")

# Crear DF de géneros
resultados = []

for idx, artista in enumerate(artistas):
    print(f"[{idx+1}/{len(artistas)}] {artista}")

    genero = obtener_genero_musicbrainz(artista)
    resultados.append({"Artist": artista, "Genre": genero})

    print(f"  Género: {genero}")
    time.sleep(1)  # MusicBrainz pide máximo 1 request/segundo

# Formar DataFrame
df_generos = pd.DataFrame(resultados)
print("\nDataFrame de géneros:")
print(df_generos)
print(f"\nNulos en Genre: {df_generos['Genre'].isna().sum()}")


Total artistas a procesar: 21
[1/21] Ariana Grande
  Género: pop
[2/21] BTS (방탄소년단)
  Género: None
[3/21] Beyoncé
  Género: pop
[4/21] Billie Eilish
  Género: alternative pop
[5/21] Cardi B
  Género: hip hop
[6/21] Charlie Puth
  Género: pop
[7/21] Coldplay
  Género: alternative rock
[8/21] Drake
  Género: hip hop
[9/21] Dua Lipa
  Género: dance-pop
[10/21] Ed Sheeran
  Género: pop
[11/21] Eminem
  Género: hip hop
[12/21] Justin Bieber
  Género: pop
[13/21] Katy Perry
  Género: pop
[14/21] Khalid
  Género: r&b
[15/21] Lady Gaga
  Género: pop
[16/21] Maroon 5
  Género: pop
[17/21] Nicki Minaj
  Género: hip hop
[18/21] Post Malone
  Género: hip hop
[19/21] Rihanna
  Género: pop
[20/21] Selena Gomez
  Género: pop
[21/21] Taylor Swift
  Género: pop

DataFrame de géneros:
           Artist             Genre
0   Ariana Grande               pop
1     BTS (방탄소년단)               NaN
2         Beyoncé               pop
3   Billie Eilish   alternative pop
4         Cardi B           hip hop
5    C

In [29]:
df_generos.at[1, 'Genre'] = "K-pop"
df_generos

Unnamed: 0,Artist,Genre
0,Ariana Grande,pop
1,BTS (방탄소년단),K-pop
2,Beyoncé,pop
3,Billie Eilish,alternative pop
4,Cardi B,hip hop
5,Charlie Puth,pop
6,Coldplay,alternative rock
7,Drake,hip hop
8,Dua Lipa,dance-pop
9,Ed Sheeran,pop


In [30]:
# El merge crea la columna Genre automáticamente
df_unificado = df_unificado.merge(df_generos, on='Artist', how='left')
df_unificado

Unnamed: 0,Artist,Title,Lyric,Year,Genre
0,Ariana Grande,"​thank u, next",thought i'd end up with sean but he wasn't a m...,2018.0,pop
1,Ariana Grande,7 rings,yeah breakfast at tiffany's and bottles of bub...,2019.0,pop
2,Ariana Grande,​God is a woman,you you love it how i move you you love it how...,2018.0,pop
3,Ariana Grande,Side To Side,ariana grande nicki minaj i've been here all ...,2016.0,pop
4,Ariana Grande,​​no tears left to cry,right now i'm in a state of mind i wanna be in...,2018.0,pop
...,...,...,...,...,...
5203,Taylor Swift,Should’ve Said No (Live from Clear Channel Str...,it's strange to think the songs we used to sin...,2008.0,pop
5204,Taylor Swift,Teardrops on my Guitar (Live from Clear Channe...,drew looks at me i fake a smile so he won't se...,2008.0,pop
5205,Taylor Swift,Evermore [Forward],to put it plainly we just couldnt stop writing...,2020.0,pop
5206,Taylor Swift,Tolerate it (Polskie Tłumaczenie),zwrotka siedzę i patrzę jak czytasz z głową p...,2020.0,pop


## Guardar dataset

In [31]:
df_unificado.rename(columns={'artist':'musico','Title':'nombre_cancion','Lyric':'letra_cancion','Year':'Periodo','Genre':'Genero'}, inplace=True)
df_unificado

Unnamed: 0,Artist,nombre_cancion,letra_cancion,Periodo,Genero
0,Ariana Grande,"​thank u, next",thought i'd end up with sean but he wasn't a m...,2018.0,pop
1,Ariana Grande,7 rings,yeah breakfast at tiffany's and bottles of bub...,2019.0,pop
2,Ariana Grande,​God is a woman,you you love it how i move you you love it how...,2018.0,pop
3,Ariana Grande,Side To Side,ariana grande nicki minaj i've been here all ...,2016.0,pop
4,Ariana Grande,​​no tears left to cry,right now i'm in a state of mind i wanna be in...,2018.0,pop
...,...,...,...,...,...
5203,Taylor Swift,Should’ve Said No (Live from Clear Channel Str...,it's strange to think the songs we used to sin...,2008.0,pop
5204,Taylor Swift,Teardrops on my Guitar (Live from Clear Channe...,drew looks at me i fake a smile so he won't se...,2008.0,pop
5205,Taylor Swift,Evermore [Forward],to put it plainly we just couldnt stop writing...,2020.0,pop
5206,Taylor Swift,Tolerate it (Polskie Tłumaczenie),zwrotka siedzę i patrzę jak czytasz z głową p...,2020.0,pop


In [37]:
df_unificado.to_csv(directorio_proyecto+'\\data\\processed\\corpus_canciones.csv', index=False)