# Limpieza de datos del DataFrame de Billboard

Recogido de: https://www.kaggle.com/datasets/dhruvildave/billboard-the-hot-100-songs

In [20]:
import pandas as pd

billboard_list = pd.read_csv("..\data\Billboard Hot 100.csv")
billboard_list

Unnamed: 0,date,rank,song,artist,last-week,peak-rank,weeks-on-board
0,2021-11-06,1,Easy On Me,Adele,1.0,1,3
1,2021-11-06,2,Stay,The Kid LAROI & Justin Bieber,2.0,1,16
2,2021-11-06,3,Industry Baby,Lil Nas X & Jack Harlow,3.0,1,14
3,2021-11-06,4,Fancy Like,Walker Hayes,4.0,3,19
4,2021-11-06,5,Bad Habits,Ed Sheeran,5.0,2,18
...,...,...,...,...,...,...,...
330082,1958-08-04,96,Over And Over,Thurston Harris,,96,1
330083,1958-08-04,97,I Believe In You,Robert & Johnny,,97,1
330084,1958-08-04,98,Little Serenade,The Ames Brothers,,98,1
330085,1958-08-04,99,I'll Get By (As Long As I Have You),Billy Williams,,99,1


In [21]:
# Quedarme solo con los años y agrupar por años a los cantantes para ver cuales se repiten más.

In [22]:
# En primer lugar, en la columna 'dates' solo nos interesan los años, pues será por lo que agruparemos.

billboard_list['date'] = billboard_list['date'].str[:4]
billboard_list

Unnamed: 0,date,rank,song,artist,last-week,peak-rank,weeks-on-board
0,2021,1,Easy On Me,Adele,1.0,1,3
1,2021,2,Stay,The Kid LAROI & Justin Bieber,2.0,1,16
2,2021,3,Industry Baby,Lil Nas X & Jack Harlow,3.0,1,14
3,2021,4,Fancy Like,Walker Hayes,4.0,3,19
4,2021,5,Bad Habits,Ed Sheeran,5.0,2,18
...,...,...,...,...,...,...,...
330082,1958,96,Over And Over,Thurston Harris,,96,1
330083,1958,97,I Believe In You,Robert & Johnny,,97,1
330084,1958,98,Little Serenade,The Ames Brothers,,98,1
330085,1958,99,I'll Get By (As Long As I Have You),Billy Williams,,99,1


In [23]:
# La columna weeks-on-board se refiere a las canciones, y a nosotros nos interesan los cantantes, asique nos quedaremos solo con los cantantes y los años.

billboard_list.drop(['rank', 'song', 'last-week', 'peak-rank', 'weeks-on-board'], axis=1, inplace=True)
billboard_list

Unnamed: 0,date,artist
0,2021,Adele
1,2021,The Kid LAROI & Justin Bieber
2,2021,Lil Nas X & Jack Harlow
3,2021,Walker Hayes
4,2021,Ed Sheeran
...,...,...
330082,1958,Thurston Harris
330083,1958,Robert & Johnny
330084,1958,The Ames Brothers
330085,1958,Billy Williams


In [24]:
# Elimino las filas con valores nulos en la columna 'artist'
billboard_list = billboard_list.dropna(subset=['artist'])
billboard_list

Unnamed: 0,date,artist
0,2021,Adele
1,2021,The Kid LAROI & Justin Bieber
2,2021,Lil Nas X & Jack Harlow
3,2021,Walker Hayes
4,2021,Ed Sheeran
...,...,...
330082,1958,Thurston Harris
330083,1958,Robert & Johnny
330084,1958,The Ames Brothers
330085,1958,Billy Williams


In [25]:
# Creo dos nuevas columnas: 'artist_1' y 'artist_2'
billboard_list[['artist_1', 'artist_2', 'artist_3']] = billboard_list['artist'].str.split('&|Featuring|,', n=2, expand=True)

# Reemplazao los valores nulos con el valor de 'artist'
billboard_list['artist_1'].fillna(billboard_list['artist'], inplace=True)
billboard_list['artist_2'].fillna(billboard_list['artist'], inplace=True)
billboard_list['artist_3'].fillna(billboard_list['artist'], inplace=True)

# Elimino la columna 'artist'
billboard_list.drop(columns=['artist'], inplace=True)

# Agrupo los datos por año y artista_1, y contar cuántas veces aparece cada artista_1 en cada año
artistas_1 = billboard_list.groupby(['date', 'artist_1']).size().reset_index(name='counts')

# Agrupo los datos por año y artista_2, y contar cuántas veces aparece cada artista_2 en cada año
artistas_2= billboard_list.groupby(['date', 'artist_2']).size().reset_index(name='counts')

# Agrupo los datos por año y artista_3, y contar cuántas veces aparece cada artista_3 en cada año
artistas_3= billboard_list.groupby(['date', 'artist_3']).size().reset_index(name='counts')

# Esto me da 3 dataframes con los artistas y cuantas veces han aparecido en la lista por año.
print(artistas_1)
print(artistas_2)
print(artistas_3)

       date                    artist_1  counts
0      1958                   Andy Rose       7
1      1958               Andy Williams      13
2      1958                    Art Lund       3
3      1958                  Augie Rios       3
4      1958       Bernie Lowe Orchestra      10
...     ...                         ...     ...
21255  2021  YoungBoy Never Broke Again      29
21256  2021                   Yung Bleu      13
21257  2021                  Yung Bleu       21
21258  2021              Zac Brown Band       6
21259  2021           twenty one pilots       1

[21260 rows x 3 columns]
       date                    artist_2  counts
0      1958                       Arnie       4
1      1958                      Friend       2
2      1958                        Gina       1
3      1958                   His Orch.       1
4      1958               His Orchestra       4
...     ...                         ...     ...
21524  2021                  Young Thug       1
21525  2021  Y

In [26]:
# Concatenar los dos DataFrames en uno solo
artistas = pd.concat([artistas_1, artistas_2, artistas_3], ignore_index=True)

# Agrupar los datos por artista y sumar los valores de "counts"
billboard = artistas.groupby('artist_1')['counts'].sum().reset_index()

# Renombrar las columnas
billboard.columns = ['artist', 'counts']

# Ordeno la lista de mas a menos apariciones
billboard = billboard.sort_values('counts', ascending=False)

billboard.reset_index(drop=True)

# Esta es la lista de las veces que han aparecido cada artista en la revista Billboard a lo largo de la historia, 
# tanto en canciones propias, como en colaboraciones.

Unnamed: 0,artist,counts
0,Taylor Swift,1023
1,Elton John,889
2,Madonna,857
3,Drake,787
4,Kenny Chesney,769
...,...,...
8405,Silversun Pickups,1
8406,Skillet,1
8407,Bad Bunny X Anuel AA,1
8408,Skylar Grey,1


In [27]:
#billboard.to_csv('Billboard.csv')