# Limpieza de datos del DataFrame de los artistas más escuchados de Spotify

Extraido de: https://chartmasters.org/most-streamed-artists-ever-on-spotify/

In [15]:
import pandas as pd

df = pd.read_csv('..\data\Most_Streaming_Spotify.csv', sep='|', index_col=0)
df

Unnamed: 0,Artist,Lead Stream,Tracks,1b,100m,10m,1m,Feat Streams
0,Drake,56194988475,282,7,148,275,279,20329715771
1,Bad Bunny,51189983147,162,9,121,157,160,7541244342
2,Taylor Swift,42204571789,353,2,128,277,341,471196255
3,Ed Sheeran,41120157022,251,11,67,187,228,3082734708
4,The Weeknd,39704788932,219,10,80,148,185,6540530184
...,...,...,...,...,...,...,...,...
95,BLACKPINK,8946547337,104,0,24,49,104,559319185
96,"Tyler, The Creator",8921201314,152,0,25,93,110,1887276856
97,James Arthur,8894424356,154,1,17,68,134,86678847
98,Sebastian Yatra,8868875753,119,0,25,73,108,2416699376


In [2]:
df.describe(include='all')

Unnamed: 0,Artist,Lead Stream,Tracks,1b,100m,10m,1m,Feat Streams
count,100,100.0,100.0,100.0,100.0,100.0,100.0,100.0
unique,100,100.0,,,,,,94.0
top,Drake,56194988475.0,,,,,,0.0
freq,1,1.0,,,,,,7.0
mean,,,227.86,2.78,36.74,110.0,177.24,
std,,,163.019366,2.646057,23.54691,48.496173,85.879069,
min,,,35.0,0.0,11.0,25.0,34.0,
25%,,,127.0,1.0,23.0,81.0,117.0,
50%,,,189.5,2.0,31.0,98.5,163.0,
75%,,,266.25,4.0,41.5,124.5,221.25,


In [3]:
'''
Para este proyecto, me interesa saber la clasificación de los artistas en spotify en cuanto a popularidad, es decir, 
cuantas veces se reproducen sus canciones. No nos importan las columnas de el número de canciones que han tenido muchas reproducciones,
sino el numero de veces que han sido reproducidas.

Tras haber hecho web scraping a la página tenemos un dataframe bastante limpio con el que podemos gráficar.

'''

# Por tanto, procederemos a quitar las columnas que no nos importan.

df.drop(['Tracks', '1b', '100m', '10m', '1m'], axis=1, inplace=True)
df

Unnamed: 0,Artist,Lead Stream,Feat Streams
0,Drake,56194988475,20329715771
1,Bad Bunny,51189983147,7541244342
2,Taylor Swift,42204571789,471196255
3,Ed Sheeran,41120157022,3082734708
4,The Weeknd,39704788932,6540530184
...,...,...,...
95,BLACKPINK,8946547337,559319185
96,"Tyler, The Creator",8921201314,1887276856
97,James Arthur,8894424356,86678847
98,Sebastian Yatra,8868875753,2416699376


In [4]:
# Nos quedan en estas dos columnas los datos de reproducciones de canciones como artista primario y de canciones en colaboración con otros artistas.
# Nos interesa crear una nueva columna con el sumatorio total de reproducciones.
# Pero antes debemos comprobar de que tipo son las columnas y si son strings, pasarlas a entero. Vemos que tienen comas, por lo que serán strings.

print(df['Lead Stream'].dtype)
print(df['Feat Streams'].dtype)

object
object


In [7]:
# Los pasamos a float, porque son numeros demasiado grandes para pasarlos a enteros, OverflowError.

df['Lead Stream'] = df['Lead Stream'].str.replace(',','').astype(float)
df['Feat Streams'] = df['Feat Streams'].str.replace(',','').astype(float)

In [8]:
# Creamos la columna
df['Total Streams'] = df['Lead Stream'] + df['Feat Streams']
df

Unnamed: 0,Artist,Lead Stream,Feat Streams,Total Streams
0,Drake,5.619499e+10,2.032972e+10,7.652470e+10
1,Bad Bunny,5.118998e+10,7.541244e+09,5.873123e+10
2,Taylor Swift,4.220457e+10,4.711963e+08,4.267577e+10
3,Ed Sheeran,4.112016e+10,3.082735e+09,4.420289e+10
4,The Weeknd,3.970479e+10,6.540530e+09,4.624532e+10
...,...,...,...,...
95,BLACKPINK,8.946547e+09,5.593192e+08,9.505867e+09
96,"Tyler, The Creator",8.921201e+09,1.887277e+09,1.080848e+10
97,James Arthur,8.894424e+09,8.667885e+07,8.981103e+09
98,Sebastian Yatra,8.868876e+09,2.416699e+09,1.128558e+10


In [10]:
# Ordenamos según las reproducciones totales de cualquier tipo. 

df = df.sort_values('Total Streams', ascending=False)
df

Unnamed: 0,Artist,Lead Stream,Feat Streams,Total Streams
0,Drake,5.619499e+10,2.032972e+10,7.652470e+10
1,Bad Bunny,5.118998e+10,7.541244e+09,5.873123e+10
4,The Weeknd,3.970479e+10,6.540530e+09,4.624532e+10
3,Ed Sheeran,4.112016e+10,3.082735e+09,4.420289e+10
5,Justin Bieber,3.522598e+10,7.677942e+09,4.290392e+10
...,...,...,...,...
91,Major Lazer,9.071955e+09,6.391425e+08,9.711098e+09
95,BLACKPINK,8.946547e+09,5.593192e+08,9.505867e+09
90,AC/DC,9.105633e+09,4.614900e+04,9.105679e+09
92,Fall Out Boy,9.022026e+09,4.040203e+07,9.062428e+09


In [14]:
#df.to_csv('Most_Streaming_Spotify.csv')

In [13]:
import plotly.express as px

# trazar gráfico de burbujas con plotly
fig = px.scatter(df, x='Lead Stream', y='Feat Streams', size='Total Streams', hover_name='Artist')

# mostrar el gráfico
fig.show()