In [156]:
# Importaciones necesarias y/o útiles:

# Tratamiento de datos
import pandas as pd
import numpy as np

# Imputación de nulos 
from sklearn.impute import SimpleImputer
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.impute import KNNImputer

# Configuración
pd.set_option('display.max_columns', None) 
pd.set_option('display.float_format', '{:.2f}'.format) # # En la corrección de clase se ha explicado que esta configuración sirve para quitar la anotación científica en la mayoría de números

1. Importa pandas

In [157]:
# Hecho en la primera celda, junto con el resto de librerías necesarias para la visualización y tratamiento de datos

2. Exploración del conjunto de datos:

- Carga el fichero, al cargarlo te aparecerá una columna llamada "Unnamed: 0". Carga el dataset sin que aparezca esta columna. Además realiza un análisis exploratorio que incluya: 

In [158]:
df_music = pd.read_csv('files/Spotify_Youtube.csv' , index_col = 0) 

In [159]:
# Comprobamos que la columna 'Unnamed: 0' no aparece ya en nuestro DF
df_music.head(1)

Unnamed: 0,Artist,Url_spotify,Track,Album,Album_type,Uri,Danceability,Energy,Key,Loudness,Speechiness,Acousticness,Instrumentalness,Liveness,Valence,Tempo,Duration_ms,Url_youtube,Title,Channel,Views,Likes,Comments,Description,Licensed,Official_video,Stream
0,Gorillaz,https://open.spotify.com/artist/3AA28KZvwAUcZu...,Feel Good Inc.,Demon Days,album,spotify:track:0d28khcov6AiegSCpG5TuT,818,705,60,-6679,177,836,233,0.61,0.77,138.56,222640.0,https://www.youtube.com/watch?v=HyHNuVaZJ-k,Gorillaz - Feel Good Inc. (Official Video),Gorillaz,693555221.0,6220896.0,169907.0,Official HD Video for Gorillaz' fantastic trac...,True,True,1040234854.0


- Cuando leas el fichero, veras que no podemos ver todas las columnas, utiliza el comando correcto para poder visualizarlas todas cuando hacemos un head

In [160]:
# Ya se ha incluido el comando para poder visualizar todas las columnas (pd.set_option('display.max_columns', None)) en la primera celda de este Jupyter, junto con el resto de librerías y configuraciones necesarias

- Primeras 5 filas del *dataframe*

In [161]:
df_music.head(5)

# Los números parecen estar en el formato incorrecto y contienen "," en lugar de "."

Unnamed: 0,Artist,Url_spotify,Track,Album,Album_type,Uri,Danceability,Energy,Key,Loudness,Speechiness,Acousticness,Instrumentalness,Liveness,Valence,Tempo,Duration_ms,Url_youtube,Title,Channel,Views,Likes,Comments,Description,Licensed,Official_video,Stream
0,Gorillaz,https://open.spotify.com/artist/3AA28KZvwAUcZu...,Feel Good Inc.,Demon Days,album,spotify:track:0d28khcov6AiegSCpG5TuT,818,705,60,-6679,177,836.0,233,0.61,0.77,138.56,222640.0,https://www.youtube.com/watch?v=HyHNuVaZJ-k,Gorillaz - Feel Good Inc. (Official Video),Gorillaz,693555221.0,6220896.0,169907.0,Official HD Video for Gorillaz' fantastic trac...,True,True,1040234854.0
1,Gorillaz,https://open.spotify.com/artist/3AA28KZvwAUcZu...,Rhinestone Eyes,Plastic Beach,album,spotify:track:1foMv2HQwfQ2vntFf9HFeG,676,703,80,-5815,302,869.0,687,0.05,0.85,92.76,200173.0,https://www.youtube.com/watch?v=yYDmaexVHic,Gorillaz - Rhinestone Eyes [Storyboard Film] (...,Gorillaz,72011645.0,1079128.0,31003.0,The official video for Gorillaz - Rhinestone E...,True,True,310083733.0
2,Gorillaz,https://open.spotify.com/artist/3AA28KZvwAUcZu...,New Gold (feat. Tame Impala and Bootie Brown),New Gold (feat. Tame Impala and Bootie Brown),single,spotify:track:64dLd6rVqDLtkXFYrEUHIU,695,923,10,-393,522,425.0,469,0.12,0.55,108.01,215150.0,https://www.youtube.com/watch?v=qJa-VFwPpYA,Gorillaz - New Gold ft. Tame Impala & Bootie B...,Gorillaz,8435055.0,282142.0,7399.0,Gorillaz - New Gold ft. Tame Impala & Bootie B...,True,True,63063467.0
3,Gorillaz,https://open.spotify.com/artist/3AA28KZvwAUcZu...,On Melancholy Hill,Plastic Beach,album,spotify:track:0q6LuUqGLUiCPP1cbdwFs3,689,739,20,-581,26,0.00151,509,0.06,0.58,120.42,233867.0,https://www.youtube.com/watch?v=04mfKJWDSzI,Gorillaz - On Melancholy Hill (Official Video),Gorillaz,211754952.0,1788577.0,55229.0,Follow Gorillaz online:\nhttp://gorillaz.com \...,True,True,434663559.0
4,Gorillaz,https://open.spotify.com/artist/3AA28KZvwAUcZu...,Clint Eastwood,Gorillaz,album,spotify:track:7yMiX7n9SBvadzox8T5jzT,663,694,100,-8627,171,253.0,0,0.07,0.53,167.95,340920.0,https://www.youtube.com/watch?v=1V_xRb0x9aw,Gorillaz - Clint Eastwood (Official Video),Gorillaz,618480958.0,6197318.0,155930.0,The official music video for Gorillaz - Clint ...,True,True,617259738.0


- Últimas 5 filas del *dataframe*

In [162]:
df_music.tail(5)

# No existe un criterio homogeneizador en los datos: En la anterior visualización los nombres de artistas, canciones y álbum sólo tenían la primera letra en mayúscula, pero ahora lo son todas

Unnamed: 0,Artist,Url_spotify,Track,Album,Album_type,Uri,Danceability,Energy,Key,Loudness,Speechiness,Acousticness,Instrumentalness,Liveness,Valence,Tempo,Duration_ms,Url_youtube,Title,Channel,Views,Likes,Comments,Description,Licensed,Official_video,Stream
20713,SICK LEGEND,https://open.spotify.com/artist/3EYY5FwDkHEYLw...,JUST DANCE HARDSTYLE,JUST DANCE HARDSTYLE,single,spotify:track:0RtcKQGyI4hr8FgFH1TuYG,582,926,50,-6344,328,448,0,0.08,0.66,90.0,94667.0,https://www.youtube.com/watch?v=5SHmKFKlNqI,JUST DANCE HARDSTYLE,SICK LEGEND - Topic,71678.0,1113.0,0.0,Provided to YouTube by Routenote\n\nJUST DANCE...,True,True,9227144.0
20714,SICK LEGEND,https://open.spotify.com/artist/3EYY5FwDkHEYLw...,SET FIRE TO THE RAIN HARDSTYLE,SET FIRE TO THE RAIN HARDSTYLE,single,spotify:track:3rHvPA8lUnPBkaLyPOc0VV,531,936,40,-1786,137,28,0,0.09,0.66,174.87,150857.0,https://www.youtube.com/watch?v=ocTH6KxllDQ,SET FIRE TO THE RAIN HARDSTYLE,SICK LEGEND - Topic,164741.0,2019.0,0.0,Provided to YouTube by Routenote\n\nSET FIRE T...,True,True,10898176.0
20715,SICK LEGEND,https://open.spotify.com/artist/3EYY5FwDkHEYLw...,OUTSIDE HARDSTYLE SPED UP,OUTSIDE HARDSTYLE SPED UP,single,spotify:track:4jk00YxPtPbhvHJE9N4ddv,443,83,40,-4679,647,243,0,0.15,0.42,168.39,136842.0,https://www.youtube.com/watch?v=5wFhE-HY0hg,OUTSIDE HARDSTYLE SPED UP,SICK LEGEND - Topic,35646.0,329.0,0.0,Provided to YouTube by Routenote\n\nOUTSIDE HA...,True,True,6226110.0
20716,SICK LEGEND,https://open.spotify.com/artist/3EYY5FwDkHEYLw...,ONLY GIRL HARDSTYLE,ONLY GIRL HARDSTYLE,single,spotify:track:5EyErbpsugWliX006eTDex,417,767,90,-4004,419,356,184,0.11,0.54,155.38,108387.0,https://www.youtube.com/watch?v=VMFLbFRNCn0,ONLY GIRL HARDSTYLE,SICK LEGEND - Topic,6533.0,88.0,0.0,Provided to YouTube by Routenote\n\nONLY GIRL ...,True,True,6873961.0
20717,SICK LEGEND,https://open.spotify.com/artist/3EYY5FwDkHEYLw...,MISS YOU HARDSTYLE,MISS YOU HARDSTYLE,single,spotify:track:6lOn0jz1QpjcWeXo1oMm0k,498,938,60,-4543,107,277,911,0.14,0.08,160.07,181500.0,https://www.youtube.com/watch?v=zau0dckCFi0,MISS YOU HARDSTYLE,SICK LEGEND - Topic,158697.0,2484.0,0.0,Provided to YouTube by Routenote\n\nMISS YOU H...,True,True,5695584.0


- 10 filas aleatorias del *dataframe*

In [163]:
df_music.sample(10)

# Al revisar la muestra de filas aleatoria, aparecen algunos nulos en varias columnas

Unnamed: 0,Artist,Url_spotify,Track,Album,Album_type,Uri,Danceability,Energy,Key,Loudness,Speechiness,Acousticness,Instrumentalness,Liveness,Valence,Tempo,Duration_ms,Url_youtube,Title,Channel,Views,Likes,Comments,Description,Licensed,Official_video,Stream
15089,Jacquees,https://open.spotify.com/artist/4tMm1dU6Gn04VA...,Tell Me It's Over (feat. Summer Walker & 6LACK),Sincerely For You,album,spotify:track:2cue4DdCwO7himRLESpWk5,497,477,20,-7285,116,373,0.0,0.11,0.39,121.52,281013.0,https://www.youtube.com/watch?v=WY0FxJxUupE,"Jacquees, Summer Walker, 6LACK - Tell Me It's ...",JacqueesVEVO,1708647.0,64271.0,1017.0,"Music video by Jacquees, Summer Walker, 6LACK ...",True,True,8015797.0
8379,Rise Against,https://open.spotify.com/artist/6Wr3hh341P84m3...,Prayer Of The Refugee,The Sufferer & The Witness,album,spotify:track:4OSbctVD37ycS0H3rwRm72,2,977,30,-3494,159,165,0.00011,0.26,0.39,195.71,199387.0,https://www.youtube.com/watch?v=9-SQGOYOjxs,Rise Against - Prayer Of The Refugee (Official...,RiseAgainstVEVO,108605628.0,549070.0,26508.0,REMASTERED IN HD!\n\nOfficial Music Video for ...,True,True,258549058.0
8331,Almighty,https://open.spotify.com/artist/6P6GTRTigHBp8Z...,Indiferente,Indiferente,single,spotify:track:2LcZ4LPsVN1yXP7MEOnSgg,665,563,40,-5923,715,835,0.0,0.11,0.14,97.95,159634.0,https://www.youtube.com/watch?v=L-KxtNaqCh0,Almighty - Indiferente [ Official Audio ],Almighty,12366871.0,136472.0,3546.0,"Almighty - Indiferente\n\nFollow ""Almighty"" I...",True,True,8570213.0
208,Sean Paul,https://open.spotify.com/artist/3Isy6kedDrgPYo...,UP,UP,single,spotify:track:2ykXJ9QVwx9Li8nsW0h6b2,812,712,0,-5993,452,1,0.0,0.11,0.85,98.03,148944.0,https://www.youtube.com/watch?v=8Fl6d_fSRNs,INNA x Sean Paul - Up (Official Video),INNA,81787112.0,668740.0,12932.0,♪ Stream/Download: https://inna.lnk.to/up-feat...,True,True,47517159.0
183,The Beatles,https://open.spotify.com/artist/3WrFJ7ztbogyGn...,Yesterday - Remastered 2009,Help! (Remastered),album,spotify:track:3BQHpFgAp4l80e1XslIjNI,332,179,50,-1183,326,879,0.0,0.09,0.32,96.53,125667.0,https://www.youtube.com/watch?v=NrgmdOz227I,Yesterday (Remastered 2009),The Beatles - Topic,42856675.0,475089.0,5938.0,Provided to YouTube by Universal Music Group\n...,True,True,475131674.0
19674,JVKE,https://open.spotify.com/artist/164Uj4eKjl6zTB...,this is what falling in love feels like,this is what ____ feels like (Vol. 1-4),album,spotify:track:2PWTZV5znjLtZC5T1EVJvL,422,44,110,-553,544,617,0.0,0.08,0.33,128.93,120308.0,https://www.youtube.com/watch?v=BOyO8sZOaOQ,JVKE - this is what falling in love feels like...,JVKE,47697815.0,1279433.0,17185.0,"STREAM ""this is what falling in love feels lik...",False,True,271461760.0
7887,Kool Savas,https://open.spotify.com/artist/1SUu1Bi7ev9HbO...,Nie mehr zurück (feat. Kool Savas & Sido),Nie mehr zurück (feat. Kool Savas & Sido),single,spotify:track:52c2AgZdJgB34tYvo9uL20,587,679,10,-5279,354,361,0.0,0.28,0.54,91.56,164274.0,https://www.youtube.com/watch?v=2hyibXdOp5w,"XAVAS (Xavier Naidoo & Kool Savas) ""Schau nich...",Kool Savas Official | Essah TV,33996556.0,157341.0,10075.0,"Official Video: XAVAS ""Schau nicht mehr zurück...",True,True,17174445.0
7672,Die Ärzte,https://open.spotify.com/artist/0cbL6CYnRqpAxf...,M&F,auch,album,spotify:track:3OVcnhaZTKC6fE0oqiMEny,591,969,110,-4551,49,455,139.0,0.4,0.96,152.09,256120.0,https://www.youtube.com/watch?v=Yi5_fSv7qXk,die ärzte - M&F (Performance),bademeisterTV,17184194.0,98899.0,5574.0,"""M&F"", die zweite Single aus dem soeben erschi...",False,False,17889992.0
19975,Los Dos Carnales,https://open.spotify.com/artist/25UNJbwGZSQKvz...,El Envidioso,Al Estilo Rancheron,album,spotify:track:53PoPAD389bBE4ePYuT95g,719,577,50,-5326,909,416,0.0,0.1,0.86,78.77,191995.0,https://www.youtube.com/watch?v=QUv_VdNLrfU,Los Dos Carnales - El Envidioso (Video Oficial),AfinArte Music,315444008.0,1672696.0,26495.0,Escucha más música https://bit.ly/Artefino\n\n...,True,True,176382080.0
18931,Dominic Fike,https://open.spotify.com/artist/6USv9qhCn6zfxl...,Phone Numbers,Phone Numbers,single,spotify:track:3f9Mzvd3URfbbIJBX4pz9Z,884,539,10,-6389,208,239,0.0,0.08,0.78,85.01,146827.0,https://www.youtube.com/watch?v=DHgXhcjl4Bk,Dominic Fike - Phone Numbers (Official Video),Dominic Fike,2988177.0,113712.0,2859.0,Stream/download “Phone Numbers” here: https://...,True,True,190133936.0


- ¿Cuántas filas y columnas tenemos en el *dataframe* 

In [164]:
filas = df_music.shape[0]
columnas = df_music.shape[1]

print(f"El número de filas es: {filas}\nY el número de columnas es: {columnas}")

El número de filas es: 20718
Y el número de columnas es: 27


- ¿Cuáles son los tipos de los datos de cada columna del *dataframe* 

In [165]:
df_music.dtypes

# Al revisar los tipos de dato, parece que sí había algunos números con el formato correcto (float64) pero no todos: 
# danceability, energy, key, loudness, speechiness, acousticness e instrumentalness son tipo object

Artist               object
Url_spotify          object
Track                object
Album                object
Album_type           object
Uri                  object
Danceability         object
Energy               object
Key                  object
Loudness             object
Speechiness          object
Acousticness         object
Instrumentalness     object
Liveness            float64
Valence             float64
Tempo               float64
Duration_ms         float64
Url_youtube          object
Title                object
Channel              object
Views               float64
Likes               float64
Comments            float64
Description          object
Licensed             object
Official_video       object
Stream              float64
dtype: object

- ¿Cuántos valores nulos tenemos por columna?

In [166]:
df_music.isnull().sum()

# El total de valores nulos parece, de entrada, preocupante en las últimas columnas del DF. Pero para ver mejor el impacto, sacaremos el porcentaje de nulos en la siguiente casilla

Artist                0
Url_spotify           0
Track                 0
Album                 0
Album_type            0
Uri                   0
Danceability          2
Energy                2
Key                   2
Loudness              2
Speechiness           2
Acousticness          2
Instrumentalness      2
Liveness              2
Valence               2
Tempo                 2
Duration_ms           2
Url_youtube         470
Title               470
Channel             470
Views               470
Likes               541
Comments            569
Description         876
Licensed            470
Official_video      470
Stream              576
dtype: int64

In [167]:
round(df_music.isnull().sum() / df_music.shape[0] * 100 , 2)

# Con el porcentaje delante, los números de antes ya no parecen tan elevados teniendo en cuenta que en la columna con el máximo número de nulos estos tienen un impacto del 2,78% del total de sus datos.

Artist             0.00
Url_spotify        0.00
Track              0.00
Album              0.00
Album_type         0.00
Uri                0.00
Danceability       0.01
Energy             0.01
Key                0.01
Loudness           0.01
Speechiness        0.01
Acousticness       0.01
Instrumentalness   0.01
Liveness           0.01
Valence            0.01
Tempo              0.01
Duration_ms        0.01
Url_youtube        2.27
Title              2.27
Channel            2.27
Views              2.27
Likes              2.61
Comments           2.75
Description        4.23
Licensed           2.27
Official_video     2.27
Stream             2.78
dtype: float64

- ¿Tenemos filas duplicadas en el *dataframe* ?

In [168]:
duplicadas = df_music.duplicated().sum()

print(f"Filas duplicadas: {duplicadas}")

# Que no haya ninguna fila que repita sus datos no significa que estos no se repitan dentro de una misma columna
# De todos modos habrá que volver a revisar los duplicados una vez se unifiquen criterios de homogeneización de datos, ya que el resultado podría variar

Filas duplicadas: 0


- Muestra los principales estadísticos para las columnas numéricas del *dataframe* 

In [169]:
df_music.describe().T

# El método .describe() por defecto devuelve los principales datos estadísticos de las columnas numéricas 
# y el método .T transpone los datos para que su visualización sea más agradable a la vista (y facilite la lectura)
# A priori no parece haber una diferencia exagerada entre media-mediana, ni una desviación estándar demasiado elevada en Liveness, Valence, Tempo, Duration_ms
# En cambio, columnas como Views, Likes, Comments y Stream sí tienen los datos bastante dispersos

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Liveness,20716.0,0.19,0.17,0.01,0.09,0.12,0.24,1.0
Valence,20716.0,0.53,0.25,0.0,0.34,0.54,0.73,0.99
Tempo,20716.0,120.64,29.58,0.0,97.0,119.97,139.94,243.37
Duration_ms,20716.0,224717.58,124790.54,30985.0,180009.5,213284.5,252443.0,4676058.0
Views,20248.0,93937821.13,274644322.0,0.0,1826001.5,14501095.0,70399749.0,8079649362.0
Likes,20177.0,663341.06,1789324.25,0.0,21581.0,124481.0,522148.0,50788652.0
Comments,20149.0,27518.99,193234.69,0.0,509.0,3277.0,14360.0,16083138.0
Stream,20142.0,135942190.38,244132077.82,6574.0,17674864.25,49682981.5,138358065.25,3386520288.0


- Muestra los principales estadísticos para las columnas categóricas del *dataframe* 

In [170]:
df_music.describe(include = 'object').T

# Estos datos estadísticos son útiles para evaluar cuántos elementos hay vs. cuántos de ellos son únicos (no se repiten), 
# así como para ver su moda (el valor más común, identificado como 'top') y la frecuencia con la que aparece

Unnamed: 0,count,unique,top,freq
Artist,20718,2079,Gorillaz,10
Url_spotify,20718,2079,https://open.spotify.com/artist/3AA28KZvwAUcZu...,10
Track,20718,17841,El Ultimo Adiós - Varios Artistas Version,24
Album,20718,11937,Greatest Hits,30
Album_type,20718,3,album,14926
Uri,20718,18862,spotify:track:0tzixmHNQfE6S6SirSToxW,24
Danceability,20716,898,0687,78
Energy,20716,1268,0572,60
Key,20716,12,00,2305
Loudness,20716,9417,-7818,25


3. Preparación de los datos: 

- Los nombres de las columnas empiezan con mayúsculas, pon todos los nombres de las columnas en minúsculas. 

In [171]:
nuevos_nombres = {columna : columna.lower() for columna in df_music.columns}

In [172]:
df_music.rename(columns = nuevos_nombres , inplace = 1)

# En la corrección de clase se ha sugerido hacer: df_music.rename(columns = str.lower() , inplace = 1)
# El método es más simple y también funciona

In [173]:
df_music.head(1)

Unnamed: 0,artist,url_spotify,track,album,album_type,uri,danceability,energy,key,loudness,speechiness,acousticness,instrumentalness,liveness,valence,tempo,duration_ms,url_youtube,title,channel,views,likes,comments,description,licensed,official_video,stream
0,Gorillaz,https://open.spotify.com/artist/3AA28KZvwAUcZu...,Feel Good Inc.,Demon Days,album,spotify:track:0d28khcov6AiegSCpG5TuT,818,705,60,-6679,177,836,233,0.61,0.77,138.56,222640.0,https://www.youtube.com/watch?v=HyHNuVaZJ-k,Gorillaz - Feel Good Inc. (Official Video),Gorillaz,693555221.0,6220896.0,169907.0,Official HD Video for Gorillaz' fantastic trac...,True,True,1040234854.0


- Haciendo el análisis exploratorio te deberías haber dado cuenta de que algunas de las variables (`danceability`, `energy`, `key`, `loudness`, `speechiness`, `acousticness`, `instrumentalness`) no son del tipo que deberían. Esto es debido a que los decimales están establecidos como comas y no con puntos. Crea una función que nos permita cambiar esas comas por puntos para que los datos tengan el tipo correcto.

In [174]:
columnas_comas = ['danceability' , 'energy' , 'key' , 'loudness' , 'speechiness' , 'acousticness' , 'instrumentalness']

for columna in columnas_comas:
    
    df_music[columna] = df_music[columna].apply(lambda data : data.replace(',' , '.') if isinstance(data , str) else np.nan)
    
# Esto no hará que tengan el tipo correcto, pero veo que en el siguiente ejercicio se pide que se cambie,
# así que por el momento aún no lo cambiaremos

- Después de haber hecho los cambios, chequea los tipos de datos. ¿Son ya del tipo correcto? En caso de que no, crea otra función o modifica la anterior para que sean de tipo *float*.

In [175]:
df_music[columnas_comas].dtypes

danceability        object
energy              object
key                 object
loudness            object
speechiness         object
acousticness        object
instrumentalness    object
dtype: object

In [176]:
for columna in columnas_comas:
    
    df_music[columna] = df_music[columna].apply(lambda data : float(data.replace(',' , '.')) if isinstance(data , str) else np.nan)

In [177]:
df_music[columnas_comas].dtypes

danceability        float64
energy              float64
key                 float64
loudness            float64
speechiness         float64
acousticness        float64
instrumentalness    float64
dtype: object

- Hay algunas canciones cuyo título está en mayúsulas. Crea una función para que todos los títulos estén en minúscula. Haz lo mismo para las columnas de "track" y "album".

In [178]:
columnas_min = ['title' , 'track' , 'album']

for columna in columnas_min:
    
    df_music[columna] = df_music[columna].apply(lambda data : data.lower() if isinstance(data , str) else np.nan)

- Algunos de los artistas tienen símbolos raros, en concreto el símbolo `$`. Crea una función que los reemplaze pos "s". 

In [179]:
# Corrección en clase:

# Importante: Yo he cambiado todos los $ del DataFrame, pero en el ejercicio especifica que sólo aquellos en la columna 'artist'
# Además. habría que revisar primero si verdaderamente existe esa condición, por ejemplo:

df_music[df_music['artist'].str.contains('$' , regex = False)]['artist'].unique()

array(['Too $hort', 'Curren$y', 'Ty Dolla $ign', 'A$AP Rocky',
       'A$AP Ferg', 'Joey Bada$$', '$uicideboy$', 'bbno$', '$NOT'],
      dtype=object)

In [180]:
# Dejo comentada la función errónea:
# funcion_reemplazo = lambda data : data.replace('$' , 's') if isinstance(data , str) else data
# df_music = df_music.applymap(funcion_reemplazo)

# La correcta:
df_music['artist'] = df_music['artist'].apply(lambda data : data.replace('$' , 's') if isinstance(data , str) else data)

4. Filtrado de datos:

- ¿Cuáles son los valores únicos de la columna "album_type"? Crea tres *dataframes* diferentes, uno para cada tipo de "album_type". ¿Cuántas canciones tenemos en cada tipo?

In [181]:
df_music['album_type'].unique()

array(['album', 'single', 'compilation'], dtype=object)

In [182]:
df_album = df_music.loc[df_music['album_type'] == 'album' , :]
df_single = df_music.loc[df_music['album_type'] == 'single' , :]
df_compilation = df_music.loc[df_music['album_type'] == 'compilation' , :]

In [183]:
# Se utiliza el método .nunique() para contar todos los elementos únicos de la columa title (ya que es la que define el nombre de la canción)

canciones_album = df_album['title'].nunique() 
canciones_single = df_single['title'].nunique()
canciones_compi = df_compilation['title'].nunique()

print(f"Número de canciones únicas con tipo álbum: {canciones_album}\nNúmero de canciones únicas con tipo single: {canciones_single}\nNúmero de canciones únicas con tipo compilation: {canciones_compi}")

print("----------------------------------")

# Si no quisiéramos que los elementos fueran únicos, se haría del siguiente modo:

print(f"Número de canciones totales con tipo álbum: {df_album.shape[0]}\nNúmero de canciones totales con tipo single: {df_single.shape[0]}\nNúmero de canciones totales con tipo compilation: {df_compilation.shape[0]}")


Número de canciones únicas con tipo álbum: 13556
Número de canciones únicas con tipo single: 4111
Número de canciones únicas con tipo compilation: 694
----------------------------------
Número de canciones totales con tipo álbum: 14926
Número de canciones totales con tipo single: 5004
Número de canciones totales con tipo compilation: 788


- Usando el *dataframe* de los albumes que hemos creado en el ejercicio anterior. ¿Cuál es la media y la desviación estándar de "danceability", "acousticness" y "speechiness" de cada artista? Muestra los resultados en tres dataframes diferentes, uno para cada métrica ("danceability", "acousticness" y "speechiness"). Ordena los resultados de mayor a menor en base a la media. 

In [184]:
df_album_dance = df_album.groupby("artist")['danceability'].agg(['mean' , 'std'])
df_album_dance.sort_values(by = 'mean' , ascending = False)

Unnamed: 0_level_0,mean,std
artist,Unnamed: 1_level_1,Unnamed: 2_level_1
Latto,0.92,0.01
Murda,0.91,0.03
Jon Z,0.89,0.02
Blueface,0.89,0.04
Jung Kook,0.88,
...,...,...
Stephen Cleobury,0.14,0.04
Ocean Sounds,0.14,0.06
Ocean Waves For Sleep,0.13,0.06
White Noise for Babies,0.09,0.16


In [185]:
df_album_acous = df_album.groupby("artist")['acousticness'].agg(['mean' , 'std'])
df_album_acous.sort_values(by = 'mean' , ascending = False)

Unnamed: 0_level_0,mean,std
artist,Unnamed: 1_level_1,Unnamed: 2_level_1
Claude Debussy,0.99,0.00
Robert Schumann,0.99,0.00
Franz Schubert,0.99,0.01
Edvard Grieg,0.99,0.01
Frédéric Chopin,0.99,0.00
...,...,...
Volbeat,0.00,0.00
Motionless In White,0.00,0.00
Killswitch Engage,0.00,0.00
Kordhell,0.00,


In [186]:
df_album_spe = df_album.groupby("artist")['speechiness'].agg(['mean' , 'std'])
df_album_spe.sort_values(by = 'mean' , ascending = False)

Unnamed: 0_level_0,mean,std
artist,Unnamed: 1_level_1,Unnamed: 2_level_1
Sir Arthur Conan Doyle,0.95,0.01
Bibi Blocksberg,0.95,0.01
Sherlock Holmes,0.94,0.02
TKKG,0.92,0.02
Fünf Freunde,0.91,0.05
...,...,...
Vishal Mishra,0.03,
Randy Travis,0.03,0.00
Cigarettes After Sex,0.03,0.00
Rashmi Virag,0.03,


In [203]:
# En clase se sugiere hacerlo de la siguiente manera para que sea de forma automática e incluyendo un reset_index para que no use la columa 'artist' como tal:

metrics = ['danceability' , 'acousticness' , 'speechiness']

for metric in metrics:
    print(f"{metric.upper()}:")
    display(df_album.groupby("artist")[metric].agg(['mean' , 'std']).sort_values(by = 'mean' , ascending = False).reset_index())

DANCEABILITY:


Unnamed: 0,artist,mean,std
0,Latto,0.92,0.01
1,Murda,0.91,0.03
2,Jon Z,0.89,0.02
3,Blueface,0.89,0.04
4,Jung Kook,0.88,
...,...,...,...
1984,Stephen Cleobury,0.14,0.04
1985,Ocean Sounds,0.14,0.06
1986,Ocean Waves For Sleep,0.13,0.06
1987,White Noise for Babies,0.09,0.16


ACOUSTICNESS:


Unnamed: 0,artist,mean,std
0,Claude Debussy,0.99,0.00
1,Robert Schumann,0.99,0.00
2,Franz Schubert,0.99,0.01
3,Edvard Grieg,0.99,0.01
4,Frédéric Chopin,0.99,0.00
...,...,...,...
1984,Volbeat,0.00,0.00
1985,Motionless In White,0.00,0.00
1986,Killswitch Engage,0.00,0.00
1987,Kordhell,0.00,


SPEECHINESS:


Unnamed: 0,artist,mean,std
0,Sir Arthur Conan Doyle,0.95,0.01
1,Bibi Blocksberg,0.95,0.01
2,Sherlock Holmes,0.94,0.02
3,TKKG,0.92,0.02
4,Fünf Freunde,0.91,0.05
...,...,...,...
1984,Vishal Mishra,0.03,
1985,Randy Travis,0.03,0.00
1986,Cigarettes After Sex,0.03,0.00
1987,Rashmi Virag,0.03,


- Se quiere estudiar si existe una relación entre la cantidad de visitas que reciben los videos de música de un artista en una plataforma de streaming y la cantidad de likes que estos videos obtienen. Por lo tanto, querremos contestar a la siguiente pregunta: ¿Son aquellos artistas que tienen más visitas los que más likes tienen? Para solucionar este ejercicio deberéis: 

- Agrupa por artista y calcular la media de visitas y de likes

In [187]:
df_album_2 = df_album.groupby("artist")[['views' , 'likes']].mean()
df_album_2

Unnamed: 0_level_0,views,likes
artist,Unnamed: 1_level_1,Unnamed: 2_level_1
(G)I-DLE,131737430.50,1987725.50
*NSYNC,102783286.20,423342.30
070 Shake,4125685.50,116569.75
112,23838598.50,159943.00
11:11 Music Group,49794.00,1173.00
...,...,...
will.i.am,652373164.75,3101684.50
Ángela Aguilar,152407567.44,1133839.56
Ñejo,69465465.00,322573.00
Ñengo Flow,101632932.20,751343.00


- Quedate con los 10 artistas que más visitas han tenido.

In [188]:
df_album_views = df_album_2.sort_values(by = 'views' , ascending = False)
top_views = df_album_views.head(10)
top_views

Unnamed: 0_level_0,views,likes
artist,Unnamed: 1_level_1,Unnamed: 2_level_1
MØ,3324835140.0,16211083.0
Ed Sheeran,1715102721.78,9220238.56
Luis Fonsi,1654742657.57,9503034.0
DJ Snake,1547144076.6,10271261.2
CoComelon,1460167121.1,4171391.3
Katy Perry,1454551509.89,6942745.22
Natti Natasha,1379763389.0,5663424.0
Justin Bieber,1197991930.22,8199640.11
Mark Ronson,1034353226.0,4870957.6
Shawn Mendes,1032746921.71,8282233.0


- Quedate con los 10 artistas que más likes han tenido. 

In [189]:
df_album_likes = df_album_2.sort_values(by = 'likes' , ascending = False)
top_likes = df_album_likes.head(10)
top_likes

Unnamed: 0_level_0,views,likes
artist,Unnamed: 1_level_1,Unnamed: 2_level_1
BTS,702295101.14,16694468.0
MØ,3324835140.0,16211083.0
DJ Snake,1547144076.6,10271261.2
BLACKPINK,412689124.8,9868695.0
Luis Fonsi,1654742657.57,9503034.0
Billie Eilish,596613125.5,9436989.25
Ed Sheeran,1715102721.78,9220238.56
Alan Walker,882021286.86,8296941.29
Shawn Mendes,1032746921.71,8282233.0
Justin Bieber,1197991930.22,8199640.11


In [190]:
artistas_ambas = []

for artista in top_likes.index:
    
    if artista in top_views.index:
        
        artistas_ambas.append(artista)

print(f"En aquellos tipos de álbum que son 'album', un {len(artistas_ambas)/10*100}% de los artistas con más likes también aparecían en el top 10 de artistas más vistos")

En aquellos tipos de álbum que son 'album', un 60.0% de los artistas con más likes también aparecían en el top 10 de artistas más vistos


- **BONUS** Haced lo mismo para los datos de tipo "single". 

In [191]:
df_single_2 = df_single.groupby("artist")[['views' , 'likes']].mean()

df_single_views = df_single_2.sort_values(by = 'views' , ascending = False)
top_views_s = df_single_views.head(10)

df_single_likes = df_single_2.sort_values(by = 'likes' , ascending = False)
top_likes_s = df_single_likes.head(10)

In [192]:
artistas_ambas2 = []

for artista in top_likes_s.index:
    
    if artista in top_views_s.index:
        
        artistas_ambas2.append(artista)

print(f"En aquellos tipos de álbum que son 'single', un {len(artistas_ambas2)/10*100}% de los artistas con más likes también aparecían en el top 10 de artistas más vistos")

En aquellos tipos de álbum que son 'single', un 60.0% de los artistas con más likes también aparecían en el top 10 de artistas más vistos


- Ahora queremos analizar la colaboración entre artistas en la industria musical, se tienen datos de las colaboraciones realizadas en los últimos años. Se desea conocer cuáles son los artistas que han colaborado en mayor cantidad de canciones y generar un *ranking* con los diez primeros. ¿Qué artistas con los que más colaboraciones tienen? Para esto tendréis que:

- Filtra los datos para quedarte solo con aquellos datos donde en la columna "track" tengamos "feat".

In [193]:
condicion = df_music['track'].str.contains('feat' , regex = False) # Corrección: Añadido un regex = False para indicar que no estamos buscando un patrón de regex

df_feats = df_music.loc[condicion , :]

- Cuenta cuantas canciones tiene cada artista utilizando el *dataframe* generado en el paso anterior.

In [194]:
df_feats2 = df_feats.groupby('artist')['title'].count().reset_index()

df_feats2.columns = ['artist' , 'collaborations']

In [195]:
df_feats2

Unnamed: 0,artist,collaborations
0,070 Shake,1
1,112,4
2,1nonly,1
3,2 Chainz,1
4,21 Savage,2
...,...,...
697,sNOT,4
698,sped up nightcore,1
699,thasup,8
700,Ñejo,1


- Debes contestar a las siguientes preguntas:

- ¿Cuáles son los diez artistas que más han colaborado  según los datos que tenemos?

In [196]:
top_10_collabs = df_feats2.sort_values(by = 'collaborations' , ascending = False).head(10)

In [197]:
top_10_collabs

Unnamed: 0,artist,collaborations
404,Macklemore,10
307,Juicy J,10
646,Ty Dolla sign,9
667,Wu-Tang Clan,9
138,DJ Khaled,9
405,Macklemore & Ryan Lewis,8
124,Clean Bandit,8
658,Wale,8
666,Wizkid,8
517,Popcaan,8


- ¿Cuál es el número de canciones en los que ha colaborado el artista que ocupa el primer lugar en el *ranking*?

In [198]:
print(f"El número de canciones en las que ha participado el artista que está en el top ({top_10_collabs.iloc[0 , 0]}) es: {top_10_collabs.iloc[0 , 1]}")

El número de canciones en las que ha participado el artista que está en el top (Macklemore) es: 10


- ¿Cuál es el artista que ocupa el décimo lugar en el *ranking* y en cuántas canciones ha colaborado?

In [199]:
print(f"El número de canciones en las que ha participado el artista que está en décimo lugar ({top_10_collabs.iloc[-1 , 0]}) es: {top_10_collabs.iloc[-1 , 1]}")

El número de canciones en las que ha participado el artista que está en décimo lugar (Popcaan) es: 8
