# Desafio: Data Wrangling
Autor: Emanuel Benitez
<br>
Fecha: 27/11/2023

Consigna:
<li>Iniciar proceso de limpieza y exploración de datos según el conjunto de datos elegido para el proyecto final.</li>
<li>Manejo de duplicados, nulos, y análisis exploratorio.</li>

In [10]:
import pandas as pd
import numpy as np


url='https://drive.google.com/file/d/1at4CyKa-PyJhTrLK-SHMJAZ1_PNnQ_gI/view?usp=drive_link'
url='https://drive.google.com/uc?id=' + url.split('/')[-2]

spotifyYoutube = pd.read_csv(url)
spotifyYoutube.drop(columns = "Unnamed: 0", inplace = True) # Quite primer columna sin uso
spotifyYoutube.head()

Unnamed: 0,Artist,Url_spotify,Track,Album,Album_type,Uri,Danceability,Energy,Key,Loudness,...,Url_youtube,Title,Channel,Views,Likes,Comments,Description,Licensed,official_video,Stream
0,Gorillaz,https://open.spotify.com/artist/3AA28KZvwAUcZu...,Feel Good Inc.,Demon Days,album,spotify:track:0d28khcov6AiegSCpG5TuT,0.818,0.705,6.0,-6.679,...,https://www.youtube.com/watch?v=HyHNuVaZJ-k,Gorillaz - Feel Good Inc. (Official Video),Gorillaz,693555221.0,6220896.0,169907.0,Official HD Video for Gorillaz' fantastic trac...,True,True,1040235000.0
1,Gorillaz,https://open.spotify.com/artist/3AA28KZvwAUcZu...,Rhinestone Eyes,Plastic Beach,album,spotify:track:1foMv2HQwfQ2vntFf9HFeG,0.676,0.703,8.0,-5.815,...,https://www.youtube.com/watch?v=yYDmaexVHic,Gorillaz - Rhinestone Eyes [Storyboard Film] (...,Gorillaz,72011645.0,1079128.0,31003.0,The official video for Gorillaz - Rhinestone E...,True,True,310083700.0
2,Gorillaz,https://open.spotify.com/artist/3AA28KZvwAUcZu...,New Gold (feat. Tame Impala and Bootie Brown),New Gold (feat. Tame Impala and Bootie Brown),single,spotify:track:64dLd6rVqDLtkXFYrEUHIU,0.695,0.923,1.0,-3.93,...,https://www.youtube.com/watch?v=qJa-VFwPpYA,Gorillaz - New Gold ft. Tame Impala & Bootie B...,Gorillaz,8435055.0,282142.0,7399.0,Gorillaz - New Gold ft. Tame Impala & Bootie B...,True,True,63063470.0
3,Gorillaz,https://open.spotify.com/artist/3AA28KZvwAUcZu...,On Melancholy Hill,Plastic Beach,album,spotify:track:0q6LuUqGLUiCPP1cbdwFs3,0.689,0.739,2.0,-5.81,...,https://www.youtube.com/watch?v=04mfKJWDSzI,Gorillaz - On Melancholy Hill (Official Video),Gorillaz,211754952.0,1788577.0,55229.0,Follow Gorillaz online:\nhttp://gorillaz.com \...,True,True,434663600.0
4,Gorillaz,https://open.spotify.com/artist/3AA28KZvwAUcZu...,Clint Eastwood,Gorillaz,album,spotify:track:7yMiX7n9SBvadzox8T5jzT,0.663,0.694,10.0,-8.627,...,https://www.youtube.com/watch?v=1V_xRb0x9aw,Gorillaz - Clint Eastwood (Official Video),Gorillaz,618480958.0,6197318.0,155930.0,The official music video for Gorillaz - Clint ...,True,True,617259700.0


<center><img src="https://raw.githubusercontent.com/emanuelbe1/ciencia_de_datos_repasos/main/Coderhouse/ProyectoDS_ParteII/img/if_spotify_then_youtube.png" alt="Logos de Spotify y Youtube, uno al lado de otro" width=600></center>

#### <center><b><u>Sobre el conjunto de datos</u>:</b> <i>'Spotify and Youtube'</i></center>


<details><summary><b><u>Descripción</u></b></summary><br>
<font size = "3">&nbsp;Este conjunto de datos contiene estadisticas de canciones para sus versiones lanzadas en Spotify. También contiene el número de visitas en su video oficial, alojado en la plataforma Youtube. En el contenido se incluyen <b>26 variables</b> para cada uno de las canciones recolectadas de Spotify. Entre estás variables se incluyen: nombre de la canción (<i>Track</i>), nombre del artista (<i>Artist</i>), album donde se contiene la canción (<i>Album</i>), adecuación para el baile (<i>Danceability</i>), tonalidad de la canción (<i>Key</i>), tiempo estimado de la canción (<i>Tempo</i>), duración de la canción en milisegundos (<i>Duration_ms</i>), titulo del video en Youtube (<i>Title</i>), entre otras.</font>

[Fuente de los datos](https://www.kaggle.com/datasets/salvatorerastelli/spotify-and-youtube)</details>
<details><summary><b><u>Índice de variables</u></b></summary><br>
<font size = "3">&nbsp;La siguiente tabla contiene una descripción exhaustiva para cada una de las columnas en los datos.</font>

- <b>Track</b>: Nombre de la canción en Spotify<br>
- <b>Artist</b>: Nombre del artista<br>
- <b>Url_spotify</b>: URL del artista en Spotify<br>
- <b>Album</b>: Álbum en el que se encuentra la canción en Spotify<br>
- <b>Album_type</b>: Indica si la canción se ha lanzado en Spotify como sencillo o en un álbum<br>
- <b>Uri</b>: Un enlace de Spotify utilizado para encontrar la canción a través de la API<br>
- <b>Danceability</b>: Describe cuán adecuada es una pista para el baile basándose en una combinación de elementos musicales, incluyendo tempo, estabilidad del ritmo, fuerza del ritmo y regularidad general. Un valor de 0.0 es menos bailable y 1.0 es muy bailable<br>
- <b>Energy</b>: Es una medida de 0.0 a 1.0 que representa una medida perceptual de intensidad y actividad. Típicamente, las pistas energéticas se sienten rápidas, ruidosas y enérgicas<br>
- <b>Key</b>: La tonalidad en la que se encuentra la canción. Los enteros se mapean a notas utilizando notación estándar de clases de tonos. Por ejemplo, 0 = Do, 1 = Do♯/Re♭, 2 = Re, y así sucesivamente. Si no se detectó una tonalidad, el valor es -1<br>
- <b>Loudness</b>: El volumen general de una pista en decibelios (dB). Los valores de volumen se promedian en toda la pista y son útiles para comparar el volumen relativo de las pistas<br>
- <b>Speechiness</b>: Detecta la presencia de palabras habladas en una pista. Cuanto más parecido a palabras habladas sea el registro (por ejemplo, un programa de entrevistas, audiolibro, poesía), más cercano a 1.0 será el valor del atributo<br>
- <b>Acousticness</b>: Una medida de confianza de 0.0 a 1.0 de si la pista es acústica. 1.0 representa una alta confianza de que la pista es acústica<br>
- <b>Instrumentalness</b>: Predice si una pista no contiene vocales. Los sonidos "Ooh" y "aah" se consideran instrumentales en este contexto. Las pistas de rap o palabras habladas son claramente "vocales". Cuanto más cercano sea el valor de instrumentalidad a 1.0, mayor será la probabilidad de que la pista no contenga contenido vocal<br>
- <b>Liveness</b>: Detecta la presencia de una audiencia en la grabación. Valores de en_vivo más altos representan una mayor probabilidad de que la pista se haya interpretado en vivo<br>
- <b>Valence</b>: Una medida de 0.0 a 1.0 que describe la positividad musical transmitida por una pista. Pistas con alto valor de positividad suenan más positivas (por ejemplo, alegres, alegres, eufóricas), mientras que pistas con bajo valor de positividad suenan más negativas (por ejemplo, tristes, deprimidas, enojadas)<br>
- <b>Tempo</b>: El tempo estimado general de una pista en pulsos por minuto (BPM)<br>
- <b>Duration_ms</b>: La duración de la pista en milisegundos<br>
- <b>Stream</b>: Número de transmisiones de la canción en Spotify<br>
- <b>Url_youtube</b>: URL del video vinculado a la canción en YouTube, si existe<br>
- <b>Title</b>: Título del videoclip en YouTube<br>
- <b>Channel</b>: Nombre del canal que ha publicado el video<br>
- <b>Views</b>: Número de vistas<br>
- <b>Likes</b>: Número de "Me gusta"<br>
- <b>Comments</b>: Número de comentarios<br>
- <b>Description</b>: Descripción del video en YouTube<br>
- <b>Licensed</b>: Indica si el video representa contenido con licencia, lo que significa que el contenido fue cargado a un canal vinculado a un socio de contenido de YouTube y luego reclamado por ese socio<br>
- <b>official_video</b>: Valor booleano que indica si el video encontrado es el video oficial de la canción<br>

</details>

<hr>

# Disputa de datos (Data Wrangling)

 No hay una única forma de abordar el proceso, ya que puede variar según la naturaleza de los datos y el uso que se le quiera dar a estos. Algunos pasos que voy a realizar para la limpieza son:
<ol>
  <li> <b>Exploración de los datos inicial</b>: para visualizar las primeras filas de datos y comprender la estructura. Voy a explorar los tipos de datos (<i>.info()</i>) y la presencia de valores faltantes (<i>.isna</i>).</li>
  <li> <b>Identificación y tratamiento de valores nulos</b>: analizar los valores faltantes, pueden estar en nulos (NaN) o en otro tipo de entrada que represente una ausencia en el dato.</li>
  <li> <b>Manejo de duplicados</b>: buscar y eliminar valores duplicados.</li>
  <li> <b>Análisis estadístico inicial</b>: calcular estadísticas descriptivas para una obtención inicial de los datos.</li>
</ol>

<hr>

## <center>1. Exploración de los datos inicial</center>


In [48]:
spotifyYoutube.sample(5)

Unnamed: 0,Artist,Url_spotify,Track,Album,Album_type,Uri,Danceability,Energy,Key,Loudness,...,Url_youtube,Title,Channel,Views,Likes,Comments,Description,Licensed,official_video,Stream
12065,Gesaffelstein,https://open.spotify.com/artist/3hteYQFiMFbJY7...,Ever Now,Hyperion,album,spotify:track:3tw38CkaOgncThUwXO80NO,0.658,0.373,1.0,-12.473,...,https://www.youtube.com/watch?v=LAe6Sm_MAdY,Gesaffelstein - Ever Now (Official Audio),GesaffelsteinVEVO,176127.0,3056.0,,Listen & Download Hyperion: http://smarturl.it...,True,True,2009377.0
12012,Jul,https://open.spotify.com/artist/3IW7ScrzXmPvZh...,C'est pas la mairie,Cœur blanc,album,spotify:track:5nBrRMKHC53PPyXykYVVPk,0.888,0.62,8.0,-6.037,...,,,,,,,,True,True,7193378.0
18143,JID,https://open.spotify.com/artist/6U3ybJ9UHNKEds...,Off Deez (with J. Cole),DiCaprio 2,album,spotify:track:3JAeYOjyJodI4PRs44lx2l,0.836,0.579,9.0,-6.164,...,https://www.youtube.com/watch?v=ZiADuDjueJc,J.I.D - Off Deez ft. J. Cole (Directed by Cole...,Lyrical Lemonade,31871543.0,621743.0,24942.0,"Check out the official music video for ""Off De...",False,False,113678350.0
18876,Grupo Arriesgado,https://open.spotify.com/artist/5NUPPRjsbXHNyV...,Ismael - En Vivo,Puras de Servandozl,album,spotify:track:4dpvDZEeipCA9bbI1I6a47,0.759,0.637,8.0,-7.243,...,https://www.youtube.com/watch?v=IoyRbOojDRw,Grupo Arriesgado - Ismael (Video Oficial),Grupo Arriesgado TV,9432265.0,48220.0,683.0,,False,False,14432839.0
17312,Sech,https://open.spotify.com/artist/77ziqFxp5gaInV...,Quizas,The Academy,album,spotify:track:5Id5B3dxJZhPcV9GzgYZZe,0.727,0.815,3.0,-2.454,...,https://www.youtube.com/watch?v=0Cuwgzbejdc,"Quizás - Rich Music, Sech, Dalex ft. Justin Qu...",RichMusic LTD,201827915.0,1369266.0,15061.0,"Rich Music Presents Quizás, el nuevo sencillo ...",True,True,380312749.0


<b>a</b>. Después de aplicar la función .info(), se puede ver que la columna Licensed es del tipo "Object". Esto debe ser convertido, ya que esta columna debe ser del tipo booleano (sus valores son True y False). Lo mismo sucede para la columna "official_video".

In [275]:
spotifyYoutube.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 17247 entries, 0 to 20717
Data columns (total 27 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Artist            17247 non-null  object 
 1   Url_spotify       17247 non-null  object 
 2   Track             17247 non-null  object 
 3   Album             17247 non-null  object 
 4   Album_type        17247 non-null  object 
 5   Uri               17247 non-null  object 
 6   Danceability      17247 non-null  float64
 7   Energy            17247 non-null  float64
 8   Key               17247 non-null  float64
 9   Loudness          17247 non-null  float64
 10  Speechiness       17247 non-null  float64
 11  Acousticness      17247 non-null  float64
 12  Instrumentalness  17247 non-null  float64
 13  Liveness          17247 non-null  float64
 14  Valence           17247 non-null  float64
 15  Tempo             17247 non-null  float64
 16  Duration_ms       17247 non-null  float6

<b>b</b>. Este cambio de formato lo realizo con la siguiente celda de código:

In [33]:
spotifyYoutube['Licensed'] = spotifyYoutube['Licensed'].astype(bool)
spotifyYoutube['official_video'] = spotifyYoutube['official_video'].astype(bool)
spotifyYoutube.info()

<b>c.</b> En la siguiente linea de código se pueden observar los valores faltantes en el conjunto de datos.

In [46]:
spotifyYoutube.isna().sum().sort_values(ascending=False)

Description         876
Stream              576
Comments            569
Likes               541
Views               470
Channel             470
Title               470
Url_youtube         470
Instrumentalness      2
Duration_ms           2
Tempo                 2
Valence               2
Liveness              2
Acousticness          2
Speechiness           2
Loudness              2
Key                   2
Energy                2
Danceability          2
Url_spotify           0
Uri                   0
Album_type            0
Album                 0
Track                 0
Licensed              0
official_video        0
Artist                0
dtype: int64

## <center>2. Identificación y tratamiento de valores nulos</center>

Anteriormente se vio que hay:
- 876 valores nulos en la columna "Description"
- 576 valores nulos en la columna "Streams"
- 569 valores nulos en la columna "Comments"
- 541 valores nulos en la columna "Likes"
- 470 valores nulos en columnas: "Views", "Channel", "Title" y "Url_youtube".

<p> Para las columnas "<b>Description</b>", "<b>Channel</b>" y "<b>Url_youtube</b>", voy a hacer un rellenado de valores nulos. Esto es debido a que son del tipo objeto, que contiene cadenas de caracteres. Estas columnas son poco probables de ser relevantes para un análisis.</p>

<p> Para el caso de "<b>Stream</b>", "<b>Comments</b>", "<b>Likes</b>" y "<b>Views</b>", he decidido quitar los valores nulos. Esto es debido a que imputar los datos no seria correcto, ya que hay un rango muy alto de variabilidad en los datos y no representarian correctamente los datos. Debido al tamaño de los datos (20718 entradas) se puede prescindir de las entradas donde el número de "Streams" sea nulo.</p>


<b>a</b>. Rellenado de las columnas "Description", "Channel" y "Url_youtube"
<p>&nbsp;En la siguiente linea rellene los valores nulos en estas columnas con el valor "No disponible." para evitar la perdida innecesaria de entradas en otras variables que podrían resultar de utilidad.</p>

In [70]:
spotifyYoutube[['Description', 'Channel', 'Url_youtube']] = spotifyYoutube[['Description', 'Channel', 'Url_youtube']].fillna("No disponible.")
spotifyYoutube.isna().sum().sort_values(ascending=False).head(10)

Stream              576
Comments            569
Likes               541
Views               470
Title               470
Acousticness          2
Duration_ms           2
Tempo                 2
Valence               2
Instrumentalness      2
dtype: int64

<p><b>b.</b> Quitando las entradas nulas en las columnas cuantitativas "Stream", "Comments", "Likes" y "Views", junto a la variable categorica "Title".</p>

 <p>&nbsp;Ahora que rellene los valores nulos para estás filas, puedo quitar las entradas con un valor NaN en estas otras columnas. En estas variables no es conveniente imputar con media o mediana ya que no seria una representación exacta, y considero que seria más eficiente remover los valores, ya que por el tamaño de los datos, estos valores representan aproximadamente un 3.12%, lo cual es un porcentaje de los datos de los que se puede prescindir.</p>
 <p>&nbsp;También decidi quitar los titulos nulos, ya que esto puede indicar una entrada de baja calidad en la que no se puede confiar en los valores en otras variables.</p>

In [87]:
spotifyYoutube = spotifyYoutube.dropna()
spotifyYoutube.shape

(19549, 27)

<b>c.</b> Con esto ya elimine los valores nulos y el tamaño del conjunto de datos paso de 20718 a 19549, aprox. un 96.88% de los datos brutos.

## <center>3. Manejo de duplicados: buscar y eliminar valores duplicados.</center>

<p>Para detectar valores duplicados, puedo considerar que lógicamente hay ciertos valores en ciertas variables que no se pueden repetir. En el caso de este conjunto de datos, la variable única es <b>Uri</b>. En casos de titulo de la canción (Track) o de video (Youtube) es posible que existan canciones con el mismo titulo pero de distinto autor. </p>

> Uri: Un identificador unico de los recursos de Spotify utilizado para encontrar la canción a través de la API.

<p>En el caso de las Url, puedo también considerar la columna "Url_youtube" para encontrar valores repetidos. En el caso de la columna "Url_spotify", esta repite sus valores ya que no es el enlace a la canción sino al/los artista/s en Spotify.</p>

> Previamente rellene valores nulos en "Url_youtube" con el valor "No disponible."

### Duplicados por URI (Spotify) y URLs de Youtube

<p><b>a</b>. Con la siguiente celda puedo ver las diferencias entre el número total de entradas y el número de URIs o URLs que <b>no</b> se repiten. Esto es para darme una idea de cúantos valores tienen el potenciar de estar duplicados, triplicados o más.</p>

In [118]:
print(f"Tamaño del conjunto de datos:\n· Entradas: {spotifyYoutube.shape[0]}\n· Columnas: {spotifyYoutube.shape[1]}\n")
print("Número de URIs únicas:", spotifyYoutube['Uri'].nunique())
print("Número de URL's unicas de Youtube:", spotifyYoutube['Url_youtube'].nunique())

Tamaño del conjunto de datos:
· Entradas: 19549
· Columnas: 27

Número de URIs únicas: 17831
Número de URL's unicas de Youtube: 17540


<b>b</b>. Voy a explorar más en el caso de los duplicados en la columna "Uri".

In [161]:
n_uri_duplicados = spotifyYoutube[spotifyYoutube.duplicated(subset=['Uri'], keep=False)]
n_uri_duplicados_unicos = spotifyYoutube[spotifyYoutube.duplicated(subset=['Uri'], keep=False)]['Uri'].nunique()

print(f"Número de duplicados en base a la URI: {n_uri_duplicados.shape[0]}")
print(f"Número de URI's únicos que se repitieron: {n_uri_duplicados_unicos}")

Número de duplicados en base a la URI: 3066
Número de URI's únicos que se repitieron: 1348


<p>&nbsp;Podemos ver que existe una discrepancia entre el número total de duplicados (3066) y el número de URIs únicas que se repiten al menos una vez (1348). Esto sugiere que hay algunas URIs que se repiten más de dos veces. </p>
 
 > En otras palabras, esto puede deberse a que algunas canciones tengan más de dos entradas duplicadas en el conjunto de datos.
 
 <p>&nbsp;<b>c</b>.  Para analizar esto, voy a hacer un conteo de los valores de Uri's y ver la cantidad de repeticiones que hay de estas:</p> 

In [166]:
numero_uris = spotifyYoutube['Uri'].value_counts()
print("Conteo de ocurrencias por URI:")
print(numero_uris.head(20))

Conteo de ocurrencias por URI:
spotify:track:0tzixmHNQfE6S6SirSToxW    23
spotify:track:3eSJmGWqoBRx5wbFCtvPtz    19
spotify:track:0XFQb7pNfT90A7fRxjMWgz     9
spotify:track:5iis9J2sptrUy0VIpFVIg1     9
spotify:track:1MhHomaXgrPMBroXkpWSSa     9
spotify:track:1FSYDJAlyHAabWhiGgYfDq     9
spotify:track:3FifroUyur8j5mTM78WuXQ     7
spotify:track:7qoIhutxU269Zqo9PG5IOj     7
spotify:track:114xlNyBqwTIkOdrU8LajN     7
spotify:track:2xebCnKCjYWBhJ4Ai8hO5E     6
spotify:track:0CtZpaOhtzvLV3FfcsVpQo     6
spotify:track:7Hm5FQw1NQtfnTI7JUExaP     5
spotify:track:6FAYpZ4jve8vpvTwUvjK6H     5
spotify:track:0vcJzE2LuNY9aoq2hdMjHZ     5
spotify:track:1uzkWkIaWaxzHJgJ4Fy5rO     5
spotify:track:4phvdPGXE8MGXsTBhqB5ht     5
spotify:track:2nBI3iWLhupR7LyAJ5GGkE     5
spotify:track:5geU4byUA1hnQofQPOsPDS     5
spotify:track:0HEC0KkDwxtucNsufufCys     5
spotify:track:7lzfMZak2HjNPXXSxksjPB     5
Name: Uri, dtype: int64


Se puede ver que incluso existen entradas que se repiten <b>23</b> y <b>19</b> veces.

In [167]:
spotifyYoutube[spotifyYoutube['Uri'] == "spotify:track:0tzixmHNQfE6S6SirSToxW"]

Unnamed: 0,Artist,Url_spotify,Track,Album,Album_type,Uri,Danceability,Energy,Key,Loudness,...,Url_youtube,Title,Channel,Views,Likes,Comments,Description,Licensed,official_video,Stream
759,Alejandro Sanz,https://open.spotify.com/artist/5sUrlPAHlS9NEi...,El Ultimo Adiós - Varios Artistas Version,El Ultimo Adiós,single,spotify:track:0tzixmHNQfE6S6SirSToxW,0.276,0.572,1.0,-7.818,...,https://www.youtube.com/watch?v=zxG1Yj1Si58,Varios Artistas Latinos - EL Ultimo Adios,Catheleya R,764831.0,5730.0,472.0,Video con varios artistas haciendole tributo a...,False,False,169769959.0
809,Christina Aguilera,https://open.spotify.com/artist/1l7ZsJRRS8wlW3...,El Ultimo Adiós - Varios Artistas Version,El Ultimo Adiós,single,spotify:track:0tzixmHNQfE6S6SirSToxW,0.276,0.572,1.0,-7.818,...,https://www.youtube.com/watch?v=xzFhO4PaIbw,Christina Aguilera ft Varios Artistas - El Ult...,jesus sanchez,8605.0,118.0,7.0,Tributo A Las Victimas Del 11 De Septiembre De...,False,False,169769959.0
900,Alejandro Fernández,https://open.spotify.com/artist/6sq1yF0OZEWA4x...,El Ultimo Adiós - Varios Artistas Version,El Ultimo Adiós,single,spotify:track:0tzixmHNQfE6S6SirSToxW,0.276,0.572,1.0,-7.818,...,https://www.youtube.com/watch?v=zxG1Yj1Si58,Varios Artistas Latinos - EL Ultimo Adios,Catheleya R,764831.0,5730.0,472.0,Video con varios artistas haciendole tributo a...,False,False,169769959.0
1148,Luis Fonsi,https://open.spotify.com/artist/4V8Sr092TqfHkf...,El Ultimo Adiós - Varios Artistas Version,El Ultimo Adiós,single,spotify:track:0tzixmHNQfE6S6SirSToxW,0.276,0.572,1.0,-7.818,...,https://www.youtube.com/watch?v=z8ZFZD3fuJU,EL ULTIMO ADIOS Ricky Martin Alejandro Sanz Th...,Liannishabana,129107.0,973.0,107.0,,False,False,169769959.0
1247,José José,https://open.spotify.com/artist/4mN0qcMxWX8oTo...,El Ultimo Adiós - Varios Artistas Version,El Ultimo Adiós,single,spotify:track:0tzixmHNQfE6S6SirSToxW,0.276,0.572,1.0,-7.818,...,https://www.youtube.com/watch?v=zxG1Yj1Si58,Varios Artistas Latinos - EL Ultimo Adios,Catheleya R,764831.0,5730.0,472.0,Video con varios artistas haciendole tributo a...,False,False,169769959.0
1257,Los Tigres Del Norte,https://open.spotify.com/artist/3hYtANQYrE6pd2...,El Ultimo Adiós - Varios Artistas Version,El Ultimo Adiós,single,spotify:track:0tzixmHNQfE6S6SirSToxW,0.276,0.572,1.0,-7.818,...,https://www.youtube.com/watch?v=zxG1Yj1Si58,Varios Artistas Latinos - EL Ultimo Adios,Catheleya R,764831.0,5730.0,472.0,Video con varios artistas haciendole tributo a...,False,False,169769959.0
1297,Ricky Martin,https://open.spotify.com/artist/7slfeZO9LsJbWg...,El Ultimo Adiós - Varios Artistas Version,El Ultimo Adiós,single,spotify:track:0tzixmHNQfE6S6SirSToxW,0.276,0.572,1.0,-7.818,...,https://www.youtube.com/watch?v=zxG1Yj1Si58,Varios Artistas Latinos - EL Ultimo Adios,Catheleya R,764831.0,5730.0,472.0,Video con varios artistas haciendole tributo a...,False,False,169769959.0
1308,Jennifer Lopez,https://open.spotify.com/artist/2DlGxzQSjYe5N6...,El Ultimo Adiós - Varios Artistas Version,El Ultimo Adiós,single,spotify:track:0tzixmHNQfE6S6SirSToxW,0.276,0.572,1.0,-7.818,...,https://www.youtube.com/watch?v=zxG1Yj1Si58,Varios Artistas Latinos - EL Ultimo Adios,Catheleya R,764831.0,5730.0,472.0,Video con varios artistas haciendole tributo a...,False,False,169769959.0
1367,Marco Antonio Solís,https://open.spotify.com/artist/3tJnB0s6c3oXPq...,El Ultimo Adiós - Varios Artistas Version,El Ultimo Adiós,single,spotify:track:0tzixmHNQfE6S6SirSToxW,0.276,0.572,1.0,-7.818,...,https://www.youtube.com/watch?v=zxG1Yj1Si58,Varios Artistas Latinos - EL Ultimo Adios,Catheleya R,764831.0,5730.0,472.0,Video con varios artistas haciendole tributo a...,False,False,169769959.0
2316,Chayanne,https://open.spotify.com/artist/1JbemQ1fPt2YmS...,El Ultimo Adiós - Varios Artistas Version,El Ultimo Adiós,single,spotify:track:0tzixmHNQfE6S6SirSToxW,0.276,0.572,1.0,-7.818,...,https://www.youtube.com/watch?v=z8ZFZD3fuJU,EL ULTIMO ADIOS Ricky Martin Alejandro Sanz Th...,Liannishabana,129107.0,973.0,107.0,,False,False,169769959.0


In [169]:
spotifyYoutube[spotifyYoutube['Uri'] == "spotify:track:0tzixmHNQfE6S6SirSToxW"]['Track']

759     El Ultimo Adiós - Varios Artistas Version
809     El Ultimo Adiós - Varios Artistas Version
900     El Ultimo Adiós - Varios Artistas Version
1148    El Ultimo Adiós - Varios Artistas Version
1247    El Ultimo Adiós - Varios Artistas Version
1257    El Ultimo Adiós - Varios Artistas Version
1297    El Ultimo Adiós - Varios Artistas Version
1308    El Ultimo Adiós - Varios Artistas Version
1367    El Ultimo Adiós - Varios Artistas Version
2316    El Ultimo Adiós - Varios Artistas Version
2356    El Ultimo Adiós - Varios Artistas Version
2726    El Ultimo Adiós - Varios Artistas Version
2895    El Ultimo Adiós - Varios Artistas Version
3195    El Ultimo Adiós - Varios Artistas Version
3315    El Ultimo Adiós - Varios Artistas Version
3335    El Ultimo Adiós - Varios Artistas Version
4304    El Ultimo Adiós - Varios Artistas Version
4882    El Ultimo Adiós - Varios Artistas Version
5182    El Ultimo Adiós - Varios Artistas Version
5672    El Ultimo Adiós - Varios Artistas Version


<p>&nbsp;Cómo ejemplo, para detectar el motivo del error de los duplicados, tome el URI que más veces se repitio.</p>
<ol>
    <li>Podemos ver que se trata de la misma composición: "<b>El Ultimo Adiós - Varios Artistas Version</b>"</li>
    <li>Las metricas y variables se repiten en su mayoria, pero lo que cambia es la URL de videos de Youtube y las caracteristicas de este: número de comentarios, Url_youtube, Canal, Official_video, etc.</li>
    <li>Podemos ver que el error es debido a que hay entradas para cada artista que participo de la composición.</li>
   
</ol>

> Esta canción fue compuesta en tributo a las victimas de los ataques del 11 de septiembre de 2001, y colaboraron distintos artistas.


Podemos analizar también la siguiente Uri repetida (19 veces), para ver si este es un caso similar de colaboración.

In [170]:
spotifyYoutube[spotifyYoutube['Uri'] == "spotify:track:3eSJmGWqoBRx5wbFCtvPtz"]

Unnamed: 0,Artist,Url_spotify,Track,Album,Album_type,Uri,Danceability,Energy,Key,Loudness,...,Url_youtube,Title,Channel,Views,Likes,Comments,Description,Licensed,official_video,Stream
178,Nicky Jam,https://open.spotify.com/artist/1SupJlEpv7RS2t...,Color Esperanza 2020,Color Esperanza 2020,single,spotify:track:3eSJmGWqoBRx5wbFCtvPtz,0.591,0.785,9.0,-7.768,...,https://www.youtube.com/watch?v=GqOvxbFLwjY,Color Esperanza 2020 - Various Artists (Offici...,Latin Waves,24706293.0,557112.0,17598.0,Color Esperanza 2020 - Various Artists (Offici...,False,False,89466323.0
388,Camilo,https://open.spotify.com/artist/28gNT5KBp7IjEO...,Color Esperanza 2020,Color Esperanza 2020,single,spotify:track:3eSJmGWqoBRx5wbFCtvPtz,0.591,0.785,9.0,-7.768,...,https://www.youtube.com/watch?v=GqOvxbFLwjY,Color Esperanza 2020 - Various Artists (Offici...,Latin Waves,24706293.0,557112.0,17598.0,Color Esperanza 2020 - Various Artists (Offici...,False,False,89466323.0
408,Farruko,https://open.spotify.com/artist/329e4yvIujISKG...,Color Esperanza 2020,Color Esperanza 2020,single,spotify:track:3eSJmGWqoBRx5wbFCtvPtz,0.591,0.785,9.0,-7.768,...,https://www.youtube.com/watch?v=GqOvxbFLwjY,Color Esperanza 2020 - Various Artists (Offici...,Latin Waves,24706293.0,557112.0,17598.0,Color Esperanza 2020 - Various Artists (Offici...,False,False,89466323.0
2896,Thalia,https://open.spotify.com/artist/23wEWD21D4TPYi...,Color Esperanza 2020,Color Esperanza 2020,single,spotify:track:3eSJmGWqoBRx5wbFCtvPtz,0.591,0.785,9.0,-7.768,...,https://www.youtube.com/watch?v=GqOvxbFLwjY,Color Esperanza 2020 - Various Artists (Offici...,Latin Waves,24706304.0,557112.0,17598.0,Color Esperanza 2020 - Various Artists (Offici...,False,False,89466323.0
4852,Ivete Sangalo,https://open.spotify.com/artist/7dzq55YG3wjViq...,Color Esperanza 2020,Color Esperanza 2020,single,spotify:track:3eSJmGWqoBRx5wbFCtvPtz,0.591,0.785,9.0,-7.768,...,https://www.youtube.com/watch?v=GqOvxbFLwjY,Color Esperanza 2020 - Various Artists (Offici...,Latin Waves,24706323.0,557112.0,17598.0,Color Esperanza 2020 - Various Artists (Offici...,False,False,89466323.0
6301,Diego Torres,https://open.spotify.com/artist/0LALueHEQunQ2d...,Color Esperanza 2020,Color Esperanza 2020,single,spotify:track:3eSJmGWqoBRx5wbFCtvPtz,0.591,0.785,9.0,-7.768,...,https://www.youtube.com/watch?v=Nb1VOQRs-Vs,Diego Torres - Color Esperanza (Official Video),diegotorresVEVO,132308796.0,664376.0,25534.0,Diego Torres - Color Esperanza (Official Video...,True,True,89466323.0
7617,Rubén Blades,https://open.spotify.com/artist/5BwMgvRwlq61Sm...,Color Esperanza 2020,Color Esperanza 2020,single,spotify:track:3eSJmGWqoBRx5wbFCtvPtz,0.591,0.785,9.0,-7.768,...,https://www.youtube.com/watch?v=GqOvxbFLwjY,Color Esperanza 2020 - Various Artists (Offici...,Latin Waves,24706327.0,557111.0,17598.0,Color Esperanza 2020 - Various Artists (Offici...,False,False,89466323.0
8190,Carlos Vives,https://open.spotify.com/artist/4vhNDa5ycK0ST9...,Color Esperanza 2020,Color Esperanza 2020,single,spotify:track:3eSJmGWqoBRx5wbFCtvPtz,0.591,0.785,9.0,-7.768,...,https://www.youtube.com/watch?v=GqOvxbFLwjY,Color Esperanza 2020 - Various Artists (Offici...,Latin Waves,24706327.0,557111.0,17598.0,Color Esperanza 2020 - Various Artists (Offici...,False,False,89466323.0
10833,Kany García,https://open.spotify.com/artist/69UypehHabb68u...,Color Esperanza 2020,Color Esperanza 2020,single,spotify:track:3eSJmGWqoBRx5wbFCtvPtz,0.591,0.785,9.0,-7.768,...,https://www.youtube.com/watch?v=GqOvxbFLwjY,Color Esperanza 2020 - Various Artists (Offici...,Latin Waves,24706323.0,557111.0,17598.0,Color Esperanza 2020 - Various Artists (Offici...,False,False,89466323.0
12190,Camila,https://open.spotify.com/artist/2gRP1Ezbtj3qrE...,Color Esperanza 2020,Color Esperanza 2020,single,spotify:track:3eSJmGWqoBRx5wbFCtvPtz,0.591,0.785,9.0,-7.768,...,https://www.youtube.com/watch?v=GqOvxbFLwjY,Color Esperanza 2020 - Various Artists (Offici...,Latin Waves,24706325.0,557111.0,17598.0,Color Esperanza 2020 - Various Artists (Offici...,False,False,89466323.0


In [172]:
spotifyYoutube[spotifyYoutube['Uri'] == "spotify:track:3eSJmGWqoBRx5wbFCtvPtz"]['Track']

178      Color Esperanza 2020
388      Color Esperanza 2020
408      Color Esperanza 2020
2896     Color Esperanza 2020
4852     Color Esperanza 2020
6301     Color Esperanza 2020
7617     Color Esperanza 2020
8190     Color Esperanza 2020
10833    Color Esperanza 2020
12190    Color Esperanza 2020
12199    Color Esperanza 2020
12249    Color Esperanza 2020
13169    Color Esperanza 2020
13330    Color Esperanza 2020
14636    Color Esperanza 2020
15838    Color Esperanza 2020
16868    Color Esperanza 2020
18614    Color Esperanza 2020
18970    Color Esperanza 2020
Name: Track, dtype: object

<p>&nbsp;Vemos que el motivo por el que se repite se debe a un caso similar. La canción "<b>Color Esperanza</b>" de 2020, conto con la participación de distintos artistas y tuvo por objetivo la recaudación de fondos destinados a donarse a la Organización Panamericana de Salud (OPS).</p>

<p>Hay entradas repetidas para la misma canción debido a que varia el número de enlaces a Youtube, las reproducciones, comentarios, likes en Youtube, y demás.</p>

<b>d</b>. Se puede ver que unos casos donde se repite la misma entrada para la misma canción es el hecho de que hayan más de un artista que participo en esa composición. Debido a esto, hay distintas Url para Youtube y Spotify. Los artistas tienen la misma canción pero desde su página en Spotify, y lo mismo puede pasar en Youtube.

<p>&nbsp;Para quitar los valores duplicados (repetidos una o más veces), voy a usar el Uri cómo referencia. <b>Esto va a afectar a la columna "Artist"</b>. Ahora, en lugar de haber multiples artistas para esta canción solo va a haber uno, y este dato <b>no</b> representa correctamente a la composición con varios artistas. Por ejemplo, para la canción "Color Esperanza" solo va a quedar el primer resultado, siendo el artista: <i>Nicky Jam</i>. </p>

<p>&nbsp; Pero considerando el contexto y el uso probable que se le va a dar a los datos (análizar datos cuantitavios en lugar de tomar en cuenta la columna "Artist"), va a ser más una elección eficaz realizar este procedimiento.</p>

<p>&nbsp; Para esto voy a usar la función "drop_duplicates"</p>

In [175]:
spotifyYoutube = spotifyYoutube.drop_duplicates(subset=['Uri'])

<p>&nbsp;Entonces ahora el resultado es de 17831 entradas con Uri's únicas. Con esto ya puedo decir que elimine las entradas con Uri's duplicados o repetidos más de una vez.</p>

In [183]:
print("Número de entradas:", spotifyYoutube.shape[0], "\n")
print(spotifyYoutube['Uri'].value_counts().head())

Número de entradas: 17831 

spotify:track:0d28khcov6AiegSCpG5TuT    1
spotify:track:6NqfslFfCCOyBQ0Xw8kN8E    1
spotify:track:3NAJl5Y7R0f82eGmWfJDnJ    1
spotify:track:1LiFDElPVZgMGrUIbJd55m    1
spotify:track:0ePiYPlCq3dhwfAjUttjT2    1
Name: Uri, dtype: int64


In [184]:
spotifyYoutube[spotifyYoutube['Uri'] == "spotify:track:3eSJmGWqoBRx5wbFCtvPtz"]

Unnamed: 0,Artist,Url_spotify,Track,Album,Album_type,Uri,Danceability,Energy,Key,Loudness,...,Url_youtube,Title,Channel,Views,Likes,Comments,Description,Licensed,official_video,Stream
178,Nicky Jam,https://open.spotify.com/artist/1SupJlEpv7RS2t...,Color Esperanza 2020,Color Esperanza 2020,single,spotify:track:3eSJmGWqoBRx5wbFCtvPtz,0.591,0.785,9.0,-7.768,...,https://www.youtube.com/watch?v=GqOvxbFLwjY,Color Esperanza 2020 - Various Artists (Offici...,Latin Waves,24706293.0,557112.0,17598.0,Color Esperanza 2020 - Various Artists (Offici...,False,False,89466323.0


### Duplicados por titulo de video (Youtube)

<p>&nbsp;&nbsp;&nbsp;&nbsp;Hay otro dato con el que se puede encontrar entradas duplicadas. La variable "Title" contiene el titulo para el video en Youtube (oficial o no) de esa misma canción/URI única. Esto puede deberse debido a que se coloco (erroneamente) un solo URL de video para canciones distintas. Después de haber quitado los valores duplicados en URI's, las canciones siguen teniendo sus datos de Spotify correctos (Stream, Instruments, Key, etc).</p>

<p>&nbsp;Si dejo estos valores duplicados, el problema es que las entradas <b>tienen valores incorrectos</b> en las columnas relacionadas a su video en Youtube: Views, Likes, Comments. Esto es un problema de consistencia de datos que puede sesgar la idea verdadera: estas métricas <b>se rellenaron con el valor del video de otra canción</b></p>

In [243]:
spotifyYoutube['Title'].value_counts().sort_values(ascending=False).head(5)

Earth, Wind & Fire - September (Official HD Video)                                       10
Dimitri Vegas & Like Mike | Live At Tomorrowland 2022 Mainstage (FULL SET HD)            10
Rain Thunder Sounds 10 Hours [Sleep Fruits Music] Relaxing, Meditation, Help Insomnia    10
Zezé Di Camargo & Luciano - Fui Eu (Ao Vivo)                                             10
Kool & The Gang - Cherish                                                                10
Name: Title, dtype: int64

<p>&nbsp; Podemos ver entonces que se repite el mismo titulo de video, y por consecuencia, el mismo número de Likes, Views y Comments en Youtube, para 10 canciones distintas.</p>
<p>Tomando como ejemplo el primer resultado: la canción "September" de la banda "Earth, Wind & Fire":</p>

In [245]:
spotifyYoutube[spotifyYoutube['Title']=="Earth, Wind & Fire - September (Official HD Video)"].head(5)

Unnamed: 0,Artist,Url_spotify,Track,Album,Album_type,Uri,Danceability,Energy,Key,Loudness,...,Url_youtube,Title,Channel,Views,Likes,Comments,Description,Licensed,official_video,Stream
1617,"Earth, Wind & Fire",https://open.spotify.com/artist/4QQgXkCYTt3BlE...,September,"The Best Of Earth, Wind & Fire Vol. 1",compilation,spotify:track:2grjqo0Frpf2okIBiifQKs,0.697,0.832,9.0,-7.264,...,https://www.youtube.com/watch?v=Gs069dndIYk,"Earth, Wind & Fire - September (Official HD Vi...",EarthWindandFireVEVO,641407658.0,4804872.0,305112.0,"Official HD video for ""September"" by Earth, Wi...",True,True,1197922000.0
1618,"Earth, Wind & Fire",https://open.spotify.com/artist/4QQgXkCYTt3BlE...,Let's Groove,Raise!,album,spotify:track:3koCCeSaVUyrRo3N2gHrd8,0.869,0.648,11.0,-8.698,...,https://www.youtube.com/watch?v=Gs069dndIYk,"Earth, Wind & Fire - September (Official HD Vi...",EarthWindandFireVEVO,641407658.0,4804872.0,305112.0,"Official HD video for ""September"" by Earth, Wi...",True,True,430077700.0
1619,"Earth, Wind & Fire",https://open.spotify.com/artist/4QQgXkCYTt3BlE...,Boogie Wonderland,I Am,album,spotify:track:6ztstiyZL6FXzh4aG46ZPD,0.802,0.756,2.0,-10.791,...,https://www.youtube.com/watch?v=Gs069dndIYk,"Earth, Wind & Fire - September (Official HD Vi...",EarthWindandFireVEVO,641407658.0,4804872.0,305112.0,"Official HD video for ""September"" by Earth, Wi...",True,True,343817800.0
1620,"Earth, Wind & Fire",https://open.spotify.com/artist/4QQgXkCYTt3BlE...,After the Love Has Gone,I Am,album,spotify:track:3cfnGXJ9bmiWvFqEO6ff8B,0.424,0.443,6.0,-13.45,...,https://www.youtube.com/watch?v=Gs069dndIYk,"Earth, Wind & Fire - September (Official HD Vi...",EarthWindandFireVEVO,641407658.0,4804872.0,305112.0,"Official HD video for ""September"" by Earth, Wi...",True,True,112553100.0
1621,"Earth, Wind & Fire",https://open.spotify.com/artist/4QQgXkCYTt3BlE...,Fantasy,"The Best Of Earth, Wind & Fire Vol. 1",compilation,spotify:track:0Eq4BMgsdV6DkLSJfX8eBt,0.666,0.714,4.0,-9.448,...,https://www.youtube.com/watch?v=Gs069dndIYk,"Earth, Wind & Fire - September (Official HD Vi...",EarthWindandFireVEVO,641407658.0,4804872.0,305112.0,"Official HD video for ""September"" by Earth, Wi...",True,True,110570400.0


<p>Se puede ver que es el mismo artista, pero las canciones (Track y Uri) son distintas. El problema de mantener estos valores es que el número de Views, Likes, y Comments esta repetido. Esto influye en la correlación que pudiera existir entre el número de "Streams" en Spotify y el número de Views, Likes o Comments en Youtube.</p>
<p>· Dependiendo del objetivo análisis, se podría elegir distintas formas de abordar el problema. Se podria quitar los valores duplicados para que no afecte los resultados del análisis (y perder las variables de Spotify que pudieran ser de utilidad : Stream, Danceability, Energy, Key, etc) pero mantener una muestra no sesgada de la relación entre variables de Spotify con Youtube. En este ejemplo, <b>prescindiría</b> caracteristicas validas en Spotify de 9 canciones distintas de la banda "Earth, Wind & Fire"</p>

<p>Esta es la forma en la que voy a abordar el problema, voy a quitar los titulos repetidos más de una vez en la columna "Title": </p>



In [249]:
spotifyYoutube = spotifyYoutube.drop_duplicates(subset=['Title'])
spotifyYoutube[spotifyYoutube['Title']=="Earth, Wind & Fire - September (Official HD Video)"]

Unnamed: 0,Artist,Url_spotify,Track,Album,Album_type,Uri,Danceability,Energy,Key,Loudness,...,Url_youtube,Title,Channel,Views,Likes,Comments,Description,Licensed,official_video,Stream
1617,"Earth, Wind & Fire",https://open.spotify.com/artist/4QQgXkCYTt3BlE...,September,"The Best Of Earth, Wind & Fire Vol. 1",compilation,spotify:track:2grjqo0Frpf2okIBiifQKs,0.697,0.832,9.0,-7.264,...,https://www.youtube.com/watch?v=Gs069dndIYk,"Earth, Wind & Fire - September (Official HD Vi...",EarthWindandFireVEVO,641407658.0,4804872.0,305112.0,"Official HD video for ""September"" by Earth, Wi...",True,True,1197922000.0


### Pasos adicionales

En este paso quite entradas con:
- Tempo igual a cero: no pueden existir composiciones músicales con un tempo de cero.
- Duration_ms mayor a 1e6, esto es mayor a 15 minutos. Considere entradas de baja calidad las composiciones con una duración mayor a esto (playlists, white noise, etc).

In [268]:
# Me quedo con las canciones con un tempo mayor a 0
spotifyYoutube = spotifyYoutube[spotifyYoutube['Tempo'] > 0] 

# Me quedo con las canciones con una duración menor a 1e6
spotifyYoutube = spotifyYoutube[spotifyYoutube['Duration_ms'] <=1e6]

### <center>4. Análisis exploratorio y estadístico inicial. </center>

 <p>&nbsp; Ahora, con los datos ya "limpios", voy a calcular estadísticas descriptivas para una obtener una imagen inicial de los datos.

In [269]:
spotifyYoutube.describe()

Unnamed: 0,Danceability,Energy,Key,Loudness,Speechiness,Acousticness,Instrumentalness,Liveness,Valence,Tempo,Duration_ms,Views,Likes,Comments,Stream
count,17247.0,17247.0,17247.0,17247.0,17247.0,17247.0,17247.0,17247.0,17247.0,17247.0,17247.0,17247.0,17247.0,17247.0,17247.0
mean,0.620124,0.636042,5.288166,-7.562302,0.092585,0.285414,0.052912,0.18929,0.529999,121.039044,221130.95234,89625070.0,623330.0,26886.26,135270500.0
std,0.163203,0.21288,3.577312,4.429442,0.099771,0.285681,0.186344,0.161846,0.245638,29.52324,66151.090077,263498500.0,1695416.0,197759.9,241197500.0
min,0.0532,2e-05,0.0,-46.251,0.022,1e-06,0.0,0.0145,0.0,37.114,30985.0,26.0,0.0,0.0,6574.0
25%,0.516,0.506,2.0,-8.757,0.0353,0.0409,0.0,0.094,0.338,97.0255,180830.0,1828280.0,21395.0,512.5,17843090.0
50%,0.636,0.666,5.0,-6.518,0.0498,0.184,3e-06,0.124,0.535,119.986,213264.0,13831810.0,118080.0,3131.0,50340510.0
75%,0.74,0.799,8.0,-4.938,0.1015,0.469,0.000459,0.232,0.728,140.0,251467.0,66592400.0,482242.5,13512.0,138707800.0
max,0.975,1.0,11.0,0.92,0.964,0.996,0.995,1.0,0.993,243.372,975267.0,8079647000.0,50788630.0,16083140.0,3386520000.0


En el siguiente código para contar los valores únicos (y ordenar el conteo), se puede ver que:

- Hay 17247 Uri's únicas. Esto junto a los números únicos para Stream y Views indica que no se repiten entradas. Hay números en estas columnas que se repiten, lo cual es muy poco probable, pero posible y razonable.
- Hay 2030 artistas únicos mencionados, con el mismo número de enlaces a su perfil en Spotify. 

In [270]:
spotifyYoutube.nunique().sort_values(ascending=False)

Uri                 17247
Title               17247
Url_youtube         17247
Stream              17239
Views               17232
Description         16546
Likes               16410
Track               16389
Tempo               13901
Duration_ms         13634
Album               11077
Comments            10131
Loudness             8863
Channel              6353
Instrumentalness     3850
Acousticness         3077
Artist               2030
Url_spotify          2030
Liveness             1507
Valence              1273
Speechiness          1229
Energy               1213
Danceability          891
Key                    12
Album_type              3
Licensed                2
official_video          2
dtype: int64

<p>&nbsp;Se puede ver que después del procesamiento y manejo de los datos, el número de entradas en el conjunto de datos paso a ser de 17247 de los 20718 originales. Esto es un cambio aproximado del 16.75%. Dependiendo de los objetivos del análisis, se podrían tomar otras medidas para reducir la perdida de datos.</p>

In [272]:
spotifyYoutube.shape20718

(17247, 27)