# Spotify and Youtube

## Acerca del dataset

En este dataset se cuenta con información relevante sobre artistas y sus canciones en spotify y youtube, como lo son el número de reproducciones, número de vistas, likes y comentarios, además de un conjunto de características para cada canción/video (tempo, acústica, energía, etc).

## Contenido

Se incluyen las siguientes variables en el dataset:

* **Artist**: Nombre del artista o grupo/banda.
* **Url_spotify**: link de la pagina del artista en spotify.
* **Track**: Nombre de la canción en spotify.
* **Album**: Nombre del album donde se lanzó la canción.
* **Album_type**: Tipo de lanzamiento de la cación (si se lanzó en album, como single o es una compilación).
* **Uri**: identificador de la canción en spotify.
* **Danceability**: describe qué tan adecuada es una canción para bailar en función de una combinación de elementos musicales que incluyen el tempo, la estabilidad del ritmo, la fuerza del ritmo y la regularidad general. Un valor de 0.0 es el menos adecuado para bailar y 1.0 es el más adecuado para bailar.
* **Energy**: es una medida de 0.0 a 1.0 y representa una medida perceptual de intensidad y actividad. Normalmente, las canciones energéticas se sienten rápidas, fuertes y ruidosas. Por ejemplo, el death metal tiene una alta energía, mientras que un preludio de Bach tiene una puntuación baja en la escala. Los elementos perceptuales que contribuyen a esta característica incluyen el rango dinámico, la sonoridad percibida, el timbre, la tasa de inicio y la entropía general.
* **Key**: la tonalidad en la que se encuentra la canción. Los números enteros se asignan a tonos utilizando la notación estándar de clases de tono. Por ejemplo, 0 = Do, 1 = Do♯/Re♭, 2 = Re, y así sucesivamente. Si no se detecta una tonalidad, el valor es -1.
* **Loudness**:  el volumen general de una canción en decibelios (dB). Los valores de volumen se promedian en toda la canción y son útiles para comparar el volumen relativo de las canciones. El volumen es la cualidad de un sonido que es el correlato psicológico principal de la intensidad física (amplitud). Los valores generalmente oscilan entre -60 y 0 dB.
* **Speachiness**: detecta la presencia de palabras habladas en una canción. Cuanto más similar sea la grabación a un discurso exclusivamente hablado (por ejemplo, un programa de entrevistas, audiolibro, poesía), más cercano será el valor del atributo a 1.0. Los valores por encima de 0.66 describen canciones que probablemente estén compuestas completamente por palabras habladas. Los valores entre 0.33 y 0.66 describen canciones que pueden contener tanto música como palabras habladas, ya sea en secciones o superpuestas, incluyendo casos como la música rap. Los valores por debajo de 0.33 probablemente representan música y otras canciones que no se asemejan a palabras habladas.
* **Acústica**: una medida de confianza de 0.0 a 1.0 que indica si una canción es acústica. 1.0 representa alta confianza de que la canción es acústica.
* **Instrumentalness**: predice si una canción no contiene voces. Los sonidos "ooh" y "aah" se consideran instrumentales en este contexto. Las canciones de rap o palabras habladas son claramente "vocales". Cuanto más cercano sea el valor de instrumentalidad a 1.0, mayor será la probabilidad de que la canción no contenga contenido vocal. Los valores superiores a 0.5 se consideran canciones instrumentales, pero la confianza aumenta a medida que el valor se acerca a 1.0.
* **Liveness**: detecta la presencia de una audiencia en la grabación. Valores más altos de vivacidad representan una probabilidad mayor de que la canción haya sido interpretada en vivo. Un valor superior a 0.8 indica una alta probabilidad de que la canción sea en vivo.
* **Valence**: una medida de 0.0 a 1.0 que describe la positividad musical transmitida por una canción. Las canciones con una valencia alta suenan más positivas (por ejemplo, felices, alegres, eufóricas), mientras que las canciones con una valencia baja suenan más negativas (por ejemplo, tristes, deprimidas, enojadas).
* **Tempo**: el tempo estimado general de una canción en pulsaciones por minuto (BPM). En términos musicales, el tempo es la velocidad o ritmo de una pieza y se deriva directamente de la duración promedio del pulso.
* **Duratioin_ms**: duración de la canción en milisegundos.
* **Url_youtube**: link del video en youtube.
* **Title**: Título del video en youtube.
* **Channel**: Nombre del canal de youtube donde se cargó el video.
* **Views**: Vistas del video en youtube.
* **Likes**: Número de "me gusta" que tiene el video en youtube.
* **Comments**: Número de comentarios con que cuenta el video en youtube.
* **Description**: Descripción general del video en youtube.
* **Licensed**: Variable que nos indica si el video cuenta con licencia o no.
* **official_video**: Variable que nos indica si el video es oficial o no.
* **Stream**: Número de reproducciones de la canción en spotify.

## Objetivo

Con esta información se busca elaborar un análisis exploratorio de los datos identificando las tendencias y mostrando la información importante en un resumen visual que sea fácil de identificar para cualquier persona.

## Preparar

Comenzamos por importar las librerías que vamos a utilizar, pandas y numpy en este caso, y cargamos el dataset para visualizar los datos.

In [88]:
import pandas as pd
import numpy as np

In [89]:
data = pd.read_csv('Spotify_Youtube.csv')
pd.set_option('display.max_columns', 30)    #Aumentamos el máximo de columnas a 30 para visualizarlas todas.
data.head()

Unnamed: 0.1,Unnamed: 0,Artist,Url_spotify,Track,Album,Album_type,Uri,Danceability,Energy,Key,Loudness,Speechiness,Acousticness,Instrumentalness,Liveness,Valence,Tempo,Duration_ms,Url_youtube,Title,Channel,Views,Likes,Comments,Description,Licensed,official_video,Stream
0,0,Gorillaz,https://open.spotify.com/artist/3AA28KZvwAUcZu...,Feel Good Inc.,Demon Days,album,spotify:track:0d28khcov6AiegSCpG5TuT,0.818,0.705,6.0,-6.679,0.177,0.00836,0.00233,0.613,0.772,138.559,222640.0,https://www.youtube.com/watch?v=HyHNuVaZJ-k,Gorillaz - Feel Good Inc. (Official Video),Gorillaz,693555221.0,6220896.0,169907.0,Official HD Video for Gorillaz' fantastic trac...,True,True,1040235000.0
1,1,Gorillaz,https://open.spotify.com/artist/3AA28KZvwAUcZu...,Rhinestone Eyes,Plastic Beach,album,spotify:track:1foMv2HQwfQ2vntFf9HFeG,0.676,0.703,8.0,-5.815,0.0302,0.0869,0.000687,0.0463,0.852,92.761,200173.0,https://www.youtube.com/watch?v=yYDmaexVHic,Gorillaz - Rhinestone Eyes [Storyboard Film] (...,Gorillaz,72011645.0,1079128.0,31003.0,The official video for Gorillaz - Rhinestone E...,True,True,310083700.0
2,2,Gorillaz,https://open.spotify.com/artist/3AA28KZvwAUcZu...,New Gold (feat. Tame Impala and Bootie Brown),New Gold (feat. Tame Impala and Bootie Brown),single,spotify:track:64dLd6rVqDLtkXFYrEUHIU,0.695,0.923,1.0,-3.93,0.0522,0.0425,0.0469,0.116,0.551,108.014,215150.0,https://www.youtube.com/watch?v=qJa-VFwPpYA,Gorillaz - New Gold ft. Tame Impala & Bootie B...,Gorillaz,8435055.0,282142.0,7399.0,Gorillaz - New Gold ft. Tame Impala & Bootie B...,True,True,63063470.0
3,3,Gorillaz,https://open.spotify.com/artist/3AA28KZvwAUcZu...,On Melancholy Hill,Plastic Beach,album,spotify:track:0q6LuUqGLUiCPP1cbdwFs3,0.689,0.739,2.0,-5.81,0.026,1.5e-05,0.509,0.064,0.578,120.423,233867.0,https://www.youtube.com/watch?v=04mfKJWDSzI,Gorillaz - On Melancholy Hill (Official Video),Gorillaz,211754952.0,1788577.0,55229.0,Follow Gorillaz online:\nhttp://gorillaz.com \...,True,True,434663600.0
4,4,Gorillaz,https://open.spotify.com/artist/3AA28KZvwAUcZu...,Clint Eastwood,Gorillaz,album,spotify:track:7yMiX7n9SBvadzox8T5jzT,0.663,0.694,10.0,-8.627,0.171,0.0253,0.0,0.0698,0.525,167.953,340920.0,https://www.youtube.com/watch?v=1V_xRb0x9aw,Gorillaz - Clint Eastwood (Official Video),Gorillaz,618480958.0,6197318.0,155930.0,The official music video for Gorillaz - Clint ...,True,True,617259700.0


Decido separar la información en diferentes tablas y así poder normalizar las tablas, la información de dividirá de la siguiente forma:

* *spotify_data*: Se mostrará el listado de las canciones con información relacionada a estas.
* *youtube_data*: Se mostrará el listado de los videos con información relacionada a estos.
* *artist*: Se mostrará el listado de artistas.
* *canal*: Se mostrará el listado de canales de youtube.
* *artist_song*: Tabla donde relacionaremos el artista con sus canciones.
* *canal_video*: Tabla donde relacionaremos el canal con el video que se haya subido a esa cuenta.


In [90]:
spotify_data = data[['Uri','Track','Album','Album_type','Stream','Danceability','Energy','Key',
                     'Loudness','Speechiness','Acousticness','Instrumentalness','Liveness','Valence','Tempo',
                     'Duration_ms']]

youtube_data = data[['Url_youtube','Title','Views','Likes','Comments','Licensed','official_video',
                'Danceability','Energy','Key','Loudness','Speechiness','Acousticness','Instrumentalness',
                'Liveness','Valence','Tempo','Duration_ms']]

artist = data[['Artist','Url_spotify']]

canal = data['Channel']

artist_song = data[['Artist','Uri']]

canal_video = data[['Channel','Url_youtube']]

# Procesar

In [91]:
spotify_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20718 entries, 0 to 20717
Data columns (total 16 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Uri               20718 non-null  object 
 1   Track             20718 non-null  object 
 2   Album             20718 non-null  object 
 3   Album_type        20718 non-null  object 
 4   Stream            20142 non-null  float64
 5   Danceability      20716 non-null  float64
 6   Energy            20716 non-null  float64
 7   Key               20716 non-null  float64
 8   Loudness          20716 non-null  float64
 9   Speechiness       20716 non-null  float64
 10  Acousticness      20716 non-null  float64
 11  Instrumentalness  20716 non-null  float64
 12  Liveness          20716 non-null  float64
 13  Valence           20716 non-null  float64
 14  Tempo             20716 non-null  float64
 15  Duration_ms       20716 non-null  float64
dtypes: float64(12), object(4)
memory usage: 

En la tabla *spotify_data* se cuentan con 20718 canciones, de las cuales solo tenemos el dato de reproducciones de 20142 registros, y de las otras características de las canciones existen dos valores nulos, procedemos a eliminar los valores nulos de esta tabla.

In [92]:
spotify_data = spotify_data.dropna()
spotify_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 20140 entries, 0 to 20717
Data columns (total 16 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Uri               20140 non-null  object 
 1   Track             20140 non-null  object 
 2   Album             20140 non-null  object 
 3   Album_type        20140 non-null  object 
 4   Stream            20140 non-null  float64
 5   Danceability      20140 non-null  float64
 6   Energy            20140 non-null  float64
 7   Key               20140 non-null  float64
 8   Loudness          20140 non-null  float64
 9   Speechiness       20140 non-null  float64
 10  Acousticness      20140 non-null  float64
 11  Instrumentalness  20140 non-null  float64
 12  Liveness          20140 non-null  float64
 13  Valence           20140 non-null  float64
 14  Tempo             20140 non-null  float64
 15  Duration_ms       20140 non-null  float64
dtypes: float64(12), object(4)
memory usage: 

Ahora procedemos a verificar si existen canciones que se repiten en el listado, tomamos la columna **Uri** como primary key ya que no pueden existir dos canciones con el mismo identificador, ya que en caso de tomar el nombre de la canción como primary key podrían existir canciones con el mismo nombre pero que en realidad son diferentes,

In [93]:
spotify_data.Uri.duplicated().sum()

1822

Se encuentran 1822 registros duplicados, donde nos podríamos encontrar los siguientes casos:

* Los registros no difieren en ninguna variable: procedemos a eliminar sin problemas.

In [94]:
spotify_data[spotify_data['Uri']=='spotify:track:00KyYtT6NaXwbPecina5Pj']

Unnamed: 0,Uri,Track,Album,Album_type,Stream,Danceability,Energy,Key,Loudness,Speechiness,Acousticness,Instrumentalness,Liveness,Valence,Tempo,Duration_ms
12829,spotify:track:00KyYtT6NaXwbPecina5Pj,Famous Friends,Famous Friends,album,125989578.0,0.535,0.859,6.0,-2.922,0.0344,0.0528,0.0,0.32,0.698,102.008,166507.0
17542,spotify:track:00KyYtT6NaXwbPecina5Pj,Famous Friends,Famous Friends,album,125989578.0,0.535,0.859,6.0,-2.922,0.0344,0.0528,0.0,0.32,0.698,102.008,166507.0


* Los registros difieren en la variable de reproducciones: se mantendrá solo el registro donde sea mayor el valor de reproducciones.

In [95]:
spotify_data[spotify_data['Uri']=='spotify:track:2qEoAz0i6yEz5dPggABcLH']

Unnamed: 0,Uri,Track,Album,Album_type,Stream,Danceability,Energy,Key,Loudness,Speechiness,Acousticness,Instrumentalness,Liveness,Valence,Tempo,Duration_ms
11779,spotify:track:2qEoAz0i6yEz5dPggABcLH,Una Vaina Loca,Una Vaina Loca,single,240089658.0,0.811,0.588,1.0,-3.161,0.0464,0.128,0.0004,0.0929,0.553,107.022,226187.0
15951,spotify:track:2qEoAz0i6yEz5dPggABcLH,Una Vaina Loca,Una Vaina Loca,single,165747529.0,0.811,0.588,1.0,-3.161,0.0464,0.128,0.0004,0.0929,0.553,107.022,226187.0
18611,spotify:track:2qEoAz0i6yEz5dPggABcLH,Una Vaina Loca,Una Vaina Loca,single,165747529.0,0.811,0.588,1.0,-3.161,0.0464,0.128,0.0004,0.0929,0.553,107.022,226187.0


Para hacer esto, ordenaremos lo datos en orden descendente por la columna **Stream** y despues eliminamos los duplicados.

In [96]:
spotify_data = spotify_data.sort_values('Stream', ascending=False)
spotify_data = spotify_data.drop_duplicates(subset='Uri', keep='first')
spotify_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 18318 entries, 15250 to 8701
Data columns (total 16 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Uri               18318 non-null  object 
 1   Track             18318 non-null  object 
 2   Album             18318 non-null  object 
 3   Album_type        18318 non-null  object 
 4   Stream            18318 non-null  float64
 5   Danceability      18318 non-null  float64
 6   Energy            18318 non-null  float64
 7   Key               18318 non-null  float64
 8   Loudness          18318 non-null  float64
 9   Speechiness       18318 non-null  float64
 10  Acousticness      18318 non-null  float64
 11  Instrumentalness  18318 non-null  float64
 12  Liveness          18318 non-null  float64
 13  Valence           18318 non-null  float64
 14  Tempo             18318 non-null  float64
 15  Duration_ms       18318 non-null  float64
dtypes: float64(12), object(4)
memory usag

In [97]:
spotify_data.reset_index(inplace=True)
spotify_data = spotify_data.drop(columns=['index'])

Procedemos a realizar el mismo procedimiento con la tabla *youtube_data*.

In [98]:
youtube_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20718 entries, 0 to 20717
Data columns (total 18 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Url_youtube       20248 non-null  object 
 1   Title             20248 non-null  object 
 2   Views             20248 non-null  float64
 3   Likes             20177 non-null  float64
 4   Comments          20149 non-null  float64
 5   Licensed          20248 non-null  object 
 6   official_video    20248 non-null  object 
 7   Danceability      20716 non-null  float64
 8   Energy            20716 non-null  float64
 9   Key               20716 non-null  float64
 10  Loudness          20716 non-null  float64
 11  Speechiness       20716 non-null  float64
 12  Acousticness      20716 non-null  float64
 13  Instrumentalness  20716 non-null  float64
 14  Liveness          20716 non-null  float64
 15  Valence           20716 non-null  float64
 16  Tempo             20716 non-null  float6

Tenemos 20248 registros en la columna *Title* y contamos con los mismos dos registros con valores nulos en las caracteristicas de los videos, procedemos a llenar estos campos vacíos con ceros.

In [99]:
youtube_data = youtube_data.fillna(0)
youtube_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20718 entries, 0 to 20717
Data columns (total 18 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Url_youtube       20718 non-null  object 
 1   Title             20718 non-null  object 
 2   Views             20718 non-null  float64
 3   Likes             20718 non-null  float64
 4   Comments          20718 non-null  float64
 5   Licensed          20718 non-null  object 
 6   official_video    20718 non-null  object 
 7   Danceability      20718 non-null  float64
 8   Energy            20718 non-null  float64
 9   Key               20718 non-null  float64
 10  Loudness          20718 non-null  float64
 11  Speechiness       20718 non-null  float64
 12  Acousticness      20718 non-null  float64
 13  Instrumentalness  20718 non-null  float64
 14  Liveness          20718 non-null  float64
 15  Valence           20718 non-null  float64
 16  Tempo             20718 non-null  float6

Ahora verificamos si existen duplicados, para eso tomaremos la columna **Url_youtube** como primary key ya que no pueden existir dos videos con la misma dirección pero si pueden existir dos videos con el mismo título.

In [100]:
youtube_data.Url_youtube.duplicated().sum()

2563

Contamos con 2563 registros duplicados, procedemos a eliminarlos.

In [101]:
youtube_data = youtube_data.sort_values('Views', ascending=False)
youtube_data = youtube_data.drop_duplicates(subset='Url_youtube', keep='first')
youtube_data.reset_index(inplace=True)
youtube_data = youtube_data.drop(columns=['index'])
youtube_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18155 entries, 0 to 18154
Data columns (total 18 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Url_youtube       18155 non-null  object 
 1   Title             18155 non-null  object 
 2   Views             18155 non-null  float64
 3   Likes             18155 non-null  float64
 4   Comments          18155 non-null  float64
 5   Licensed          18155 non-null  object 
 6   official_video    18155 non-null  object 
 7   Danceability      18155 non-null  float64
 8   Energy            18155 non-null  float64
 9   Key               18155 non-null  float64
 10  Loudness          18155 non-null  float64
 11  Speechiness       18155 non-null  float64
 12  Acousticness      18155 non-null  float64
 13  Instrumentalness  18155 non-null  float64
 14  Liveness          18155 non-null  float64
 15  Valence           18155 non-null  float64
 16  Tempo             18155 non-null  float6

Ahora comprobamos las tablas *artist* y *canal*, verificamos si existen duplicados.

In [102]:
artist.duplicated().sum()

18639

In [103]:
canal.duplicated().sum()

14003

Observamos que en la tabla *artist* existen 18639 registros duplicados y en la tabla *canal* hay presentes 14003 registros duplicados, procedmos a eliminarlos.

In [104]:
artist.drop_duplicates(inplace=True)
canal.drop_duplicates(inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  artist.drop_duplicates(inplace=True)


In [105]:
artist.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2079 entries, 0 to 20708
Data columns (total 2 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Artist       2079 non-null   object
 1   Url_spotify  2079 non-null   object
dtypes: object(2)
memory usage: 48.7+ KB


In [106]:
canal.info()

<class 'pandas.core.series.Series'>
Int64Index: 6715 entries, 0 to 20708
Series name: Channel
Non-Null Count  Dtype 
--------------  ----- 
6714 non-null   object
dtypes: object(1)
memory usage: 104.9+ KB


La tabla *artist* queda con 2079 registros únicos y la tabla *canal* con 6714 registros.

Ahora verificamos las tablas *artist_song* y *canal_video* para confirmar si existen duplicados o valores nulos.

In [107]:
artist_song.duplicated().sum()

0

In [108]:
artist_song.isnull().sum()

Artist    0
Uri       0
dtype: int64

In [109]:
canal_video.duplicated().sum()

2563

In [110]:
canal_video.isnull().sum()

Channel        470
Url_youtube    470
dtype: int64

Observamos que en la tabla *artist_song* no contamos con valores nulos ni registros duplicados, pero en la tabla *canal_video* existen 2563 registros duplicados y 470 valores nulos, procedmos a eliminarlos.

In [111]:
canal_video.drop_duplicates(inplace=True)
canal_video.dropna(inplace=True)
canal_video.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 18154 entries, 0 to 20717
Data columns (total 2 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Channel      18154 non-null  object
 1   Url_youtube  18154 non-null  object
dtypes: object(2)
memory usage: 425.5+ KB


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  canal_video.drop_duplicates(inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  canal_video.dropna(inplace=True)


In [112]:
canal_video.reset_index(inplace=True)
canal_video = canal_video.drop(columns=['index'])

artist.reset_index(inplace=True)
artist = artist.drop(columns=['index'])

canal = canal.to_frame()
canal.reset_index(inplace=True)
canal = canal.drop(columns=['index'])

artist_song.reset_index(inplace=True)
artist_song = artist_song.drop(columns=['index'])

In [113]:
spotify_data

Unnamed: 0,Uri,Track,Album,Album_type,Stream,Danceability,Energy,Key,Loudness,Speechiness,Acousticness,Instrumentalness,Liveness,Valence,Tempo,Duration_ms
0,spotify:track:0VjIjW4GlUZAMYd2vXMi3b,Blinding Lights,After Hours,album,3.386520e+09,0.514,0.730,1.0,-5.934,0.0598,0.00146,0.000095,0.0897,0.3340,171.005,200040.0
1,spotify:track:7qiZfU4dY1lWllzX7mPBI3,Shape of You,÷ (Deluxe),album,3.362005e+09,0.825,0.652,1.0,-3.183,0.0802,0.58100,0.000000,0.0931,0.9310,95.977,233713.0
2,spotify:track:7qEHsqek33rTcFNT9PFqLf,Someone You Loved,Divinely Uninspired To A Hellish Extent,album,2.634013e+09,0.501,0.405,1.0,-5.679,0.0319,0.75100,0.000000,0.1050,0.4460,109.891,182161.0
3,spotify:track:0e7ipj03S05BNilyu5bRzt,rockstar (feat. 21 Savage),beerbongs & bentleys,album,2.594927e+09,0.585,0.520,5.0,-6.136,0.0712,0.12400,0.000070,0.1310,0.1290,159.801,218147.0
4,spotify:track:0RiRZpuVRbi7oqRdSMwhQY,Sunflower - Spider-Man: Into the Spider-Verse,Hollywood's Bleeding,album,2.538330e+09,0.755,0.522,2.0,-4.368,0.0575,0.53300,0.000000,0.0685,0.9250,89.960,157560.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18313,spotify:track:0S7v0YOgdvVLcLVdimIiI5,Teil 5 - Sherlock Holmes und der blinde Bettle...,Sherlock Holmes und der blinde Bettler [Die ne...,album,1.030600e+04,0.675,0.323,2.0,-15.074,0.9590,0.09070,0.000000,0.2250,0.4360,145.349,181574.0
18314,spotify:track:1GIa29KevK2bdVODAakM8A,Teil 10 - Sherlock Holmes und ein Brief von de...,Sherlock Holmes und ein Brief von der Titanic ...,album,8.074000e+03,0.716,0.316,11.0,-18.809,0.9450,0.44700,0.000000,0.2670,0.4420,118.596,181431.0
18315,spotify:track:0Bu4QnYwLCjUuil0sAAeBR,Teil 9 - Sherlock Holmes und ein Brief von der...,Sherlock Holmes und ein Brief von der Titanic ...,album,8.053000e+03,0.674,0.316,1.0,-19.952,0.9600,0.33500,0.000000,0.2690,0.3890,79.324,184499.0
18316,spotify:track:471C8JGQpNTS6qnCl3MjTG,We Play the Funk - Slynk Remix,We Play the Funk (Slynk Remix),single,7.771000e+03,0.837,0.772,5.0,-5.948,0.0646,0.19100,0.001130,0.0654,0.8060,109.996,228545.0


In [114]:
youtube_data

Unnamed: 0,Url_youtube,Title,Views,Likes,Comments,Licensed,official_video,Danceability,Energy,Key,Loudness,Speechiness,Acousticness,Instrumentalness,Liveness,Valence,Tempo,Duration_ms
0,https://www.youtube.com/watch?v=kJQP7kiw5Fk,Luis Fonsi - Despacito ft. Daddy Yankee,8.079649e+09,50788652.0,4252791.0,True,True,0.655,0.797,2.0,-4.787,0.1530,0.19800,0.000000,0.0670,0.839,177.928,229360.0
1,https://www.youtube.com/watch?v=JGwWNGJdvx8,Ed Sheeran - Shape of You (Official Music Video),5.908398e+09,31047780.0,1130327.0,True,True,0.825,0.652,1.0,-3.183,0.0802,0.58100,0.000000,0.0931,0.931,95.977,233713.0
2,https://www.youtube.com/watch?v=RgKAFK5djSk,Wiz Khalifa - See You Again ft. Charlie Puth [...,5.773798e+09,40147674.0,2127346.0,True,True,0.689,0.481,10.0,-7.503,0.0815,0.36900,0.000001,0.0649,0.283,80.025,229526.0
3,https://www.youtube.com/watch?v=e_04ZrNroTo,Wheels on the Bus | CoComelon Nursery Rhymes &...,4.898831e+09,14396841.0,0.0,True,True,0.941,0.387,9.0,-11.920,0.0427,0.18400,0.000029,0.1570,0.965,125.021,207340.0
4,https://www.youtube.com/watch?v=OPf0YbXqDm0,Mark Ronson - Uptown Funk (Official Video) ft....,4.821016e+09,20067879.0,598916.0,True,True,0.856,0.609,0.0,-7.223,0.0824,0.00801,0.000082,0.0344,0.928,114.988,269667.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18150,https://www.youtube.com/watch?v=-cY8UiwfHLo,Kapitel 3.2,8.000000e+00,0.0,0.0,True,True,0.583,0.242,8.0,-20.846,0.6280,0.65500,0.000000,0.4790,0.828,96.141,199500.0
18151,https://www.youtube.com/watch?v=5rD2I2TUMMc,Kapitel 2.3,7.000000e+00,0.0,0.0,True,True,0.559,0.218,8.0,-20.554,0.9090,0.84900,0.000000,0.3670,0.773,76.862,227000.0
18152,https://www.youtube.com/watch?v=GqEX0x507qA,Kapitel 2.2 - L'estate del diverso risate,2.000000e+00,0.0,0.0,True,True,0.636,0.380,5.0,-15.622,0.9300,0.47200,0.000000,0.3400,0.603,168.204,189200.0
18153,0,0,0.000000e+00,0.0,0.0,0,0,0.292,0.626,11.0,-4.780,0.0533,0.57100,0.000000,0.8700,0.305,162.824,190162.0


In [115]:
artist

Unnamed: 0,Artist,Url_spotify
0,Gorillaz,https://open.spotify.com/artist/3AA28KZvwAUcZu...
1,Red Hot Chili Peppers,https://open.spotify.com/artist/0L8ExT028jH3dd...
2,50 Cent,https://open.spotify.com/artist/3q7HBObVc0L8jN...
3,Metallica,https://open.spotify.com/artist/2ye2Wgw4gimLv2...
4,Coldplay,https://open.spotify.com/artist/4gzpq5DPGxSnKT...
...,...,...
2074,Grupo Frontera,https://open.spotify.com/artist/6XkjpgcEsYab50...
2075,Jung Kook,https://open.spotify.com/artist/6HaGTQPmzraVma...
2076,LE SSERAFIM,https://open.spotify.com/artist/4SpbR6yFEvexJu...
2077,ThxSoMch,https://open.spotify.com/artist/4MvZhE1iuzttco...


In [116]:
canal

Unnamed: 0,Channel
0,Gorillaz
1,Dom Dolla
2,SalvaMuñox
3,Red Hot Chili Peppers
4,50CentVEVO
...,...
6710,LE SSERAFIM
6711,Kpop Cloud
6712,ThxSoMch
6713,ThxSoMch - Topic


In [117]:
artist_song

Unnamed: 0,Artist,Uri
0,Gorillaz,spotify:track:0d28khcov6AiegSCpG5TuT
1,Gorillaz,spotify:track:1foMv2HQwfQ2vntFf9HFeG
2,Gorillaz,spotify:track:64dLd6rVqDLtkXFYrEUHIU
3,Gorillaz,spotify:track:0q6LuUqGLUiCPP1cbdwFs3
4,Gorillaz,spotify:track:7yMiX7n9SBvadzox8T5jzT
...,...,...
20713,SICK LEGEND,spotify:track:0RtcKQGyI4hr8FgFH1TuYG
20714,SICK LEGEND,spotify:track:3rHvPA8lUnPBkaLyPOc0VV
20715,SICK LEGEND,spotify:track:4jk00YxPtPbhvHJE9N4ddv
20716,SICK LEGEND,spotify:track:5EyErbpsugWliX006eTDex


In [118]:
canal_video

Unnamed: 0,Channel,Url_youtube
0,Gorillaz,https://www.youtube.com/watch?v=HyHNuVaZJ-k
1,Gorillaz,https://www.youtube.com/watch?v=yYDmaexVHic
2,Gorillaz,https://www.youtube.com/watch?v=qJa-VFwPpYA
3,Gorillaz,https://www.youtube.com/watch?v=04mfKJWDSzI
4,Gorillaz,https://www.youtube.com/watch?v=1V_xRb0x9aw
...,...,...
18149,SICK LEGEND - Topic,https://www.youtube.com/watch?v=5SHmKFKlNqI
18150,SICK LEGEND - Topic,https://www.youtube.com/watch?v=ocTH6KxllDQ
18151,SICK LEGEND - Topic,https://www.youtube.com/watch?v=5wFhE-HY0hg
18152,SICK LEGEND - Topic,https://www.youtube.com/watch?v=VMFLbFRNCn0


In [119]:
canal_video['id_video'] = np.nan
canal_video['id_canal'] = np.nan

for i,e in enumerate(canal_video['Url_youtube']):
    for i2,e2 in enumerate(youtube_data['Url_youtube']):
        if e == e2:
            canal_video['id_video'][i] = i2
            
for i,e in enumerate(canal_video['Channel']):
    for i2,e2 in enumerate(canal['Channel']):
        if e == e2:
            canal_video['id_canal'][i] = i2
            
canal_video['id_video'] = canal_video.id_video.astype('int')
canal_video['id_canal'] = canal_video.id_canal.astype('int')
canal_video = canal_video.drop(columns=['Channel','Url_youtube'])
canal_video

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  canal_video['id_video'][i] = i2
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  canal_video['id_canal'][i] = i2


Unnamed: 0,id_video,id_canal
0,426,0
1,4192,0
2,10248,0
3,1799,0
4,509,0
...,...,...
18149,16997,6714
18150,16377,6714
18151,17366,6714
18152,17845,6714


In [123]:
artist_song['id_artista'] = np.nan
artist_song['id_track'] = np.nan

for i,e in enumerate(artist_song['Artist']):
    for i2,e2 in enumerate(artist['Artist']):
        if e == e2:
            artist_song['id_artista'][i] = i2
            
for i,e in enumerate(artist_song['Uri']):
    for i2,e2 in enumerate(spotify_data['Uri']):
        if e == e2:
            artist_song['id_track'][i] = i2
            

artist_song

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  artist_song['id_artista'][i] = i2
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  artist_song['id_track'][i] = i2


Unnamed: 0,Artist,Uri,id_artista,id_track
0,Gorillaz,spotify:track:0d28khcov6AiegSCpG5TuT,0.0,290.0
1,Gorillaz,spotify:track:1foMv2HQwfQ2vntFf9HFeG,0.0,2019.0
2,Gorillaz,spotify:track:64dLd6rVqDLtkXFYrEUHIU,0.0,7910.0
3,Gorillaz,spotify:track:0q6LuUqGLUiCPP1cbdwFs3,0.0,1326.0
4,Gorillaz,spotify:track:7yMiX7n9SBvadzox8T5jzT,0.0,778.0
...,...,...,...,...
20713,SICK LEGEND,spotify:track:0RtcKQGyI4hr8FgFH1TuYG,2078.0,15539.0
20714,SICK LEGEND,spotify:track:3rHvPA8lUnPBkaLyPOc0VV,2078.0,15132.0
20715,SICK LEGEND,spotify:track:4jk00YxPtPbhvHJE9N4ddv,2078.0,16339.0
20716,SICK LEGEND,spotify:track:5EyErbpsugWliX006eTDex,2078.0,16187.0


In [126]:
artist_song = artist_song.dropna()
artist_song['id_artista'] = artist_song.id_artista.astype('int')
artist_song['id_track'] = artist_song.id_track.astype('int')
artist_song = artist_song.drop(columns=['Artist','Uri'])
artist_song

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  artist_song['id_artista'] = artist_song.id_artista.astype('int')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  artist_song['id_track'] = artist_song.id_track.astype('int')


Unnamed: 0,id_artista,id_track
0,0,290
1,0,2019
2,0,7910
3,0,1326
4,0,778
...,...,...
20713,2078,15539
20714,2078,15132
20715,2078,16339
20716,2078,16187


In [128]:
spotify_data = spotify_data.rename_axis('id_track')
youtube_data = youtube_data.rename_axis('id_video')
artist = artist.rename_axis('id_artist')
canal = canal.rename_axis('id_canal')

Una vez que ya hemos terminado con la limpieza y preprocesamiento de los datos, exportamos la información en archivos csv para poder trabajar con esta en el análisis y visualiazaciones en Power BI.

In [129]:
spotify_data.to_csv('01_spotify_data.csv')
youtube_data.to_csv('02_youtube_data.csv')
artist.to_csv('03_artist.csv')
canal.to_csv('04_canal.csv')
artist_song.to_csv('05_artist_song.csv', index=False)
canal_video.to_csv('06_canal_video.csv', index=False)

## Analizar

Ya que cargamos los archivos a Power BI, generamos las relaciones de las tablas en la vista de modelo, la cual quedaría de la siguiente forma:

![image.png](attachment:image.png)

Abrimos el editor de Power Query para agregar las siguientes columnas en las tablas *spotify_data* y *youtube_data*:

* Duración: duración en formato texto con la siguiente estructura *hh:mm:ss* ya que existen algunos registros con una duración mayor a una hora.
* Duración_rango: en esta columna mostramos la duración de cada registro dentro de un rango, los rangos se representan de la siguiente manera:
    * < 2 min: menos de dos minutos.
    * 2 - 3 min: entre 2 y 3 minutos.
    * 3 - 4 min: entre 3 y 4 minutos.
    * 4 - 5 min: entre 4 y 5 minutos.
    * 5 - 7 min: entre 5 y 7 minutos.
    * &gt; 7 min: más de 7 minutos.

![image.png](attachment:image.png)

A continuación, creamos las siguientes medidas con uso de lenguaje DAX para poder desarrollar las visualizaciones:

* AlbumType: contador de los valores de la columna **AlbumType** de la tabla *spotify_data*.
* AvgReproducciones: medida que muestra el valor promedio de las reproducciones.
* AvgViews: medida que muestra el valor promedio de las vistas.
* Likes&Comments: medidas que suma los likes y comentarios de los videos.
* RangoDuracionSp: contador de los valores de la columna **Duración_rango** de la tabla *spotify_data*.
* RangoDuracionYT: contador de los valores de la columna **Duración_rango** de la tabla *youtube_data*.
* Rank Artistas: medida para crear un ranking de los artistas en base a el total de reproducciones que tiene.
* Rank Canciones: medida para crear un ranking de las canciones en base a las reproducciones que tiene.
* RankCanal: medida para crear un ranking de los canales en base a el total de vistas que tiene.
* RankVideos: medida para crear un ranking de los videos en base a el total de vistas que tiene.
* Reproducciones: medida que muestra el total de reproducciones.
* Top N Artistas: medida utilizada para mostrar el Top seleccionado por el filtro en las visualizaciones.
* Top N CanalV: medida utilizada para mostrar el Top seleccionado por el filtro en las visualizaciones.
* Top N Canciones: medida utilizada para mostrar el Top seleccionado por el filtro en las visualizaciones.
* Top N Videos: medida utilizada para mostrar el Top seleccionado por el filtro en las visualizaciones.
* Vistas; medida que muestra el total de vistas.

Elaboramos un gráfico de barras horizontal para mostrar en orden descendente las canciones con más reproducciones en spotify y otro gráfico para los artistas con más reproducciones y observamos lo siguiente:

* Blinding Lights de The Weekend es la canción con más reproducciones en spotify con más de 3,387 millones, en segundo lugar está Shape of You de Ed Sheeran con más de 3,362 millones de reproducciones y en tercer lugar Someone You Loved de Lewis Capaldi con más de 2,634 millones de reproducciones.
* Post Malone es el artista con más reproducciones en spotify con más de 15,251 millones, le sigue Ed Sheeran con más de 14,394 millones de reproducciones y en tercer lugar está Dua Lipa con más de 13,409 millones de reproducciones.

![image.png](attachment:image.png)

Para el Top 100 de las canciones más reproducidas podemos apreciar las siguientes características:

* El tempo de las canciones se encuentran dentro de un rango de 75 a 179.
* La acústica se observa que varía dentro de todo el rango pero hay una mayor concentración dentro de un rango de 0 a 0.10.
* La bailabilidad se observa que las canciones se concentra por encima de 0.5 a 0.92.
* La energía, al igual que la bailabilidad, las canciones se concentran por encima de 0.5 a 0.92.
* La instrumentalidad de las canciones del top 100 es 0.00.
* La vivacidad se concentra dentro de un rango de 0.00 a 0.22, lo que nos dice que la mayoría de las canciones no son en vivo.
* La intensidad del volumen de las canciones del top 100 se encuentra dentro de un rango de -3 dB a -11 dB.
* El speachiness se concentra por debajo del 0.33 por lo que mayoría de las canciones no se asemejan a palabras habladas.
* La valencia de las canciones varía dentro de todo el rango y no se observa algún patrón.

![Disperesi%C3%B3n.png](attachment:Disperesi%C3%B3n.png)

Tambien se observa que el 74 % de las canciones se lanzan dentro de un album, el 22.3 % se lanza como single y el resto como parte de una compilación.

La duración de las canciones se observa como se distribuye la mayoría dentro de una rango de 2 a 5 minutos de duracion, siendo una duración de 3 a 4 minutos donde se concentra la mayoría de las canciones.

![image.png](attachment:image.png)

Por parte de los videos podemos apreciar lo siguiente:

* Despacito de Luis Fonsi ft Daddy Yankee es el video con más vistas con más de 8,079 millones, seguido por Shape of You de Ed Sheeran con más de 5,908 millones de vistas y en tercer lugar se encuentra See You Again de Wiz Khalifa ft Charlie Puth con más de 5,773 millones de vistas.
* El top 3 de los videos con más comentarios corresponde para 3 videos de BTS, el primero es BTS (방탄소년단) 'Dynamite' Official MV con más de 16 millones de comentarios, el segundo es BTS (방탄소년단) 'Butter' Official MV con más de 9 millones de comentarios y el tercero es BTS (방탄소년단) '작은 것들을 위한 시 (Boy With Luv) (feat. Halsey)' Official MV con más de 6 millones de comentarios.
* Por su parte, los videos con más likes, el primero es el video con más vistas también, Despacito de Luis Fonsi ft Daddy Yankee con más de 50 millones de likes, el segundo es See You Again de Wiz Khalifa ft Charlie Puth con más de 40 millones de likes y el tercero es BTS (방탄소년단) 'Dynamite' Official MV con más de 35 millones de likes.

![image-3.png](attachment:image-3.png)

En cuanto a los canales con más vistas se encuentran los siguientes:

* 1er Lugar: T-Series | 36,154 millones de vistas | 179 videos
* 2do Lugar: Ed Sheeran | 16,628 millones de vistas | 15 videos
* 3er Lugar: Cocomelon - Nursery Rhymes | 14,601 millones de vistas | 10 videos

Vemos una gran diferencia en cuanto a la cantidad de videos subidos del canal con más vistas al segundo, por lo que si vemos los canales con más vistas promedio por video podemos apreciar lo siguiente:

* 1er Lugar: Wiz Khalifa Music | 3,056 millones de vistas por video | 2 videos
* 2do Lugar: LuisFonsiVEVO | 2,275 millones de vistas por video | 5 videos
* 3er Lugar: T-Series Bhakti Sagar | 1,550 millones de vistas por video | 2 videos

![image.png](attachment:image.png)

Para el Top 100 de los videos más vistas podemos apreciar las siguientes características:

* El tempo de los videos se encuentran dentro de un rango de 75 a 186.
* La acústica se observa que varía dentro de todo el rango pero hay una mayor concentración dentro de un rango de 0 a 0.10.
* La bailabilidad se observa que los videos se concentra por encima de 0.5 a 0.92.
* La energía, al igual que la bailabilidad, los videos se concentran por encima de 0.5 a 0.95.
* La instrumentalidad de los videos del top 100 es 0.00.
* La vivacidad se concentra dentro de un rango de 0.00 a 0.22, lo que nos dice que la mayoría de los videos no son en vivo.
* La intensidad del volumen de los videos del top 100 se encuentra dentro de un rango de -2 dB a -12 dB.
* El speachiness se concentra por debajo del 0.33 por lo que mayoría de los videos no se asemejan a palabras habladas.
* La valencia de los videos varía dentro de todo el rango y no se observa algún patrón.

Se aprecia una gran similitud con las caracterísitcas que presetan las canciones.

![Disperesi%C3%B3nYT.png](attachment:Disperesi%C3%B3nYT.png)

La distribución de la duración de los videos es idéntica a la de las canciones, la mayoría de los videos se encuentran con una duración de 2 a 5 minutos siendo el interevalo de 3 a 4 minutos el rango con mayor cantidad de videos.

![image.png](attachment:image.png)

# Compartir

A continuación comparto las vistas del dahsboard que diseñé para la visualización de la información generado en Microsoft Power BI.

![image.png](attachment:image.png)

![image-3.png](attachment:image-3.png)