# Spotify: un análisis exploratorio de sus datos. 

https://www.kaggle.com/code/anmolarora15/spotify-in-depth-eda
https://www.kaggle.com/code/mahmoudsaadmohamed/spoify-prediction
https://www.kaggle.com/datasets/joebeachcapital/30000-spotify-songs/code
https://www.kaggle.com/code/alexfernandezmoran/tfm-unir-alejandro-fndz-mor-n/notebook
https://www.kaggle.com/code/deepikavasudevan/spotify-eda

## 1. Introducción.

Spotify, es una de las plataformas líderes en el negocio del streaming musical, ha revolucionado la manera en que millones de usuarios acceden y consumen música. Su modelo de negocio no solo se basa en proporcionar un extenso catálogo musical, sino también en comprender en profundidad las preferencias individuales de los oyentes. Los datos recopilados, que abarcan desde las elecciones de reproducción hasta la creación de listas de reproducción personalizadas, son esenciales para perfeccionar algoritmos de recomendación y personalización. Este análisis exploratorio intentará analizar una cantidad acotada de datos generados por los usuarios, destacando la importancia de la información recopilada en la optimización continua del servicio y en la creación de una experiencia musical única para cada usuario.

## 2. Objetivo.

## 3. Principales hipótesis a contrastar.

## 4. Imports y lectura de dataset.

Para nuestro análisis, usaremos los módulos fundamentales de análisis de datos.

Pandas y NumPy para el trabajo tabular y matemático y Matplotlib y Seaborn para la visualización gráfica detallada.

Al no venir incluidos en Python, han de importarse de la siguiente forma.

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import joypy
from matplotlib import cm



Cargamos el dataset y lo instanciamos en la variable 'df_general'

In [7]:
df_general = pd.read_csv('spotify_songs.csv')

## 5. Tareas previas al análisis.

###  5.1 Entendiendo los datos, una exploración inicial.
     
     5.1.1 Tabla explicativas de las variables.
     5.1.2 Dataframe shape.
     5.1.3 Head and tail.
     5.1.4 Tipología de datos.
     5.1.5 Descripción básica de los datos.


### 5.1.1 Tabla explicativa de las variables.

| Variable              | Clase      | Descripción                                                                        |
|-----------------------|------------|------------------------------------------------------------------------------------|
| track_id              | Carácter   | Identificación única de la canción.                                                |
| track_name            | Carácter   | Nombre de la canción.                                                              |
| track_artist          | Carácter   | Artista de la canción.                                                             |
| track_popularity      | Doble      | Popularidad de la canción (0-100), siendo 0 el valor menos popular y 100 el más popular.                |
| track_album_id        | Carácter   | Identificación única del álbum.                                                   |
| track_album_name      | Carácter   | Nombre del álbum de la canción.                                                   |
| track_album_release_date | Carácter | Fecha de lanzamiento del álbum.                                                   |
| playlist_name         | Carácter   | Nombre de la lista de reproducción.                                               |
| playlist_id           | Carácter   | Identificación de la lista de reproducción.                                       |
| playlist_genre        | Carácter   | Género de la lista de reproducción.                                              |
| playlist_subgenre     | Carácter   | Subgénero de la lista de reproducción.                                           |
| danceability          | Doble      | La "bailabilidad" describe qué tan adecuada es una canción para bailar. Rango de 0 a 1.        |
| energy                | Doble      | La energía es una medida de 0.0 a 1.0 y representa una medida perceptual de intensidad y actividad. |
| key                   | Doble      | La tonalidad general estimada de la canción.                                      |
| loudness              | Doble      | La sonoridad general de una canción en decibelios (dB).                            |
| mode                  | Doble      | Indica la modalidad (mayor o menor) de una canción.                                |
| speechiness           | Doble      | Detecta la presencia de palabras habladas en una canción.                           |
| acousticness          | Doble      | Una medida de confianza de 0.0 a 1.0 de si la canción es acústica.                 |
| instrumentalness      | Doble      | Predice si una canción no contiene vocales.                                        |
| liveness              | Doble      | Detecta la presencia de una audiencia en la grabación.                             |
| valence               | Doble      | Una medida de 0.0 a 1.0 que describe la positividad musical transmitida por una canción. |
| tempo                 | Doble      | El tempo estimado general de una canción en pulsaciones por minuto (BPM).          |
| duration_ms           | Doble      | Duración de la canción en milisegundos.                                           |

### 5.1.2 Dimensiones del Dataframe e información general.

In [8]:
df_general.T.shape

print('El dataframe tiene ', df_general.T.shape[0], 'columnas y ', df_general.T.shape[1], 'registros de filas')

El dataframe tiene  23 columnas y  32833 registros de filas


La cantidad de registros de filas es suficientemente significativa para realizar trabajos de aprendizaje automático posteriormente.

Ahora estudiaremos la forma de esos datos viendo el contenido de cada columna:

In [9]:
df_general.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32833 entries, 0 to 32832
Data columns (total 23 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   track_id                  32833 non-null  object 
 1   track_name                32828 non-null  object 
 2   track_artist              32828 non-null  object 
 3   track_popularity          32833 non-null  int64  
 4   track_album_id            32833 non-null  object 
 5   track_album_name          32828 non-null  object 
 6   track_album_release_date  32833 non-null  object 
 7   playlist_name             32833 non-null  object 
 8   playlist_id               32833 non-null  object 
 9   playlist_genre            32833 non-null  object 
 10  playlist_subgenre         32833 non-null  object 
 11  danceability              32833 non-null  float64
 12  energy                    32833 non-null  float64
 13  key                       32833 non-null  int64  
 14  loudne

In [10]:
df_general.head()

Unnamed: 0,track_id,track_name,track_artist,track_popularity,track_album_id,track_album_name,track_album_release_date,playlist_name,playlist_id,playlist_genre,...,key,loudness,mode,speechiness,acousticness,instrumentalness,liveness,valence,tempo,duration_ms
0,6f807x0ima9a1j3VPbc7VN,I Don't Care (with Justin Bieber) - Loud Luxur...,Ed Sheeran,66,2oCs0DGTsRO98Gh5ZSl2Cx,I Don't Care (with Justin Bieber) [Loud Luxury...,2019-06-14,Pop Remix,37i9dQZF1DXcZDD7cfEKhW,pop,...,6,-2.634,1,0.0583,0.102,0.0,0.0653,0.518,122.036,194754
1,0r7CVbZTWZgbTCYdfa2P31,Memories - Dillon Francis Remix,Maroon 5,67,63rPSO264uRjW1X5E6cWv6,Memories (Dillon Francis Remix),2019-12-13,Pop Remix,37i9dQZF1DXcZDD7cfEKhW,pop,...,11,-4.969,1,0.0373,0.0724,0.00421,0.357,0.693,99.972,162600
2,1z1Hg7Vb0AhHDiEmnDE79l,All the Time - Don Diablo Remix,Zara Larsson,70,1HoSmj2eLcsrR0vE9gThr4,All the Time (Don Diablo Remix),2019-07-05,Pop Remix,37i9dQZF1DXcZDD7cfEKhW,pop,...,1,-3.432,0,0.0742,0.0794,2.3e-05,0.11,0.613,124.008,176616
3,75FpbthrwQmzHlBJLuGdC7,Call You Mine - Keanu Silva Remix,The Chainsmokers,60,1nqYsOef1yKKuGOVchbsk6,Call You Mine - The Remixes,2019-07-19,Pop Remix,37i9dQZF1DXcZDD7cfEKhW,pop,...,7,-3.778,1,0.102,0.0287,9e-06,0.204,0.277,121.956,169093
4,1e8PAfcKUYoKkxPhrHqw4x,Someone You Loved - Future Humans Remix,Lewis Capaldi,69,7m7vv9wlQ4i0LFuJiE2zsQ,Someone You Loved (Future Humans Remix),2019-03-05,Pop Remix,37i9dQZF1DXcZDD7cfEKhW,pop,...,1,-4.672,1,0.0359,0.0803,0.0,0.0833,0.725,123.976,189052


In [11]:
df_general.tail()

Unnamed: 0,track_id,track_name,track_artist,track_popularity,track_album_id,track_album_name,track_album_release_date,playlist_name,playlist_id,playlist_genre,...,key,loudness,mode,speechiness,acousticness,instrumentalness,liveness,valence,tempo,duration_ms
32828,7bxnKAamR3snQ1VGLuVfC1,City Of Lights - Official Radio Edit,Lush & Simon,42,2azRoBBWEEEYhqV6sb7JrT,City Of Lights (Vocal Mix),2014-04-28,♥ EDM LOVE 2020,6jI1gFr6ANFtT8MmTvA2Ux,edm,...,2,-1.814,1,0.0936,0.0766,0.0,0.0668,0.21,128.17,204375
32829,5Aevni09Em4575077nkWHz,Closer - Sultan & Ned Shepard Remix,Tegan and Sara,20,6kD6KLxj7s8eCE3ABvAyf5,Closer Remixed,2013-03-08,♥ EDM LOVE 2020,6jI1gFr6ANFtT8MmTvA2Ux,edm,...,0,-4.462,1,0.042,0.00171,0.00427,0.375,0.4,128.041,353120
32830,7ImMqPP3Q1yfUHvsdn7wEo,Sweet Surrender - Radio Edit,Starkillers,14,0ltWNSY9JgxoIZO4VzuCa6,Sweet Surrender (Radio Edit),2014-04-21,♥ EDM LOVE 2020,6jI1gFr6ANFtT8MmTvA2Ux,edm,...,6,-4.899,0,0.0481,0.108,1e-06,0.15,0.436,127.989,210112
32831,2m69mhnfQ1Oq6lGtXuYhgX,Only For You - Maor Levi Remix,Mat Zo,15,1fGrOkHnHJcStl14zNx8Jy,Only For You (Remixes),2014-01-01,♥ EDM LOVE 2020,6jI1gFr6ANFtT8MmTvA2Ux,edm,...,2,-3.361,1,0.109,0.00792,0.127,0.343,0.308,128.008,367432
32832,29zWqhca3zt5NsckZqDf6c,Typhoon - Original Mix,Julian Calor,27,0X3mUOm6MhxR7PzxG95rAo,Typhoon/Storm,2014-03-03,♥ EDM LOVE 2020,6jI1gFr6ANFtT8MmTvA2Ux,edm,...,5,-4.571,0,0.0385,0.000133,0.341,0.742,0.0894,127.984,337500


En concreto, veamos los diferentes encabezados de las columnas para ver qué información contiene cada una de ellas:

In [12]:
df_general.columns

Index(['track_id', 'track_name', 'track_artist', 'track_popularity',
       'track_album_id', 'track_album_name', 'track_album_release_date',
       'playlist_name', 'playlist_id', 'playlist_genre', 'playlist_subgenre',
       'danceability', 'energy', 'key', 'loudness', 'mode', 'speechiness',
       'acousticness', 'instrumentalness', 'liveness', 'valence', 'tempo',
       'duration_ms'],
      dtype='object')

De la salida anterior, queremos observar los datos de la columna `playlist_name`.  Para ello:

In [13]:
df_general['playlist_name'].unique()

array(['Pop Remix', 'Dance Pop', 'Dance Room', 'Cardio', 'Dance Pop Hits',
       'Pop Warmup 130 BPM', 'Dance Pop: Japan', 'K-Party Dance Mix',
       'Dance Pop Tunes', 'Pop / Dance', 'Todo Éxitos', '90s Dance Hits',
       'Christian Dance Party', 'Pop Dance Hits',
       'Best of 2019 Dance Pop: Japan',
       'Ultimate Indie Presents... Best Indie Tracks of the 2010s',
       'TUNES DANCE AND POP',
       'Pop Inglés (2020 - 2010s)💙 Música En Inglés 2010s',
       'ELETRIC POP & DANCE',
       'Pop - Pop UK - 2019 - Canadian Pop - 2019 - Pop',
       'The Sound of Post-Teen Pop', 'Post teen pop',
       'post-teen alternative, indie, pop (large variety)',
       'Pop Punk | Post-Hardcore', 'Post pop teen',
       'Intro to Post-Teen Pop', '🤩🤪Post Teen Pop🤪🤩',
       'Someone You Loved Lewis Capaldi (Pop Music Mix)',
       "Dr. Q's Prescription Playlist💊", 'a taste of the mainstream',
       'post teen pop', 'BALLARE - رقص', 'Post Teen Pop', 'Post-Teen Pop',
       'Post-teen pop'

In [14]:
df_general['playlist_name'].unique().size

449

Observamos que existen 449 registros únicos de listas en las que están incluidas estas canciones. Esta columna no aporta información relevante para el análisis, por lo que eliminaremos `playlist_name` y `playlist_id`

In [15]:
df_general.drop(['playlist_name', 'playlist_id'], axis=1, inplace=True)

In [16]:
df_general.shape

(32833, 21)

Ahora haremos un primer análisis de la tipología de datos con los que trabajaremos:

In [17]:
df_general.dtypes

track_id                     object
track_name                   object
track_artist                 object
track_popularity              int64
track_album_id               object
track_album_name             object
track_album_release_date     object
playlist_genre               object
playlist_subgenre            object
danceability                float64
energy                      float64
key                           int64
loudness                    float64
mode                          int64
speechiness                 float64
acousticness                float64
instrumentalness            float64
liveness                    float64
valence                     float64
tempo                       float64
duration_ms                   int64
dtype: object

Podemos observar que `track_album_release_date` es formato `object` y quizá nos sería más útil en formato fecha e incluso tener por separado cada elemento de la fecha (año, mes y día). Lo trataremos posteriormente.

Obtenemos un resumen general de las variables numéricas de nuestro conjunto de datos.

In [18]:
df_general.describe()

Unnamed: 0,track_popularity,danceability,energy,key,loudness,mode,speechiness,acousticness,instrumentalness,liveness,valence,tempo,duration_ms
count,32833.0,32833.0,32833.0,32833.0,32833.0,32833.0,32833.0,32833.0,32833.0,32833.0,32833.0,32833.0,32833.0
mean,42.477081,0.65485,0.698619,5.374471,-6.719499,0.565711,0.107068,0.175334,0.084747,0.190176,0.510561,120.881132,225799.811622
std,24.984074,0.145085,0.18091,3.611657,2.988436,0.495671,0.101314,0.219633,0.22423,0.154317,0.233146,26.903624,59834.006182
min,0.0,0.0,0.000175,0.0,-46.448,0.0,0.0,0.0,0.0,0.0,0.0,0.0,4000.0
25%,24.0,0.563,0.581,2.0,-8.171,0.0,0.041,0.0151,0.0,0.0927,0.331,99.96,187819.0
50%,45.0,0.672,0.721,6.0,-6.166,1.0,0.0625,0.0804,1.6e-05,0.127,0.512,121.984,216000.0
75%,62.0,0.761,0.84,9.0,-4.645,1.0,0.132,0.255,0.00483,0.248,0.693,133.918,253585.0
max,100.0,0.983,1.0,11.0,1.275,1.0,0.918,0.994,0.994,0.996,0.991,239.44,517810.0


### Una pequeña aproximación

- La media de la popularidad es del 42,48%. Su valor máximo es 100. Un 25% de las canciones del dataset tiene más de un 62 de popularidad.
- El valor medio de la 'bailabilidad' es del 65. El valor máximo es de 98.
- El nivel medio del valor energía de las canciones es prácticamente de 70. El 25% de las canciones tienen un valor superior a 84 de energía.
- El 50% de las canciones tiene una duración de al menos 216000 milisegundos, lo que una duración de 3 minutos 36 segundos. Hay una canción que dura más de 8 minutos, lo que es un outlier.

Ahora vamos a observar las variables no numéricas incluidas en el dataset.

In [19]:
df_general.describe(include=object)

Unnamed: 0,track_id,track_name,track_artist,track_album_id,track_album_name,track_album_release_date,playlist_genre,playlist_subgenre
count,32833,32828,32828,32833,32828,32833,32833,32833
unique,28356,23449,10692,22545,19743,4530,6,24
top,7BKLCZ1jbUBVqRi2FVlTVw,Poison,Martin Garrix,5L1xcowSxwzFUSJzvyMp48,Greatest Hits,2020-01-10,edm,progressive electro house
freq,10,22,161,42,139,270,6043,1809


En esta salida observamos una cuestión a destacar. El conteo de track_id arroja 32833 resultados, mientras que valores únicos solo 28356. Esto implica que se están repitiendo valores de track_id para canciones diferentes, lo cual es un aspecto a destacar porque en teoría son valores únicos. La diferencia en el resto de variables puede tener sentido (track_album_id es común para un conjunto de track_id, track_name puede ser compartido para varias entradas). Veamos un poco más. Busquemos un valor de los 'no únicos' en `track_id`

In [20]:
df_general[df_general['track_id'] == '7BKLCZ1jbUBVqRi2FVlTVw']

Unnamed: 0,track_id,track_name,track_artist,track_popularity,track_album_id,track_album_name,track_album_release_date,playlist_genre,playlist_subgenre,danceability,...,key,loudness,mode,speechiness,acousticness,instrumentalness,liveness,valence,tempo,duration_ms
133,7BKLCZ1jbUBVqRi2FVlTVw,Closer (feat. Halsey),The Chainsmokers,85,0rSLgV8p5FzfnqlEk4GzxE,Closer (feat. Halsey),2016-07-29,pop,dance pop,0.748,...,8,-5.599,1,0.0338,0.414,0.0,0.111,0.661,95.01,244960
1731,7BKLCZ1jbUBVqRi2FVlTVw,Closer (feat. Halsey),The Chainsmokers,85,0rSLgV8p5FzfnqlEk4GzxE,Closer (feat. Halsey),2016-07-29,pop,post-teen pop,0.748,...,8,-5.599,1,0.0338,0.414,0.0,0.111,0.661,95.01,244960
2478,7BKLCZ1jbUBVqRi2FVlTVw,Closer (feat. Halsey),The Chainsmokers,85,0rSLgV8p5FzfnqlEk4GzxE,Closer (feat. Halsey),2016-07-29,pop,electropop,0.748,...,8,-5.599,1,0.0338,0.414,0.0,0.111,0.661,95.01,244960
4535,7BKLCZ1jbUBVqRi2FVlTVw,Closer (feat. Halsey),The Chainsmokers,85,0rSLgV8p5FzfnqlEk4GzxE,Closer (feat. Halsey),2016-07-29,pop,indie poptimism,0.748,...,8,-5.599,1,0.0338,0.414,0.0,0.111,0.661,95.01,244960
7369,7BKLCZ1jbUBVqRi2FVlTVw,Closer (feat. Halsey),The Chainsmokers,85,0rSLgV8p5FzfnqlEk4GzxE,Closer (feat. Halsey),2016-07-29,rap,southern hip hop,0.748,...,8,-5.599,1,0.0338,0.414,0.0,0.111,0.661,95.01,244960
17467,7BKLCZ1jbUBVqRi2FVlTVw,Closer (feat. Halsey),The Chainsmokers,85,0rSLgV8p5FzfnqlEk4GzxE,Closer (feat. Halsey),2016-07-29,latin,tropical,0.748,...,8,-5.599,1,0.0338,0.414,0.0,0.111,0.661,95.01,244960
18358,7BKLCZ1jbUBVqRi2FVlTVw,Closer (feat. Halsey),The Chainsmokers,85,0rSLgV8p5FzfnqlEk4GzxE,Closer (feat. Halsey),2016-07-29,latin,latin pop,0.748,...,8,-5.599,1,0.0338,0.414,0.0,0.111,0.661,95.01,244960
19770,7BKLCZ1jbUBVqRi2FVlTVw,Closer (feat. Halsey),The Chainsmokers,85,0rSLgV8p5FzfnqlEk4GzxE,Closer (feat. Halsey),2016-07-29,latin,latin hip hop,0.748,...,8,-5.599,1,0.0338,0.414,0.0,0.111,0.661,95.01,244960
23784,7BKLCZ1jbUBVqRi2FVlTVw,Closer (feat. Halsey),The Chainsmokers,85,0rSLgV8p5FzfnqlEk4GzxE,Closer (feat. Halsey),2016-07-29,r&b,hip pop,0.748,...,8,-5.599,1,0.0338,0.414,0.0,0.111,0.661,95.01,244960
30629,7BKLCZ1jbUBVqRi2FVlTVw,Closer (feat. Halsey),The Chainsmokers,85,0rSLgV8p5FzfnqlEk4GzxE,Closer (feat. Halsey),2016-07-29,edm,pop edm,0.748,...,8,-5.599,1,0.0338,0.414,0.0,0.111,0.661,95.01,244960


Este `track_id` debería ser único, pero existe 10 veces en el Dataframe. La diferencia viene por la categorización de las columnas `playlist_subgenre` y  `playlist_genre` que al ser columnas introducidas por el usuario tienen diferente categorización. Para unos la canción Closer pertenece a pop, para otros a latin, otros para edm...y lo mismo ocurre para el subgénero. 

Para solventar este problema, podemos realizar varias cosas:

- Borrar los duplicados y quedarnos con el primer valor.
- Borrar los duplicados y quedarnos con el último valor.
- Realizar una función que encuentre los duplicados y calcule la moda del valor para imputarlo como el 'más repetido'.


In [21]:
def imput (x):
    if df_general['playlist_genre'].duplicated() is True:
        df_general['playlist_genre'].mode

Procedemos a borrar los datos y nos quedaremos con el primer valor de los repetidos.

In [22]:
df_general.drop_duplicates(subset=['track_id','track_name'], inplace=True)

In [23]:
df_general[df_general['track_id'] == '7BKLCZ1jbUBVqRi2FVlTVw']

Unnamed: 0,track_id,track_name,track_artist,track_popularity,track_album_id,track_album_name,track_album_release_date,playlist_genre,playlist_subgenre,danceability,...,key,loudness,mode,speechiness,acousticness,instrumentalness,liveness,valence,tempo,duration_ms
133,7BKLCZ1jbUBVqRi2FVlTVw,Closer (feat. Halsey),The Chainsmokers,85,0rSLgV8p5FzfnqlEk4GzxE,Closer (feat. Halsey),2016-07-29,pop,dance pop,0.748,...,8,-5.599,1,0.0338,0.414,0.0,0.111,0.661,95.01,244960


In [24]:
df_general.describe(include=object)

Unnamed: 0,track_id,track_name,track_artist,track_album_id,track_album_name,track_album_release_date,playlist_genre,playlist_subgenre
count,28356,28352,28352,28356,28352,28356,28356,28356
unique,28356,23449,10692,22545,19743,4530,6,24
top,6f807x0ima9a1j3VPbc7VN,Breathe,Queen,5L1xcowSxwzFUSJzvyMp48,Greatest Hits,2020-01-10,rap,southern hip hop
freq,1,18,130,42,135,201,5401,1583


In [25]:
df_general['track_id'].duplicated()

0        False
1        False
2        False
3        False
4        False
         ...  
32828    False
32829    False
32830    False
32831    False
32832    False
Name: track_id, Length: 28356, dtype: bool

### 5.2 Preparación del dataset.
    
    5.2.1 Identificación y manejo de valores nulos (NaN)
    5.2.2 Optimización del tipo de dato.
    5.2.3 Control de valores duplicados.

### 5.2.1 Identificando los valores nulos: 

In [26]:
df_general.isna().sum().sort_values(ascending=False)

track_artist                4
track_album_name            4
track_name                  4
track_id                    0
loudness                    0
tempo                       0
valence                     0
liveness                    0
instrumentalness            0
acousticness                0
speechiness                 0
mode                        0
energy                      0
key                         0
danceability                0
playlist_subgenre           0
playlist_genre              0
track_album_release_date    0
track_album_id              0
track_popularity            0
duration_ms                 0
dtype: int64

In [27]:
filas_nulos = df_general.isnull().any(axis=1)

df_nulos = df_general[filas_nulos]
df_general
df_nulos


Unnamed: 0,track_id,track_name,track_artist,track_popularity,track_album_id,track_album_name,track_album_release_date,playlist_genre,playlist_subgenre,danceability,...,key,loudness,mode,speechiness,acousticness,instrumentalness,liveness,valence,tempo,duration_ms
8151,69gRFGOWY9OMpFJgFol1u0,,,0,717UG2du6utFe7CdmpuUe3,,2012-01-05,rap,southern hip hop,0.714,...,6,-7.635,1,0.176,0.041,0.0,0.116,0.649,95.999,282707
9282,5cjecvX0CmC9gK0Laf5EMQ,,,0,3luHJEPw434tvNbme3SP8M,,2017-12-01,rap,gangster rap,0.678,...,11,-5.364,0,0.319,0.0534,0.0,0.553,0.191,146.153,202235
9283,5TTzhRSWQS4Yu8xTgAuq6D,,,0,3luHJEPw434tvNbme3SP8M,,2017-12-01,rap,gangster rap,0.465,...,10,-5.907,0,0.307,0.0963,0.0,0.0888,0.505,86.839,206465
19568,3VKFip3OdAvv4OfNTgFWeQ,,,0,717UG2du6utFe7CdmpuUe3,,2012-01-05,latin,reggaeton,0.675,...,11,-6.075,0,0.0366,0.0606,0.00653,0.103,0.726,97.017,252773


Observamos que las filas con valores nulos ocurren en columnas relevantes como `track_name`, `track_album_name`, por lo que será imposible su imputación con otros valores. 

Veamos ahora la concentración de los valores nulos, esto es, analizar si coinciden los nulos de las diferentes columnas en el mismo registro de filas o si, por el contrario, existe un solo valor nulo único NaN por cada registro de fila.

En el primer caso, al estar concentrados, el número de registros 'afectados' será bajo y el dataset no perdería sentido.
En el segundo caso, al estar dispersos, deberemos analizar la afección de los valores nulos al dataset para estudiar posteriormente una posible imputación.

Solo 5 filas incluyen valores nulos, están muy concentrados en el dataset. Esta cifra respecto al conjunto total de datos es muy pequeña, por lo que no afectará significativamente a la proporción de la muestra. En cifras, esta proporción es de 5/32833 = 0,015%


In [28]:
(5/32833) * 100

0.015228581000822344

Procedemos a localizar y eliminar dichos registros con el método `dropna` sobre el DataFrame general `df_general` seteando `inplace=True` para que elimine esos valores del dataset original.

In [29]:
df_general.dropna(inplace=True)


In [30]:
df_general.shape

(28352, 21)

Ahora tenemos el `DataFrame` limpio de valores nulos, por lo que estudiaremos en profundidad la cardinalidad y la tipología del dato más óptima para cada columna. Para ello:

In [31]:
cardi = pd.DataFrame({'count': df_general.shape[0], 
              'nulls': df_general.isnull().sum(), 
              'nulls%': df_general.isnull().mean() * 100, 
              'cardinalidad (únicos)': df_general.nunique(),
              'cardinalidad (%)': (df_general.nunique()/len(df_general))*100,
             })
cardi.sort_values(by='cardinalidad (%)', ascending=False)

Unnamed: 0,count,nulls,nulls%,cardinalidad (únicos),cardinalidad (%)
track_id,28352,0,0.0,28352,100.0
track_name,28352,0,0.0,23449,82.706687
track_album_id,28352,0,0.0,22543,79.511146
duration_ms,28352,0,0.0,19782,69.772856
track_album_name,28352,0,0.0,19743,69.635299
tempo,28352,0,0.0,17682,62.365971
track_artist,28352,0,0.0,10692,37.711625
loudness,28352,0,0.0,10222,36.053894
instrumentalness,28352,0,0.0,4729,16.679599
track_album_release_date,28352,0,0.0,4529,15.974182


Del estudio de la cardinalidad podemos destacar: 

- Que el valor de `mode` es 2 porque existen principalmente dos agrupaciones de modos musicales (escalas mayores y escalas menores).
- Que existen 6 géneros principales y 24 subgéneros en las canciones de nuestro dataset.
- Que existen 101 valores de `track_popularity`.


In [None]:
df_general.info()

Obtenemos la siguiente configuración:

dtypes: float64(9), int64(4), object(10)

De los valores obtenidos, consideramos que la columna `track_album_release_date` sería más óptima convertirla a un formato `DateTime`, ya que contiene la fecha de publicación de los álbumes. También creemos que carece de sentido cuantificar las canciones en milisegundos cuando el orden de magnitud habitual es otro muy diferente, por lo que convertiremos la columna `duration_ms` del tipo `int64`.

Para ello:

In [None]:
df_general['track_album_release_date'].dtypes

In [None]:
#TUTORIA: cuando formateo Y, M, d me dice que 2012 no lo coge en la posicion 96(.loc). Si coerce, me quita muchos datos. 

df_general['track_album_release_date'] = pd.to_datetime(df_general['track_album_release_date'], format='mixed')


In [None]:
df_general.info()

In [None]:
df_general['track_album_release_date'].count

In [None]:
df_general['track_album_release_date'].count()

Ahora realizaremos la conversión de milisegundos a minutos y segundos. Para ello:

In [None]:
#6 métodos: lista de comprensión, map, apply, transform, aggregate y lambda
def conversor(milisegundos):
    segundos = milisegundos / 1000.0
    return int(segundos)
milisegundos = 5000 
segundos = conversor(milisegundos)
print(segundos)




In [None]:
df_general['duration_s'] = df_general['duration_ms'].map(conversor)

df_general['duration_s']

In [None]:
df_general['duration_s'].dtype

In [None]:
# df_features['duration_min'] = df_features['duration_ms'].apply (lambda x : round(x/60000,ndigits=1))

#esta funcion establece que una cancion dura 1.7 minutos.

La columna `duration_ms` no la usaremos, por lo que la eliminaremos con drop

In [None]:
df_general.drop('duration_ms', inplace = True, axis=1)


### Creación de columna artist_popularity



In [None]:
df_general['artist_popularity'] = df_general.groupby('track_artist')['track_popularity'].transform('mean')

df_general['artist_popularity'].sort_values(ascending=False)


In [None]:
df_general['artist_popularity'].max()

In [None]:
df_general['track_artist'][3155]

In [None]:
df_general['artist_popularity'][3155]

In [None]:
df_general['track_artist'][2]

In [None]:
df_general['artist_popularity'].head()

In [None]:
df_general[df_general['track_artist'] == 'Martin Garrix']

#### Análisis general del conjunto de datos tras las transformaciones para observar los cambios.

In [None]:
df_general.T.shape

df_general.T.shape

print('El dataframe tiene ahora', df_general.T.shape[0], 'columnas y ', df_general.T.shape[1], 'registros de fila.')

In [None]:
df_general.info()

Ahora observamos el mismo número de datos NO nulos en todas las columnas, por lo que podemos afirmar que no existen nulos en el conjunto de datos.

Además, observamos que la columna `track_album_release_date` ha cambiado su tipología de `object` a `DateTime`

In [None]:
df_general.describe()

In [None]:
df_limpio = df_general

# GUARDAR CSV

In [None]:
df_general.to_csv('../EDA_Spotify/spotify_def_clean.csv', sep=	',', index=False)

# 6. Análisis de datos.

6.1 Análisis univariante.
        - Gráficos de distribución
        -Histograma
        -KDE
        -Boxplot
6.2 Análisis bivariante.
6.3 Análisis multivariante.
6.4 Contraste de hipótesis.

In [None]:
columnas = df_general.columns
columnas

## Análisis univariante

En este apartado estudiaremos aspectos fundamentales de cada variable tales como la posición central (media, moda, mediana) y no central (mínimo y máximo y percentiles)

### ¿Cuántos géneros existen en el Dataset elegido?

In [None]:
df_general['playlist_genre'].unique()

In [None]:
generos = df_general.groupby('playlist_genre')['track_id'].count().reset_index()
generos = generos.sort_values(by='track_id', ascending=False)

#Gráfico
plt.style.use('dark_background')
colores = sns.color_palette("Greens_r", n_colors=len(generos))
plt.figure(figsize=(12, 6))
bars = plt.bar(generos['playlist_genre'].str.upper().unique(), generos['track_id'], color=colores)
plt.xlabel('Género', color='white')
plt.ylabel('Total de canciones', color='white')
plt.title('Total de canciones por género musical', color='white')
plt.rcParams['text.color'] = 'white'
plt.rcParams['axes.labelcolor'] = 'white'
plt.rcParams['xtick.color'] = 'white'
plt.rcParams['ytick.color'] = 'white'
plt.gca().xaxis.grid(False)
plt.gca().yaxis.grid(False)
for bar in bars:
    yval = bar.get_height()
    plt.text(bar.get_x() + bar.get_width() / 2, yval + 0.05, round(yval, 2), ha='center', va='bottom', color='white')



### ¿Y cuántos subgéneros?

In [None]:
df_general['playlist_subgenre'].unique()

In [None]:
subgeneros = df_general.groupby('playlist_subgenre')['track_id'].count().reset_index()
subgeneros = subgeneros.sort_values(by='track_id', ascending=False)

plt.style.use('dark_background')
colores = sns.color_palette("Greens_r", n_colors=len(subgeneros))
plt.figure(figsize=(14, 10))
bars = plt.bar(subgeneros['playlist_subgenre'].str.upper().unique(), subgeneros['track_id'], color=colores)
plt.xlabel('Subgénero', color='white')
plt.xticks(rotation = 45, ha='right')
plt.ylabel('Total de canciones', color='white')
plt.title('Total de canciones por subgénero musical', color='white')
plt.rcParams['text.color'] = 'white'
plt.rcParams['axes.labelcolor'] = 'white'
plt.rcParams['xtick.color'] = 'white'
plt.rcParams['ytick.color'] = 'white'
plt.gca().xaxis.grid(False)
plt.gca().yaxis.grid(False)


for bar in bars:
    yval = bar.get_height()
    plt.text(bar.get_x() + bar.get_width() / 2, yval + 0.05, round(yval, 2), ha='center', va='bottom', color='white', rotation=45)

### Analisis de distribución de las variables

In [None]:
def plot(col):
    fig, axes = plt.subplots(1, 2, figsize=(20, 5), gridspec_kw={'wspace': 0.4, 'hspace': 0.4})
    sns.boxplot(data=df_limpio, x=col, ax=axes[0], color='green', flierprops=dict(markerfacecolor='white', markeredgecolor='green'), saturation=1, fliersize=20, whiskerprops=dict(color='white'), linecolor='white')    
    axes[0].grid(False)

    ax = sns.histplot(data=df_limpio[col], bins=20, kde=True, color='green')
    axes[1].grid(False)
    ax.lines[0].set_color('red')

In [None]:
# https://github.com/mwaskom/seaborn/issues/2344

ax = sns.histplot(data=df_general, x='tempo', color='0.8', kde=True)
ax.lines[0].set_color('white')

In [None]:
for col in columnas:
    if df_limpio[col].dtype in ['int64', 'float64']:
        plot(col)

## Análisis bivariante

En este apartado estudiaremos la relación entre dos variables para estudiar su posible relación. Para ello, utilizaremos tablas de contigencia para variables categóricas y gráficos de dispersión para variables cuantitativas.

In [None]:
genre_avg_danceability = df_limpio.groupby(by='playlist_genre')['danceability'].mean().sort_values(ascending=False)
genre_avg_danceability

In [None]:
paper = plt.figure(figsize=(15,7))
sns.barplot(x=genre_avg_danceability.index,y=genre_avg_danceability.values, color='darkgreen')
plt.xlabel('Género',size=12)
plt.ylabel('Popularidad',size=12)
plt.title('Media de género más popular',size=14)
plt.show()


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Suponiendo que 'genre_avg_danceability' contiene los resultados calculados previamente
plt.figure(figsize=(15, 7))

# Configuración del estilo
sns.set(style="darkgrid", rc={"axes.facecolor": "black"})

# Crear el gráfico de barras
sns.barplot(x=genre_avg_danceability.index, y=genre_avg_danceability.values, color='darkgreen')

# Configurar etiquetas y título
plt.xlabel('Género', size=12)
plt.ylabel('Popularidad', size=12)
plt.title('Media de género más popular', size=14)

# Eliminar cuadrícula y ejes espinales
sns.despine(left=True, bottom=True)

plt.show()


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Suponiendo que 'genre_avg_danceability' contiene los resultados calculados previamente
paper = plt.figure(figsize=(15, 7))
sns.set(style="darkgrid", rc={"axes.facecolor": "black"})  # Establecer fondo negro y cuadrícula

sns.barplot(x=genre_avg_danceability.index, y=genre_avg_danceability.values, color='darkgreen')

plt.xlabel('Género', size=12)
plt.ylabel('Popularidad', size=12)
plt.title('Media de género más popular', size=14)

# Eliminar cuadrícula y ejes espinales
sns.despine(left=True, bottom=True)

plt.show()


### ¿En qué año se produjeron más canciones?

In [None]:
#Creamos las columnas de la fecha por separado
df_general['release_year'] = df_general['track_album_release_date'].dt.year
df_general['release_month'] = df_general['track_album_release_date'].dt.month
df_general['release_day'] = df_general['track_album_release_date'].dt.day

In [None]:
df_general['release_year'].dtype 
df_general['release_month'].dtype
df_general['release_day'].dtype

## MEDIDAS POR GÉNERO

In [None]:
# Suponiendo que 'df_general' es tu DataFrame
columnas_a_calcular = ['track_popularity', 'danceability', 'energy', 'key', 'loudness', 'mode', 'speechiness', 'acousticness', 'instrumentalness', 'liveness', 'valence', 'tempo', 'duration_s']

# Filtrar el DataFrame para incluir solo los géneros de interés
generos_interes = ['latin', 'edm', 'rock', 'r&b', 'rap', 'pop']
df_filtrado = df_general[df_general['playlist_genre'].isin(generos_interes)]

# Calcular el valor medio por cada género
resultados_agrupados = df_filtrado.groupby('playlist_genre')[columnas_a_calcular].mean()

# Mostrar los resultados
resultados_agrupados


In [None]:
resultados_agrupados.style.set_properties(**{'background-color': 'black',                                                   
                                    'color': 'green',                       
                                    'border-color': 'green'})

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Suponiendo que 'resultados_agrupados' contiene los resultados calculados previamente
columnas_a_calcular = ['danceability', 'energy', 'key', 'loudness', 'mode', 'acousticness', 'instrumentalness', 'liveness', 'valence']

resultados_agrupados_sin_duration_tempo = df_filtrado.groupby('playlist_genre')[columnas_a_calcular].mean()

# Configuración del gráfico de líneas con puntos
plt.figure(figsize=(20, 12))

# Dibuja las líneas sin marcadores y ajusta el grosor
for genre, data in resultados_agrupados_sin_duration_tempo.T.items():
    plt.plot(data, label=genre, linewidth=3)
    plt.scatter(data.index, data, s=150)  # Agrega puntos a cada valor

# Configuración adicional
plt.title('Valores Medios por género musical (sin duration_s ni tempo)')
plt.xlabel('Columnas')
plt.ylabel('Valores Medios')
plt.legend(title='Género')

# Eliminar las líneas de la cuadrícula
plt.grid(False)

plt.show()


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Suponiendo que 'resultados_agrupados' contiene los resultados calculados previamente
columnas_a_calcular_2 = ['danceability', 'energy', 'key', 'loudness', 'mode', 'acousticness', 'instrumentalness', 'liveness', 'valence', 'tempo', 'duration_s']

resultados_agrupados = df_filtrado.groupby('playlist_genre')[columnas_a_calcular_2].mean()

# Configuración del gráfico
fig, axs = plt.subplots(nrows=len(columnas_a_calcular_2), ncols=1, figsize=(10, 4 * len(columnas_a_calcular_2)))
sns.set_style("darkgrid")  # Establecer el estilo de fondo

# Iterar sobre cada columna y crear un gráfico para cada una
for idx, columna in enumerate(columnas_a_calcular_2):
    sns.barplot(x=resultados_agrupados.index, y=resultados_agrupados[columna], ax=axs[idx], palette="BuGn_r")
    axs[idx].set_title(f'Media de {columna} por Género')
    axs[idx].set_xlabel('Género')
    axs[idx].set_ylabel('Valor Medio')

    # Ajustar el fondo y eliminar ejes espinales y cuadrícula
    axs[idx].set_facecolor('black')
    axs[idx].xaxis.grid(False)
    axs[idx].yaxis.grid(False)
    sns.despine(ax=axs[idx], left=True, bottom=True)

plt.tight_layout()
plt.show()




### ¿Cuántas canciones se publican cada año?

In [None]:

conteo_anual = df_general['release_year'].value_counts().sort_index()

plt.style.use('dark_background')
plt.figure(figsize=(12, 6))
bars = plt.bar(conteo_anual.index, conteo_anual.values, color=sns.color_palette("Greens", len(conteo_anual)))
plt.gca().xaxis.grid(False)
plt.gca().yaxis.grid(False)
plt.xlabel('Año de Lanzamiento', color='white')
plt.ylabel('Cantidad de canciones', color='white')
plt.title('Número de canciones publicadas por año', color='white')
plt.rcParams['text.color'] = 'white'
plt.rcParams['axes.labelcolor'] = 'white'
plt.rcParams['xtick.color'] = 'white'
plt.rcParams['ytick.color'] = 'white'


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Agrupar por año y género y contar el número de canciones
conteo_anual_genero = df_general.groupby(['release_year', 'playlist_genre']).size().unstack(fill_value=0)

plt.style.use('dark_background')
plt.figure(figsize=(14, 8))

# Crear barras apiladas por género
bars = plt.bar(conteo_anual_genero.index, conteo_anual_genero.values.T, color=sns.color_palette("Greens", len(conteo_anual_genero.columns)))

# Configuración del gráfico
plt.gca().xaxis.grid(False)
plt.gca().yaxis.grid(False)
plt.xlabel('Año de Lanzamiento', color='white')
plt.ylabel('Cantidad de Canciones', color='white')
plt.title('Número de Canciones Publicadas por Año y Género', color='white')
plt.legend(conteo_anual_genero.columns, loc='upper left', bbox_to_anchor=(1, 1), title='Género')
plt.xticks(conteo_anual_genero.index, rotation=45)
plt.rcParams['text.color'] = 'white'
plt.rcParams['axes.labelcolor'] = 'white'
plt.rcParams['xtick.color'] = 'white'
plt.rcParams['ytick.color'] = 'white'

# Mostrar el gráfico
plt.show()



In [None]:
markers = {"Major" : 's', "Minor":"X"}

plt.figure(figsize=(20, 15))
sns.scatterplot(data=df_general, x='release_year', y='artist_popularity', alpha=0.5, size='track_popularity', sizes=(1,300) ,hue_norm=(0,30), color='Green')
plt.gca().xaxis.grid(False)
plt.gca().yaxis.grid(False)
plt.xlabel('Fecha de Lanzamiento del Álbum')
plt.ylabel('Popularidad del Artista')
plt.title('Año de lanzamiento de la canción en relación a la popularidad del artista.');


In [None]:

color = sns.palplot(sns.color_palette("BuGn_r", 6))

In [None]:
%matplotlib inline
plt.figure(figsize=(20, 16))
sns.scatterplot(data=df_general, x='release_year', y='track_popularity', hue='playlist_genre', size='mode')
plt.gca().yaxis.grid(False)
plt.xlabel('Fecha de Lanzamiento del Álbum')
plt.ylabel('Popularidad de la canción')
plt.title('Año de lanzamiento de la canción en relación a la popularidad del artista, por género y modo.');

### ¿Cuál es el mejor mes del año para publicar una canción?

In [None]:
dias_semana = {1: 'Lunes', 2: 'Martes', 3: 'Miércoles', 4: 'Jueves', 5: 'Viernes', 6: 'Sábado', 7: 'Domingo'}
dias_semana_seleccionados = list(range(1, 8))
conteo_mensual = df_general['release_day'].value_counts().sort_index()

plt.figure(figsize=(10, 6))
datos_semana = df_general[df_general['release_day'].isin(dias_semana_seleccionados)]
sns.scatterplot(data=datos_semana, x='release_day', y='artist_popularity', alpha=0.3, hue='playlist_genre')
plt.gca().xaxis.grid(False)
plt.gca().yaxis.grid(False)
nombres_dias = [dias_semana.get(dia, '') for dia in dias_semana_seleccionados]
plt.xticks(dias_semana_seleccionados, nombres_dias)
plt.xlabel('Día de la Semana')
plt.ylabel('Popularidad del Artista')
plt.title('Relación entre Popularidad del artista y día de lanzamiento de la canción')
plt.legend(title='canción', bbox_to_anchor=(1.01, 1), loc='upper left', markerscale=1.5)

for dia, total_canciones in zip(dias_semana_seleccionados, conteo_mensual):
    plt.text(dia, max(datos_semana['artist_popularity']) + 1, f'{total_canciones}', ha='center', va='bottom', )





In [None]:
conteo_diario = df_general['release_day'].value_counts().sort_index()

dias_semana = {1: 'Lunes', 2: 'Martes', 3: 'Miércoles', 4: 'Jueves', 5: 'Viernes', 6: 'Sábado', 7: 'Domingo'}
dias_semana_seleccionados = list(range(1, 8))
conteo_diario = df_general['release_day'].value_counts().sort_index()
plt.figure(figsize=(24, 8))
sns.scatterplot(data=df_general, x='release_day', y='artist_popularity', alpha=0.3)
plt.gca().xaxis.grid(False)
plt.gca().yaxis.grid(False)
plt.xticks()
plt.xlabel('Fecha de Lanzamiento del Álbum')
plt.ylabel('Popularidad del Artista')
plt.title('Relación entre Popularidad del artista y día de lanzamiento de la canción');



In [None]:
df_general['release_year']
df_general['track_id'].count()

df_general[['track_id','release_year']].value_counts()

In [None]:
df_general['release_year'].dtypes

In [None]:
%matplotlib inline

fig, axes = joypy.joyplot(df_limpio, by="release_year", column='danceability',figsize=(6,12), color='white', fill=True, linewidth=0.5, title='Bailabilidad')

In [None]:
%matplotlib inline

fig, axes = joypy.joyplot(df_limpio, by="release_year", column='energy',figsize=(6,12), color='white', fill=True, linewidth=0.5, title='Energy')

In [None]:
%matplotlib inline

fig, axes = joypy.joyplot(df_limpio, by="release_year", column='loudness',figsize=(6,12), color='white', fill=True, linewidth=0.5, background='black', title='Loudness' )

In [None]:
%matplotlib inline

fig, axes = joypy.joyplot(df_limpio, by="release_year", column='speechiness',figsize=(6,12), color='white', fill=True, linewidth=0.5, title='Speechiness')

In [None]:
%matplotlib inline

fig, axes = joypy.joyplot(df_limpio, by="release_year", column='tempo',figsize=(6,12), color='white', fill=True, linewidth=0.5, title='Tempo')

In [None]:

%matplotlib inline
fig, axes = joypy.joyplot(df_limpio, by="release_year", column='liveness',figsize=(6,12), color='white', fill=True, linewidth=0.5,title='Liveness')

In [None]:
%matplotlib inline

fig, axes = joypy.joyplot(df_limpio, by="release_year", column='instrumentalness',figsize=(6,12), color='white', fill=True, linewidth=0.5, title='Instrumentalness')

### ¿Cuáles son los artistas más prolíficos en este conjunto de datos?

In [None]:
prolif = df_limpio['track_artist'].value_counts().head(10)

In [None]:
prolif.plot.barh(color=colores)
colores = sns.color_palette("Greens", n_colors=10)
plt.title("Top 10 artistas populares")
plt.ylabel('Artistas',fontsize=10)               
plt.xlabel('Nº de canciones',fontsize=10);              


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Suponiendo que 'prolif' es tu DataFrame y 'colores' está definido
colores = sns.color_palette("Greens", n_colors=10)

# Configuración del gráfico de barras horizontal
prolif.plot.barh(color=colores)

# Eliminar cuadrícula y ejes espinales
sns.despine(left=True, bottom=True)

plt.title("Top 10 artistas populares")
plt.ylabel('Artistas', fontsize=10)
plt.xlabel('Nº de canciones', fontsize=10)

plt.show()


In [None]:
df_limpio['track_id']

In [None]:
top_ten_songs = df_limpio.groupby("track_popularity").count().sort_values(by=["track_popularity"], ascending=False)[:11]
top_ten_songs.reset_index()

In [None]:
top_ten_songs.plot.barh(color=colores)
colores = sns.color_palette("Greens", n_colors=10)
plt.title("Top 10 canciones populares")
plt.ylabel('Artistas',fontsize=10)               
plt.xlabel('Nº de canciones',fontsize=10);              

In [None]:
sns.set(rc={'figure.figsize':(15,10)}, style='darkgrid')
sns.set(style="darkgrid")

sns.scatterplot(x='track_popularity', y='release_year', data=df_general, hue='playlist_genre' )


In [None]:
df_general.hist(figsize=(30,25),grid=False,color='green', bins=30)
plt.style.use('dark_background')
plt.rcParams['text.color'] = 'white'
plt.rcParams['axes.labelcolor'] = 'white'
plt.rcParams['xtick.color'] = 'white'
plt.rcParams['ytick.color'] = 'white'

In [None]:
df_pairplot = df_general.select_dtypes(exclude=object)

In [None]:
sns.pairplot(df_pairplot)
plt.style.use('dark_background')
plt.rcParams['text.color'] = 'white'
plt.rcParams['axes.labelcolor'] = 'white'
plt.rcParams['xtick.color'] = 'white'
plt.rcParams['ytick.color'] = 'white'

In [None]:
a = df_general[df_general['track_popularity'] == 0]

In [None]:
df_numeric = df_limpio.select_dtypes(include=['float64', 'int64'])


In [None]:
correlacion = df_numeric.corr()
correlacion

In [None]:
plt.figure(figsize=(12,10))

ax = sns.heatmap(correlacion, cmap="Greens", annot=True)

In [None]:
top_five_artists = df_limpio.groupby("track_artist").count().sort_values(by="track_name", ascending=False)["track_name"][:11]
top_five_artists.reset_index()

In [None]:
top_five_artists

In [None]:
#convertir verde

top_five_artists = df_limpio.groupby("track_artist").count().sort_values(by="track_name", ascending=False)["track_name"][:11]
top_five_artists = top_five_artists.reset_index()


df_top_five = df_limpio[df_limpio['track_artist'].isin(top_five_artists['track_artist'])]

plt.figure(figsize=(16, 8))
sns.barplot(data=df_top_five, x='track_artist', y='track_popularity', estimator=sum, ci=None, hue='track_artist', dodge=False)
plt.xlabel('Artista')
plt.ylabel('Popularidad Total')
plt.title('Popularidad Total de las Canciones de los Cinco Artistas Principales')
plt.legend(title='Artista', bbox_to_anchor=(1.05, 1), loc='upper left')

plt.show()



In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Suponiendo que 'df_top_five' contiene los datos necesarios

# Obtener los artistas y su popularidad total
artistas_popularidad = df_top_five.groupby("track_artist")["track_popularity"].sum().sort_values(ascending=False)

# Crear una paleta de colores verde
colores_verdes = sns.color_palette("Greens", n_colors=len(artistas_popularidad))

# Configurar el estilo de fondo
sns.set(style="darkgrid", rc={"axes.facecolor": "black"})

# Configuración del gráfico de barras
plt.figure(figsize=(16, 8))
sns.barplot(x=artistas_popularidad.index, y=artistas_popularidad, palette=colores_verdes)
plt.xlabel('Artista')
plt.ylabel('Popularidad Total')
plt.title('Popularidad Total de las Canciones de los Cinco Artistas Principales')
plt.legend().remove()  # No se necesita leyenda para un solo color en la paleta

# Eliminar cuadrícula y ejes espinales
sns.despine(left=True, bottom=True)

plt.show()



In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Suponiendo que 'df_top_five' contiene los datos necesarios
artistas_popularidad = df_top_five.groupby("track_artist")["track_popularity"].sum().sort_values(ascending=False)
colores_verdes = sns.color_palette("Greens", n_colors=len(artistas_popularidad))

# Configuración del gráfico de barras
plt.figure(figsize=(20, 8))
sns.barplot(x=artistas_popularidad.index, y=artistas_popularidad, palette=colores_verdes)
plt.xlabel('Artista')
plt.ylabel('Popularidad Total')
plt.title('Popularidad total de las canciones de los diez artistas principales')
plt.legend().remove()  # No se necesita leyenda para un solo color en la paleta

# Ajustar el fondo a negro
plt.gca().set_facecolor('black')

# Eliminar cuadrícula y ejes espinales
sns.despine(left=True, bottom=True)

plt.show()


In [None]:
%matplotlib inline
top_five_artists = df_limpio.groupby("track_artist").count().sort_values(by="track_popularity", ascending=False)["track_popularity"][:11]
top_five_artists = top_five_artists.reset_index()

df_top_five = df_limpio[df_limpio['track_artist'].isin(top_five_artists['track_artist'])]

plt.figure(figsize=(20, 10))
scatter_plot = sns.scatterplot(data=df_top_five, x='track_artist', y='track_popularity', hue='playlist_genre', s=75)

# Eliminar cuadrícula
scatter_plot.xaxis.grid(False)
scatter_plot.yaxis.grid(False)

plt.xlabel('Artista')
plt.ylabel('Canciones')
plt.title('Recuento de las canciones de los diez artistas más populares, por género')
plt.legend(title='Canción', bbox_to_anchor=(1.01, 1), loc='upper left', markerscale=0.8)

plt.show()


In [None]:
%matplotlib inline
top_five_artists = df_limpio.groupby("track_artist").count().sort_values(by="track_popularity", ascending=False)["track_popularity"][:11]
top_five_artists = top_five_artists.reset_index()

df_top_five = df_limpio[df_limpio['track_artist'].isin(top_five_artists['track_artist'])]

plt.figure(figsize=(20, 10))
scatter_plot = sns.scatterplot(data=df_top_five, x='track_artist', y='track_popularity', hue='playlist_genre', s=75, palette='BuGn_r')

# Eliminar cuadrícula y ejes espinales
sns.despine(left=True, bottom=True)

plt.xlabel('Artista')
plt.ylabel('Canciones')
plt.title('Popularidad de cada canción de los diez artistas más populares')
plt.legend(title='Canción', bbox_to_anchor=(1.01, 1), loc='upper left', markerscale=0.8)

plt.show()


In [None]:
plt.figure(figsize=(12, 8))
scatter_plot = sns.scatterplot(data=df_general, x='track_id', y='track_popularity', hue='playlist_genre', alpha=0.7)
plt.xlabel('Track ID')
plt.ylabel('Track Popularity')
plt.title('Relación entre Track ID, Popularidad y Género')
scatter_plot.legend(title='Género', bbox_to_anchor=(1.05, 1), loc='upper left')



In [None]:

conteo_anual = df_general['release_month'].value_counts().sort_index()

plt.figure(figsize=(12, 8));
barplot = sns.barplot(data=df_general, x='release_month', y='track_popularity', hue='playlist_genre', errorbar= None), ;
plt.gca().xaxis.grid(False)
plt.gca().yaxis.grid(False)
plt.xticks(range(1, 13)) 
plt.xlabel('Fecha de Lanzamiento del Álbum')
plt.ylabel('Popularidad del Artista')
plt.title('Relación entre Popularidad del artista y mes de lanzamiento de la canción')

barplot.legend(title='Género', bbox_to_anchor=(1, 1), loc='upper left');



In [None]:
sns.set(style='dark', palette='viridis')
columnas_analisis = ['track_popularity', 'danceability', 'energy', 'loudness', 'valence', 'tempo', 'playlist_genre']
scatter_matrix = sns.pairplot(df_general[columnas_analisis], hue='playlist_genre', markers='o', diag_kind='kde')
plt.suptitle('Matriz de Dispersión para Análisis Multivariante por Género', y=1.02, color='white');




In [None]:
columnas_numericas = ['track_popularity', 'danceability', 'energy', 'key', 'loudness', 'mode', 'instrumentalness', 'tempo', 'duration_s']


In [None]:
resultados_agrupados = df_limpio.groupby('playlist_genre').count()

resultados_agrupados.reset_index(inplace=True)
resultados_agrupados



In [None]:
diccionario_generos = {edm: 0, 1: 'latin', 2: 'pop', 3: 'r&b', 4: 'rap', 5: 'rock'}


In [None]:
diccionario_generos_invertido = {v.lower(): k for k, v in diccionario_generos.items()}
diccionario_generos_invertido


In [None]:
def conversor():
    for i in playlist_genre:
        if i == 'pop':
            playlist_genre_index == 2
            playlist_genre_index.append()
            


In [None]:
def conversor(playlist_genre):
    playlist_genre_index = []

    for i in playlist_genre:
        if i.lower() == 'pop':
            playlist_genre_index.append(2)
        elif i.lower() == 'edm':
            playlist_genre_index.append(0)
        elif i.lower(e)
        else:
            # Si no coincide con ningún género, puedes manejarlo de alguna manera (por ejemplo, añadir un valor predeterminado)
            playlist_genre_index.append(None)

In [None]:
def conversor(playlist_genre):
    playlist_genre_index = []

    for i in playlist_genre:
        if i.lower() == 'pop':
            playlist_genre_index.append(2)
        elif i.lower() == 'edm':
            playlist_genre_index.append(0)
        elif i.lower() == 'latin':
            playlist_genre_index.append(1)
        elif i.lower() == 'r&b':
            playlist_genre_index.append(3)
        elif i.lower() == 'rap':
            playlist_genre_index.append(4)
        elif i.lower() == 'rock':
            playlist_genre_index.append(5)
        else:
            # Si no coincide con ningún género, puedes manejarlo de alguna manera (por ejemplo, añadir un valor predeterminado)
            playlist_genre_index.append(None)

    return playlist_genre_index

# Llamada a la función
df_limpio['playlist_genre_index'] = conversor(df_limpio['playlist_genre'])

# Mostrar los resultados
print(df_limpio[['playlist_genre', 'playlist_genre_index']])


In [None]:
df_limpio['playlist_genre_index'].dtypes

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Ejemplo de DataFrame
data_art = pd.DataFrame({
    'Variable1': [10, 15, 20, 25, 30],
    'Variable2': [5, 8, 12, 18, 22],
    'Variable3': [8, 10, 15, 20, 25]
})

# Gráfico de dispersión
sns.scatterplot(x='Variable1', y='Variable2', data=data_art, hue='Variable3', palette='viridis')
plt.title('Gráfico de dispersión con colores representando Variable3')
plt.xlabel('Variable1')
plt.ylabel('Variable2')
plt.show()

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Datos de ejemplo
categorias = ['A', 'B', 'C', 'D', 'E']
valores = [4, 7, 1, 8, 5]

# Estilo artístico
colores = plt.cm.viridis(np.linspace(0, 1, len(categorias)))
estilo = 'seaborn-darkgrid'

# Crear el gráfico de barras
with plt.style.context(estilo):
    plt.figure(figsize=(8, 6))
    plt.bar(categorias, valores, color=colores)
    plt.title('Gráfico de Barras Estilizado')
    plt.xlabel('Categorías')
    plt.ylabel('Valores')
    plt.show()



## Contraste de hipotesis

Contraste de Medias:

Hipótesis Nula, H0:  La media de la popularidad de las canciones en dos géneros de playlist específicos es la misma.
Hipótesis Alternativa, h1: La media de la popularidad de las canciones en dos géneros de playlist específicos es diferente.

In [None]:
from scipy.stats import ttest_ind

# Suponiendo que: ditrib normal y varianzas no iguales

playlist_genre_pop = df_general[df_general['playlist_genre'] == 'pop']['track_popularity']
playlist_genre_edm = df_general[df_general['playlist_genre'] == 'edm']['track_popularity']

t_statistic, p_value = ttest_ind(playlist_genre_pop, playlist_genre_edm, equal_var=False)
alpha = 0.05

print(f'Test Statistic: {t_statistic}')
print(f'P-value: {p_value}')

# Tomar la decisión basada en el p-value
if p_value < alpha:
    print('Rechazamos la hipótesis nula. Hay evidencia suficiente para concluir que las medias son diferentes.')
else:
    print('No hay suficiente evidencia para rechazar la hipótesis nula. No hay diferencia significativa en las medias.')


In [None]:
from scipy.stats import proportions_ttest

# Suponiendo que tienes dos conjuntos de datos para los dos géneros de playlist
playlist_edm_bailable = df_general[df_general['playlist_genre'] == 'edm']['danceability']
playlist_latin_bailable = df_general[df_general['playlist_genre'] == 'latin']['danceability']
count_genre1_bailable = (playlist_edm_bailable > umbral).sum()
count_genre2_bailable = (playlist_latin_bailable > umbral).sum()
nobs_genre1 = len(playlist_edm_bailable)
nobs_genre2 = len(playlist_latin_bailable)
stat, p_value = proportions_ztest([count_genre1_bailable, count_genre2_bailable], [nobs_genre1, nobs_genre2], alternative='two-sided')
alpha = 0.05

print(f'Test Statistic: {stat}')
print(f'P-value: {p_value}')
if p_value < alpha:
    print('Rechazamos la hipótesis nula. Hay evidencia suficiente para concluir que las proporciones son diferentes.')
else:
    print('No hay suficiente evidencia para rechazar la hipótesis nula. No hay diferencia significativa en las proporciones.')


In [1]:

Hipótesis Nula, H0: La proporción de canciones bailables (alta danceability) en un género de playlist es igual a la proporción en otro género.
Hipótesis Alternativa, H1: La proporción de canciones bailables en un género de playlist es diferente a la proporción en otro género.










SyntaxError: invalid syntax (365015446.py, line 1)

In [None]:
from scipy.stats import kruskal

# Prueba de Kruskal-Wallis para más de dos muestras independientes
stat_kw, p_value_kw = kruskal(df_general['track_popularity'][df_general['playlist_genre'] == 'r&b'],
                               df_general['track_popularity'][df_general['playlist_genre'] == 'latin'],
                               df_general['track_popularity'][df_general['playlist_genre'] == 'edm'],
                               df_general['track_popularity'][df_general['playlist_genre'] == 'rap'],
                               df_general['track_popularity'][df_general['playlist_genre'] == 'pop'],
                               df_general['track_popularity'][df_general['playlist_genre'] == 'rock']
                               )


print(f"\nPrueba de Kruskal-Wallis para más de dos muestras independientes: stat = {stat_kw}, p_value = {p_value_kw}")
alpha=0.05
if p_value_kw < alpha:
    print("Rechazamos la hipótesis nula. Hay evidencia de al menos una diferencia significativa en la popularidad de los 5 géneros top.")
else:
    print("No hay suficiente evidencia para rechazar la hipótesis nula. No hay diferencia significativa en la popularidad de los 5 géneros top.")

