### Carga de librerías
Cargamos las librerías que vamos a utilizar: NumPy, Pandas y Os.

In [130]:
import numpy as np
import pandas as pd
import os

### Carga del dataset

Leemos el dataset que nos han facilitado:
Pandas proporciona un método para importar este tipo de ficheros y directamente crear un dataframe.

In [131]:
# con 'read_csv' leemos el archivo en formato csv y creamos el df
df = pd.read_csv('listas_musica.csv')

# pedimos que muestre las cinco primeras filas
df.head()

Unnamed: 0,date,rank,song,artist,last-week,peak-rank,weeks-on-board
0,2021-11-06,1,Easy On Me,Adele,1.0,1,3
1,2021-11-06,2,Stay,The Kid LAROI & Justin Bieber,2.0,1,16
2,2021-11-06,3,Industry Baby,Lil Nas X & Jack Harlow,3.0,1,14
3,2021-11-06,4,Fancy Like,Walker Hayes,4.0,3,19
4,2021-11-06,5,Bad Habits,Ed Sheeran,5.0,2,18


### Limpieza de datos

En primer lugar, miramos qué columnas tiene nuestro dataframe

In [132]:
# creamos una variable 'columnas' que incorporará todas las columnas del df
    # usamos el método "columns" incorporado en pandas para extraer las columnas
columnas = df.columns

# imprimimos esta variable para obtener las columnas del df
print(columnas)

Index(['date', 'rank', 'song', 'artist', 'last-week', 'peak-rank',
       'weeks-on-board'],
      dtype='object')


Detectamos, a continuación, si hay valores nulos en nuestro dataframe con "isnull"

In [133]:
# usamos el método 'isnull' junto con 'sum' para obtener el número total de valores nulos en cada columna
df.isnull().sum()

# observamos que la única columna con valores nulos es "last-week"

date                  0
rank                  0
song                  0
artist                0
last-week         32312
peak-rank             0
weeks-on-board        0
dtype: int64

In [134]:
# para ver el porcentaje de números nulos dividimos entre la longitud total del df
df.isnull().sum() / len(df) * 100

# son nulos el 9,79% de los valores de la columna "last-week"

date              0.000000
rank              0.000000
song              0.000000
artist            0.000000
last-week         9.788934
peak-rank         0.000000
weeks-on-board    0.000000
dtype: float64

In [135]:
# rellenamos los valores nulos con ceros usando fillna().

df = df.fillna(0)

# pedimos que nos muestre el df para ver los cambios
df

Unnamed: 0,date,rank,song,artist,last-week,peak-rank,weeks-on-board
0,2021-11-06,1,Easy On Me,Adele,1.0,1,3
1,2021-11-06,2,Stay,The Kid LAROI & Justin Bieber,2.0,1,16
2,2021-11-06,3,Industry Baby,Lil Nas X & Jack Harlow,3.0,1,14
3,2021-11-06,4,Fancy Like,Walker Hayes,4.0,3,19
4,2021-11-06,5,Bad Habits,Ed Sheeran,5.0,2,18
...,...,...,...,...,...,...,...
330082,1958-08-04,96,Over And Over,Thurston Harris,0.0,96,1
330083,1958-08-04,97,I Believe In You,Robert & Johnny,0.0,97,1
330084,1958-08-04,98,Little Serenade,The Ames Brothers,0.0,98,1
330085,1958-08-04,99,I'll Get By (As Long As I Have You),Billy Williams,0.0,99,1


### Imprima algunos valores de ejemplos

In [136]:
# Le pedimos que nos muestre las últimas 10 filas con "tail"

last_10 = df.tail(10)
print(last_10)

              date  rank                                            song  \
330077  1958-08-04    91  The Purple People Eater Meets The Witch Doctor   
330078  1958-08-04    92                                        Bird Dog   
330079  1958-08-04    93                             Are You Really Mine   
330080  1958-08-04    94   She Was Only Seventeen (He Was One Year More)   
330081  1958-08-04    95                                     Little Mary   
330082  1958-08-04    96                                   Over And Over   
330083  1958-08-04    97                                I Believe In You   
330084  1958-08-04    98                                 Little Serenade   
330085  1958-08-04    99             I'll Get By (As Long As I Have You)   
330086  1958-08-04   100                                            Judy   

                     artist  last-week  peak-rank  weeks-on-board  
330077            Joe South        0.0         91               1  
330078  The Everly Brothers

In [137]:
# Le pedimos que nos muestre los mismos diez valores de la petición anterior
    # pero solo las columnas "song" y "artist"

last_10_song = df[['song', 'artist']].tail(10)
print(last_10_song)

                                                  song               artist
330077  The Purple People Eater Meets The Witch Doctor            Joe South
330078                                        Bird Dog  The Everly Brothers
330079                             Are You Really Mine       Jimmie Rodgers
330080   She Was Only Seventeen (He Was One Year More)        Marty Robbins
330081                                     Little Mary          Fats Domino
330082                                   Over And Over      Thurston Harris
330083                                I Believe In You      Robert & Johnny
330084                                 Little Serenade    The Ames Brothers
330085             I'll Get By (As Long As I Have You)       Billy Williams
330086                                            Judy      Frankie Vaughan


### Calcule los top 30 artistas


En primer lugar, vemos cuantos artistas únicos encontramos en nuestro df

In [138]:
n_uniq_artist = df['artist'].nunique()
print(f'De las {len(df)} entradas del dataframe, encontramos un total de {n_uniq_artist} artistas, de forma que alguno de ellos aparece más de una vez en la lista.')

De las 330087 entradas del dataframe, encontramos un total de 10205 artistas, de forma que alguno de ellos aparece más de una vez en la lista.


Tenemos diferentes formas de interpretar cuales son los mejores artistas según la información que tenemos, estudiaremos dos de ellas:
* Considerando que los mejores artistas serán aquellos que más veces hayan aparecido en el top10 con alguna de sus canciones.
* Considerando que los mejores artistas serán aquellos que más veces haya tenido una canción en el top1.

Usamos 'value_counts' y 'head' para encontrar **los 30 artistas que más veces aparezcan a lo largo de la lista**. De esta forma, un artista puede aparecer más veces repetido pero no haber alcanzado el top1 en ningún momento.

Creamos una variable que nos indique, de manera ascendente, los 30 artistas que más aparecen.

In [139]:
top30_artists = df['artist'].value_counts().head(30)
top30_artists

artist
Taylor Swift             1023
Elton John                889
Madonna                   857
Drake                     787
Kenny Chesney             769
Tim McGraw                731
Keith Urban               673
Stevie Wonder             659
Rod Stewart               657
Mariah Carey              621
Michael Jackson           611
Chicago                   607
Rascal Flatts             604
Billy Joel                588
The Rolling Stones        585
The Beatles               585
Jason Aldean              572
Aretha Franklin           569
Rihanna                   566
P!nk                      564
Whitney Houston           561
Brad Paisley              559
Neil Diamond              553
George Strait             553
Luke Bryan                543
Carrie Underwood          541
Daryl Hall John Oates     540
The Beach Boys            531
Toby Keith                526
Bee Gees                  516
Name: count, dtype: int64

Esta vez **consideraremos a los mejores artistas como aquellos que más veces hayan estado en el top 1.** 

Usamos 'value_counts' y 'head' para encontrar los 30 mejores artistas pero, esta vez, definimos una condición que nos indique que la columna "rank" del df lleve el valor 1; y, a continuación creamos una variable que cuente cuantas veces se repite un artista con la condición que hemos establecido (estar en el top1)

In [140]:
top1 = df['rank'] == 1
top30_artists_hist = df[top1]['artist'].value_counts().head(30)
top30_artists_hist

artist
Mariah Carey                                         65
The Beatles                                          54
Boyz II Men                                          34
Madonna                                              32
Whitney Houston                                      31
Drake                                                31
Michael Jackson                                      30
The Black Eyed Peas                                  28
Bee Gees                                             27
Adele                                                26
Elton John                                           23
Usher                                                22
Janet Jackson                                        21
Elvis Presley With The Jordanaires                   21
Taylor Swift                                         19
Lil Nas X Featuring Billy Ray Cyrus                  19
The Supremes                                         19
TLC                                      

### Muestre el top 15 de canciones junto con su cantante

De igual forma que en el paso anterior, en primer lugar calcularemos **cuales son las canciones que más veces aparecen a lo largo de la lista en alguno de los puestos**.
Creamos una variable que nos indique, de manera ascendente, las 15 canciones que más aparecen y, además, que nos muestre también el nombre del artista.

In [141]:
top15_songs = df[['song','artist']].value_counts().head(15)
top15_songs

song                                 artist                                   
Blinding Lights                      The Weeknd                                   90
Radioactive                          Imagine Dragons                              87
Sail                                 AWOLNATION                                   79
I'm Yours                            Jason Mraz                                   76
How Do I Live                        LeAnn Rimes                                  69
Counting Stars                       OneRepublic                                  68
Party Rock Anthem                    LMFAO Featuring Lauren Bennett & GoonRock    68
Rolling In The Deep                  Adele                                        65
Foolish Games/You Were Meant For Me  Jewel                                        65
Before He Cheats                     Carrie Underwood                             64
You And Me                           Lifehouse                         

Ahora, **entenderemos que las mejores canciones serán aquellas que más veces hayan estado en el top 1.**

Usamos 'value_counts' y 'head' para encontrar las 15 mejores canciones: 
usando la condición definida en el paso anterior, creamos una variable que cuente cuantas veces se repite una canción con dicha condición (estar en el top1).

In [142]:
top15_songs_hist = df[top1][['song','artist']].value_counts().head(15)
top15_songs_hist

song                                                              artist                                           
Old Town Road                                                     Lil Nas X Featuring Billy Ray Cyrus                  19
One Sweet Day                                                     Mariah Carey & Boyz II Men                           16
Despacito                                                         Luis Fonsi & Daddy Yankee Featuring Justin Bieber    16
We Belong Together                                                Mariah Carey                                         14
I Will Always Love You                                            Whitney Houston                                      14
Uptown Funk!                                                      Mark Ronson Featuring Bruno Mars                     14
I'll Make Love To You                                             Boyz II Men                                          14
Candle In The Wind 1997/Someth

### Muestre el top 10 de los artistas, canciones y su mejor posición

Para este ejercicio, **los mejores artistas serán aquellos que más veces hayan aparecido en el top10 con alguna de sus canciones**.

En este caso, usamos 'value_counts' y 'head' para encontrar los 10 mejores artistas sin imponerle ninguna condición, de forma que nos devolverá aquellos que más veces encuentre. Le pedimos que nos indique también cual es la mejor posición que ha alcanzado: veremos que en el caso de Jason Mraz con la canción I'm Yours, se repite más veces que otros artistas pero el puesto máximo alcanzado es el top6.

Creamos una variable que cuente cuantas veces se repite un artista y le pedimos las columnas que nos interesan: artista, nombre de la canción y la mejor posición que ha alcanzado.

In [143]:
top10_artist = df[['artist','song','peak-rank']].value_counts().head(10)
top10_artist

artist                                     song                     peak-rank
The Weeknd                                 Blinding Lights          1            74
Ed Sheeran                                 Shape Of You             1            58
Jason Mraz                                 I'm Yours                6            56
LMFAO Featuring Lauren Bennett & GoonRock  Party Rock Anthem        1            54
The Black Eyed Peas                        I Gotta Feeling          1            54
Justin Timberlake                          Can't Stop The Feeling!  1            52
Taylor Swift                               Shake It Off             1            50
The Chainsmokers Featuring Halsey          Closer                   1            50
Post Malone                                Circles                  1            50
Mark Ronson Featuring Bruno Mars           Uptown Funk!             1            49
Name: count, dtype: int64

### Artistas más reproducidos por semanas

Para encontrar a los artistas más reproducidos por semanas, en primer lugar transformaremos la columna date con formato aaaa-mm-dd en un datetime, de forma que podamos crear posteriormente una nueva columna agrupando los días por semanas.

In [144]:
df['date'] = pd.to_datetime(df['date'])

Creamos dos nuevas columnas en el df: la columna "week" para que nos indique a qué semana pertenece cada uno de los días de la columna 'date', y la columna "week_count" que nos indica cuantas veces aparece cada artista en dicha semana.

In [145]:
df['week'] = df['date'].dt.to_period('W')
df['artist_count_per_week'] = df.groupby(['week', 'artist'])['song'].transform('count')

Con estas dos nuevas columnas, podemos saber cual es el artista que más veces aparece en el ranking en cada semana. Utilizamos el método "sort_values" para ordenar los datos basandonos en la columna 'week_count' que indica cuantas veces aparece cada artista en cada semana, ordenándolo de forma descendiente dentro de cada una de las semanas (los que aparecen más veces nos los mostrará primero).

Asimismo, le indicamos que, agrupando por semanas, queremos ver únicamente el primero de cada una de ellas.

In [147]:
top_artists = df.sort_values(by=['week','artist_count_per_week'], ascending=[False,False]).groupby('week').head(1)
top_artists

Unnamed: 0,date,rank,song,artist,last-week,peak-rank,weeks-on-board,week,artist_count_per_week
8,2021-11-06,9,Need To Know,Doja Cat,11.0,9,20,2021-11-01/2021-11-07,4
106,2021-10-30,7,Good 4 U,Olivia Rodrigo,6.0,1,23,2021-10-25/2021-10-31,3
210,2021-10-23,11,Need To Know,Doja Cat,13.0,11,18,2021-10-18/2021-10-24,4
335,2021-10-16,36,Intro (Hate On Me),Meek Mill,0.0,36,1,2021-10-11/2021-10-17,5
427,2021-10-09,28,Bad Morning,YoungBoy Never Broke Again,0.0,28,1,2021-10-04/2021-10-10,15
...,...,...,...,...,...,...,...,...,...
329589,1958-09-01,3,Bird Dog,The Everly Brothers,3.0,3,5,1958-09-01/1958-09-07,2
329705,1958-08-25,19,Volare (Nel Blu Dipinto Di Blu),Dean Martin,20.0,19,4,1958-08-25/1958-08-31,3
329806,1958-08-18,20,Volare (Nel Blu Dipinto Di Blu),Dean Martin,37.0,20,3,1958-08-18/1958-08-24,3
329912,1958-08-11,26,Are You Really Mine,Jimmie Rodgers,93.0,26,2,1958-08-11/1958-08-17,3


A continuación, definimos la columna de la fecha como índice con 'set_index'.

In [148]:
top_artists.set_index('date', inplace = True)
top_artists

Unnamed: 0_level_0,rank,song,artist,last-week,peak-rank,weeks-on-board,week,artist_count_per_week
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2021-11-06,9,Need To Know,Doja Cat,11.0,9,20,2021-11-01/2021-11-07,4
2021-10-30,7,Good 4 U,Olivia Rodrigo,6.0,1,23,2021-10-25/2021-10-31,3
2021-10-23,11,Need To Know,Doja Cat,13.0,11,18,2021-10-18/2021-10-24,4
2021-10-16,36,Intro (Hate On Me),Meek Mill,0.0,36,1,2021-10-11/2021-10-17,5
2021-10-09,28,Bad Morning,YoungBoy Never Broke Again,0.0,28,1,2021-10-04/2021-10-10,15
...,...,...,...,...,...,...,...,...
1958-09-01,3,Bird Dog,The Everly Brothers,3.0,3,5,1958-09-01/1958-09-07,2
1958-08-25,19,Volare (Nel Blu Dipinto Di Blu),Dean Martin,20.0,19,4,1958-08-25/1958-08-31,3
1958-08-18,20,Volare (Nel Blu Dipinto Di Blu),Dean Martin,37.0,20,3,1958-08-18/1958-08-24,3
1958-08-11,26,Are You Really Mine,Jimmie Rodgers,93.0,26,2,1958-08-11/1958-08-17,3


Ahora, sabemos que los artistas que más veces han entrado en el top10 cada semana son:

In [149]:
top_artists['artist']

date
2021-11-06                      Doja Cat
2021-10-30                Olivia Rodrigo
2021-10-23                      Doja Cat
2021-10-16                     Meek Mill
2021-10-09    YoungBoy Never Broke Again
                         ...            
1958-09-01           The Everly Brothers
1958-08-25                   Dean Martin
1958-08-18                   Dean Martin
1958-08-11                Jimmie Rodgers
1958-08-04                   Dean Martin
Name: artist, Length: 3301, dtype: object

### Encuentre los más y menos escuchados según un intervalo de tiempo

* Puede usar resample(frecuencia)[columna].
* Puede usar .agg([columnas]) para agregar los datos



In [154]:
# en primer lugar, definimos la columna "date" como índice, paso necesario para usar "resample"

df.set_index('date', inplace = True)

In [162]:
# definimos un intervalo de tiempo: en este caso, será anual.
intervalo_tiempo = 'M'

# creamos una variable que nos devuelva a los artistas más y menos escuchados
             # usamos "resample" para ajustar los datos al intervalo de tiempo definido
                    # agregamos los datos con los métodos de la propia librería "min" y "max"
datos = df.resample(intervalo_tiempo)['artist'].agg(['max', 'min'])      

# renombramos las columnas
datos = datos.rename(columns={'max': 'artistas más escuchados', 'min': 'artistas menos escuchados'})

# llamamos a la variable para mostrar la tabla
datos


Unnamed: 0_level_0,artistas más escuchados,artistas menos escuchados
date,Unnamed: 1_level_1,Unnamed: 2_level_1
1958-08-31,Warren Storm,Betty Madigan
1958-09-30,Warren Storm,Andy Williams
1958-10-31,Tony Bennett,Andy Rose
1958-11-30,Tony Bennett,Andy Rose
1958-12-31,Wade Flemons and the Newcomers,Andy Williams
...,...,...
2021-07-31,Young Thug & Gunna,24kGoldn Featuring iann dior
2021-08-31,"Yung Bleu, Chris Brown & 2 Chainz",24kGoldn Featuring iann dior
2021-09-30,"Yung Bleu, Chris Brown & 2 Chainz",Aventura x Bad Bunny
2021-10-31,Zac Brown Band,42 Dugg Featuring Future
