### **Introducción**

Vamos a analizar un conjunto de datos de canciones y sus estadísticas por semanas: `listas_musica.csv`    

Es un conjunto de datos que nos permite trabajar los conceptos de `pandas` y `numpy`.   

El ejercicio será guiado aunque se permite no ver las soluciones para realizar las tareas.  

Las columnas del `dataset` son:   

`date`: Tipo `date` - Fecha de la lista.    
`rank`: Tipo `int` - Posición del ranking de la canción en esa fecha.   
`song`: Tipo `str` - Nombre de la canción.  
`artist`: Tipo `str` - Artista.       
`last-week`: Tipo `int` - Posición en el ranking de la semana anterior.         
`peak-rank`: Tipo `int` - La mejor posición de la canción en el ranking.    
`weeks-on-board`: Tipo `int` - Número de semanas que la canción lleva en la lista.  

### **1. Carga de librerías**
Cargue las librerías `numpy`, `pandas` y `os`.

#### Solución

In [16]:
import numpy as np
import pandas as pd
import os

### **2. Carga del dataset**

Lea el dataset y conviértalo en un `dataframe`. 
  
Imprima el dataset una vez lo tenga.

#### Solución

In [17]:
df=pd.read_csv("listas_musica.csv")
df

Unnamed: 0,date,rank,song,artist,last-week,peak-rank,weeks-on-board
0,2021-11-06,1,Easy On Me,Adele,1.0,1,3
1,2021-11-06,2,Stay,The Kid LAROI & Justin Bieber,2.0,1,16
2,2021-11-06,3,Industry Baby,Lil Nas X & Jack Harlow,3.0,1,14
3,2021-11-06,4,Fancy Like,Walker Hayes,4.0,3,19
4,2021-11-06,5,Bad Habits,Ed Sheeran,5.0,2,18
...,...,...,...,...,...,...,...
330082,1958-08-04,96,Over And Over,Thurston Harris,,96,1
330083,1958-08-04,97,I Believe In You,Robert & Johnny,,97,1
330084,1958-08-04,98,Little Serenade,The Ames Brothers,,98,1
330085,1958-08-04,99,I'll Get By (As Long As I Have You),Billy Williams,,99,1


### **3. Limpieza de datos**

Rellene con `0` usando `fillna()`.

#### Solución

In [18]:
df.isnull().sum()/len(df)*100                                            #Comprobamos el porcentaje de nulos de cada columna del csv

date              0.000000
rank              0.000000
song              0.000000
artist            0.000000
last-week         9.788934
peak-rank         0.000000
weeks-on-board    0.000000
dtype: float64

In [19]:
def reparar_nulos(df):                                                   #Creamos función para la reparación
    for col in df.columns:                                               #Creamos bucle que itere sobre cada columna dentro de las columnas del df
        if df[col].dtype == 'int64' or df[col].dtype == 'float64':       #Si el type en la columa es un número entero o decimal, aplicamos lo siguiente:
            df[col] = df[col].fillna(0)                                  #El contenido de la columna pasa a rellenarse con un "0"
    return df                                                            #La función debe devolver el df
 
df=reparar_nulos(df)  

In [20]:
df.isnull().sum()/len(df)*100                                           #Comprobamos de nuevo el porcentaje de nulos para asegurarnos que los valores nulos han sido reparados

date              0.0
rank              0.0
song              0.0
artist            0.0
last-week         0.0
peak-rank         0.0
weeks-on-board    0.0
dtype: float64

In [21]:
df                                                                    #Comprobamos que, en las últimas filas d ela columna "last-week", ha dejado de poner "NaN y en su lugar pone "0"

Unnamed: 0,date,rank,song,artist,last-week,peak-rank,weeks-on-board
0,2021-11-06,1,Easy On Me,Adele,1.0,1,3
1,2021-11-06,2,Stay,The Kid LAROI & Justin Bieber,2.0,1,16
2,2021-11-06,3,Industry Baby,Lil Nas X & Jack Harlow,3.0,1,14
3,2021-11-06,4,Fancy Like,Walker Hayes,4.0,3,19
4,2021-11-06,5,Bad Habits,Ed Sheeran,5.0,2,18
...,...,...,...,...,...,...,...
330082,1958-08-04,96,Over And Over,Thurston Harris,0.0,96,1
330083,1958-08-04,97,I Believe In You,Robert & Johnny,0.0,97,1
330084,1958-08-04,98,Little Serenade,The Ames Brothers,0.0,98,1
330085,1958-08-04,99,I'll Get By (As Long As I Have You),Billy Williams,0.0,99,1


### **4. Imprima algunos valores de ejemplo**

Use `tail()` para imprimir algunos valores.

Fíjese en las columnas del dataset.

#### Solución

In [22]:
df.tail(10)                                                             #Imprimimos las 10 últimas filas del df

Unnamed: 0,date,rank,song,artist,last-week,peak-rank,weeks-on-board
330077,1958-08-04,91,The Purple People Eater Meets The Witch Doctor,Joe South,0.0,91,1
330078,1958-08-04,92,Bird Dog,The Everly Brothers,0.0,92,1
330079,1958-08-04,93,Are You Really Mine,Jimmie Rodgers,0.0,93,1
330080,1958-08-04,94,She Was Only Seventeen (He Was One Year More),Marty Robbins,0.0,94,1
330081,1958-08-04,95,Little Mary,Fats Domino,0.0,95,1
330082,1958-08-04,96,Over And Over,Thurston Harris,0.0,96,1
330083,1958-08-04,97,I Believe In You,Robert & Johnny,0.0,97,1
330084,1958-08-04,98,Little Serenade,The Ames Brothers,0.0,98,1
330085,1958-08-04,99,I'll Get By (As Long As I Have You),Billy Williams,0.0,99,1
330086,1958-08-04,100,Judy,Frankie Vaughan,0.0,100,1


### **5. Calcule los top 30 artistas**

Puede usar la función `value_counts`() y `head(...)`.

Fíjese en usar la columna correspondiente.

#### Solución

In [23]:
top30_artists=df["artist"].value_counts().head(30)                  
top30_artists

Taylor Swift             1023
Elton John                889
Madonna                   857
Drake                     787
Kenny Chesney             769
Tim McGraw                731
Keith Urban               673
Stevie Wonder             659
Rod Stewart               657
Mariah Carey              621
Michael Jackson           611
Chicago                   607
Rascal Flatts             604
Billy Joel                588
The Rolling Stones        585
The Beatles               585
Jason Aldean              572
Aretha Franklin           569
Rihanna                   566
P!nk                      564
Whitney Houston           561
Brad Paisley              559
Neil Diamond              553
George Strait             553
Luke Bryan                543
Carrie Underwood          541
Daryl Hall John Oates     540
The Beach Boys            531
Toby Keith                526
Bee Gees                  516
Name: artist, dtype: int64

### **6. Muestre el top 15 de canciones junto con su cantante**

#### Solución

In [24]:
top15_songs=df[["song", "artist"]].value_counts().head(15)                       #Obtenemos el top 15 de canciones junto al nombre del artista
top15_songs

song                                 artist                                   
Blinding Lights                      The Weeknd                                   90
Radioactive                          Imagine Dragons                              87
Sail                                 AWOLNATION                                   79
I'm Yours                            Jason Mraz                                   76
How Do I Live                        LeAnn Rimes                                  69
Counting Stars                       OneRepublic                                  68
Party Rock Anthem                    LMFAO Featuring Lauren Bennett & GoonRock    68
Rolling In The Deep                  Adele                                        65
Foolish Games/You Were Meant For Me  Jewel                                        65
Before He Cheats                     Carrie Underwood                             64
You And Me                           Lifehouse                         

Otra forma de hacerlo:

In [25]:
df_reproducciones= df[["song"]].value_counts().to_frame('Reproducciones')                             #Obtenemos el contaje por canción y lo convertimos a df
df_reproducciones

Unnamed: 0_level_0,Reproducciones
song,Unnamed: 1_level_1
Stay,224
Angel,205
Hold On,202
You,195
Heaven,194
...,...
Nice,1
Argentina,1
Sally Walker,1
Thought I Knew You,1


In [26]:
pd.merge(df_reproducciones,df[["song","artist"]],on="song",how="left").drop_duplicates()        #Combinamos el df_reproducciones con el df original 
                                                                                                #En el original seleccionamos las columnas que nos interesan
                                                                                                #En "on=", especificamos en base a qué columna unimos los DataFrames
                                                                                                #En "how=", especficamos que mantenemos todas las filas de df de la izquierda (el primero), hyaan o no coincidencias a la derecha
                                                                                                #Eliminamos las filas duplicadas. En ocasiones, una canción estará cantada por más artistas, lo que da lugar a obtener más d euna línea por canción, pero la fila (entera), no está duplicada                        

Unnamed: 0,song,Reproducciones,artist
0,Stay,224,The Kid LAROI & Justin Bieber
16,Stay,224,BTS
17,Stay,224,Post Malone
21,Stay,224,Zedd & Alessia Cara
52,Stay,224,Florida Georgia Line
...,...,...,...
330082,Nice,1,The Carters
330083,Argentina,1,Gunna
330084,Sally Walker,1,Iggy Azalea
330085,Thought I Knew You,1,Nicki Minaj Featuring The Weeknd


In [27]:
pd.merge(df[["song"]].value_counts().to_frame('Reproducciones'),df[['song','artist']],on="song",how="left").drop_duplicates()

#Lo mismo de arriba en una sola línea

Unnamed: 0,song,Reproducciones,artist
0,Stay,224,The Kid LAROI & Justin Bieber
16,Stay,224,BTS
17,Stay,224,Post Malone
21,Stay,224,Zedd & Alessia Cara
52,Stay,224,Florida Georgia Line
...,...,...,...
330082,Nice,1,The Carters
330083,Argentina,1,Gunna
330084,Sally Walker,1,Iggy Azalea
330085,Thought I Knew You,1,Nicki Minaj Featuring The Weeknd


### **7. Artistas más reproducidos por semanas**

Transforme la columna `date` en `datetime`.

Use `set_index` para crear un índice en la columna `date`.

Imprima el dataframe con el nuevo índice.

#### Solución

In [28]:
print(df["date"].dtype)                        #Comprobamos el tipo de datos que contiene la columna "date"

object


In [29]:
df["date"]=pd.to_datetime(df["date"])          #Los datos de la columna "date" pasarán a ser esos datos convertidos en "datetime"


In [30]:
print(df["date"].dtype)                         #Comprobamos que el tipo de datos contenidos en la columna "date" ha cambiado correctamente a "datetime"

datetime64[ns]


In [31]:
df.set_index("date",inplace=True)               #Establecemos el índice en "date" e imprimimos
df

Unnamed: 0_level_0,rank,song,artist,last-week,peak-rank,weeks-on-board
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2021-11-06,1,Easy On Me,Adele,1.0,1,3
2021-11-06,2,Stay,The Kid LAROI & Justin Bieber,2.0,1,16
2021-11-06,3,Industry Baby,Lil Nas X & Jack Harlow,3.0,1,14
2021-11-06,4,Fancy Like,Walker Hayes,4.0,3,19
2021-11-06,5,Bad Habits,Ed Sheeran,5.0,2,18
...,...,...,...,...,...,...
1958-08-04,96,Over And Over,Thurston Harris,0.0,96,1
1958-08-04,97,I Believe In You,Robert & Johnny,0.0,97,1
1958-08-04,98,Little Serenade,The Ames Brothers,0.0,98,1
1958-08-04,99,I'll Get By (As Long As I Have You),Billy Williams,0.0,99,1


### **8. Encuentre los más y menos escuchados según un intervalo de tiempo**

Puede usar `resample(frecuencia)[columna]`.

Las frecuencias que puede usar son:

H - Horaria
D - Diaria
W - Semanal
M - Mensual
A - Anual
Puede usar `.agg([columnas])` para agregar los datos

#### Solución

In [32]:
df.resample("A")["artist"].agg(["first"])                              #Los más escuchados anualmente. "Firts" devuelve el primer valor de la columna "artist" para cada año

Unnamed: 0_level_0,first
date,Unnamed: 1_level_1
1958-12-31,Ricky Nelson
1959-12-31,The Chipmunks With David Seville
1960-12-31,Marty Robbins
1961-12-31,Elvis Presley With The Jordanaires
1962-12-31,The Tokens
...,...
2017-12-31,The Weeknd Featuring Daft Punk
2018-12-31,Ed Sheeran
2019-12-31,Ariana Grande
2020-12-31,Mariah Carey


In [33]:
df.resample("A")["artist"].agg(["last"])                                #Los menos escuchados anualmente. "last" devuelve el último valor de la columna "artist" para cada año

Unnamed: 0_level_0,last
date,Unnamed: 1_level_1
1958-12-31,The Ames Brothers
1959-12-31,The Knockouts
1960-12-31,Etta & Harvey
1961-12-31,Jimmie Beaumont
1962-12-31,Don Covay
...,...
2017-12-31,Calvin Harris Featuring Kehlani & Lil Yachty
2018-12-31,6ix9ine Featuring Nicki Minaj & Kanye West
2019-12-31,Trippie Redd Featuring Juice WRLD & YNW Melly
2020-12-31,Kid Cudi


In [34]:
df.resample("M")["artist"].agg(["first"])                             #Los más escuchados mensualmente

Unnamed: 0_level_0,first
date,Unnamed: 1_level_1
1958-08-31,Ricky Nelson
1958-09-30,Domenico Modugno
1958-10-31,Tommy Edwards
1958-11-30,Tommy Edwards
1958-12-31,The Teddy Bears
...,...
2021-07-31,BTS
2021-08-31,BTS
2021-09-30,The Kid LAROI & Justin Bieber
2021-10-31,The Kid LAROI & Justin Bieber


In [35]:
df.resample("W")["artist"].agg(["first"])                     #Los más escuchados semanalmente

Unnamed: 0_level_0,first
date,Unnamed: 1_level_1
1958-08-10,Ricky Nelson
1958-08-17,Ricky Nelson
1958-08-24,Domenico Modugno
1958-08-31,The Elegants
1958-09-07,Domenico Modugno
...,...
2021-10-10,Coldplay x BTS
2021-10-17,The Kid LAROI & Justin Bieber
2021-10-24,Lil Nas X & Jack Harlow
2021-10-31,Adele


In [36]:
df.resample("D")["artist"].agg(["first"])                    #Los más escuchados diarimente

Unnamed: 0_level_0,first
date,Unnamed: 1_level_1
1958-08-04,Ricky Nelson
1958-08-05,
1958-08-06,
1958-08-07,
1958-08-08,
...,...
2021-11-02,
2021-11-03,
2021-11-04,
2021-11-05,
