# Introducción

Vamos a analizar un conjunto de datos de canciones y sus estadísticas por semanas: `listas_musica.csv`

Es un conjunto de datos que nos permite trabajar los conceptos de `pandas` y `numpy`.

El ejercicio será guiado aunque se permite no ver las soluciones para realizar las tareas.

Las columnas del `dataset` son:

* `date`:	Tipo `date` - Fecha de la lista.
* `rank`:	Tipo `int`	- Posición del ranking de la canción en esa fecha.
* `song`:	Tipo `str`	- Nombre de la canción.
* `artist`:	Tipo `str` - Artista.
* `last-week`:	Tipo `int` -	Posición en el ranking de la semana anterior.
* `peak-rank`: Tipo `int`	- La mejor posición de la canción en el ranking.
* `weeks-on-board`: Tipo `int` -	Número de semanas que la canción lleva en la lista.





# Carga de librerías

Cargue las librerías `numpy`, `pandas` y `os`.


### Solución

In [299]:
import numpy as np
import pandas as pd
import os

# Carga del dataset

Lea el dataset y conviértalo en un `dataframe`.

Imprima el dataset una vez lo tenga.

### Solución

In [300]:
datos_originales = pd.DataFrame(pd.read_csv("listas_musica.csv"))
datos_originales

Unnamed: 0,date,rank,song,artist,last-week,peak-rank,weeks-on-board
0,2021-11-06,1,Easy On Me,Adele,1.0,1,3
1,2021-11-06,2,Stay,The Kid LAROI & Justin Bieber,2.0,1,16
2,2021-11-06,3,Industry Baby,Lil Nas X & Jack Harlow,3.0,1,14
3,2021-11-06,4,Fancy Like,Walker Hayes,4.0,3,19
4,2021-11-06,5,Bad Habits,Ed Sheeran,5.0,2,18
...,...,...,...,...,...,...,...
330082,1958-08-04,96,Over And Over,Thurston Harris,,96,1
330083,1958-08-04,97,I Believe In You,Robert & Johnny,,97,1
330084,1958-08-04,98,Little Serenade,The Ames Brothers,,98,1
330085,1958-08-04,99,I'll Get By (As Long As I Have You),Billy Williams,,99,1


# Limpieza de datos

Rellene con `0` usando `fillna()`.

### Solución

In [301]:
df = datos_originales.copy()
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 330087 entries, 0 to 330086
Data columns (total 7 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   date            330087 non-null  object 
 1   rank            330087 non-null  int64  
 2   song            330087 non-null  object 
 3   artist          330087 non-null  object 
 4   last-week       297775 non-null  float64
 5   peak-rank       330087 non-null  int64  
 6   weeks-on-board  330087 non-null  int64  
dtypes: float64(1), int64(3), object(3)
memory usage: 17.6+ MB


Solo la variable `last-week` tiene datos nulos, así que vamos a investigar esto primero.

In [302]:
df["last-week"].unique() # Se puede ver que uno de los valores posibles es "nan"

array([  1.,   2.,   3.,   4.,   5.,   6.,   9.,   7.,  11.,   8.,  12.,
        10.,  14.,  15.,  21.,  16.,  17.,  23.,  22.,  13.,  19.,  18.,
        32.,  24.,  25.,  26.,  nan,  28.,  29.,  31.,  27.,  30.,  33.,
        57.,  34.,  38.,  45.,  41.,  36.,  40.,  44.,  51.,  35.,  20.,
        47.,  43.,  46.,  42.,  52.,  53.,  48.,  55.,  37.,  58.,  63.,
        59.,  64.,  62.,  54.,  39.,  65.,  74.,  76.,  61.,  81.,  80.,
        77.,  71.,  66.,  75.,  83.,  70.,  72.,  85.,  67.,  89.,  73.,
        84.,  88.,  82.,  99.,  86.,  87.,  92.,  96.,  94., 100.,  68.,
        49.,  50.,  56.,  60.,  69.,  78.,  79.,  98.,  95.,  90.,  97.,
        93.,  91.])

In [303]:
df["last-week"] = df["last-week"].fillna(0) # Reemplazamos los valores nulos por cero
df["last-week"].unique() # Comprobamos que no hay valores nulos, y 2 filas debajo del 5 aparece el cero que antes ocupaba nan

array([  1.,   2.,   3.,   4.,   5.,   6.,   9.,   7.,  11.,   8.,  12.,
        10.,  14.,  15.,  21.,  16.,  17.,  23.,  22.,  13.,  19.,  18.,
        32.,  24.,  25.,  26.,   0.,  28.,  29.,  31.,  27.,  30.,  33.,
        57.,  34.,  38.,  45.,  41.,  36.,  40.,  44.,  51.,  35.,  20.,
        47.,  43.,  46.,  42.,  52.,  53.,  48.,  55.,  37.,  58.,  63.,
        59.,  64.,  62.,  54.,  39.,  65.,  74.,  76.,  61.,  81.,  80.,
        77.,  71.,  66.,  75.,  83.,  70.,  72.,  85.,  67.,  89.,  73.,
        84.,  88.,  82.,  99.,  86.,  87.,  92.,  96.,  94., 100.,  68.,
        49.,  50.,  56.,  60.,  69.,  78.,  79.,  98.,  95.,  90.,  97.,
        93.,  91.])

In [304]:
df.info() # Ya no hay ningún valor nulo

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 330087 entries, 0 to 330086
Data columns (total 7 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   date            330087 non-null  object 
 1   rank            330087 non-null  int64  
 2   song            330087 non-null  object 
 3   artist          330087 non-null  object 
 4   last-week       330087 non-null  float64
 5   peak-rank       330087 non-null  int64  
 6   weeks-on-board  330087 non-null  int64  
dtypes: float64(1), int64(3), object(3)
memory usage: 17.6+ MB


Habiendo limpiado los datos NULOS podría ser interesante comprobar si dentro de los datos no nulos hay valores erróneos, como "?".

In [305]:
for i in range(len(df.columns)):      # Para cada valor de i en un rango de 0 a la cantidad de columnas del df:
    print(df.columns[i])              # Imprime el nombre (string) de la columna i-ésima
    print(df[df.columns[i]].unique()) # Imprime los valores únicos de la columna i-ésima (en la siguiente línea)
    print()                           # Imprime una línea en blanco para más comodidad visual

date
['2021-11-06' '2021-10-30' '2021-10-23' ... '1958-08-18' '1958-08-11'
 '1958-08-04']

rank
[  1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18
  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36
  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53  54
  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71  72
  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89  90
  91  92  93  94  95  96  97  98  99 100]

song
['Easy On Me' 'Stay' 'Industry Baby' ... 'To Be Loved' 'Little Serenade'
 "I'll Get By (As Long As I Have You)"]

artist
['Adele' 'The Kid LAROI & Justin Bieber' 'Lil Nas X & Jack Harlow' ...
 "The Daddy-O's" 'Thurston Harris' 'Frankie Vaughan']

last-week
[  1.   2.   3.   4.   5.   6.   9.   7.  11.   8.  12.  10.  14.  15.
  21.  16.  17.  23.  22.  13.  19.  18.  32.  24.  25.  26.   0.  28.
  29.  31.  27.  30.  33.  57.  34.  38.  45.  41.  36.  40.  44.  51.
  35.  20.  47.  43. 

Parece todo correcto, al menos en lo que a las variables numéricas se refiere, pues para comprobar `date`, `artist` o `song` habría que revisar manualmente los datos.

# Imprima algunos valores de ejemplos

Use `tail()` para imprimir algunos valores.

Fíjese en las columnas del dataset.

### Solución

In [306]:
df.tail(7) # Para ver las últimas 7 filas.

Unnamed: 0,date,rank,song,artist,last-week,peak-rank,weeks-on-board
330080,1958-08-04,94,She Was Only Seventeen (He Was One Year More),Marty Robbins,0.0,94,1
330081,1958-08-04,95,Little Mary,Fats Domino,0.0,95,1
330082,1958-08-04,96,Over And Over,Thurston Harris,0.0,96,1
330083,1958-08-04,97,I Believe In You,Robert & Johnny,0.0,97,1
330084,1958-08-04,98,Little Serenade,The Ames Brothers,0.0,98,1
330085,1958-08-04,99,I'll Get By (As Long As I Have You),Billy Williams,0.0,99,1
330086,1958-08-04,100,Judy,Frankie Vaughan,0.0,100,1


# Calcule los top 30 artistas

Puede usar la función `value_counts()` y `head(...)`.

Fíjese en usar la columna correspondiente.

### Solución

In [307]:
df["artist"].value_counts().head(30) # De la columna "artist" del df, contar cuántas veces aparece cada valor único y mostrar los 30 que más aparecen

artist
Taylor Swift             1023
Elton John                889
Madonna                   857
Drake                     787
Kenny Chesney             769
Tim McGraw                731
Keith Urban               673
Stevie Wonder             659
Rod Stewart               657
Mariah Carey              621
Michael Jackson           611
Chicago                   607
Rascal Flatts             604
Billy Joel                588
The Rolling Stones        585
The Beatles               585
Jason Aldean              572
Aretha Franklin           569
Rihanna                   566
P!nk                      564
Whitney Houston           561
Brad Paisley              559
Neil Diamond              553
George Strait             553
Luke Bryan                543
Carrie Underwood          541
Daryl Hall John Oates     540
The Beach Boys            531
Toby Keith                526
Bee Gees                  516
Name: count, dtype: int64

# Muestre el top 15 de canciones junto con su cantante

### Solución

In [308]:
df["song"].value_counts().head(15).reset_index(name = "Recuento") # Estas son las 15 canciones que más aparecen en la lista

Unnamed: 0,song,Recuento
0,Stay,224
1,Angel,205
2,Hold On,202
3,You,195
4,Heaven,194
5,I Like It,188
6,Crazy,176
7,Without You,174
8,Forever,164
9,Happy,157


El siguiente bloque de código es importante, pues permite ajustar la lista más adelante si se desea.

In [309]:
cancionazas = df["song"].value_counts().head(15).index # Guardamos los índices (los nombres, no los valores) de los datos anteriores en una variable 
cancionazas

Index(['Stay', 'Angel', 'Hold On', 'You', 'Heaven', 'I Like It', 'Crazy',
       'Without You', 'Forever', 'Happy', 'Home', 'Please Don't Go', 'Someday',
       'Lady', 'Smile'],
      dtype='object', name='song')

In [310]:
lista = []   # Creamos una lista vacía llamada lista, donde guardaremos los nombres de las canciones.
indices = [] # Creamos una lista vacía llamada indices, donde guardaremos los índices de las canciones.
for cancion in cancionazas: # Por cada canción en la lista de las 15 canciones más populares:
    coincidencias = 0  # Generamos una variable llamada coincidencias y le damos el valor 0.
    while coincidencias == 0: # Mientras coincidencias sea igual a 0:
        if pd.Series(cancion).isin(df["song"]).any():   # Si la canción está en la columna "song" del df:
            indices.append(df[df["song"] == cancion].index[0])  # Añadimos el índice de esa canción a la lista de índices y ..
            lista.append(cancion)   # y añadimos el nombre de la canción a la lista de canciones.
            coincidencias += 1  # Finalmente, le sumamos 1 la variable coincidencias, lo que detendrá el bucle while y pasaremos a la siguiente canción,
                                # y así sucesivamente hasta que todas las canciones de la lista hayan sido comprobadas

# La clave de la variable coincidencias, es que al iniciarla en 0, y el bucle while ejecutarse solamente cuando dicha variable vale cero, al indicar en el
# while que se le sume 1, lo que conseguimos es que el bucle se detenga tras una sola coincidencia, la primera que se encuentre, evitando añadir canciones
# repetidas a la lista. Para que esto funcione es importante que se inicialize en cero antes del while pero dentro de un bucle, para que no suceda solo
# una vez sino tantas como necesarias, en nuestro caso 15 automáticamente.

print(lista)
print(indices)

['Stay', 'Angel', 'Hold On', 'You', 'Heaven', 'I Like It', 'Crazy', 'Without You', 'Forever', 'Happy', 'Home', "Please Don't Go", 'Someday', 'Lady', 'Smile']
[1, 41086, 2196, 981, 12482, 13544, 77942, 936, 8663, 36149, 19896, 55947, 60358, 2397, 5385]


In [311]:
top_15 = pd.Series(data=lista,index=indices)
top_15 # Hemos obtenido una serie con las 15 canciones más populares y su índice asociado.

1                   Stay
41086              Angel
2196             Hold On
981                  You
12482             Heaven
13544          I Like It
77942              Crazy
936          Without You
8663             Forever
36149              Happy
19896               Home
55947    Please Don't Go
60358            Someday
2397                Lady
5385               Smile
dtype: object

In [312]:
df.loc[(top_15.index), ["artist","song"]] # Con esto, cogemos los datos de top_15, elegimos su índice y, a raíz de ese índice, pedimos las columnas de
# artistas y canciones para conseguir, en definitiva, la lista de las 15 canciones más famosas con su artista correspondiente. En caso de querer obtener
# los datos de un número diferente de canciones, basta con cambiar el número que hay en el head en la línea de código en la que se define "cancionazas".

Unnamed: 0,artist,song
1,The Kid LAROI & Justin Bieber,Stay
41086,Jacquie Lee,Angel
2196,Justin Bieber,Hold On
981,Regard x Troye Sivan x Tate McRae,You
12482,Avicii,Heaven
13544,"Cardi B, Bad Bunny & J Balvin",I Like It
77942,Gnarls Barkley,Crazy
936,The Kid LAROI,Without You
8663,Lil Baby Featuring Lil Wayne,Forever
36149,Pharrell Williams,Happy


# Muestre el top 10 de los artistas, canciones y su mejor posición

### Solución

In [315]:
# Tambien se puede acortar si se escribe asi:
lista = []
indices = []

for cancion in df["song"].value_counts().head(10).index:
    coincidencias = 0
    while coincidencias == 0:
        if pd.Series(cancion).isin(df["song"]).any():
            indices.append(df[df["song"] == cancion].index[0])
            lista.append(cancion)
            coincidencias += 1

print(f"La lista de canciones es: {lista}")
print(f"la lista de los correspondientes índices es: {indices}")

top_10 = pd.Series(data=lista,index=indices)
top_10 

df.loc[top_10.index, ["song", "artist", "peak-rank"]] # Con esto, cogemos los datos de top_10, elegimos su índice y, a raíz de ese índice, pedimos las 
# columnas de artistas, canciones y su mayor rango hasta la fecha para conseguir, en definitiva, la lista de las 10 canciones más famosas con su artista 
# correspondiente y el máximo rango que ha alcanzado dicho artista en el periodo de tiempo estudiado. 

La lista de canciones es: ['Stay', 'Angel', 'Hold On', 'You', 'Heaven', 'I Like It', 'Crazy', 'Without You', 'Forever', 'Happy']
la lista de los correspondientes índices es: [1, 41086, 2196, 981, 12482, 13544, 77942, 936, 8663, 36149]


Unnamed: 0,song,artist,peak-rank
1,Stay,The Kid LAROI & Justin Bieber,1
41086,Angel,Jacquie Lee,87
2196,Hold On,Justin Bieber,20
981,You,Regard x Troye Sivan x Tate McRae,58
12482,Heaven,Avicii,83
13544,I Like It,"Cardi B, Bad Bunny & J Balvin",1
77942,Crazy,Gnarls Barkley,2
936,Without You,The Kid LAROI,8
8663,Forever,Lil Baby Featuring Lil Wayne,64
36149,Happy,Pharrell Williams,1


In [316]:
cancionazas = df["song"].value_counts().head(10).index
cancionazas

lista = []
indices = []
for cancion in cancionazas:
    coincidencias = 0
    while coincidencias == 0:
        if pd.Series(cancion).isin(df["song"]).any():
            indices.append(df[df["song"] == cancion].index[0])
            lista.append(cancion)
            coincidencias += 1

print(f"La lista de canciones es: {lista}")
print(f"la lista de los correspondientes índices es: {indices}")
-
top_10 = pd.Series(data=lista,index=indices)
top_10 

df.loc[top_10.index, ["song", "artist", "peak-rank"]] # Con esto, cogemos los datos de top_10, elegimos su índice y, a raíz de ese índice, pedimos las 
# columnas de artistas, canciones y su mayor rango hasta la fecha para conseguir, en definitiva, la lista de las 10 canciones más famosas con su artista 
# correspondiente y el máximo rango que ha alcanzado dicho artista en el periodo de tiempo estudiado. 

La lista de canciones es: ['Stay', 'Angel', 'Hold On', 'You', 'Heaven', 'I Like It', 'Crazy', 'Without You', 'Forever', 'Happy']
la lista de los correspondientes índices es: [1, 41086, 2196, 981, 12482, 13544, 77942, 936, 8663, 36149]


Unnamed: 0,song,artist,peak-rank
1,Stay,The Kid LAROI & Justin Bieber,1
41086,Angel,Jacquie Lee,87
2196,Hold On,Justin Bieber,20
981,You,Regard x Troye Sivan x Tate McRae,58
12482,Heaven,Avicii,83
13544,I Like It,"Cardi B, Bad Bunny & J Balvin",1
77942,Crazy,Gnarls Barkley,2
936,Without You,The Kid LAROI,8
8663,Forever,Lil Baby Featuring Lil Wayne,64
36149,Happy,Pharrell Williams,1


# Artistas más reproducidos por semanas

Transforme la columna `date` en `datetime`.

Use  `set_index` para crear un índice en la columna `date`.

Imprima el dataframe con el nuevo índice.

### Solución

In [341]:
df.loc[df[df["rank"] == 1].index, ["date", "rank", "song", "artist"]].head(50)

Unnamed: 0,date,rank,song,artist
0,2021-11-06,1,Easy On Me,Adele
100,2021-10-30,1,Easy On Me,Adele
200,2021-10-23,1,Industry Baby,Lil Nas X & Jack Harlow
300,2021-10-16,1,Stay,The Kid LAROI & Justin Bieber
400,2021-10-09,1,My Universe,Coldplay x BTS
500,2021-10-02,1,Stay,The Kid LAROI & Justin Bieber
600,2021-09-25,1,Stay,The Kid LAROI & Justin Bieber
700,2021-09-18,1,Way 2 Sexy,Drake Featuring Future & Young Thug
800,2021-09-11,1,Butter,BTS
900,2021-09-04,1,Stay,The Kid LAROI & Justin Bieber


Ahora modificando las fechas

# Encuentre los más y menos escuchados según un intervalo de tiempo

Puede usar `resample(frecuencia)[columna]`. 

Las frecuencias que puede usar son:
* H - Horaria
* D - Diaria
* W - Semanal
* M - Mensual
* A - Anual

Puede usar `.agg([columnas])` para agregar los datos

### Solución