# Introducción

Vamos a analizar un conjunto de datos de canciones y sus estadísticas por semanas: `listas_musica.csv`

Es un conjunto de datos que nos permite trabajar los conceptos de `pandas` y `numpy`.

El ejercicio será guiado aunque se permite no ver las soluciones para realizar las tareas.

Las columnas del `dataset` son:

* `date`:	Tipo `date` - Fecha de la lista.
* `rank`:	Tipo `int`	- Posición del ranking de la canción en esa fecha.
* `song`:	Tipo `str`	- Nombre de la canción.
* `artist`:	Tipo `str` - Artista.
* `last-week`:	Tipo `int` -	Posición en el ranking de la semana anterior.
* `peak-rank`: Tipo `int`	- La mejor posición de la canción en el ranking.
* `weeks-on-board`: Tipo `int` -	Número de semanas que la canción lleva en la lista.

# Carga de librerías

Cargue las librerías `numpy`, `pandas` y `os`.


### Solución

In [46]:
import numpy as np
import pandas as pd
import os

# Carga del dataset

Lea el dataset y conviértalo en un `dataframe`.

Imprima el dataset una vez lo tenga.

### Solución

In [47]:
datos_originales = pd.DataFrame(pd.read_csv("listas_musica.csv")) # Creamos el dataframe datos_originales leyendo el csv del ejercicio de musicas
datos_originales # echamos un vistazo rápido a sus datos

Unnamed: 0,date,rank,song,artist,last-week,peak-rank,weeks-on-board
0,2021-11-06,1,Easy On Me,Adele,1.0,1,3
1,2021-11-06,2,Stay,The Kid LAROI & Justin Bieber,2.0,1,16
...,...,...,...,...,...,...,...
330085,1958-08-04,99,I'll Get By (As Long As I Have You),Billy Williams,,99,1
330086,1958-08-04,100,Judy,Frankie Vaughan,,100,1


# Limpieza de datos

Rellene con `0` usando `fillna()`.

### Solución

In [48]:
df = datos_originales.copy() # Para no modificar el df original, trabajaremos con una copia
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 330087 entries, 0 to 330086
Data columns (total 7 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   date            330087 non-null  object 
 1   rank            330087 non-null  int64  
 2   song            330087 non-null  object 
 3   artist          330087 non-null  object 
 4   last-week       297775 non-null  float64
 5   peak-rank       330087 non-null  int64  
 6   weeks-on-board  330087 non-null  int64  
dtypes: float64(1), int64(3), object(3)
memory usage: 17.6+ MB


Solo la variable `last-week` tiene datos nulos, así que vamos a investigar esto primero.

In [49]:
df["last-week"].unique() # Se puede ver que uno de los valores posibles es "nan"

array([  1.,   2.,   3.,   4.,   5.,   6.,   9.,   7.,  11.,   8.,  12.,
        10.,  14.,  15.,  21.,  16.,  17.,  23.,  22.,  13.,  19.,  18.,
        32.,  24.,  25.,  26.,  nan,  28.,  29.,  31.,  27.,  30.,  33.,
        57.,  34.,  38.,  45.,  41.,  36.,  40.,  44.,  51.,  35.,  20.,
        47.,  43.,  46.,  42.,  52.,  53.,  48.,  55.,  37.,  58.,  63.,
        59.,  64.,  62.,  54.,  39.,  65.,  74.,  76.,  61.,  81.,  80.,
        77.,  71.,  66.,  75.,  83.,  70.,  72.,  85.,  67.,  89.,  73.,
        84.,  88.,  82.,  99.,  86.,  87.,  92.,  96.,  94., 100.,  68.,
        49.,  50.,  56.,  60.,  69.,  78.,  79.,  98.,  95.,  90.,  97.,
        93.,  91.])

In [50]:
df["last-week"] = df["last-week"].fillna(0) # Reemplazamos los valores nulos por cero
df["last-week"].unique() # Comprobamos que no hay valores nulos, y 2 filas debajo del 5 aparece el cero que antes ocupaba nan

array([  1.,   2.,   3.,   4.,   5.,   6.,   9.,   7.,  11.,   8.,  12.,
        10.,  14.,  15.,  21.,  16.,  17.,  23.,  22.,  13.,  19.,  18.,
        32.,  24.,  25.,  26.,   0.,  28.,  29.,  31.,  27.,  30.,  33.,
        57.,  34.,  38.,  45.,  41.,  36.,  40.,  44.,  51.,  35.,  20.,
        47.,  43.,  46.,  42.,  52.,  53.,  48.,  55.,  37.,  58.,  63.,
        59.,  64.,  62.,  54.,  39.,  65.,  74.,  76.,  61.,  81.,  80.,
        77.,  71.,  66.,  75.,  83.,  70.,  72.,  85.,  67.,  89.,  73.,
        84.,  88.,  82.,  99.,  86.,  87.,  92.,  96.,  94., 100.,  68.,
        49.,  50.,  56.,  60.,  69.,  78.,  79.,  98.,  95.,  90.,  97.,
        93.,  91.])

In [51]:
df.info() # Ya no hay ningún valor nulo

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 330087 entries, 0 to 330086
Data columns (total 7 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   date            330087 non-null  object 
 1   rank            330087 non-null  int64  
 2   song            330087 non-null  object 
 3   artist          330087 non-null  object 
 4   last-week       330087 non-null  float64
 5   peak-rank       330087 non-null  int64  
 6   weeks-on-board  330087 non-null  int64  
dtypes: float64(1), int64(3), object(3)
memory usage: 17.6+ MB


Habiendo limpiado los datos NULOS podría ser interesante comprobar si dentro de los datos no nulos hay valores erróneos, como "?".

In [52]:
for i in range(len(df.columns)):      # Para cada valor de i en un rango de 0 a la cantidad de columnas del df:
    print(df.columns[i])              # Imprime el nombre (string) de la columna i-ésima
    print(df[df.columns[i]].unique()) # Imprime los valores únicos de la columna i-ésima (en la siguiente línea)
    print()                           # Imprime una línea en blanco para más comodidad visual

date
['2021-11-06' '2021-10-30' '2021-10-23' ... '1958-08-18' '1958-08-11'
 '1958-08-04']

rank
[  1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18
  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36
  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53  54
  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71  72
  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89  90
  91  92  93  94  95  96  97  98  99 100]

song
['Easy On Me' 'Stay' 'Industry Baby' ... 'To Be Loved' 'Little Serenade'
 "I'll Get By (As Long As I Have You)"]

artist
['Adele' 'The Kid LAROI & Justin Bieber' 'Lil Nas X & Jack Harlow' ...
 "The Daddy-O's" 'Thurston Harris' 'Frankie Vaughan']

last-week
[  1.   2.   3.   4.   5.   6.   9.   7.  11.   8.  12.  10.  14.  15.
  21.  16.  17.  23.  22.  13.  19.  18.  32.  24.  25.  26.   0.  28.
  29.  31.  27.  30.  33.  57.  34.  38.  45.  41.  36.  40.  44.  51.
  35.  20.  47.  43. 

Parece todo correcto, al menos en lo que a las variables numéricas se refiere, pues para comprobar `date`, `artist` o `song` habría que revisar manualmente los datos.

# Imprima algunos valores de ejemplos

Use `tail()` para imprimir algunos valores.

Fíjese en las columnas del dataset.

### Solución

In [53]:
df.tail(7) # Para ver las últimas 7 filas del df.

Unnamed: 0,date,rank,song,artist,last-week,peak-rank,weeks-on-board
330080,1958-08-04,94,She Was Only Seventeen (He Was One Year More),Marty Robbins,0.0,94,1
330081,1958-08-04,95,Little Mary,Fats Domino,0.0,95,1
...,...,...,...,...,...,...,...
330085,1958-08-04,99,I'll Get By (As Long As I Have You),Billy Williams,0.0,99,1
330086,1958-08-04,100,Judy,Frankie Vaughan,0.0,100,1


# Calcule los top 30 artistas

Puede usar la función `value_counts()` y `head(...)`.

Fíjese en usar la columna correspondiente.

### Solución

In [54]:
df["artist"].value_counts().head(30) # De la columna "artist" del df, contar cuántas veces aparece cada valor único y mostrar los 30 que más aparecen

artist
Taylor Swift    1023
Elton John       889
                ... 
Toby Keith       526
Bee Gees         516
Name: count, Length: 30, dtype: int64

# Muestre el top 15 de canciones junto con su cantante

### Solución

In [55]:
# 3 formas de pedir lo mismo:

df.value_counts(["song","artist"]).head(15) # El comando value_counts por defecto cuenta las coincidencias, como un groupby, y  
                                            # ordena de mayor a mayor, sirve para acortar código

df[["song","artist"]].value_counts().head(15) # Tambien se puede poner después de las columnas, según resulte más intuitivo para el lector/programador

df.groupby(["song", "artist"]).size().sort_values(ascending=False).head(15) # Si no, también se puede agrupar y especificar el orden descendente

song             artist         
Blinding Lights  The Weeknd         90
Radioactive      Imagine Dragons    87
                                    ..
Circles          Post Malone        61
Demons           Imagine Dragons    61
Length: 15, dtype: int64

# Muestre el top 10 de los artistas, canciones y su mejor posición

### Solución

In [56]:
df[["song", "artist", "peak-rank"]].value_counts().head(10) # El número a la derecha es Cuántas veces tuvo el peak indicado, lo cual no tiene mucho 
# sentido pues una vez alcance una canción un top máximo, peak-rank siempre valdrá eso el resto de la serie (hasta alcanzar un nuevo peak), por lo que 
# no aporta información relevante

song             artist                            peak-rank
Blinding Lights  The Weeknd                        1            74
Shape Of You     Ed Sheeran                        1            58
                                                                ..
Circles          Post Malone                       1            50
Uptown Funk!     Mark Ronson Featuring Bruno Mars  1            49
Name: count, Length: 10, dtype: int64

# Artistas más reproducidos por semanas

Transforme la columna `date` en `datetime`.

Use  `set_index` para crear un índice en la columna `date`.

Imprima el dataframe con el nuevo índice.

### Solución 1

In [57]:
df.loc[df[df["rank"] == 1].index, ["date", "rank", "song", "artist"]].head(20)

Unnamed: 0,date,rank,song,artist
0,2021-11-06,1,Easy On Me,Adele
100,2021-10-30,1,Easy On Me,Adele
...,...,...,...,...
1800,2021-07-03,1,Butter,BTS
1900,2021-06-26,1,Butter,BTS


In [58]:
df.loc[df[df["rank"] == 1].index, ["date", "rank", "song", "artist"]].head(20).set_index("date")

Unnamed: 0_level_0,rank,song,artist
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2021-11-06,1,Easy On Me,Adele
2021-10-30,1,Easy On Me,Adele
...,...,...,...
2021-07-03,1,Butter,BTS
2021-06-26,1,Butter,BTS


### Solución 2: ahora modificando las fechas

In [59]:
df['formatted_date'] = pd.to_datetime(df['date']) # Creamos una columna con la fecha en formato time
df['week_of_year'] = df.formatted_date.apply(lambda x: x.weekofyear) # Creamos una columna que nos devuelva el número de la semana de dicho año
df["month_of_year"] = df.formatted_date.apply(lambda x: x.month) # Creamos una columna que nos devuelva el número del mes de dicho año
df.loc[df[df["rank"] == 1].index, ["date", "rank", "song", "artist", "week_of_year"]].head(53) # Mostramos las primeras 52 semanas (último año)

# NOTA: el 2 de enero de 2021 es la semana 53 del año 2020 porque, por como funciona el comando datetime, se tiene como referencia el jueves, y como el 
# último jueves de 2020 fue justamente el 31 de diciembre del 2020, se considera 2020. Por eso la primera semana del año 2021 empieza una semana después.

Unnamed: 0,date,rank,song,artist,week_of_year
0,2021-11-06,1,Easy On Me,Adele,44
100,2021-10-30,1,Easy On Me,Adele,43
...,...,...,...,...,...
5100,2020-11-14,1,Mood,24kGoldn Featuring iann dior,46
5200,2020-11-07,1,Positions,Ariana Grande,45


In [60]:
df.loc[df[df["rank"] == 1].index, ["date", "rank", "song", "artist", "week_of_year"]].head(53).set_index("date")


Unnamed: 0_level_0,rank,song,artist,week_of_year
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2021-11-06,1,Easy On Me,Adele,44
2021-10-30,1,Easy On Me,Adele,43
...,...,...,...,...
2020-11-14,1,Mood,24kGoldn Featuring iann dior,46
2020-11-07,1,Positions,Ariana Grande,45


# Encuentre los más y menos escuchados según un intervalo de tiempo

Puede usar `resample(frecuencia)[columna]`. 

Las frecuencias que puede usar son:
* H - Horaria
* D - Diaria
* W - Semanal
* M/ME - Mensual
* A - Anual

Puede usar `.agg([columnas])` para agregar los datos

### Solución

In [63]:
df.set_index('formatted_date').resample("W")["artist"].agg(["first", "last"]).iloc[::-1] 
# El eje temporal pasa a ser el índice. Además, se agrupan los datos por semanas y se muestra al primer artista (rank = 1) y al 
# último artista (rank =100) de cada semana. Se añadió iloc[::-1] para que las semanas vayan de más recientes a más antiguas

Unnamed: 0_level_0,first,last
formatted_date,Unnamed: 1_level_1,Unnamed: 2_level_1
2021-11-07,Adele,YoungBoy Never Broke Again
2021-10-31,Adele,Priscilla Block
...,...,...
1958-08-17,Ricky Nelson,The Kirby Stone Four
1958-08-10,Ricky Nelson,Frankie Vaughan


Debido al tamaño del output, no se muestran todos los resultados, solo las 5 semanas más recientes y más antiguas. En caso de querer ver más, podemos hacer lo siguiente:

In [64]:
df2 = df.set_index('formatted_date').resample("W")["artist"].agg(["first", "last"]).iloc[::-1] # Nos guardamos la tabla en una variable

try:
    x = abs(int(float(input("Por favor, introduzca un número entero y positivo indicando el número total de filas a comparar: "))))
except ValueError:
    print("Por favor, hazme caso 😟") # Seguramente escribieron letras o intentaron hacer raíces.

# Pedimos un número al usuario y lo guardamos como una variable x. Para evitar trolls o graciosillos que meten decimales y negativos, añadimos un float 
# y un abs para que el input siempre sea un número entero y positivo (contra los números imaginarios no puedo hacer nada, lo siento)

pd.set_option('display.max_rows', x) # Así permitimos que se muestren un total de x filas, a elección del usuario

print(f"¡Mostrando las primeras y últimas {x//2} semanas de la serie!😃")
datos = df2.iloc[list(range(0, x//2)) + list(range(len(df2["first"])-x//2, len(df2["first"])))] 
del x 
display(datos) # Para que se muestre la tabla con normalidad (no como con un print) aunque no sea la última línea de código.
pd.set_option('display.max_rows', 10) # Restauramos el número de filas a 10 para que no afecte al resto de tablas.

# Con esto, mostraremos los datos para las primeras y últimas x/2 semanas. En caso de introducir un número impar, se redondeará hacia abajo tras la 
# división para que el output sea simétrico. Por ejemplo, si se introduce un 9, se verán las primeras y últimas 4 semanas de la serie.
# Adicionalmente, borramos x de la memoria para que, si después se ejecuta de nuevo el código y se introduce un dato que genere error, que no salga
# la tabla con el valor anterior de x. Tambien se devuelve el tamaño máximo de filas mostradas para que no modifique el resto de tablas si se 
# ejecuta todo el notebook con Run All por ejemplo.

¡Mostrando las primeras y últimas 3 semanas de la serie!😃


Unnamed: 0_level_0,first,last
formatted_date,Unnamed: 1_level_1,Unnamed: 2_level_1
2021-11-07,Adele,YoungBoy Never Broke Again
2021-10-31,Adele,Priscilla Block
2021-10-24,Lil Nas X & Jack Harlow,YoungBoy Never Broke Again
1958-08-24,Domenico Modugno,Count Basie & His Orch.
1958-08-17,Ricky Nelson,The Kirby Stone Four
1958-08-10,Ricky Nelson,Frankie Vaughan
