# Introducción

Vamos a analizar un conjunto de datos de canciones y sus estadísticas por semanas: `listas_musica.csv`

Es un conjunto de datos que nos permite trabajar los conceptos de `pandas` y `numpy`.

El ejercicio será guiado aunque se permite no ver las soluciones para realizar las tareas.

Las columnas del `dataset` son:

* `date`:	Tipo `date` - Fecha de la lista.
* `rank`:	Tipo `int`	- Posición del ranking de la canción en esa fecha.
* `song`:	Tipo `str`	- Nombre de la canción.
* `artist`:	Tipo `str` - Artista.
* `last-week`:	Tipo `int` -	Posición en el ranking de la semana anterior.
* `peak-rank`: Tipo `int`	- La mejor posición de la canción en el ranking.
* `weeks-on-board`: Tipo `int` -	Número de semanas que la canción lleva en la lista.





# Carga de librerías

Cargue las librerías `numpy`, `pandas` y `os`.


### Solución

In [1]:
import numpy as np
import pandas as pd
import os

# Carga del dataset

Lea el dataset y conviértalo en un `dataframe`.

Imprima el dataset una vez lo tenga.

### Solución

In [2]:
# En este caso, al trabajar desde google colab tenemos que montar nuestra carpeta de drive para dar acceso a la carpeta contenedora de los archivos 
# que contienen los datos

from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [16]:
# En path estamos localizando la direccion en que se encuentra en arcivo csv con el que trabajaremos.

path = '/content/drive/MyDrive/Colab Notebooks/Apuntes/semana_3/12-Trabajo del Módulo I/datos/listas_musica.csv'

# Una vez tenemos su localización, lo convertimos en dataframe, gracias a la libreria pandas.

lista = pd.read_csv(path)

In [17]:
lista

Unnamed: 0,date,rank,song,artist,last-week,peak-rank,weeks-on-board
0,2021-11-06,1,Easy On Me,Adele,1.0,1,3
1,2021-11-06,2,Stay,The Kid LAROI & Justin Bieber,2.0,1,16
2,2021-11-06,3,Industry Baby,Lil Nas X & Jack Harlow,3.0,1,14
3,2021-11-06,4,Fancy Like,Walker Hayes,4.0,3,19
4,2021-11-06,5,Bad Habits,Ed Sheeran,5.0,2,18
...,...,...,...,...,...,...,...
330082,1958-08-04,96,Over And Over,Thurston Harris,,96,1
330083,1958-08-04,97,I Believe In You,Robert & Johnny,,97,1
330084,1958-08-04,98,Little Serenade,The Ames Brothers,,98,1
330085,1958-08-04,99,I'll Get By (As Long As I Have You),Billy Williams,,99,1


#Limpieza de datos

Rellene con `0` usando `fillna()`.

### Solución

In [18]:
# De esta manera podemos ver el dataframe 'lista' y ver dentro de las columnas tanto el tipo de datos que contienen 
# como si faltan datos en alguna de ellas. En este caso en la variable 'last-week' contiene valores NAN

lista.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 330087 entries, 0 to 330086
Data columns (total 7 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   date            330087 non-null  object 
 1   rank            330087 non-null  int64  
 2   song            330087 non-null  object 
 3   artist          330087 non-null  object 
 4   last-week       297775 non-null  float64
 5   peak-rank       330087 non-null  int64  
 6   weeks-on-board  330087 non-null  int64  
dtypes: float64(1), int64(3), object(3)
memory usage: 17.6+ MB


In [24]:
# Con el comando '.fillna(0)' vamos a cambiar los valores NAN del dataframe por '0'

lista = lista.fillna(0)

In [36]:
lista

Unnamed: 0,date,rank,song,artist,last-week,peak-rank,weeks-on-board
0,2021-11-06,1,Easy On Me,Adele,1.0,1,3
1,2021-11-06,2,Stay,The Kid LAROI & Justin Bieber,2.0,1,16
2,2021-11-06,3,Industry Baby,Lil Nas X & Jack Harlow,3.0,1,14
3,2021-11-06,4,Fancy Like,Walker Hayes,4.0,3,19
4,2021-11-06,5,Bad Habits,Ed Sheeran,5.0,2,18
...,...,...,...,...,...,...,...
330082,1958-08-04,96,Over And Over,Thurston Harris,0.0,96,1
330083,1958-08-04,97,I Believe In You,Robert & Johnny,0.0,97,1
330084,1958-08-04,98,Little Serenade,The Ames Brothers,0.0,98,1
330085,1958-08-04,99,I'll Get By (As Long As I Have You),Billy Williams,0.0,99,1


# Imprima algunos valores de ejemplos

Use `tail()` para imprimir algunos valores.

Fíjese en las columnas del dataset.

### Solución

In [35]:
# Usaremos el comando '.tail()' para mostrar los ultimos 5 elementos del dataframe. De la misma manera que usariamos '.head()' para los cinco primeros

lista.tail()

Unnamed: 0,date,rank,song,artist,last-week,peak-rank,weeks-on-board
330082,1958-08-04,96,Over And Over,Thurston Harris,0.0,96,1
330083,1958-08-04,97,I Believe In You,Robert & Johnny,0.0,97,1
330084,1958-08-04,98,Little Serenade,The Ames Brothers,0.0,98,1
330085,1958-08-04,99,I'll Get By (As Long As I Have You),Billy Williams,0.0,99,1
330086,1958-08-04,100,Judy,Frankie Vaughan,0.0,100,1


# Calcule los top 30 artistas

Puede usar la función `value_counts()` y `head(...)`.

Fíjese en usar la columna correspondiente.

### Solución

In [28]:
# Con 'value_counts()' y señalizando la columna objetivo, podremos realizar un conteo de las variables. Como se pide del top 30 artistas, 
# esto significa contar que artistas aparecen mas veces en la columna 'artist'
# Con 'head()' mostraremos las primeras filas, en este caso al usarlo junto al value_counts(), de las variables mas repetidas.

lista['artist'].value_counts().head(30)

Taylor Swift             1023
Elton John                889
Madonna                   857
Drake                     787
Kenny Chesney             769
Tim McGraw                731
Keith Urban               673
Stevie Wonder             659
Rod Stewart               657
Mariah Carey              621
Michael Jackson           611
Chicago                   607
Rascal Flatts             604
Billy Joel                588
The Rolling Stones        585
The Beatles               585
Jason Aldean              572
Aretha Franklin           569
Rihanna                   566
P!nk                      564
Whitney Houston           561
Brad Paisley              559
Neil Diamond              553
George Strait             553
Luke Bryan                543
Carrie Underwood          541
Daryl Hall John Oates     540
The Beach Boys            531
Toby Keith                526
Bee Gees                  516
Name: artist, dtype: int64

# Muestre el top 15 de canciones junto con su cantante

### Solución

In [34]:
# Haremos como en el caso anterior, solo que ahora buscaremos aplicar 'value_counts()' tanto a 'artist' como a 'song'
lista[['artist','song']].value_counts().head(15)

artist                                     song                               
The Weeknd                                 Blinding Lights                        90
Imagine Dragons                            Radioactive                            87
AWOLNATION                                 Sail                                   79
Jason Mraz                                 I'm Yours                              76
LeAnn Rimes                                How Do I Live                          69
LMFAO Featuring Lauren Bennett & GoonRock  Party Rock Anthem                      68
OneRepublic                                Counting Stars                         68
Jewel                                      Foolish Games/You Were Meant For Me    65
Adele                                      Rolling In The Deep                    65
Carrie Underwood                           Before He Cheats                       64
The Lumineers                              Ho Hey                      

#Muestre el top 10 de los artistas, canciones y su mejor posición

### Solución

In [37]:
lista[['artist','song','peak-rank']].value_counts().head(10)

artist                                     song                     peak-rank
The Weeknd                                 Blinding Lights          1            74
Ed Sheeran                                 Shape Of You             1            58
Jason Mraz                                 I'm Yours                6            56
LMFAO Featuring Lauren Bennett & GoonRock  Party Rock Anthem        1            54
The Black Eyed Peas                        I Gotta Feeling          1            54
Justin Timberlake                          Can't Stop The Feeling!  1            52
Taylor Swift                               Shake It Off             1            50
The Chainsmokers Featuring Halsey          Closer                   1            50
Post Malone                                Circles                  1            50
Mark Ronson Featuring Bruno Mars           Uptown Funk!             1            49
dtype: int64

# Artistas más reproducidos por semanas

Transforme la columna `date` en `datetime`.

Use  `set_index` para crear un índice en la columna `date`.

Imprima el dataframe con el nuevo índice.

### Solución

In [42]:
# Con '.apply(pd.to_datetime) transformamos la columna 'date', que era de forma objeto, a pandas datetime object.
lista ['date'] = lista['date'].apply(pd.to_datetime)

In [45]:
# Con 'set_index' convertiremos la columna 'date' en nuestro indice. Para guardar este cambio, podemos hacerlo mediante un 'inplace = True'
# o guardandolo en el propio dataframe 'lista =...'

lista.set_index('date', inplace = True)

In [46]:
lista

Unnamed: 0_level_0,rank,song,artist,last-week,peak-rank,weeks-on-board
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2021-11-06,1,Easy On Me,Adele,1.0,1,3
2021-11-06,2,Stay,The Kid LAROI & Justin Bieber,2.0,1,16
2021-11-06,3,Industry Baby,Lil Nas X & Jack Harlow,3.0,1,14
2021-11-06,4,Fancy Like,Walker Hayes,4.0,3,19
2021-11-06,5,Bad Habits,Ed Sheeran,5.0,2,18
...,...,...,...,...,...,...
1958-08-04,96,Over And Over,Thurston Harris,0.0,96,1
1958-08-04,97,I Believe In You,Robert & Johnny,0.0,97,1
1958-08-04,98,Little Serenade,The Ames Brothers,0.0,98,1
1958-08-04,99,I'll Get By (As Long As I Have You),Billy Williams,0.0,99,1


# Encuentre los más y menos escuchados según un intervalo de tiempo

Puede usar `resample(frecuencia)[columna]`. 

Las frecuencias que puede usar son:
* H - Horaria
* D - Diaria
* W - Semanal
* M - Mensual
* A - Anual

Puede usar `.agg([columnas])` para agregar los datos

### Solución

In [83]:
# Con '.resample()[]' hacemos una busqueda, en una frecuencia determinada, en este caso mes ('M'), en una columna ['artist']
# pidiendo a su vez con '.agg' una los primeros y los últimos de esa busqueda

lista.resample('M')['artist'].agg(['first','last'])

Unnamed: 0_level_0,first,last
date,Unnamed: 1_level_1,Unnamed: 2_level_1
1958-08-31,Ricky Nelson,Eileen Rodgers
1958-09-30,Domenico Modugno,Kalin Twins
1958-10-31,Tommy Edwards,The Tune Rockers
1958-11-30,Tommy Edwards,Peggy Lee
1958-12-31,The Teddy Bears,The Ames Brothers
...,...,...
2021-07-31,BTS,Jameson Rodgers Featuring Luke Combs
2021-08-31,BTS,"EST Gee Featuring Lil Baby, 42 Dugg & Rylo Rod..."
2021-09-30,The Kid LAROI & Justin Bieber,Kenny Chesney
2021-10-31,The Kid LAROI & Justin Bieber,Priscilla Block
