# Introducción

Vamos a analizar un conjunto de datos de canciones y sus estadísticas por semanas: `listas_musica.csv`

Es un conjunto de datos que nos permite trabajar los conceptos de `pandas` y `numpy`.

El ejercicio será guiado aunque se permite no ver las soluciones para realizar las tareas.

Las columnas del `dataset` son:

* `date`:	Tipo `date` - Fecha de la lista.
* `rank`:	Tipo `int`	- Posición del ranking de la canción en esa fecha.
* `song`:	Tipo `str`	- Nombre de la canción.
* `artist`:	Tipo `str` - Artista.
* `last-week`:	Tipo `int` -	Posición en el ranking de la semana anterior.
* `peak-rank`: Tipo `int`	- La mejor posición de la canción en el ranking.
* `weeks-on-board`: Tipo `int` -	Número de semanas que la canción lleva en la lista.





# Carga de librerías

Cargue las librerías `numpy`, `pandas` y `os`.


### Solución

In [3]:
import pandas as pd
import numpy as np
import os

# Carga del dataset

Lea el dataset y conviértalo en un `dataframe`.

Imprima el dataset una vez lo tenga.

### Solución

In [39]:
#imprimo la base de datos como un DataFrame

df = pd.read_csv(r'C:\Users\Diego Andrés\OneDrive\Escritorio\curso_python_upgradehub\entorno_upgrade\proyectos\listas_musica\listas_musica.csv')

#Limpieza de datos

Rellene con `0` usando `fillna()`.

### Solución

In [35]:
#Cambio todos los datos nulos por 0 usando la función fillna

df.fillna(0)

Unnamed: 0,date,rank,song,artist,last-week,peak-rank,weeks-on-board
0,2021-11-06,1,Easy On Me,Adele,1.0,1,3
1,2021-11-06,2,Stay,The Kid LAROI & Justin Bieber,2.0,1,16
2,2021-11-06,3,Industry Baby,Lil Nas X & Jack Harlow,3.0,1,14
3,2021-11-06,4,Fancy Like,Walker Hayes,4.0,3,19
4,2021-11-06,5,Bad Habits,Ed Sheeran,5.0,2,18
...,...,...,...,...,...,...,...
330082,1958-08-04,96,Over And Over,Thurston Harris,0.0,96,1
330083,1958-08-04,97,I Believe In You,Robert & Johnny,0.0,97,1
330084,1958-08-04,98,Little Serenade,The Ames Brothers,0.0,98,1
330085,1958-08-04,99,I'll Get By (As Long As I Have You),Billy Williams,0.0,99,1


# Imprima algunos valores de ejemplos

Use `tail()` para imprimir algunos valores.

Fíjese en las columnas del dataset.

### Solución

In [8]:
#se imprimen los valores mas bajos con tail, si quisieras los mas altos se podría con head.

df.tail(5)

Unnamed: 0,date,rank,song,artist,last-week,peak-rank,weeks-on-board
330082,1958-08-04,96,Over And Over,Thurston Harris,,96,1
330083,1958-08-04,97,I Believe In You,Robert & Johnny,,97,1
330084,1958-08-04,98,Little Serenade,The Ames Brothers,,98,1
330085,1958-08-04,99,I'll Get By (As Long As I Have You),Billy Williams,,99,1
330086,1958-08-04,100,Judy,Frankie Vaughan,,100,1


# Calcule los top 30 artistas

Puede usar la función `value_counts()` y `head(...)`.

Fíjese en usar la columna correspondiente.

### Solución

In [13]:
#escogemos la columna artista y contamos las veces que aparece con la función value_counts y escogemos los 30 que mas aparecen con la función head

df['artist'].value_counts().head(30)

artist
Taylor Swift             1023
Elton John                889
Madonna                   857
Drake                     787
Kenny Chesney             769
Tim McGraw                731
Keith Urban               673
Stevie Wonder             659
Rod Stewart               657
Mariah Carey              621
Michael Jackson           611
Chicago                   607
Rascal Flatts             604
Billy Joel                588
The Rolling Stones        585
The Beatles               585
Jason Aldean              572
Aretha Franklin           569
Rihanna                   566
P!nk                      564
Whitney Houston           561
Brad Paisley              559
Neil Diamond              553
George Strait             553
Luke Bryan                543
Carrie Underwood          541
Daryl Hall John Oates     540
The Beach Boys            531
Toby Keith                526
Bee Gees                  516
Name: count, dtype: int64

# Muestre el top 15 de canciones junto con su cantante

### Solución

In [28]:
#escogemos las dos columnas que nos piden y hacemos como anets las contamos y ponemos las 15 mayores

df[['song','artist']].value_counts().head(15)

song                                 artist                                   
Blinding Lights                      The Weeknd                                   90
Radioactive                          Imagine Dragons                              87
Sail                                 AWOLNATION                                   79
I'm Yours                            Jason Mraz                                   76
How Do I Live                        LeAnn Rimes                                  69
Counting Stars                       OneRepublic                                  68
Party Rock Anthem                    LMFAO Featuring Lauren Bennett & GoonRock    68
Rolling In The Deep                  Adele                                        65
Foolish Games/You Were Meant For Me  Jewel                                        65
Before He Cheats                     Carrie Underwood                             64
You And Me                           Lifehouse                         

#Muestre el top 10 de los artistas, canciones y su mejor posición

### Solución

In [49]:
#en este caso usamos groupby para escoger justo en las que coinciden (artistas-canciones) y lo ordenamos segun su peak rank
# con sort_values 

df.groupby(['artist','song'])['peak-rank'].min().sort_values().head(10)

artist                                                                   song            
The Black Eyed Peas                                                      I Gotta Feeling     1
Cyndi Lauper                                                             Time After Time     1
                                                                         True Colors         1
Survivor                                                                 Eye Of The Tiger    1
Surface                                                                  The First Time      1
D4L                                                                      Laffy Taffy         1
Migos Featuring Lil Uzi Vert                                             Bad And Boujee      1
DJ Khaled Featuring Justin Bieber, Quavo, Chance The Rapper & Lil Wayne  I'm The One         1
Mike + The Mechanics                                                     The Living Years    1
Avril Lavigne                                          

# Artistas más reproducidos por semanas

Transforme la columna `date` en `datetime`.

Use  `set_index` para crear un índice en la columna `date`.

Imprima el dataframe con el nuevo índice.

### Solución

In [41]:
df['date'] = pd.to_datetime(df['date'])

In [43]:
df.set_index('date', inplace= True)

In [44]:
df

Unnamed: 0_level_0,rank,song,artist,last-week,peak-rank,weeks-on-board
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2021-11-06,1,Easy On Me,Adele,1.0,1,3
2021-11-06,2,Stay,The Kid LAROI & Justin Bieber,2.0,1,16
2021-11-06,3,Industry Baby,Lil Nas X & Jack Harlow,3.0,1,14
2021-11-06,4,Fancy Like,Walker Hayes,4.0,3,19
2021-11-06,5,Bad Habits,Ed Sheeran,5.0,2,18
...,...,...,...,...,...,...
1958-08-04,96,Over And Over,Thurston Harris,,96,1
1958-08-04,97,I Believe In You,Robert & Johnny,,97,1
1958-08-04,98,Little Serenade,The Ames Brothers,,98,1
1958-08-04,99,I'll Get By (As Long As I Have You),Billy Williams,,99,1


# Encuentre los más y menos escuchados según un intervalo de tiempo

Puede usar `resample(frecuencia)[columna]`. 

Las frecuencias que puede usar son:
* H - Horaria
* D - Diaria
* W - Semanal
* M - Mensual
* A - Anual

Puede usar `.agg([columnas])` para agregar los datos

### Solución

TypeError: 'method' object is not subscriptable