# Challenge: Billboard Top 100 dataset
Este conjunto de datos representa la clasificación semanal de las canciones desde el momento en que ingresan al Billboard Top 100 hasta las 75 semanas siguientes.

### Problemas:
- Los encabezados de las columnas se componen de valores: el número de semana (x1st.week,…)
- Si una canción está en el Top 100 durante menos de 75 semanas, las columnas restantes se llenan con los valores faltantes.

In [1]:
import pandas as pd

Vamos a importar los datos y a mostrar las primeras 10 filas. ¿Puedes notar cuáles columnas tiene valores en lugar nombres en sus variables?

In [2]:
df = pd.read_csv("data/billboard.csv", encoding="mac_latin2")
df.head(10)

Unnamed: 0,year,artist.inverted,track,time,genre,date.entered,date.peaked,x1st.week,x2nd.week,x3rd.week,...,x67th.week,x68th.week,x69th.week,x70th.week,x71st.week,x72nd.week,x73rd.week,x74th.week,x75th.week,x76th.week
0,2000,Destiny's Child,Independent Women Part I,3:38,Rock,2000-09-23,2000-11-18,78,63.0,49.0,...,,,,,,,,,,
1,2000,Santana,"Maria, Maria",4:18,Rock,2000-02-12,2000-04-08,15,8.0,6.0,...,,,,,,,,,,
2,2000,Savage Garden,I Knew I Loved You,4:07,Rock,1999-10-23,2000-01-29,71,48.0,43.0,...,,,,,,,,,,
3,2000,Madonna,Music,3:45,Rock,2000-08-12,2000-09-16,41,23.0,18.0,...,,,,,,,,,,
4,2000,"Aguilera, Christina",Come On Over Baby (All I Want Is You),3:38,Rock,2000-08-05,2000-10-14,57,47.0,45.0,...,,,,,,,,,,
5,2000,Janet,Doesn't Really Matter,4:17,Rock,2000-06-17,2000-08-26,59,52.0,43.0,...,,,,,,,,,,
6,2000,Destiny's Child,Say My Name,4:31,Rock,1999-12-25,2000-03-18,83,83.0,44.0,...,,,,,,,,,,
7,2000,"Iglesias, Enrique",Be With You,3:36,Latin,2000-04-01,2000-06-24,63,45.0,34.0,...,,,,,,,,,,
8,2000,Sisqo,Incomplete,3:52,Rock,2000-06-24,2000-08-12,77,66.0,61.0,...,,,,,,,,,,
9,2000,Lonestar,Amazed,4:25,Country,1999-06-05,2000-03-04,81,54.0,44.0,...,,,,,,,,,,


## 1. Los encabezados de las columnas se componen de valores: el número de semana (x1st.week,…)

Recuerda que el melting es una técnica utilizada cuando un conjunto de columnas con las que contamos corresponden a una misma variable, de tal manera que dichos nombres pasarán a ser valores dentro de una misma columna y sus valores en las celdas también serán almacenados en otra columna contigua.

Intrucciones: En el siguiente bloque de código realiza lo siguiente.
- Crea una lista con los nombres de las columnas que cumplen el criterio de Tidy Data (el nombre de la columna es una variable y no un valor) y almacénala en **id_vars**
- Asigna al argumento **var_name** el nombre "week"
- Asigna al argumento **value_name** el nombre "rank"

In [4]:
# Melting
id_vars = ['year', 'artist.inverted', 'track', 'time', 'genre', 'date.entered', 'date.peaked']

df = pd.melt(frame=df,id_vars=id_vars, var_name="week", value_name="rank")
df

Unnamed: 0,year,artist.inverted,track,time,genre,date.entered,date.peaked,week,rank
0,2000,Destiny's Child,Independent Women Part I,3:38,Rock,2000-09-23,2000-11-18,x1st.week,78.0
1,2000,Santana,"Maria, Maria",4:18,Rock,2000-02-12,2000-04-08,x1st.week,15.0
2,2000,Savage Garden,I Knew I Loved You,4:07,Rock,1999-10-23,2000-01-29,x1st.week,71.0
3,2000,Madonna,Music,3:45,Rock,2000-08-12,2000-09-16,x1st.week,41.0
4,2000,"Aguilera, Christina",Come On Over Baby (All I Want Is You),3:38,Rock,2000-08-05,2000-10-14,x1st.week,57.0
...,...,...,...,...,...,...,...,...,...
24087,2000,Ghostface Killah,Cherchez LaGhost,3:04,R&B,2000-08-05,2000-08-05,x76th.week,
24088,2000,"Smith, Will",Freakin' It,3:58,Rap,2000-02-12,2000-02-12,x76th.week,
24089,2000,Zombie Nation,Kernkraft 400,3:30,Rock,2000-09-02,2000-09-02,x76th.week,
24090,2000,"Eastsidaz, The",Got Beef,3:58,Rap,2000-07-01,2000-07-01,x76th.week,


¿Qué es lo que contiene la columna "week"? ¿Qué es lo que contiene la columna "rank"?

### ¡Genial! Ya has convertido los nombres de esas columnas en valores, has cumplido un principio básico de tidy data.

![image.png](https://i.pinimg.com/474x/e7/fe/41/e7fe410c017990839d8ef66f31f4ebe6.jpg)

Bueno, todavía no hemos terminado, fíjate en los valores en la columna "week".
Imagina que permites al usuario ingresar un número para filtrar las observaciones y obtener únicamente las canciones que estuvieron en Billboard 50 semanas pero el parámetro lógicamente será un número, ¿no le pedirías al usuario que escriba "x50th.week" como parámetro de entrada, verdad?... ¡¿verdad?! D:

Limpiemos un poco más esos datos :D

Intrucciones: En el siguiente bloque de código realiza lo siguiente.
- Utiliza el método [extract de str](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.extract.html) sobre la columna **week** y pásale como primer argumento la expresión *(\d+)*. Lo que hará, será extraer solo los número dentro de cada valor. Increíble, ¿no?. Puntos extra: ¿Puedes explicar qué hizo la expresión *(\d+)*?
- Consulta la documentación de [.str.extract](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.extract.html) y lee la definición del argumento expand. ¿Lo pondrías en True o en False?
- Utiliza [.astype](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.astype.html) para convertir la columa entera a **integer**

In [5]:
# Formatting
df["week"] = df['week'].str.extract(r"(\d+)", expand=False) # Escribe aquí el código para realizar la extracción de caracteres y la conversión 
df["week"] = df['week'].astype('int32')

### Uff, lo anterior fue un poco más complicado pero, ¡lo lograste!
Vamos entonces con lo siguiente:
- Vamos a eliminar las filas con NA en sus celdas. Utiliza .dropna(), por ahora así, a capela, pero te dejo la [documentación](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html) por acá para casos más "especiales".

In [6]:
df = df.dropna()
df

Unnamed: 0,year,artist.inverted,track,time,genre,date.entered,date.peaked,week,rank
0,2000,Destiny's Child,Independent Women Part I,3:38,Rock,2000-09-23,2000-11-18,1,78.0
1,2000,Santana,"Maria, Maria",4:18,Rock,2000-02-12,2000-04-08,1,15.0
2,2000,Savage Garden,I Knew I Loved You,4:07,Rock,1999-10-23,2000-01-29,1,71.0
3,2000,Madonna,Music,3:45,Rock,2000-08-12,2000-09-16,1,41.0
4,2000,"Aguilera, Christina",Come On Over Baby (All I Want Is You),3:38,Rock,2000-08-05,2000-10-14,1,57.0
...,...,...,...,...,...,...,...,...,...
19663,2000,Lonestar,Amazed,4:25,Country,1999-06-05,2000-03-04,63,45.0
19700,2000,Creed,Higher,5:16,Rock,1999-09-11,2000-07-22,63,50.0
19980,2000,Lonestar,Amazed,4:25,Country,1999-06-05,2000-03-04,64,50.0
20017,2000,Creed,Higher,5:16,Rock,1999-09-11,2000-07-22,64,50.0


¿Recuerdas que alteramos la columna **week**? Bueno, vamos a quedarnos con ella y con las columnas que nos interesan. Vamos a reasignar el data frame original.
Solo nos falta una columna, ¿cuál es?

In [7]:
df = df[["year", 
         "artist.inverted",
         "track",
         "time",
         "genre",
         "week",
         "rank",
         "date.entered"]]
df = df.sort_values(ascending=True, by=["year","artist.inverted","track","week","rank"])

In [8]:
# Assigning the tidy dataset to a variable for future usage
billboard = df

billboard.head(10)

Unnamed: 0,year,artist.inverted,track,time,genre,week,rank,date.entered
246,2000,2 Pac,Baby Don't Cry (Keep Ya Head Up II),4:22,Rap,1,87.0,2000-02-26
563,2000,2 Pac,Baby Don't Cry (Keep Ya Head Up II),4:22,Rap,2,82.0,2000-02-26
880,2000,2 Pac,Baby Don't Cry (Keep Ya Head Up II),4:22,Rap,3,72.0,2000-02-26
1197,2000,2 Pac,Baby Don't Cry (Keep Ya Head Up II),4:22,Rap,4,77.0,2000-02-26
1514,2000,2 Pac,Baby Don't Cry (Keep Ya Head Up II),4:22,Rap,5,87.0,2000-02-26
1831,2000,2 Pac,Baby Don't Cry (Keep Ya Head Up II),4:22,Rap,6,94.0,2000-02-26
2148,2000,2 Pac,Baby Don't Cry (Keep Ya Head Up II),4:22,Rap,7,99.0,2000-02-26
287,2000,2Ge+her,The Hardest Part Of Breaking Up (Is Getting Ba...,3:15,R&B,1,91.0,2000-09-02
604,2000,2Ge+her,The Hardest Part Of Breaking Up (Is Getting Ba...,3:15,R&B,2,87.0,2000-09-02
921,2000,2Ge+her,The Hardest Part Of Breaking Up (Is Getting Ba...,3:15,R&B,3,92.0,2000-09-02
