# DESAFIO 2. Datos de Billboard

## Paso 1. Explorar los datos

Cargá el dataset usando Pandas y comenzá a explorar los datos. Guardá en este espacio todos los procesos y análisis exploratorios que hayas hecho, tanto los preliminares como los definitivos. Por favor, indicá cuál(es) es(son) cada uno(s).

In [1]:
import numpy as np
import pandas as pd

data = pd.read_csv('./billboard.csv', encoding='latin8')

Escribí un breve descripción de los datos. Hacé particular énfasis en los hallazagos que te parezcan relevantes hasta este punto.

In [2]:
print(data.info())
print(data.head)


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 317 entries, 0 to 316
Data columns (total 83 columns):
year               317 non-null int64
artist.inverted    317 non-null object
track              317 non-null object
time               317 non-null object
genre              317 non-null object
date.entered       317 non-null object
date.peaked        317 non-null object
x1st.week          317 non-null int64
x2nd.week          312 non-null float64
x3rd.week          307 non-null float64
x4th.week          300 non-null float64
x5th.week          292 non-null float64
x6th.week          280 non-null float64
x7th.week          269 non-null float64
x8th.week          260 non-null float64
x9th.week          253 non-null float64
x10th.week         244 non-null float64
x11th.week         236 non-null float64
x12th.week         222 non-null float64
x13th.week         210 non-null float64
x14th.week         204 non-null float64
x15th.week         197 non-null float64
x16th.week         182 no

## Paso 2. Limpieza de los datos

Empezá por una limpieza rudimentaria. Reformulá los nombres desprolijos de las variables para que tengan un criterio común, acortá los strings que sean muy largos, buscá datos missing y realizá una imputación (en caso de que te parezca que esto es necesario). En aquellos casos en que decidas que es necesario imputar, explicá cuál es el motivo y justificá la técnica que hayas utilizado para imputar.

Usando la función `melt()` de Pandas, reformateá el dataset para que tengan el formato "long" en lugar de "wide". Como resultado deberías haber removido la columna 72 'week' y la deberías haber reemplazado por dos: 'Week' y 'Ranking'. Ahora vas a tener múltiples entradas por canción: una por cada semana que haya estado en el ranking de Billboard.

In [10]:
data_melt = pd.melt(data, data.columns[0:7], var_name="week", value_name="ranking").dropna()
tmp = data_melt["week"].str.extract("(\d+)", expand=False)
data_melt["week"] = tmp

del(tmp)
data_melt.head()

Unnamed: 0,year,artist.inverted,track,time,genre,date.entered,date.peaked,week,ranking
0,2000,Destiny's Child,Independent Women Part I,3:38,Rock,2000-09-23,2000-11-18,1,78.0
1,2000,Santana,"Maria, Maria",4:18,Rock,2000-02-12,2000-04-08,1,15.0
2,2000,Savage Garden,I Knew I Loved You,4:07,Rock,1999-10-23,2000-01-29,1,71.0
3,2000,Madonna,Music,3:45,Rock,2000-08-12,2000-09-16,1,41.0
4,2000,"Aguilera, Christina",Come On Over Baby (All I Want Is You),3:38,Rock,2000-08-05,2000-10-14,1,57.0


## Paso 3. Visualizar los datos

Usando la herramienta de plotting de tu elección, generá visualizaciones que permitan seguir profundizando en el análisis exploratorio de tus datos. No hay un máximo o mínimo de gráficos. Lo que sí es requisito es que haya una lógica y un sentido en la generación de los mismos: tiene que generarse una "historia" clara a partir de los mismos. También deberías en este punto realizar un análisis preliminar de los datos: forma de la distribución, estadísticos y relaciones entre las variables

In [49]:
print(data_melt.groupby(["genre"])["ranking"].describe())
print(data_melt.groupby(["artist.inverted"])["ranking"].describe())

              count       mean        std   min   25%   50%    75%    max
genre                                                                    
Country      1200.0  61.687500  21.874306   1.0  45.0  61.0  80.00  100.0
Electronica    72.0  62.847222  30.672123   6.0  35.5  76.0  92.00   98.0
Gospel         20.0  67.750000   8.103768  57.0  61.0  67.0  71.75   89.0
Jazz            5.0  51.800000  41.517466   7.0   8.0  66.0  89.00   89.0
Latin         173.0  47.653179  28.214213   1.0  23.0  46.0  74.00  100.0
Pop           137.0  54.963504  28.990467   5.0  30.0  53.0  80.00  100.0
R&B           261.0  67.632184  21.305713  14.0  54.0  69.0  86.00  100.0
Rap           837.0  56.236559  29.581191   2.0  30.0  57.0  84.00  100.0
Reggae         15.0  72.400000  13.059206  54.0  62.5  72.0  84.00   95.0
Rock         2587.0  42.206803  29.439376   1.0  16.0  36.0  68.00  100.0
artist.inverted
2 Pac                   85.428571
2Ge+her                 90.000000
3 Doors Down            37.6

## Paso 4. Planteo del problema 

Ya tenés hecho el análisis exploratorio del dataset. Ahora es necesario realizar una formulación clara del problema que se va a abordar. Podés incorporar datos externos al dataset, si resultan necesarios para la resolución del problema formulado -solamente, acordate de poner un link a los mismos-. La creatividad es fundamental en este paso.

## Paso 5. Brainstorming para abordar el problema

En forma de listado, comenzá a pensar cuáles serían las formas en que podrías abordar el problema planteado más arriba. No tiene que ser necesariamente un código. Más bien, la idea es idear diferentes estrategias para aprovechar al máximo los datos disponibles en función del problema.

## Paso 6. Crear un reporte con los hallazgos, el código y las visualizaciones

Creá un reporte que describa cada uno de los seis pasos previos. Imaginá que estás describiendo tus datos, visualizaciones, problemas, hallazgos y conclusiones con tus pares. Deberá tener al menos 500 palabras. Y deberá contener el código utilizado para generar las visualizaciones, las pruebas estadísticas realizadas -y cualquier otro método que hayas utilizado- y el análisis e interpretación de los resultados- propiamente dicho.

## BONUS: El mismo programa para el que trabajaste te solicita escribir un white paper de al menos 500 palabras sobre el tema "cómo lidiar con la limpieza de los datos". El objetivo es que constituya una presentación para exponer ante una audiencia amplia, así que va a ser necesario incluir casos reales como ejemplos para sustentar tus planteos.

Pista: para empezar hacé una primera búsqueda en internet de artículos, blogposts, papers, videos, etc. En fin... todo lo que  te sirva para entender los desafíos que implica trabajar con datos. Este white paper debería constituir una reflexión original y personal acerca de lo aprendido en esta semana.