## Clean Dataset

A partir del análisis de los *hits* realizados en el cuaderno 1_hit_analysis, para resolver este problema de aprendizaje supervisado, utilizaremos modelos basados en *boosting* que son muy influenciables por *outliers* en el dataset. Es por ello que se van a eliminar estos *outliers* en los *hits* para tratar de hacer una prediccion de *hits* mas generalizable. Para los no *hits* no se realiza ninguna limpieza, puesto que para estas canciones es interesante que las características se muevan en todo el rango posible, para que el modelo sea capaz de diferenciar bien cuando es *hit* y cuando no.

In [1]:
import numpy as np
import pandas as pd

In [57]:
df_hits = pd.read_csv ("../Data/top_100_Billboard_1958_2020.csv",dtype={'song_lyrics':'string'})

In [58]:
df_hits = df_hits.sort_values("weeks", ascending=False).drop_duplicates(subset = ["id"])
# las busquedas en Spotipy, a traves de artista y titulo, pueden encontrar la misma cancion con Ids diferentes,
# ya que la canción puede encontrarse en un album y como single y por tanto los ids no coincidiran aunque es la
# misma canción, por ello nos aseguramos eliminando los duplicados que tengan mismo artista y titulo de la canción,
# para solventar esta casuistica.
df_hits = df_hits.drop_duplicates(subset = ["artist","title"], keep="first")

In [59]:
len(df_hits)

25570

In [60]:
df_hits = df_hits.reset_index(drop=True)

Tras eliminar los duplicados, eliminamos los *outliers* de las siguientes características. Estos valores han sido escogidos tras analizar los *boxplots* a lo largo del tiempo para cada una de las características (Se encuentra en el cuaderno 1_hit_analysis).

In [61]:
df_hits = df_hits.drop(df_hits[df_hits['danceability']<0.1].index)
df_hits = df_hits.drop(df_hits[df_hits['loudness']<-25].index)
df_hits = df_hits.drop(df_hits[df_hits['loudness']>0].index)
df_hits = df_hits.drop(df_hits[df_hits['speechiness']>0.6].index)
df_hits = df_hits.drop(df_hits[df_hits['tempo']<50].index)
df_hits = df_hits.drop(df_hits[df_hits['tempo']>210].index)

Observamos el valor vinal de *hits* que tenemos, hemos reducido un total de 63 canciones que perjudicarían en el aprendizaje del modelo, y lo haría menos generalizable.

In [62]:
len (df_hits)

25507

In [63]:
df_hits.to_csv("../Data/top_100_Billboard_1958_2020_to_train.csv", index = False, header=True)

# Hits 1993 - 2020
Tras analizar cada una de las características, y los géneros musicales, se aprecia un importante cambio a partir de este año, donde la música urbana empieza a coger más peso, y se aprecian cambios en las características de estos *hits*, es por ello que se tratará de entrenar los modelos con datos a partir de esta fecha, y así poder analizar cuáles predecirían mejor en la actualidad.

Para ello también se realizará una limpieza de *outliers* como en el caso anterior.

In [3]:
df_hits = pd.read_csv ("../Data/top_100_Billboard_1958_2020.csv",dtype={'song_lyrics':'string'})

In [5]:
df_hits_filter = df_hits[df_hits['year_chart']>=1993]

In [6]:
df_hits_filter = df_hits_filter.sort_values("weeks", ascending=False).drop_duplicates(subset = ["id"])
# las busquedas en Spotipy, a traves de artista y titulo, pueden encontrar la misma cancion con Ids diferentes,
# ya que la canción puede encontrarse en un album y como single y por tanto los ids no coincidiran aunque es la misma canción
# por ello nos aseguramos eliminando los duplicados que tengan mismo artista y titulo de la canción, para solventar esta
# casuistica.
df_hits_filter = df_hits_filter.drop_duplicates(subset = ["artist","title"], keep="first")

In [7]:
len(df_hits_filter)

10331

In [8]:
df_hits_filter = df_hits_filter.reset_index(drop=True)

In [51]:
df_hits_filter = df_hits_filter.drop(df_hits_filter[df_hits_filter['energy']<0.1].index)
df_hits_filter = df_hits_filter.drop(df_hits_filter[df_hits_filter['loudness']<-15].index)
df_hits_filter = df_hits_filter.drop(df_hits_filter[df_hits_filter['speechiness']>0.6].index)
df_hits_filter = df_hits_filter.drop(df_hits_filter[df_hits_filter['tempo']<50].index)
df_hits_filter = df_hits_filter.drop(df_hits_filter[df_hits_filter['tempo']>210].index)

In [53]:
df_hits_filter.to_csv("../Data/top_100_Billboard_1993_2020_to_train.csv", index = False, header=True)