# Clasificación de Género a partir de Líricas

En este cuaderno, el reto es clasificar el género de las canciones a partir de sus letras, año y nombre. Esta información la puedes conseguir a partir de un dataset público de líricas. El archivo con la información está en un zip anexado.

Este cuaderno de Jupyter hace la configuración básica del problema. Tú puedes utilizar las librerías que quieras y herramientas que consideres necesarias. Puedes utilizar Python 2 y Python 3. 

En la siguiente celda, para cargar la información, importamos [Pandas](https://pandas.pydata.org/).

In [32]:
import pandas as pd
import random

En el archivo lyrics.csv hay una columna con el nombre del artiste. No queremos tener este variable porque sino se facilita mucho la predicción. Por lo tanto, en el dataset tenemos:
* **song**: El nombre de la canción
* **year**: Año en el que se publicó la canción
* **genre**: Género de la canción (Pop, Country, etc)
* **lyrics**: La letra de la canción

In [37]:
# Importamos el dataset y eliminamos la columna de índice y la del artista
df = pd.read_csv('lyrics.csv').drop(['artist', 'index'], 1)

# Barajamos el dataset
df = df.sample(n=362237)

# Desplegamos primeros 5 resultados
df.head()

Unnamed: 0,song,year,genre,lyrics
14110,the-impossible-dream-the-quest,1990,Pop,To dream the impossible dream\nTo fight the un...
203406,under-my-star,2008,Electronic,
280602,sun-moon-acoustic,2016,Electronic,"It's raining, it's pouring\nA black sky is fal..."
47989,colors,2008,Pop,Sitting on the green green grass\nI know the s...
309543,myoskin-tytto-iloinen,1970,Rock,


In [38]:
records = df.shape[0] # Número de filas en la tabla
print("Hay un total de " + str(records) + " registros en el dataset.")

Hay un total de 362237 registros en el dataset.


En este problema, queremos predecir un label (género) a partir de features (nombre de la canción, año y letra). Por lo tanto, necesitamos separarlo en X (entradas/features) y y (output/label, variable a predecir).

In [39]:
X = df.drop('lyrics', 1)
y = df['lyrics']

Como buena práctica, es importante dividir el dataset en 3: entrenamiento, validación y testing. En este problema tendrás 60% del dataset para entrenar el modelo que tú decidas, 20% del dataset para hacer la validación y 20% para hacer el testing. 

Si no sabes para qué querrías un validation set además del testing set, te sugerimos revisar [este enlace](https://stats.stackexchange.com/questions/19048/what-is-the-difference-between-test-set-and-validation-set). 

In [40]:
X_train = X[:int(records*0.6)]
y_train = y[:int(records*0.6)]

X_valid = X[int(records*0.6):int(records*0.8)]
y_valid = y[int(records*0.6):int(records*0.8)]

X_test = X[int(records*0.8):]
y_test = y[int(records*0.8):]

print("Hay un total de " + str(X_train.shape[0]) + " registros de entrenamiento.")
print("Hay un total de " + str(X_valid.shape[0]) + " registros de validación.")
print("Hay un total de " + str(X_test.shape[0]) + " registros de testing.")

Hay un total de 217342 registros de entrenamiento.
Hay un total de 72447 registros de validación.
Hay un total de 72448 registros de testing.


In [41]:
X_train.head()

Unnamed: 0,song,year,genre
14110,the-impossible-dream-the-quest,1990,Pop
203406,under-my-star,2008,Electronic
280602,sun-moon-acoustic,2016,Electronic
47989,colors,2008,Pop
309543,myoskin-tytto-iloinen,1970,Rock


In [42]:
y_train.head()

14110     To dream the impossible dream\nTo fight the un...
203406                                                  NaN
280602    It's raining, it's pouring\nA black sky is fal...
47989     Sitting on the green green grass\nI know the s...
309543                                                  NaN
Name: lyrics, dtype: object

# Solución

¡Ahora es tu turno! Este es un problema de clasificación. Hay **muchas** maneras de resolverlo. Puedes utilizar scikit learn para hacerte la vida más fácil, o TensorFlow si quieres utilizar redes neuronales.

Es probable que vayas a tener que limpiar un poco la información. Hay registros donde no se sabe cuál es el label. En las letras, hay caractéres como `\n` que probablemente quieres eliminar. 

Antes de iniciar a programar un modelo, te sugerimos explorar la información que tienes.