#**Hito 1.** Análisis de canciones: Lo que suena vs. Lo que dice.
##Proyecto Minería de Datos
Integrantes: 
- Benjamín Aguilar.
- Benjamín Alvial. 
- Diego Carmona. 
- Jules Fredes C. 
- Diego Reyes.



##1. Introducción
La música es una vía de expresión del ser humano y nunca ha dejado de estar presente. Considerando esto, resulta interesante conocer si existe una relación entre características de canciones y el periodo de tiempo en el que fueron creadas. Esta relación puede ser técnica y se podrían estudiar aspectos como la duración, el volumen, el uso de instrumentos, entre otros. Considerando a la música como vía de expresión, resulta aún más interesante estudiar relaciones entre el periodo de creación y los sentimientos que las canciones expresan, que podrían representarse mediante los temas que las letras tocan. Es quizá posible que, en periodos de crisis humanas, las canciones tengan aspectos técnicos y emocionales que vislumbren temas de desánimo. Asimismo, podría ser que haya aspectos tan transversales a la vida humana que se presentan en todo periodo del tiempo, independiente del contexto mundial. 

Por otro lado, el ser humano se dedica a clasificar lo que sea que exista, incluyendo la música. Por ello, es interesante estudiar la categorización que el mismo ser humano ha creado - el género. Es común pensar que las canciones se definen en términos de género por la forma en que suenan más que de lo que hablan. Por lo tanto, se puede estudiar si esta hipótesis es certera, analizando aspectos técnicos para el sonido y las letras de las canciones para los temas de los que tratan.

Los datos a estudiar comprenden canciones creadas de los últimos sesenta años y que están presentes en la plataforma de reproducción de música Spotify. Cada canción tiene atributos técnicos y además atributos que representan emocionalidad, como las letras de las canciones. Por lo tanto, se busca estudiar dos relaciones: periodo de tiempo y estos atributos, y, género y estos atributos.

##2. Exploración de datos

###Sobre el conjunto de datos

El conjunto de datos se encuentra disponible en:
https://www.kaggle.com/datasets/saurabhshahane/music-dataset-1950-to-2019  

In [1]:
from google.colab import drive 
drive.mount('/content/gdrive')

ModuleNotFoundError: No module named 'google'

In [None]:
import pandas as pd 
df = pd.read_csv('gdrive/MyDrive/Colab Notebooks/Minería/data1950.csv')
df_real = df[['Unnamed: 0', 'track_name', 'release_date', 'genre', 'lyrics', 'len', 'danceability', 'loudness', 'acousticness', 'instrumentalness', 'valence', 'energy']]

FileNotFoundError: ignored

El conjunto de datos, filtrado para el propósito del proyecto, tiene un total de 28.372 canciones. Para cada una de ellas, se tienen los siguientes atributos: 'track_name' (nombre), 'release_date' (año), 'genre' (género), 'lyrics' (letra)
, 'len' (duración), 'danceability' (bailiabilidad), 'volumen' (volumen), 'acousticness' (acústica), 'instrumentalness' (instrumentalidad), 'valence' (valencia), 'energy' (energía).

In [None]:
df_real.shape

In [None]:
df_real.info()

Las dos variables principales a analizar son el año y el género, que se intentarán relacionar con la letra y con los atributos técnicos.

In [None]:
df_real.head()

Además, se puede ver que las 10 palabras más comunes en las letras, independiente de género o año, son las siguientes.

In [None]:
pd.Series(' '.join(df_real['lyrics']).split()).value_counts()[:10]
letras = df_real['lyrics']

###Análisis temporal

La distribución de las canciones por año es como se muestra a continuación. Nuevamente, se tendrá que tener cuidado con manejar las canciones antes de los años 60.

In [None]:
max = df_real['release_date'].max()
min = df_real['release_date'].min()
df_real.hist('release_date', bins=max-min+1)

A priori se ve que con el tiempo las canciones han aumentado su duración, valoumen energía y disminuido su acústica, pero es difícil analizar cuando las clases están muy desbalanceadas (pocos datos en años tempranos).

In [None]:
for aspecto in ['len', 'danceability', 'loudness', 'acousticness', 'instrumentalness', 'valence', 'energy']:
  df_real.plot.scatter(x='release_date', y=aspecto, s=1)

No se ve una tendencia muy clara en palabras utilizadas en cada década. Tampoco cuando se desagrega por año (no se muestra por simplicidad).

In [None]:
for i in range(1950, 2010, 10):
  print(i, '...')
  copy = df_real[(df_real.release_date>=i) & (df_real.release_date<=i+9)]
  print(pd.Series(' '.join(copy['lyrics']).split()).value_counts()[1:5])
  print('---')

###Análisis de género

La distribución de las canciones por género es como se muestra a continuación. Es algo que se debe tener en cuenta, pues las clases no están del todo balanceadas.

In [None]:
import matplotlib.pyplot as plt
fig, ax = plt.subplots()
df_1950['genre'].value_counts().plot(ax=ax, kind='bar')

Con respecto al género relacionado con los ámbitos técnicos, a priori no se visualizan relaciones concretas. Es posible, sin embargo, que la agregación de todos los aspectos sí den indicios de uno u otro género.

In [None]:
import seaborn as sns
sns.pairplot(df_real, vars=['len', 'danceability', 'loudness', 'acousticness', 'instrumentalness', 'valence', 'energy'], hue='genre', plot_kws={"s": 1})

Se pueden ver las palabras más comunes por género. A priori es difícil encontrar palabras muy distintivas, salvo en casos como el hip hop.

In [None]:
for i in df_real.genre.unique():
  print(i, '...')
  copy = df_real[(df_real.genre==i)]
  print(pd.Series(' '.join(copy['lyrics']).split()).value_counts()[:5])
  print('--')

##3. Preguntas y problemas

Dada la exploración de datos realizada y el contexto de los datos, es posible desarrollar las siguientes preguntas y problemas:

Las canciones desarrolladas en un cierto periodo temporal en la historia ¿tienen características técnicas y/o emocionales que sean distintivas de dicho periodo?

*   Problema de clasificación: Generar un modelo que pueda predecir la década o año de una canción basándose en sus aspectos técnicos como bailabilidad, volumen, energía, entre otros.
*   Problema de clasificación: Generar un modelo que pueda predecir la década o año de una canción basándose en sus aspectos expresivos como los títulos y las letras de la canciones.

Puede ser útil resolver estos problemas pues permitiría aproximarse a saber qué tan estable es la música a lo largo del tiempo. Quizá se podría estudiar la posible existencia de tendencias que permitan predecir la forma en que se creará música en el futuro cercano.

¿El género de una canción está más ligado a la verbalización o al sonido de una canción?
*   Problema de clasificación: Generar un modelo que pueda predecir el género de una canción basándose en los aspectos técnicos como bailabilidad, volumen, energía, entre otros.
*   Problema de clasificación: Generar un modelo que pueda predecir el género de una canción basándose en las palabras contenidas en la letra de ella.

Luego, se puede comparar el éxito de ambos modelos para aproximarse a responder cuál de los dos es más determinante para clasificar un género.


##4. Contribuciones de integrantes
*   Redacción de introducción: Benjamín Alvial
*   Programación para exploración de datos: Benjamín Alvial
*   Formulación de preguntas y problemas: Benjamín Aguilar y Benjamín Alvial
*   *Proofreading*: Jules Fredes C.





In [None]:
%%shell
jupyter nbconvert --to html ///gdrive/MyDrive/Colab Notebooks/Minería/data1950.csv Proyecto_Minería_Spotify_v1.ipynb

[NbConvertApp] Converting notebook Proyecto_Minería_Spotify_v1.ipynb to html
[NbConvertApp] Writing 3178015 bytes to Proyecto_Minería_Spotify_v1.html


