In [1]:
"""Manejo de Informacion"""

import pandas as pd
import numpy as np

"""Textos"""

import re 
from unidecode import unidecode
import nltk
from nltk.probability import FreqDist
from nltk.corpus import stopwords
from itertools import chain
from fuzzywuzzy import fuzz
from fuzzywuzzy import process
from nltk.stem import SnowballStemmer
from wordcloud import WordCloud
from collections import Counter

"""Visualizaciones"""

import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import silhouette_samples, silhouette_score
import matplotlib.cm as cm

"""ML"""

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

pd.options.mode.chained_assignment = None 

plt.rcParams["figure.figsize"] = (20,15)
plt.style.use('seaborn-poster')

# Limpiar datos

In [2]:
def CSV_transform(df):
    """
    Función que realiza la limpieza básica de tu documento original.
    
    df: documento csv que crearte con el script API_datos.ipynb
    """
    
    df = df[~(df["lyrics"] == "error")] # No tomar en cuenta canciones que no tienen letra
    
    df["lyrics"] = df.lyrics.str.replace("\r"," ").str.replace("\n"," ").str.replace("[}{&:;,.¡!¿?\(\)\-\"\"0-9]","").str.replace("[","").str.replace("]","").str.lower() # Quitar espacios, interlineados, reemplazar algunos signos/numeros y pasar a minúsculas.
    
    df["lyrics"] = df.lyrics.apply(lambda x: unidecode(x)) # Quitar unicodes de la forma \uxxxx
    
    df["lyrics"] = df.lyrics.apply(lambda x: " ".join(x.split())) # Strippear el texto (quitar espacios innecesarios)
     
    return df

# Obtener Datos

Se tienen 3 datasets disponibles por si no se quiere/puede obtener la información personal.

In [3]:
df1 = CSV_transform(pd.read_csv("top_david_spotify.csv",usecols = ["name","lyrics"]).dropna().reset_index(drop = True))
df2 = CSV_transform(pd.read_csv("top_javier_spotify.csv",usecols = ["name","lyrics"]).dropna().reset_index(drop = True))
df3 = CSV_transform(pd.read_csv("top_jesus_spotify.csv",usecols = ["name","lyrics"]).dropna().reset_index(drop = True))

In [4]:
def Obtener_datos(numero = 1):
    """
    Función para obtener datos en caso de no poder acceder a tus propios datos. Se pone a disposición 3 datasets correspondientes a los csv de 3 personas diferentes.
    
    numero (1 default): 1: Documento 1 con Inglés, Francés y Español, 2: Documento 2 con Inglés, Francés y Español, 3: Documento 3 con Inglés y Francés. 
    """
    
    if numero == 1:
        return df1
    if numero == 2:
        return df2
    if numero == 3:
        return df3

# Obtener datos Estadísticos

In [5]:
df1_e = CSV_transform(pd.read_csv("top_david_spotify.csv",usecols = ["name","lyrics","danceability","energy","key","loudness","speechiness","acousticness","instrumentalness","liveness","valence"]).dropna().reset_index(drop = True)).drop(columns = "lyrics")
df2_e = CSV_transform(pd.read_csv("top_javier_spotify.csv",usecols = ["name","lyrics","danceability","energy","key","loudness","speechiness","acousticness","instrumentalness","liveness","valence"]).dropna().reset_index(drop = True)).drop(columns = "lyrics")
df3_e = CSV_transform(pd.read_csv("top_jesus_spotify.csv",usecols = ["name","lyrics","danceability","energy","key","loudness","speechiness","acousticness","instrumentalness","liveness","valence"]).dropna().reset_index(drop = True)).drop(columns = "lyrics")

In [6]:
def Obtener_datos_estadisticos(numero = 1):
    """
    Función para obtener datos ESTADÍSTICOS en caso de no poder acceder a tus propios datos. Se pone a disposición 3 datasets correspondientes a los csv de 3 personas diferentes. Los datos son métricas Spotify conformadas por valores continuos y nominales. 
    
    numero: 1: Documento 1 con Inglés, Francés y Español, 2: Documento 2 con Inglés, Francés y Español, 3: Documento 3 con Inglés y Francés. 
    """
    
    if numero == 1:
        return df1_e
    if numero == 2:
        return df2_e
    if numero == 3:
        return df3_e

# Naive Bayes Classifier para Identificar idioma

En este tópico utilizo:

1. __Tema 13: clasificador de Lengua (Naïve Bayes)__
2. __Tema 4: Matriz de Incidencia (frecuencias)__

Entrenar algorítmo de clasificación para clasificar entre 17 lenguas. Se utilizará el algorítmo visto en clase, pero implementado por Sklearn.

[El conjunto de datos etiquetado](https://www.kaggle.com/datasets/basilb2s/language-detection) fue extraido de Kaggle para facilitar el etiquetado. 

1) English
2) Malayalam
3) Hindi
4) Tamil
5) Kannada
6) French
7) Spanish
8) Portuguese
9) Italian
10) Russian
11) Sweedish
12) Dutch
13) Arabic
14) Turkish
15) German
16) Danish
17) Greek

__NOTA__: Dado que la longitud de las canciones no es tan extensa, no se aplicará ningún tipo de stemming. Tampoco considero necesario aplicar la técnica de los bigramas. 



## Entrenar el modelo 

In [7]:
# Cargar Dataset
lenguajes = pd.read_csv("Language Detection.csv")

# Realizar Matriz de Incidencias

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(lenguajes.Text.str.replace("[{}:;,.¡!¿?\(\)\"\"0-9]","").to_list())

# Crear modelo 

NB = MultinomialNB() # Dejar prior como uniforme
NB.fit(X, lenguajes.Language.values)

MultinomialNB()

In [8]:
def Identificar_Idioma(df):
    """
    Modelo Naive Bayes pre-entrenado para detectar el lenguaje de un texto. Actualmente identifica 17 idiomas.
    
    df: Documento CSV generado por API_datos.ipynb o por la función Obtener_datos.
    """
    
    X_test  = vectorizer.transform(df.lyrics)
    
    df["Idioma"] = NB.predict(X_test)
    
    return "Exitoso Identificador de Idioma"


__NOTA:__ La evaluación del modelo está presentado en Identificador_Salud_Mental 

# Completado de palabras en español en caso de contracción

En este tópico utilizo:

1. __Tema 6: Levenshtein Metric__

En español, como bien sabemos, no existen formalmente las contracciones; sin embargo, pragmáticamente se ha adquirido la costumbre de "recortar" algunas palabras y la forma de representar este fenómeno es por medio de un __'__. Comunmente estas contracciones se efectuan __en preposiciones__, esto es, stopwords. En cuanto a RI no son relevantes, pero para la interpretación literaria del texto, sí.

Se pretende identificar estas palabras y completarlas por medio de una lista de palabras comunmente contraidas (informalmente) en el español. De no detectarse alguna candidata, es mejor elimina la palabra por cuestiones de carácteres especiales.

In [9]:
def Contracciones_español(df,porcentaje = 60, lista_extra = []): 
    """
    Función para corregir contracciones en español denotadas por " ' " por medio de la distancia de Leveinshtein. 
    
    df: Documento CSV generado por API_datos.ipynb o por la función Obtener_datos.
    
    porcentaje (60 default): porcentaje al cual se desea manejar la similitud entre las correcciones y las palabras contraidas.
    
    lista_extra ([] default): lista de palabras anexadas a la lista ya implementada (stopwords) en la función. 
    """
    
    assert "Spanish" in df["Idioma"].unique(), 'No escuchas música en español'
    
    lista = lista_extra + [palabra for palabra in stopwords.words("Spanish") if len(palabra) >=3] # limpia las palabras menores a 3 carácteres en la lista
    
    español = df[df["Idioma"] == "Spanish"]["lyrics"]
    
    for indice in español.index:
            palabras_cancion = español[indice].split()
            
            for index in range(len(palabras_cancion)):
                if "'" in palabras_cancion[index]:
                    try:
                        palabras_cancion[index] =  process.extractOne(palabras_cancion[index], lista,score_cutoff = porcentaje)[0] # Definir el mejor candidato a remplazo de las palabras con contracción
                    except:
                        palabras_cancion[index] = "" # De no encontrar candidato, eliminala. 
                else:
                    pass
            
            cancion_corregida = " ".join(palabras_cancion)
            
            df.iloc[indice,1] = cancion_corregida
    
    return "Exitosa corrección de palabras en la lista"

# Contracciones general(')

En este tópico utilizo:

1. __Tema 3: Regex (Expresiones regulares)__

Dado que en algunas lenguas romances el uso de __'__ resulta determinante para el contexto de la oración, no puede ser fácilmente eliminado del corpus. En adición, las contracciones en el idioma inglés también existen y son muy comunes.  En general, en caso de que la contracción sea entre una preposición y una palabra relevante, es más probable que la palabra sea de mediana longitud. La función está primordialmente orientada a lenguas romance (incluyendo inglés) que las utilicen.

Se pretende identificar contracciones útiles por medio de la identificación de la longitud de la segunda palabra.

In [10]:
def Contracciones_general(df, limite = 4):
    """
    Función para eliminar contracciones en otros idiomas, comunmente lenguas romance, y que solo toma en cuenta las palabras con el número de carácteres mayor o igual al establecido en el límite.
    
    df: Documento CSV generado por API_datos.ipynb o por la función Obtener_datos.
    
    limite: límite establecido
    
    Ejemplo: (Límite 5) La función acepta l'internet --> internet; la función no acepta l'étrê -/-> étrê por ser menor a 5.
    """
    
    idiomas = df[~(df["Idioma"] == "Spanish")]["lyrics"]
    
    for indice in idiomas.index:
            palabras_cancion = idiomas[indice].split()
            
            for index in range(len(palabras_cancion)):
                if "'" in palabras_cancion[index]:
                    
                    try:
                        palabras_cancion[index] =  re.search("(?<=')\w{4,}",palabras_cancion[index])[0] # Expresión para tomar en cuenta las cadenas que precedan un ' y tengan longitud mayor a 4
                    except:
                        palabras_cancion[index] = ""
                else:
                    pass
            
            cancion_corregida = " ".join(palabras_cancion)
            
            df.iloc[indice,1] = cancion_corregida
    
    return "Exitosas correcciones generales de contracciones en la lista"

# Tokenizar Canciones

In [11]:
def Tokenizar(df):
    """
    Tokeniza cada una de las canciones. 
    
    df: Documento CSV generado por API_datos.ipynb o por la función Obtener_datos.
    """
    
    df["tokens"] = df["lyrics"].apply(lambda x: set(nltk.word_tokenize(x))) # Tokenizar las canciones
    
    return "Exitoso Tokenizado"

# Eliminar palabras de longitud mayor a...

In [12]:
def Eliminar_mayor_len(df,limite = 10):
    """
    Función que elimina las palabras con longitud mayor al límite establecido.
    
    df: Documento CSV generado por API_datos.ipynb o por la función Obtener_datos.
    
    limite: límite establecido.
    """
    
    limpias = []
    for i in range(df.shape[0]):
        limpias.append({palabra_menos for palabra_menos in df.tokens[i] if len(palabra_menos) < limite})
    
    df["tokens"] = limpias
    
    return f"Exitosa eliminación de palabras con longitud mayor a {limite}"
                        

# Eliminar palabras de longitud menor a...

In [13]:
def Eliminar_menor_len(df,limite = 3):
    """
    Función que elimina las palabras con longitud menor al límite establecido.
    
    df: Documento CSV generado por API_datos.ipynb o por la función Obtener_datos.
    
    limite: límite establecido.
    """
    limpias = []
    for i in range(df.shape[0]):
        limpias.append({palabra_menos for palabra_menos in df.tokens[i] if len(palabra_menos) > limite})
    
    df["tokens"] = limpias
    
    return f"Exitosa eliminación de palabras con longitud menor a {limite}"

# Stopwords

In [14]:
def Stopwords(df, lista_extra = []):
    # Lista de idiomas
    idiomas = df.Idioma.unique()
    
    
    for idioma in idiomas:
        try:
            stopwords_ = stopwords.words(idioma) + lista_extra # Stopwords por idioma y se incluyen la lista de palabras extra
        except:
            print("No hay stopwords para", idioma)
            
        canciones_idioma = df[df["Idioma"] == idioma]["tokens"]
        
        for indice in canciones_idioma.index:
            canciones_idioma[indice] = [palabra for palabra in canciones_idioma[indice] if palabra not in stopwords_] # elimina las palabras que no requiere en análsis.
            
        df.iloc[canciones_idioma.index,3] = canciones_idioma
        
    return "Exitosa eliminación de stopwords por idiomas identificados"
            

# WordClouds por idiomas

In [15]:
def WordClouds_idiomas(df):
    """
    Función que implime por idioma una representación "Nube de Palabras".
    
    df: Documento CSV generado por API_datos.ipynb o por la función Obtener_datos.
    """
    for idioma in df["Idioma"].unique():
    
        freq = " ".join(list(chain(*df[df["Idioma"] == idioma]["tokens"])))
        cloud = WordCloud(width = 8000,height = 8000, background_color = "black",max_words = 80).generate(freq)
    
        plt.figure(figsize=(25,15))
        plt.imshow(cloud, interpolation = "bilinear")
        plt.title(idioma, fontsize = 20, color = "black")
        plt.axis("off")
        plt.show()

# Stemmizar por idioma

En este tópico utilizo:

1. __Stemming__


La función solo está disponible para los siguientes idiomas:

1. arabic
2. danish
3. dutch
4. english
5. finnish
6. french
7. german
8. hungarian
9. italian
10. norwegian
11. portuguese
12. romanian
13. russian
14. spanish
15. swedish

De no estar disponible el idioma, simplemente se omite y se dejan los tokens originales. Se optó por la opción de Stemming por el simple hecho de que existía el método ya prehecho para varios idiomas. 

In [16]:
def stemming_idiomas(df):
    """
    Función que stemmiza las canciones dependiendo del idioma identificado.
    
    df: Documento CSV generado por API_datos.ipynb o por la función Obtener_datos.
    """
    
    df["tokens_stem"] = np.nan
    for idioma in df.Idioma.unique():
        
        try:
            stemmer = SnowballStemmer(idioma.lower())
            print(idioma, " ¡disponible para stemmizar!") # Avisar qué lenguajes están disponibles.
        except:
            continue # Si no se encuentra el idioma del cual se quieren estemizar las canciones, solamente se ignoran y se dejan como originalmente están.
        
        canciones_idioma = df[df["Idioma"] == idioma]["tokens"]
        
        for indice in canciones_idioma.index:
            canciones_idioma[indice] = [stemmer.stem(palabra) for palabra in canciones_idioma[indice]] # Función stemming por idioma. 
            
        df.iloc[canciones_idioma.index,4] = canciones_idioma
        
    return "Exitosa eliminación de stopwords por idiomas identificados"

# Identificar palabras clave por (entre) canción(es)

En este tópico utilizo:

1. __Tema 8: TF-IDF__

Se busca obtener una aproximación al contexto de las canciones por medio del TF-IDF. Se pretende encontrar canciones con contextos parecidos. Se separa por idiomas para una mejor visualización, aunque ciertamente podría no hacerse y aún con eso el algortimo seguiría funcionando.

In [17]:
def palabras_mas_representativas_idioma(df, idioma = "Spanish"):
    """
    Función que calcula la relevancia de las palabras por canción por medio del cálculo de su TF-IDF
    
    df: Documento CSV generado por API_datos.ipynb o por la función Obtener_datos.
    
    idioma: Nombre del idioma de las canciones que se quiere analizar. Inicia con mayúsculas y en inglés.
    """
    vectorizer = TfidfVectorizer()
    vectors = vectorizer.fit_transform(df[df["Idioma"] == idioma].tokens_stem.apply(lambda x: " ".join(x)).tolist()) # Filtrar por idioma
    feature_names = vectorizer.get_feature_names()
    dense = vectors.todense()
    denselist = dense.tolist()
    tfidf = pd.DataFrame(denselist, columns=feature_names, index = df[df["Idioma"] == idioma].name)
    
    
    tuplas = []
    for i in range(len(tfidf.index)):
        cancion = tfidf.iloc[i,].where(lambda x: x >0).dropna().sort_values(ascending = False) # Calcular el TF-IDF más grande de cada idioma, así como proveer las palabras a los cuales corresponden los valores y la canción
        tuplas.append(list(cancion[cancion == cancion.max()].index))
        
    return dict(zip(tfidf.index,tuplas))

# Clustering respecto a Métricas Spotify

En este tópico utilizo:

1. __PCA__

[El conjunto de datos](https://www.kaggle.com/datasets/geomack/spotifyclassification) fue extraido de kaggle para tener mayor variedad en las canciones.


In [18]:
datos = pd.read_csv("kmeans_train.csv", usecols = ["song_title", "danceability","energy","key","loudness","speechiness","acousticness","instrumentalness","liveness","valence"])
datos = datos[["song_title", "danceability","energy","key","loudness","speechiness","acousticness","instrumentalness","liveness","valence"]].rename(columns = {"song_title":"name"})

In [19]:
datos

Unnamed: 0,name,danceability,energy,key,loudness,speechiness,acousticness,instrumentalness,liveness,valence
0,Mask Off,0.833,0.434,2,-8.795,0.4310,0.01020,0.021900,0.1650,0.286
1,Redbone,0.743,0.359,1,-10.401,0.0794,0.19900,0.006110,0.1370,0.588
2,Xanny Family,0.838,0.412,2,-7.148,0.2890,0.03440,0.000234,0.1590,0.173
3,Master Of None,0.494,0.338,5,-15.236,0.0261,0.60400,0.510000,0.0922,0.230
4,Parallel Lines,0.678,0.561,5,-11.648,0.0694,0.18000,0.512000,0.4390,0.904
...,...,...,...,...,...,...,...,...,...,...
2012,Like A Bitch - Kill The Noise Remix,0.584,0.932,1,-3.501,0.3330,0.00106,0.002690,0.1290,0.211
2013,Candy,0.894,0.892,1,-2.663,0.1310,0.08770,0.001670,0.0528,0.867
2014,Habit - Dack Janiels & Wenzday Remix,0.637,0.935,0,-2.467,0.1070,0.00857,0.003990,0.2140,0.470
2015,First Contact,0.557,0.992,1,-2.735,0.1330,0.00164,0.677000,0.0913,0.623


## Matriz de correlaciones

No hay variables que se correlaciones de manera severa. 

In [20]:
datos.corr("spearman")

Unnamed: 0,danceability,energy,key,loudness,speechiness,acousticness,instrumentalness,liveness,valence
danceability,1.0,-0.066778,0.022812,-0.045479,0.222952,-0.004758,-0.079106,-0.146308,0.435984
energy,-0.066778,1.0,0.066907,0.684205,0.23299,-0.496084,0.023661,0.206107,0.222124
key,0.022812,0.066907,1.0,0.046165,0.027697,-0.090925,0.000368,0.055685,0.030163
loudness,-0.045479,0.684205,0.046165,1.0,0.165905,-0.349036,-0.280059,0.172602,0.122458
speechiness,0.222952,0.23299,0.027697,0.165905,1.0,-0.135673,-0.137574,0.094048,0.094036
acousticness,-0.004758,-0.496084,-0.090925,-0.349036,-0.135673,1.0,-0.128579,-0.077612,0.016429
instrumentalness,-0.079106,0.023661,0.000368,-0.280059,-0.137574,-0.128579,1.0,-0.002252,-0.165115
liveness,-0.146308,0.206107,0.055685,0.172602,0.094048,-0.077612,-0.002252,1.0,-0.0849
valence,0.435984,0.222124,0.030163,0.122458,0.094036,0.016429,-0.165115,-0.0849,1.0


Tanto `key` como `loudness` tienen una varianza mayor. Es necesario escalarlas. Las demás variables ya se encuentran reescaladas, pero podría disminuirla la desviación estandar un poco más en aras de una mejor captura de los componentes principales. 

In [21]:
datos.describe()

Unnamed: 0,danceability,energy,key,loudness,speechiness,acousticness,instrumentalness,liveness,valence
count,2017.0,2017.0,2017.0,2017.0,2017.0,2017.0,2017.0,2017.0,2017.0
mean,0.618422,0.681577,5.342588,-7.085624,0.092664,0.18759,0.133286,0.190844,0.496815
std,0.161029,0.210273,3.64824,3.761684,0.089931,0.259989,0.273162,0.155453,0.247195
min,0.122,0.0148,0.0,-33.097,0.0231,3e-06,0.0,0.0188,0.0348
25%,0.514,0.563,2.0,-8.394,0.0375,0.00963,0.0,0.0923,0.295
50%,0.631,0.715,6.0,-6.248,0.0549,0.0633,7.6e-05,0.127,0.492
75%,0.738,0.846,9.0,-4.746,0.108,0.265,0.054,0.247,0.691
max,0.984,0.998,11.0,-0.307,0.816,0.995,0.976,0.969,0.992


## Standard Scaler

In [22]:
datos[['key', 'loudness']] = StandardScaler().fit_transform(datos[['key', 'loudness']])

In [23]:
datos

Unnamed: 0,name,danceability,energy,key,loudness,speechiness,acousticness,instrumentalness,liveness,valence
0,Mask Off,0.833,0.434,-0.916446,-0.454530,0.4310,0.01020,0.021900,0.1650,0.286
1,Redbone,0.743,0.359,-1.190619,-0.881573,0.0794,0.19900,0.006110,0.1370,0.588
2,Xanny Family,0.838,0.412,-0.916446,-0.016586,0.2890,0.03440,0.000234,0.1590,0.173
3,Master Of None,0.494,0.338,-0.093928,-2.167220,0.0261,0.60400,0.510000,0.0922,0.230
4,Parallel Lines,0.678,0.561,-0.093928,-1.213155,0.0694,0.18000,0.512000,0.4390,0.904
...,...,...,...,...,...,...,...,...,...,...
2012,Like A Bitch - Kill The Noise Remix,0.584,0.932,-1.190619,0.953167,0.3330,0.00106,0.002690,0.1290,0.211
2013,Candy,0.894,0.892,-1.190619,1.175995,0.1310,0.08770,0.001670,0.0528,0.867
2014,Habit - Dack Janiels & Wenzday Remix,0.637,0.935,-1.464792,1.228112,0.1070,0.00857,0.003990,0.2140,0.470
2015,First Contact,0.557,0.992,-1.190619,1.156850,0.1330,0.00164,0.677000,0.0913,0.623


In [24]:
datos.describe()

Unnamed: 0,danceability,energy,key,loudness,speechiness,acousticness,instrumentalness,liveness,valence
count,2017.0,2017.0,2017.0,2017.0,2017.0,2017.0,2017.0,2017.0,2017.0
mean,0.618422,0.681577,7.166635e-17,2.554834e-16,0.092664,0.18759,0.133286,0.190844,0.496815
std,0.161029,0.210273,1.000248,1.000248,0.089931,0.259989,0.273162,0.155453,0.247195
min,0.122,0.0148,-1.464792,-6.916536,0.0231,3e-06,0.0,0.0188,0.0348
25%,0.514,0.563,-0.9164464,-0.3479027,0.0375,0.00963,0.0,0.0923,0.295
50%,0.631,0.715,0.1802444,0.2227279,0.0549,0.0633,7.6e-05,0.127,0.492
75%,0.738,0.846,1.002763,0.6221161,0.108,0.265,0.054,0.247,0.691
max,0.984,0.998,1.551108,1.802465,0.816,0.995,0.976,0.969,0.992


In [25]:
X = datos.iloc[:,1:].values

## PCA

In [26]:
pca = PCA(n_components = 2) 
  
X_pca = pca.fit_transform(X) 
 
explained_variance = pca.explained_variance_ratio_ 

principalDf = pd.DataFrame(data = X_pca, columns = ['Componente1', 'Componente2'])

# sns.barplot(x = ["Primer Componente","Segundo Componente"], y = explained_variance)
# plt.title("Varianza Explicada 90%")
# plt.show()

## K means

In [27]:
X = np.array(X_pca)

La curva del codo sugiere que 4 clusters son los indispensables.

In [28]:
# Nc = range(1, 10)
# kmeans = [KMeans(n_clusters=i) for i in Nc]
# kmeans
# score = [kmeans[i].fit(X).score(X) for i in range(len(kmeans))]
# score
# plt.plot(Nc,score)
# plt.xlabel('Number of Clusters')
# plt.ylabel('Score')
# plt.title('Elbow Curve')
# plt.show()

La gráfica de silueta también da buenos resultados con 4 clusters.

In [29]:
# # Tomado de: https://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_silhouette_analysis.html

# range_n_clusters = [2, 3, 4, 5, 6]

# for n_clusters in range_n_clusters:
#     # Create a subplot with 1 row and 2 columns
#     fig, (ax1, ax2) = plt.subplots(1, 2)
#     fig.set_size_inches(18, 7)

#     # The 1st subplot is the silhouette plot
#     # The silhouette coefficient can range from -1, 1 but in this example all
#     # lie within [-0.1, 1]
#     ax1.set_xlim([-0.1, 1])
#     # The (n_clusters+1)*10 is for inserting blank space between silhouette
#     # plots of individual clusters, to demarcate them clearly.
#     ax1.set_ylim([0, len(X) + (n_clusters + 1) * 10])

#     # Initialize the clusterer with n_clusters value and a random generator
#     # seed of 10 for reproducibility.
#     clusterer = KMeans(n_clusters=n_clusters, random_state=10)
#     cluster_labels = clusterer.fit_predict(X)

#     # The silhouette_score gives the average value for all the samples.
#     # This gives a perspective into the density and separation of the formed
#     # clusters
#     silhouette_avg = silhouette_score(X, cluster_labels)
#     print(
#         "For n_clusters =",
#         n_clusters,
#         "The average silhouette_score is :",
#         silhouette_avg,
#     )

#     # Compute the silhouette scores for each sample
#     sample_silhouette_values = silhouette_samples(X, cluster_labels)

#     y_lower = 10
#     for i in range(n_clusters):
#         # Aggregate the silhouette scores for samples belonging to
#         # cluster i, and sort them
#         ith_cluster_silhouette_values = sample_silhouette_values[cluster_labels == i]

#         ith_cluster_silhouette_values.sort()

#         size_cluster_i = ith_cluster_silhouette_values.shape[0]
#         y_upper = y_lower + size_cluster_i

#         color = cm.nipy_spectral(float(i) / n_clusters)
#         ax1.fill_betweenx(
#             np.arange(y_lower, y_upper),
#             0,
#             ith_cluster_silhouette_values,
#             facecolor=color,
#             edgecolor=color,
#             alpha=0.7,
#         )

#         # Label the silhouette plots with their cluster numbers at the middle
#         ax1.text(-0.05, y_lower + 0.5 * size_cluster_i, str(i))

#         # Compute the new y_lower for next plot
#         y_lower = y_upper + 10  # 10 for the 0 samples

#     ax1.set_title("The silhouette plot for the various clusters.")
#     ax1.set_xlabel("The silhouette coefficient values")
#     ax1.set_ylabel("Cluster label")

#     # The vertical line for average silhouette score of all the values
#     ax1.axvline(x=silhouette_avg, color="red", linestyle="--")

#     ax1.set_yticks([])  # Clear the yaxis labels / ticks
#     ax1.set_xticks([-0.1, 0, 0.2, 0.4, 0.6, 0.8, 1])

#     # 2nd Plot showing the actual clusters formed
#     colors = cm.nipy_spectral(cluster_labels.astype(float) / n_clusters)
#     ax2.scatter(
#         X[:, 0], X[:, 1], marker=".", s=30, lw=0, alpha=0.7, c=colors, edgecolor="k"
#     )

#     # Labeling the clusters
#     centers = clusterer.cluster_centers_
#     # Draw white circles at cluster centers
#     ax2.scatter(
#         centers[:, 0],
#         centers[:, 1],
#         marker="o",
#         c="white",
#         alpha=1,
#         s=200,
#         edgecolor="k",
#     )

#     for i, c in enumerate(centers):
#         ax2.scatter(c[0], c[1], marker="$%d$" % i, alpha=1, s=50, edgecolor="k")

#     ax2.set_title("The visualization of the clustered data.")
#     ax2.set_xlabel("Feature space for the 1st feature")
#     ax2.set_ylabel("Feature space for the 2nd feature")

#     plt.suptitle(
#         "Silhouette analysis for KMeans clustering on sample data with n_clusters = %d"
#         % n_clusters,
#         fontsize=14,
#         fontweight="bold",
#     )

# plt.show()

In [30]:
kmeans = KMeans(n_clusters=4, random_state=8).fit(X)
labels = kmeans.predict(X)

datos["labels"] = labels

In [31]:
datos.groupby("labels")["name"].count()

labels
0    427
1    725
2    752
3    113
Name: name, dtype: int64

In [32]:
# a = pd.DataFrame(X)
# a["labels"] = labels
# sns.scatterplot(data=a, x=0, y=1, hue = "labels",palette="deep")
# plt.xlabel("Primer Componente")
# plt.ylabel("Segundo Componente")
# plt.show()

## Descripción por clusters

1. __Grupo 0 (a toda madre)__: Canciones llenas de Energía, te dan ganas de bailarlas.

2. __Grupo 1 (fuera de este mundo)__: Pasas el rato y escuchar música te saca de este mundo. 

3. __Grupo 2 (cansado, escuchando música porque andas aburrido)__: Canciones energéticas, pero no tan ruidosas. Canciones para concentrarse.

4. __Grupo 3 (¿Todo bien, bro?)__: Canciones en su mayoría con una valencia baja y muy poco energéticas. En su mayoría son canciones acústicas.

In [33]:
def Cluster_canciones(df, test_e):
    """
    Algorítmo de clusterización que clasifica las canciones en 4 grupos.
    
    df: Documento CSV generado por API_datos.ipynb o por la función Obtener_datos.
    
    test_e: Documento CSV generado por API_datos.ipynb o por la función Obtener_datos_estadisticos.
    """
    
    test_e[['key', 'loudness']] = StandardScaler().fit_transform(test_e[['key', 'loudness']])
    
    X = test_e.iloc[:,1:].values
    
    X_pca = pca.transform(X) 
    
    X = np.array(X_pca)
    
    labels = kmeans.predict(X)
    
    df["Tipo"] = labels
    
    df["Tipo"] = df["Tipo"].replace(0,"A toda madre").replace(1,"fuera de este mundo").replace(2,"cansado/aburrido").replace(3,"¿Todo bien,bro?")
    
    return "¡Exitoso etiquetado"

# Probabilidad de estar triste dado el número de canciones tristes

Método frecuentista de proporciones que estima la probabilidad (proporción) de haber tenido algún estado de ánimo atrás descrito. Conteo de $\frac{\text{# Existos}}{Total}$

In [34]:
def Estoy_triste_o_no(df):
    """
    Función que provee un resumen probabilístico de qué estado de ánimo estuvo más presente a lo largo del último mes de la persona en cuestión.
    
    df: Documento CSV generado por API_datos.ipynb o por la función Obtener_datos.
    """
    
    print("Consideremos el número de canciones tristes que reproduciste en tu mes:")
    
    print(df.groupby("Tipo")["name"].count(), 2*"\n")
    
    print("Esto significa que la proporción de canciones tristes fue: ", 100*round(df[df.Tipo == "¿Todo bien,bro?"].shape[0]/df.shape[0],4),"%")
    
    
    labels = list(df.Tipo.value_counts().index)
    data = df.Tipo.value_counts(normalize = True).values


    colors = sns.color_palette('pastel')[0:5]


    plt.pie(data, labels = labels, colors = colors, autopct='%.0f%%')
    plt.show()
    
    sentimiento = df.Tipo.value_counts()[df.Tipo.value_counts() == df.Tipo.value_counts().max()].index[0]
    
    print("Estimo que en este último mes tú te sentiste, en la mayor parte del tiempo,", sentimiento, 2* "\n")
    
    if sentimiento == "A toda madre":
        print("Esto significa que estuviste muy feliz la mayor parte del tiempo, lo que ocasionó que escucharas música movida y energética")
    if sentimiento == "cansado/aburrido":
        print("No te sentiste ni muy triste ni muy feliz, más bien neutral. Eso no evitó que siguieras escuchando música tanto movida como algo más tranquilo.")
    if sentimiento == "fuera de este mundo":
        print("La mayor parte del tiempo quisiste vivir desconectado del mundo: canciones tranquilas y una que otra movida fueron las que más predominaron")
    if sentimiento == "¿Todo bien,bro?":
        print("Tristeza/Depresion.")
    

# MASTER

In [35]:
def master(test,test_e, limite_mas = 10, limite_menos = 3, stopwords = []):
    """
    Función que realiza todas las funciones básicas de limpieza y ordenamiento de los textos.
    
    test: Documento CSV generado por API_datos.ipynb o por la función Obtener_datos.
    
    test_e: Documento CSV generado por API_datos.ipynb o por la función Obtener_datos_estadisticos.
    
    limite_mas: límete establecido para Eliminar_mayor_len.
    
    limite_menos: límite establecido para Eliminar_menor_len
    
    stopwords: lista extra para considerar como stopwords.
    """
    Identificar_Idioma(test)
    
    try:
        Contracciones_español(test)
    except AssertionError as msg:
        print(msg)

    Contracciones_general(test)

    Tokenizar(test)

    Eliminar_mayor_len(test, limite_mas)

    Eliminar_menor_len(test, limite_menos)

    Stopwords(test, stopwords) 

    stemming_idiomas(test)

    Cluster_canciones(test,test_e)
    
    return "¡Todo listo!"