In [26]:
"""Manejo de Informacion"""

import pandas as pd
from pandas import json_normalize
import requests
import json

"""Tiempo"""

from datetime import datetime
from datetime import timezone

"""Textos"""

import re 
from unidecode import unidecode
import nltk
from nltk.probability import FreqDist
from nltk.corpus import stopwords
from itertools import chain

"""Visualizaciones"""

import matplotlib.pyplot as plt
import seaborn as sns

"""ML"""

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB



pd.options.mode.chained_assignment = None 

# Limpiar datos

In [2]:
def CSV_transform(df):
    """
    Función que transforma de formato CSV a diccionario
    """
    
    df = df[~(df["lyrics"] == "error")] # No tomar en cuenta canciones que no tienen letra
    
    df["lyrics"] = df.lyrics.str.replace("\r"," ").str.replace("\n"," ").str.replace("[}{&:;,.¡!¿?\(\)\-\"\"0-9]","").str.replace("[","").str.replace("]","").str.lower() # Quitar espacios, interlineados, reemplazar algunos signos/numeros y pasar a minúsculas.
    
    df["lyrics"] = df.lyrics.apply(lambda x: unidecode(x)) # Quitar unicodes de la forma \uxxxx
    
    df["lyrics"] = df.lyrics.apply(lambda x: " ".join(x.split())) # Strippear el texto (quitar espacios innecesarios)
    
    df["tokens"] = df["lyrics"].apply(lambda x: set(nltk.word_tokenize(x))) # Tokenizar las canciones 
    return df

# Obtener Datos

Se tienen 3 datasets disponibles por si no se quiere/puede obtener la información personal.

In [3]:
df1 = CSV_transform(pd.read_csv("top_david_spotify.csv",usecols = ["name","lyrics"]).dropna().reset_index(drop = True))
df2 = CSV_transform(pd.read_csv("top_javier_spotify.csv",usecols = ["name","lyrics"]).dropna().reset_index(drop = True))
#df3 = CSV_transform(pd.read_csv("top_jesus_spotify.csv",usecols = ["name","lyrics"]).dropna().reset_index(drop = True))

In [4]:
def Obtener_datos(numero):
    if numero == 1:
        return df1
    if numero == 2:
        return df2
    if numero == 3:
        return df3

# Naive Bayes Classifier para Identificar idioma

En este tópico utilizo:

1. __Tema 13: clasificador de Lengua (Naïve Bayes)__
2. __Tema 4: Matriz de Incidencia (frecuencias)__

Entrenar algorítmo de clasificación para clasificar entre 17 lenguas. Se utilizará el algorítmo visto en clase, pero implementado por Sklearn.

[El conjunto de datos etiquetado](https://www.kaggle.com/datasets/basilb2s/language-detection) fue extraido de Kaggle para facilitar el etiquetado. 

1) English
2) Malayalam
3) Hindi
4) Tamil
5) Kannada
6) French
7) Spanish
8) Portuguese
9) Italian
10) Russian
11) Sweedish
12) Dutch
13) Arabic
14) Turkish
15) German
16) Danish
17) Greek

__NOTA__: Dado que la longitud de las canciones no es tan extensa, no se aplicará ningún tipo de stemming. Tampoco considero necesario aplicar la técnica de los bigramas. 



In [5]:
# Cargar Dataset
lenguajes = pd.read_csv("Language Detection.csv")

# Realizar Matriz de Incidencias

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(lenguajes.Text.str.replace("[{}:;,.¡!¿?\(\)\"\"0-9]","").to_list())

# Crear modelo 

NB = MultinomialNB() # Dejar prior como uniforme
NB.fit(X, lenguajes.Language.values)

MultinomialNB()

In [6]:
def Identificar_Idioma(df):
    X_test  = vectorizer.transform(df.lyrics)
    
    df["Idioma"] = NB.predict(X_test)
    
    return "Exitoso Identificador de Idioma"


# Eliminar palabras de longitud mayor a...

In [7]:
def Eliminar_menor_len(df,limite):
    limpias = []
    for i in range(df.shape[0]):
        limpias.append({palabra_menos for palabra_menos in df.tokens[i] if len(palabra_menos) < limite})
    
    df["tokens"] = limpias
    
    return f"Exitosa eliminación de palabras con longitud mayor a {limite}"
                        

# Stopwords

In [8]:
def Stopwords(df):
    # Lista de idiomas
    idiomas = df.Idioma.unique()
    
    
    for idioma in idiomas:
        try:
            stopwords_ = stopwords.words(idioma) # Stopwords
        except:
            print("No hay stopwords para", idioma)
            
        canciones_idioma = df[df["Idioma"] == idioma]["tokens"]
        
        for indice in canciones_idioma.index:
            canciones_idioma[indice] = [palabra for palabra in canciones_idioma[indice] if palabra not in stopwords_]
            
        test.iloc[canciones_idioma.index,2] = canciones_idioma
        
    return "Exitosa eliminación de stopwords por idioma"
            

# Frecuencia de términos por idioma

En este tópico utilizo:

1. __Tema 2: Estadísticas Corpus__

Abrir un intervalo centrado en la palabra de interés para encontrar contexto, así como en la canción que fue encontrada.

In [20]:
test.groupby(["Idioma"])["tokens"]

<pandas.core.groupby.generic.SeriesGroupBy object at 0x000001CBC7884220>

---

---

In [9]:
test = Obtener_datos(1)

In [10]:
Identificar_Idioma(test)

'Exitoso Identificador de Idioma'

In [11]:
Eliminar_menor_len(test,10)

'Exitosa eliminación de palabras con longitud mayor a 10'

In [12]:
Stopwords(test)

'Exitosa eliminación de stopwords por idioma'

In [38]:
FreqDist(list(chain(*test[test["Idioma"] == "Spanish"]["tokens"].to_list()))).keys()

dict_keys(['pieles', 'entiendo', 'magia', 'puro', 'redes', 'truquito', 'cinturita', 'demonios', 'fuego', 'todavia', 'da', 'noche', 'manicomio', 'si', 'acelerara', 'foto', 'pa', 'encanta', 'mami', 'manzana', 'baby', 'combo', 'insomnio', 'llevame', 'quiere', 'clara', "'", 'frenara', 'quiero', 'cambia', 'veneno', 'dicen', 'mujeres', 'sube', 'ganas', 'calara', 'manzanita', 'pura', 'evidente', 'acerco', 'ojos', 'conocer', 'yeahyeah', 'cometido', 'solo', 'emprende', 'lady', 'biri', 'deseo', 'babylon', 'crimen', 'amanecer', 'oh', 'halagado', 'explico', 'tenerte', 'despues', 'dame', 'acercate', 'iba', 'haber', 'peor', 'pasado', 'terminar', 'dejaria', 'uh', 'girl', 'asi', 'haberte', 'primer', 'aqui', 'besado', 'poquito', 'uuh', 'entiende', 'ere', 'desarmado', 'chama', 'vi', 'cama', 'suena', 'momentico', 'momento', 'boquita', 'corazon', 'cuarto', 'bababa', 'apague', 'yeheh', 'hacerte', 'huele', 'dice', 'dispuesta', 'mejor', 'fiel', 'manana', 'pensarte', 'dior', 'ocupado', 'ves', 'bonita', 'cosas

['au',
 'aux',
 'avec',
 'ce',
 'ces',
 'dans',
 'de',
 'des',
 'du',
 'elle',
 'en',
 'et',
 'eux',
 'il',
 'ils',
 'je',
 'la',
 'le',
 'les',
 'leur',
 'lui',
 'ma',
 'mais',
 'me',
 'même',
 'mes',
 'moi',
 'mon',
 'ne',
 'nos',
 'notre',
 'nous',
 'on',
 'ou',
 'par',
 'pas',
 'pour',
 'qu',
 'que',
 'qui',
 'sa',
 'se',
 'ses',
 'son',
 'sur',
 'ta',
 'te',
 'tes',
 'toi',
 'ton',
 'tu',
 'un',
 'une',
 'vos',
 'votre',
 'vous',
 'c',
 'd',
 'j',
 'l',
 'à',
 'm',
 'n',
 's',
 't',
 'y',
 'été',
 'étée',
 'étées',
 'étés',
 'étant',
 'étante',
 'étants',
 'étantes',
 'suis',
 'es',
 'est',
 'sommes',
 'êtes',
 'sont',
 'serai',
 'seras',
 'sera',
 'serons',
 'serez',
 'seront',
 'serais',
 'serait',
 'serions',
 'seriez',
 'seraient',
 'étais',
 'était',
 'étions',
 'étiez',
 'étaient',
 'fus',
 'fut',
 'fûmes',
 'fûtes',
 'furent',
 'sois',
 'soit',
 'soyons',
 'soyez',
 'soient',
 'fusse',
 'fusses',
 'fût',
 'fussions',
 'fussiez',
 'fussent',
 'ayant',
 'ayante',
 'ayantes',
