<a href="https://colab.research.google.com/github/FLdavidsw/App_machine_learning/blob/main/proyecto_TPLN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Clasificación de Artistas de Rap a Partir del Estilo de Autor por Medio de Técnicas de Procesamiento de Lenguaje Natural: 

# Resumen:
El presente proyecto presenta el estudio del estilo de autor de 3 artistas de rap, creando para cada uno de estos un modelo de SVM (Support Vector Machine), donde uno de los artistas será una clase, y los otros dos, la restante. El propósito del estudio es determinar las características que mejor describen el estilo de un autor, ya que el rap juega con los patrones, los versos, las rimas, los juegos de palabras, las figuras literarias y más aspectos característicos tanto del rap, como de la poesía. Además, se probaron diferentes alternativas de preprocesamiento con el fin de observar la repercusión de las mismas a la hora de realizar una tarea de este tipo. Finalmente, el uso de herramientas tales como etiquetas POS, estructuras sintácticas y n-grams se tuvieron en cuenta a la hora de enriquecer los modelos. 

# Introducción: 
La estilometría es un campo interdisciplinario en el cual se combinan los siguientes campos de estudio: literatura, estadística, machine learning y lingüística computacional para el estudio de documentos con diversos propósitos. En primera instancia, se asume que un autor posee un estilo propio que puede resumirse en características específicas del mismo. Dichas características pueden ser cuantificables, lo cual ofrece una idea más clara de lo que diferencia a un autor de otro. Así mismo la estilometría es utilizada en el ámbito forense para identificar el posible autor de un crimen a partir de cartas o escritos dejados por el mismo, como también en la literatura, con el fin de estudiar a fondo la obra de un autor.

Actualmente, en la era del mundo digital, la estilometría en la mayoría de los casos se resume a un estudio de documentos en formato, lo que genera que características de estilo de autor tales como errores ortográficos, caligrafía y otras relacionadas con los manuscritos no sean utilizadas, priorizando así aspectos tales como estructuras sintácticas, arboles de dependencias, n-grams y más.

De manera más específica, en este proyecto se disponen de canciones de rap de 3 autores (noiseferatu-colombiano, proof-mexicano, kase.o-español), de los cuales se pretende crear un clasificador individual, que logre diferenciar entre uno versus los dos restantes por medio de SVM, probando diferentes estrategias de preprocesamiento y como las distintas características repercuten en la precisión del clasificador. Cabe recalcar que el género musical del rap se estriba en los versos, los patrones y las figuras literarias entre otras características a la hora de realizar sus composiciones, guardando así un enorme parentesco con la poesía (siendo esta ultima un tanto más estricta en sus creaciones).


# Marco Teorico: 
Con anterioridad, las investigaciones y los proyectos en los cuales se ha hecho uso de la estilometría corresponden a el análisis de distintos tipos de textos como lo son: textos en prosa y literatura poética, artículos científicos, cartas, e-mails y más. No obstante, hasta el momento no existen proyectos enfocados en analizar por medio de las técnicas estilo-métricas el estilo de autor de un artista de rap, género que posee características similares a la poesía. 

De acuerdo a lo anterior, la extracción de características de las canciones de cada uno de los artistas pueden ser analizadas bajo el mismo lente que el de la poesía (o uno con criterios similares), más aún cuando el estudio se limita a las canciones en formato texto, como es el presente caso (ya que detalles como la entonación, el ritmo, y aspectos relacionados con el timbre y la voz, no resultan indispensables para determinar el autor de dicha canción) , por lo que estudios afines al análisis estilo métrico de la poesía son fuente indispensable a tener en cuenta de manera previa. 

Por ejemplo, los autores del trabajo [1], en el cual buscan determinar las características del estilo de autor de los poemas A.S Pushkin’s (poeta ruso), respecto a muchos otros poetas de la misma nacionalidad, consideran que a pesar de que características como las colocaciones sean de gran utilidad para dicha labor, no son suficientes por si solas, por lo que la determinación de distintas características resultan de gran utilidad para lograr formar un “perfil” contundente de aquello que determina el estilo de un autor. Por lo tanto, además de los n-grams, consideran características tales como las bolsas de palabras, las estructuras sintácticas a partir de las partes del discurso (etiquetas POS), service-words (preposiciones, conjunciones, intercepciones y similares) y más detalles que puedan describir parte representativa del estilo de un autor.

Así mismo, el análisis comparativo del razonamiento de poetas rusos fue el tema de estudio para el paper [2], en el que se pretendió realizar la comparativa de la estructura de razonamiento de 3 autores de la nacionalidad mencionada con anterioridad: A.K Tolstoy, I.F. Annensky y K.K. Sluchevsky. En este estudio, se utilizaron las estructuras retoricas, algunas relaciones y herramientas con las cuales cuenta la lógica para estructurar sus razonamientos, junto a un algoritmo RST, modificado de manera tal que se acople al campo de estudio.
La mayoría de estudios relacionados a la estilometria en la poesía no son realizados en el idioma español, por lo que observar el comportamiento de las diferentes características estilo-métricas para definir el estilo de un autor respecto al idioma español, resultara enriquecedor para futuros trabajos del mismo rubro.


Instalación de librerias necesarias para limpieza, además de la ultima versión nltk 

In [None]:
!pip install clean-text
!pip install -U nltk
!pip install --upgrade gensim

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


**Enlace al drive en el cual se encuentran los documentos necesarios para correr correctamente este taller en todos sus apartados:**https://drive.google.com/drive/folders/1gBdimyJ92c3g4irVvRTp4UDJDCZ2pBJE?usp=sharing

In [None]:
from io import open

In [None]:
from cleantext import clean 
from google.colab import drive
import os
import subprocess
drive.mount('/content/drive', force_remount=True) #punto de montaje accesible desde el visor de Gdrive
basepath = "drive/My Drive/TPLN/MCS" #Ruta de acceso a la carpeta especifica

Mounted at /content/drive


In [None]:
#Se crea una dirección para cada carpeta
folder_noiseferatu = os.path.join(basepath, "noiseferatu")
folder_proof = os.path.join(basepath, "proof")
folder_kaseo = os.path.join(basepath, "kaseo")
folders = {"noiseferatu": folder_noiseferatu,
           "proof": folder_proof,
           "kaseo": folder_kaseo
          }
#Obtener el número de documentos por carpeta
noise_dir = os.path.join(folder_noiseferatu, "1.txt")
initial_count = {0: 0, 
                 1: 0,
                 2: 0}
i = 0
#iterador que toma conteo de archivos por carpeta
for folder in folders:
  for path in os.listdir(folders[folder]):
      if os.path.isfile(os.path.join(folders[folder], path)):
          initial_count[i] += 1
  i += 1    
print(initial_count)
#Diccionario para guardar todas las direcciones
allDir = {"noiseferatu":{},
          "proof":{},
          "kaseo":{}    
}
n = 0
#loop encargado de guardar todas las direcciones
for dir in allDir:
  for i in range(initial_count[n]):
    allDir[dir][i] = str(i+1)+".txt"
  n += 1

{0: 23, 1: 22, 2: 22}


In [None]:
print(allDir)

{'noiseferatu': {0: '1.txt', 1: '2.txt', 2: '3.txt', 3: '4.txt', 4: '5.txt', 5: '6.txt', 6: '7.txt', 7: '8.txt', 8: '9.txt', 9: '10.txt', 10: '11.txt', 11: '12.txt', 12: '13.txt', 13: '14.txt', 14: '15.txt', 15: '16.txt', 16: '17.txt', 17: '18.txt', 18: '19.txt', 19: '20.txt', 20: '21.txt', 21: '22.txt', 22: '23.txt'}, 'proof': {0: '1.txt', 1: '2.txt', 2: '3.txt', 3: '4.txt', 4: '5.txt', 5: '6.txt', 6: '7.txt', 7: '8.txt', 8: '9.txt', 9: '10.txt', 10: '11.txt', 11: '12.txt', 12: '13.txt', 13: '14.txt', 14: '15.txt', 15: '16.txt', 16: '17.txt', 17: '18.txt', 18: '19.txt', 19: '20.txt', 20: '21.txt', 21: '22.txt'}, 'kaseo': {0: '1.txt', 1: '2.txt', 2: '3.txt', 3: '4.txt', 4: '5.txt', 5: '6.txt', 6: '7.txt', 7: '8.txt', 8: '9.txt', 9: '10.txt', 10: '11.txt', 11: '12.txt', 12: '13.txt', 13: '14.txt', 14: '15.txt', 15: '16.txt', 16: '17.txt', 17: '18.txt', 18: '19.txt', 19: '20.txt', 20: '21.txt', 21: '22.txt'}}


# Materiales y metodos:
En esta sección se definen 4 aspectos concretos a tener en cuenta para describir la metodología implementada:



En esta sección se definen 4 aspectos concretos a tener en cuenta para describir la metodología implementada:
**Preprocesamiento:**

Para el preprocesamiento, se pretende en primera instancia generar varias tareas (como la eliminación de stopwords, la normalización en minúsculas, lemmatización y stemming), cada una de ellas siendo almacenadas en variables propias, con el fin de volver posteriormente a ellas, permitiendo la manipulación a posteriori de los resultados de cada una de dichas labores (tanto individualmente como en conjunto), para comprobar los efectos de las mismas en los modelos generados. De acuerdo a lo anterior se aplicaron y utilizaron las siguientes estrategias de preprocesamiento:
-	Eliminación de stop-words: Para esta labor, se utilizó el listado de stopwords de nltk en español sin modificación alguna. Cada elemento de este listado se comparaba con los textos tokenizados, buscando aquellos que correspondían a stopwords, con el fin de eliminarlos.
-	Lematización: La lematización consiste en encontrar la raíz de una palabra, con el fin de disminuir la cantidad de vocabulario a tener en cuenta y que pueda resultar redundante. Para la ejecución de dicha tarea, se utiliza el Pipeline en español de la librería stanza. De manera inicial se pretendía el uso por medio de la librería nltk, no obstante, frente a la lematización en español, nltk no cuenta con dicha opción en el idioma mencionado (a diferencia de la herramienta de stemming).
-	Etiquetas POS: Las etiquetas POS, al igual que la lematización, son tareas que la librería stanza ofrece en el idioma español. Esta consiste en categorizar cada una de las palabras que compone un texto, en su respectiva etiqueta POS (part of speech). 
Adicional a lo anterior, se realizo una división por frases a nivel de canciones, tomando como criterio de división, puntos y comas. Sin embargo, posteriormente se decide preservar las frases tal y como están (cada salto de línea es considerada una frase), ya que la división a nivel de puntos y comas, causaba que quedaran conectas palabras inconexas, sin ofrecer demasiado sentido. 



**Escogencia de Características:**
Las características a utilizar para la creación de los modelos encargados de clasificar son:  
-	Bag of words: bolsas de palabras conformadas por los textos tanto sin pre.procesar como previamente pre-procesados
-	Bi-gramas: Obtención de colocaciones, utilizando tanto la librería gensim, que calcula el puntaje de información mutua, como a su vez, una función personalizada que ponga los textos en forma de bi-grama, con el fin de obtener, tanto un vocabulario con todos los bi-gramas diferentes, como a su vez de generar posteriormente una matriz que represente los bi-gramas en los textos. 
-	Estructuras sintácticas a partir de bi-gramas de etiquetas POS: En este apartado se reemplaza cada palabra de cada texto por su respectiva etiqueta POS. Posteriormente, con las dos funciones mencionadas en la característica anterior (bi-gramas), se obtienen las estructuras sintácticas más representativas por cada autor a nivel de bi-grama, con el fin de crear posteriormente el vocabulario.
-	Cantidad de palabras: Se pretende realizar el conteo de la cantidad de palabras promedio por canción, y por línea para cada autor.


**Modelos a partir de Características individuales:**

Una vez obtenidas las características mencionadas anteriormente, se procede a representarlas de manera vectorial, para entrenar posteriormente un modelo SVM y observar los resultados del mismo con cada una de las características de manera individual, para determinar cuales de ellas tienen el suficiente potencial para formar parte de las características útiles a la hora de clasificar autores. 

**Modelos a partir de las Características en conjunto:**

Tras obtener los resultados arrojados por los modelos alimentados con cada una de las características, se procede a unir las mismas con el fin de analizar: la repercusión que tienen estas al efectuar su unión, si se comportan mejor de manera individual o grupal, y finalmente obtener las mejores agrupaciones. Los resultados pretenden ser estudiados para comprender porque unas características han de aportar mayor información que otras, y porque ciertos conjuntos han de complementarse mejor entre sí. 

Los detalles de cada una de estas labores ejecutadas, y su modo de aplicación, serán profundizadas a medida que se va desarrollando el actual cuaderno de Google Colab.

# Etapa de pre-procesamiento:
En esta etapa se probaran distintas opciones de preprocesamiento, con el fin de obtener mejores resultados al momento de clasificar.  

En primera instancia una normalización del texto, aplicando letras minusculas a la totalidad del texto. 

In [None]:
# For para acceder a todos los archivos
n = 0
Rcancion = ""
for folder in folders:
  Rcancion = ""
# Se accede a cada archivo y se aplica lowercase
  for i in range(0, initial_count[n]):
    indexArt = os.path.join(folders[folder],allDir[folder][i])
    if os.path.exists(indexArt): # Condicional para comprobar la existencia de la dirección
      openSongR = open(indexArt, 'r') # Apertura del documento en modo de lectura
      Rcancion = openSongR.read() # Almacenar texto en variable
      cancionC = clean(Rcancion, lower=True) # Normalización del texto 
      openSongR.close()
      openSongW = open(indexArt, 'w') # Apetura del documento en modo escritura
      openSongW.write(cancionC) # Se almacena el texto tras aplicar lower case
      openSongR.close()
      openSongW.close()
    else: # En caso tal de no existir la dirección en el drive, simplemente continua con la siguiente iteración
      continue

  n += 1

#Se imprime la ultima canción sometida al lower case
print(Rcancion)

a ti que me has pillado observandote en silencio
como tratando de darle explicacion a tu belleza
dicen que la belleza es lo que uno ama, si esto es asi
o tu eres muy guapa, o yo te quiero mucho
cambio el clima con la mente, llevo la rima al climax
quito las nubes de la cima para que estes caliente
y no es que fuera yo un valiente pero mate al dragon
y fuimos como dos adolescentes hacia aquel vagon
necesito agradecerte este afecto natural
sin calcular es tu amor, sin clausulas
inauguras el dia con fabulas
como un caballo blanco te sientes odias las jaulas
te traje un trozo de horizonte y nunca estuve en el
mirame a los ojos de nuevo y te lo descubrire
dime que si otra vez con la mirada
y en aquel vagon supimos que la suerte estaba echada
tu alegria gratuita, tu sonrisa por defecto
ni que el mundo fuera perfecto
en serio. eres para mi un misterio
te quiere todo el barrio
te quiero todo el rato
y si lo pienso desde que te tengo nada es igual
porque tu me has demostrado ser un ser especial

**Separación de frases**: A continuación se almacenara en el documento frases2.txt la totalidad de las frases de los raperos. En esta ocasión, las frases seran determinadas por saltos de linea, más no por signos de puntuación como se hizo en el taller 1. Lo anterior con el fin de poder analizar mejor la estructura de las frases, y además evitar que queden palabras aisladas; las diferencias en el analisis y los resultados respecto de una forma de separación de frases a otra, se haran más claras a medida que se avanza en el desarrollo del taller. 

Instalación de la librerias re, y nltk. La primera, encargada de movilizarse a traves de los textos y ejecutar diversas tareas, tales como la busqueda de palabras o caracteres especificos, la división del texto a partir de ciertos criterios, y demás funcionalidades que perimiten manipular los textos con gran facilidad. Por otro lado, nltk posee un compendio de herramientas indispensables para generar modelos de lenguaje, y todo aquello necesario para la realización satisfactoria de los mismos.



In [None]:
import re
import nltk
nltk.download('wordnet')
nltk.download('punkt')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

En el siguiente recuadro de codigo, se realiza la separación por frases (de la manera comentada en el recuadro que lleva por subtitulo **separación de frases**).

In [None]:
PATRON = r"[\n]"
texto1 = ""
#PATRON = r"[\w\.-]+[ ]+[\w\.-]+[,]+"
#re.findall(PATRON, cancionN)

n = 0
count = 0
Rcancion = ""
artista = ""
for folder in folders:
  artista = ""
  for i in range(0, initial_count[n]):
    indexArt = os.path.join(folders[folder],allDir[folder][i])
    if os.path.exists(indexArt): #Condicional para combrobar la existencia de la dirección entregada
      openSongR = open(indexArt, 'r')
      Rcancion = openSongR.read()
      artista = Rcancion+artista
      PATRON = r"[\n]"
      x = re.split(PATRON, Rcancion)
      # se abren los archivos txt de frases por cada carpeta
      indexFraseArt = os.path.join(folders[folder],"frases_"+str(folder)+"2.txt") # Union de direcciónes
      indexFrases = os.path.join(basepath,"frases2.txt")
      if i == 0: # Condicional para sobre-escribir en los documentos frases en caso tal de que sea la primera iteración
        openFrasesA = open(indexFraseArt, 'w')
        openFrasesA.write(str(x))
        openFrasesA.close()
      else: # Una vez transcurrida la primera iteración, se procede a agregar las frases al documento
        openFrasesA = open(indexFraseArt, 'a')
        openFrasesA.write("\n" + str(x))
        openFrasesA.close()
      count = 1
    else:
      continue
  n += 1

  #Sección de limpieza
  openFraseArt = open(indexFraseArt, 'r')
  FraseArt = openFraseArt.read()
  openFraseArt.close()
  PATRON_NEW = r"[,.]"
  FraseArtFinal = re.sub(PATRON_NEW, "", artista)  
  FraseArtFinal = re.sub(r"[']|[][]|[\n]+[\n]|[\"]", "", FraseArtFinal) 
  FraseArtFinal = re.sub(r"[)(]", "", FraseArtFinal) 
  FraseArtFinal = re.sub(r"[\n]+\s+[\n]", "\n", FraseArtFinal)
  FraseArtFinal = FraseArtFinal.strip()
  
  openFraseArt = open(indexFraseArt, 'w')
  openFraseArt.write(FraseArtFinal)
  openFraseArt.close()
print(FraseArtFinal)

a ti que me has pillado observandote en silencio
como tratando de darle explicacion a tu belleza
dicen que la belleza es lo que uno ama si esto es asi
o tu eres muy guapa o yo te quiero mucho
cambio el clima con la mente llevo la rima al climax
quito las nubes de la cima para que estes caliente
y no es que fuera yo un valiente pero mate al dragon
y fuimos como dos adolescentes hacia aquel vagon
necesito agradecerte este afecto natural
sin calcular es tu amor sin clausulas
inauguras el dia con fabulas
como un caballo blanco te sientes odias las jaulas
te traje un trozo de horizonte y nunca estuve en el
mirame a los ojos de nuevo y te lo descubrire
dime que si otra vez con la mirada
y en aquel vagon supimos que la suerte estaba echada
tu alegria gratuita tu sonrisa por defecto
ni que el mundo fuera perfecto
en serio eres para mi un misterio
te quiere todo el barrio
te quiero todo el rato
y si lo pienso desde que te tengo nada es igual
porque tu me has demostrado ser un ser especial
con t

In [None]:
#A continuación se concatenan los 3 archivos txt que corresponden a los 3 artistas
#para que sean guardados en un mismo archivo txt

#Artista 1: noiseferatu
indexArtN = os.path.join(folders['noiseferatu'],"frases_noiseferatu2.txt")
opentxtnoise = open(indexArtN, 'r')
frases_noise = opentxtnoise.read()
opentxtnoise.close()
#Artista 2: proof
indexArtP = os.path.join(folders['proof'],"frases_proof2.txt")
opentxtproof = open(indexArtP, 'r')
frases_proof = opentxtproof.read()
opentxtproof.close()
#Artista 3: kaseo
indexArtK = os.path.join(folders['kaseo'],"frases_kaseo2.txt")
opentxtkaseo = open(indexArtK, 'r')
frases_kaseo = opentxtkaseo.read()
opentxtkaseo.close()
#Frases: documento global
frases_total = frases_noise + frases_proof + frases_kaseo
indexT = os.path.join(basepath, "frases2.txt")
openFT = open(indexT, 'w')
openFT.write(frases_total)
openFT.close()

# Tokenización de los textos.

In [None]:
#instalación herramientas nltk
#tokenizar por frases 
from nltk.tokenize import sent_tokenize
"""
tokenizar por palabras
"""
from nltk.tokenize import word_tokenize
from nltk.tokenize import TreebankWordTokenizer 
from nltk.tokenize import WordPunctTokenizer 
from nltk.tokenize import RegexpTokenizer 
#Lematizador
from nltk.stem import WordNetLemmatizer

Para la tokenización se utiliza la herramienta re.findall, que se encarga de encontrar todo aquello que corresponda a un patron predeterminado. En este caso se utilizara como patron todo aquello que sean digitos y letras, lo cual excluye signos de puntuación y demás.

In [None]:
PATRON_digitos_palabras = ('(\d+|\w+)')

#Tokenización:
#noise
tokens_noise = frases_noise
tokens_noise = re.findall(PATRON_digitos_palabras, frases_noise)
#proof
tokens_proof = frases_proof
tokens_proof = re.findall(PATRON_digitos_palabras, frases_proof)
#kaseo
tokens_kaseo = frases_kaseo
tokens_kaseo = re.findall(PATRON_digitos_palabras, frases_kaseo)
#total
tokens_total = frases_total 
tokens_total = re.findall(PATRON_digitos_palabras, frases_total)
#Vocabulario

unique_tokens_total =  set(word_tokenize(frases_total))
unique_tokens_noise = set(word_tokenize(frases_noise))
unique_tokens_proof = set(word_tokenize(frases_proof))
unique_tokens_kaseo = set(word_tokenize(frases_kaseo))
print(unique_tokens_total)

{'cal', 'jackson', 'desentendido', 'andar', 'pita', 'pinche', 'competencia', 'tricomas', 'bano', 'raw', 'co', 'hace', 'cogia', 'pongas', 'tocado', 'haces', 'pobre', 'oferta', 'enfrente', 'tendencia', 'pistola', 'riegos', 'brindamos', 'lleno', 'criterio', 'expedientes', 'excelsa', 'muerden', 'espagueti', 'yo-yo-yo-yo', 'propias', 'obro', 'vergel', 'madera', 'temor', 'dirigentes', 'grises', 'riviera', 'deja', 'claro', 'aceptar', 'jehova', 'diggin', 'competi', 'martinez', 'quedan', 'cuchos', 'frio', 'bordo', 'sienta', 'entran', 'idea', 'llamar', 'casino', 'estacion', 'lunes', 'acetatos', 'cisco', 'enero', 'vias', 'serpentinas', 'empezando', 'cueva', 'escondido', 'agarro', 'chupe', 'fallayes', 'mieso', 'esbelta', 'barrio', 'inesperadas', 'ego', 'futura', 'intangible', 'obsesionario', 'mexicotrabajo', 'aquiles', 'intuir', 'invicto', 'elegantes', 'hormiga', 'chichiguas', 'arreglarla', 'credito', 'coraje', 'situacional', 'its', 'dja', 'veneno', 'kross', 'esto', 'concierto', 'hago', 'programa'

In [None]:
import numpy as np

In [None]:
#cantidad de tokens y vocabulario
cant_tokens_total = len(tokens_total)
cant_vocabulario_total = len(unique_tokens_total)
#Noiseferatu
cant_tokens_noiseferatu = len(tokens_noise)
cant_vocabulario_noiseferatu = len(unique_tokens_noise)
#Proof
cant_tokens_proof = len(tokens_proof)
cant_vocabulario_proof = len(unique_tokens_proof)
#kaseo
cant_tokens_kaseo = len(tokens_kaseo)
cant_vocabulario_kaseo = len(unique_tokens_kaseo)


In [None]:
print("La cantidad de vocabulario del total de los corpus es: " + str(cant_vocabulario_total))
print("La cantidad de tokens que se obtuvieron fueron: " + str(cant_tokens_total))
print("Vocabulario de kaseo: "+str(cant_vocabulario_kaseo))
print("La cantidad de tokens por parte de kaseo: " + str(cant_tokens_kaseo))
print("Vocabulario de noiseferatu: "+str(cant_vocabulario_noiseferatu))
print("La cantidad de tokens por parte de noiseferatu: " + str(cant_tokens_noiseferatu))
print("Vocabulario de proof: "+str(cant_vocabulario_proof))
print("La cantidad de tokens por parte de proof: " + str(cant_tokens_proof))

La cantidad de vocabulario del total de los corpus es: 6150
La cantidad de tokens que se obtuvieron fueron: 28326
Vocabulario de kaseo: 2948
La cantidad de tokens por parte de kaseo: 10940
Vocabulario de noiseferatu: 2883
La cantidad de tokens por parte de noiseferatu: 8419
Vocabulario de proof: 2157
La cantidad de tokens por parte de proof: 8969


Eliminación de stopwords.

In [None]:
#Descarga del modulo que contiene todo lo relacionado con las stopwords
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

Creación de función que se encarga de eliminar stopwords.

In [None]:
def limpieza_stopwords(stopwords, tokens): # Función encargada de eliminar stopwords
  tokens_limpios = []
  for token in tokens: 
    if token not in stopwords:
      if len(token) > 1: #Eliminar signos que hayan quedado
        tokens_limpios.append(token)
  print("tokens totales sin limpiar: "+str(len(tokens)))
  print("tokens totales después de quitar stopwords: "+str(len(tokens_limpios)))
  return tokens_limpios

In [None]:
#implementación de la función "limpieza_stopwords"
stopwords = nltk.corpus.stopwords.words('spanish')
tokens_limpios_total = limpieza_stopwords(stopwords, tokens_total)
tokens_limpios_noise = limpieza_stopwords(stopwords, tokens_noise)
tokens_limpios_proof = limpieza_stopwords(stopwords, tokens_proof)
tokens_limpios_kaseo = limpieza_stopwords(stopwords, tokens_kaseo)

tokens totales sin limpiar: 28326
tokens totales después de quitar stopwords: 14271
tokens totales sin limpiar: 8419
tokens totales después de quitar stopwords: 4467
tokens totales sin limpiar: 8969
tokens totales después de quitar stopwords: 4204
tokens totales sin limpiar: 10940
tokens totales después de quitar stopwords: 5600


In [None]:
print(stopwords)

['de', 'la', 'que', 'el', 'en', 'y', 'a', 'los', 'del', 'se', 'las', 'por', 'un', 'para', 'con', 'no', 'una', 'su', 'al', 'lo', 'como', 'más', 'pero', 'sus', 'le', 'ya', 'o', 'este', 'sí', 'porque', 'esta', 'entre', 'cuando', 'muy', 'sin', 'sobre', 'también', 'me', 'hasta', 'hay', 'donde', 'quien', 'desde', 'todo', 'nos', 'durante', 'todos', 'uno', 'les', 'ni', 'contra', 'otros', 'ese', 'eso', 'ante', 'ellos', 'e', 'esto', 'mí', 'antes', 'algunos', 'qué', 'unos', 'yo', 'otro', 'otras', 'otra', 'él', 'tanto', 'esa', 'estos', 'mucho', 'quienes', 'nada', 'muchos', 'cual', 'poco', 'ella', 'estar', 'estas', 'algunas', 'algo', 'nosotros', 'mi', 'mis', 'tú', 'te', 'ti', 'tu', 'tus', 'ellas', 'nosotras', 'vosotros', 'vosotras', 'os', 'mío', 'mía', 'míos', 'mías', 'tuyo', 'tuya', 'tuyos', 'tuyas', 'suyo', 'suya', 'suyos', 'suyas', 'nuestro', 'nuestra', 'nuestros', 'nuestras', 'vuestro', 'vuestra', 'vuestros', 'vuestras', 'esos', 'esas', 'estoy', 'estás', 'está', 'estamos', 'estáis', 'están', 'e

La eliminación de stopwords muestra una reducción considerable en cuanto a la cantidad de tokens se refiere. 

Ahora se realizara la misma limpieza de stopwords en el vocabulario.

In [None]:
vocabulario_TSW = limpieza_stopwords(stopwords,unique_tokens_total)
print(len(vocabulario_TSW))

tokens totales sin limpiar: 6150
tokens totales después de quitar stopwords: 5988
5988


Lematización y stemming.

In [None]:
nltk.download('omw-1.4')
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
from nltk.stem import SnowballStemmer

[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


Para el lemmatizado, se procede a utilizar stanza, ya que esta libreria si cuenta con la opción de lematizado de texto en Español.

In [None]:
!pip install stanza
import stanza 
stanza.download('en')
stanza.download('es')

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.4.0.json:   0%|   …

2022-06-14 04:49:46 INFO: Downloading default packages for language: en (English)...
2022-06-14 04:49:49 INFO: File exists: /root/stanza_resources/en/default.zip
2022-06-14 04:49:56 INFO: Finished downloading models and saved to /root/stanza_resources.


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.4.0.json:   0%|   …

2022-06-14 04:49:56 INFO: Downloading default packages for language: es (Spanish)...
2022-06-14 04:49:58 INFO: File exists: /root/stanza_resources/es/default.zip
2022-06-14 04:50:08 INFO: Finished downloading models and saved to /root/stanza_resources.


Creación de funciones para pasar de listado a texto, y texto a listado.

In [None]:
def list_to_string(tokens):
  texto = str(tokens)
  #limpieza de comillas y signos extraños
  texto_clean = re.sub(r"[']|[][]|[\n]+[\n]|[\"]|[,]", "", texto)
  return texto_clean
def list_to_string_jumpline(lineas):
  texto = ""
  for i in range(len(lineas)):
    texto = texto + lineas[i] + "\n"
  return texto
def string_to_list(string):
  PATRON_digitos_palabras = ('(\d+|\w+)')
  #Tokenización:
  tokens = re.findall(PATRON_digitos_palabras, string)
  return tokens
# Los tokens sin stopwords son pasados a variables tipo texto
# con el fin de utilizar correctamente la biblioteca stanza y sus herramientas
# de lematizado, etiquetas pos y demás relacionados.
frases_WST = list_to_string(tokens_limpios_total) 

In [None]:
ps = SnowballStemmer('spanish')
nlp = stanza.Pipeline(lang='es', processors='tokenize, pos, lemma')
doc = nlp(frases_WST)
tokens_total_stem = [] #listado en el cual se almacenara los tokens de todos los de documentos después del stemming
tokens_total_lemma  = []
tokens_etiquetas_pos = []
#diccionario para almacenar las caracteristicas de los tokens limpios
dic_tokens_features = {'stem':tokens_total_stem,
                       'lemma':tokens_total_lemma,
                       'pos':tokens_etiquetas_pos
}
#ciclo for encargado de lematizar
for i, sent in enumerate(doc.sentences):
    #print("[Sentence {}]".format(i+1))
    for word in sent.words:
      tokens_total_lemma.append(word.lemma)
      tokens_etiquetas_pos.append(word.pos)
for token_total in tokens_limpios_total:
  tokens_total_stem.append(ps.stem(token_total))

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.4.0.json:   0%|   …

2022-06-14 04:50:10 INFO: Loading these models for language: es (Spanish):
| Processor | Package |
-----------------------
| tokenize  | ancora  |
| mwt       | ancora  |
| pos       | ancora  |
| lemma     | ancora  |

2022-06-14 04:50:10 INFO: Use device: cpu
2022-06-14 04:50:10 INFO: Loading: tokenize
2022-06-14 04:50:10 INFO: Loading: mwt
2022-06-14 04:50:10 INFO: Loading: pos
2022-06-14 04:50:11 INFO: Loading: lemma
2022-06-14 04:50:11 INFO: Done loading processors!


Calculo de etiquetas POS, con el fin de analizar alguna particularidad en las estructuras y los usos que le da cada uno de los artistas a cada una de las etiquetas POS.

In [None]:
#calculo de vocabularios tras lematizar con sus respectivas etiquetas pos
nlpPOS = stanza.Pipeline(lang='es', processor='pos')#nlp para unicamente etiquetas pos
text2tokens_lemma = list_to_string(dic_tokens_features['lemma'])#pasar a texto los tokens sin stopwords lemmatizados
vocabulario_lemma_wst = set(word_tokenize(text2tokens_lemma))#calculo de vocabulario de tokens sin SW lemmatizados
vocabulario_lemma_wst = limpieza_stopwords(stopwords, vocabulario_lemma_wst)
vocab_text = list_to_string(vocabulario_lemma_wst)
pos_vocab_lemma = nlpPOS(vocab_text)
pos_vocab = []
#ciclo for para guardar cada una de las etiquetas pos en 
for i, sent in enumerate(pos_vocab_lemma.sentences):
    for word in sent.words:
      pos_vocab.append(word.pos)

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.4.0.json:   0%|   …

2022-06-14 04:51:02 INFO: Loading these models for language: es (Spanish):
| Processor | Package |
-----------------------
| tokenize  | ancora  |
| mwt       | ancora  |
| pos       | ancora  |
| lemma     | ancora  |
| depparse  | ancora  |
| ner       | conll02 |

2022-06-14 04:51:02 INFO: Use device: cpu
2022-06-14 04:51:02 INFO: Loading: tokenize
2022-06-14 04:51:02 INFO: Loading: mwt
2022-06-14 04:51:02 INFO: Loading: pos
2022-06-14 04:51:02 INFO: Loading: lemma
2022-06-14 04:51:02 INFO: Loading: depparse
2022-06-14 04:51:02 INFO: Loading: ner
2022-06-14 04:51:03 INFO: Done loading processors!


tokens totales sin limpiar: 4706
tokens totales después de quitar stopwords: 4691


In [None]:
print("Vocabulario tras lematizar y eliminar stopwords")
print(vocabulario_lemma_wst)
print(text2tokens_lemma)

['rigido', 'horror', 'cal', 'jackson', 'desentendido', 'andar', 'pinche', 'mas', 'supuestoy', 'callejero', 'competencia', 'bano', 'subele', 'raw', 'co', 'vacilar', 'pension', 'proyecto', 'mensajero', 'llanura', 'come', 'simultaneo', 'tocado', 'cirujano', 'brillar', 'mente', 'salida', 'pobre', 'barco', 'jeter', 'cruce', 'metralleta', 'cualidad', 'oferta', 'enfrente', 'estancado', 'pistola', 'tendencia', 'three', 'explanado', 'audiencia', 'asustar', 'intentar', 'unblessed', 'sudaco', 'pesca', 'pagina', 'lleno', 'preferirio', 'boy', 'caber', 'momia', 'gravedad', 'sudor', 'criterio', 'vaticano', 'ce', 'rebano', 'cafre', 'billete', 'vesicula', 'oculto', 'mediocridad', 'facha', 'despedida', 'muerto', 'portar', 'oyente', 'espagueti', 'avaras', 'ejecutar', 'vitrina', 'psiquiatra', 'telediario', 'vaciles', 'kilo', 'distancia', 'ey', 'kaseoo', 'vergel', 'detra', 'again', 'shop', 'bender', 'olimpo', 'ventaja', 'intencionado', 'madera', 'pinta', 'tisis', 'auricular', 'clavar', 'escatimo', 'infecta

In [None]:
#diccionario para almecenar palabras lematizadas y etiquetas pos
voca_pos_lemma = {'lemma':vocabulario_lemma_wst,
                  'pos_vocab':pos_vocab
}

In [None]:
print(text2tokens_lemma)

venero ritmo venero ritmo incluso diario parecer domingo mandamer signo si digno barril veneno benigno buen incluso si sino si ser sinner sino camino tanto ameno menos estar sello perpetuar plebeyo bolsillo sencillo aullo oír radio cancion sacado tubo ensayo bulla apoyo pa payo meollo hacer sa tono medallo rayo antacar necesario poner él dia mes mes ano desenredar nudo gordiano analizar llano rizo hermano volver extrano salir mismo mas caos destino egoismo si propio mantener equino hacer mes ver mezquino mirar fe cristo creyente aquino tiempo derribar propio fuerza aikido quedar mas perra cuidar escribir el palabra medir miedo mierdo reserir izquierdo decir traer barrota asi dar techo barrote sentir si ser entendeder corto ahogar embate corte ser principal oyente voz rimar luego entidad ahuyentar allende prender mente desprender prenda sostener par razón detener gesto confirmar percibido ninfa invitar satiro entero pa palpar piel pal papel flow tambien meter sacar meter pesar orgasmo p

Ahora bien, se procede a obtener nuevamente la cantidad de vocabulario tras ambas tareas (lemmatizado y stemming).

In [None]:
texto_stem = nltk.Text(tokens_total_stem)
print(texto_stem)

# Limpieza tras tokens lematizados
str_text_stem = str(tokens_total_stem) #txt to string 
str_text_stem = re.sub(r"'","",str_text_stem) #limpiar comillas 
str_text_lemma = str(tokens_total_lemma)
str_text_lemma = re.sub(r"'","",str_text_lemma)
unique_tokens_total_stem =  set(word_tokenize(str_text_stem))
unique_tokens_total_lemma = set(word_tokenize(str_text_lemma))
# Preguntar si es correcto volver un string el arreglo de strings
cant_voca_stem = len(unique_tokens_total_stem)
cant_voca_lemma = len(unique_tokens_total_lemma)
print("La cantidad de vocabulario sin lematizar es: "+str(cant_vocabulario_total)+" frente a: "+str(cant_voca_stem)+" con stemming y "+str(cant_voca_lemma)+" lematizado")

<Text: vener ritm vener ritm inclus diari parec doming...>
La cantidad de vocabulario sin lematizar es: 6150 frente a: 4260 con stemming y 4709 lematizado


In [None]:
print(unique_tokens_total_lemma)

{'rigido', 'horror', 'cal', 'jackson', 'desentendido', 'andar', 'pinche', 'mas', 'supuestoy', 'callejero', 'competencia', 'bano', 'subele', 'raw', 'co', 'vacilar', 'pension', 'proyecto', 'mensajero', 'llanura', 'come', 'simultaneo', 'tocado', 'cirujano', 'brillar', 'mente', 'salida', 'pobre', 'barco', 'jeter', 'cruce', 'metralleta', 'cualidad', 'oferta', 'enfrente', 'estancado', 'pistola', 'tendencia', 'three', 'explanado', 'audiencia', 'asustar', 'intentar', 'unblessed', 'sudaco', 'pesca', 'pagina', 'lleno', 'preferirio', 'boy', 'caber', 'momia', 'gravedad', 'sudor', 'criterio', 'vaticano', 'ce', 'rebano', 'cafre', 'billete', 'vesicula', 'oculto', 'mediocridad', 'facha', 'despedida', 'muerto', 'portar', 'oyente', 'espagueti', 'avaras', 'ejecutar', 'vitrina', 'psiquiatra', 'telediario', 'vaciles', 'kilo', 'distancia', 'ey', 'kaseoo', 'vergel', 'detra', 'again', 'shop', 'bender', 'olimpo', 'ventaja', 'intencionado', 'madera', 'pinta', 'tisis', 'auricular', 'clavar', 'escatimo', 'infecta

# Clasificación supervisada
Ahora se procedera a la implementación de metodos de clasificación con el fin de comparar los resultados y la repercusión que tienen diferentes alternativas, tanto de preprocesado como de representación del corpus.

primero: creación de función generadora de diccionarios, con cada una de las letras de las canciones de los artistas.

segundo: creación de función encargada de lemmatizar cada uno de las canciones y guardarlas en listas separadas en un mismo diccionario.

tercero: creación de función encargada de representar los documentos de manera matricial.

In [None]:
def base_datos(Folders: dict, Initial_count: dict, all_dir: dict):
  """
  Función que enlista cada una de las canciones de manera ordenada.
  param Folder: type dict() contiene los nombres de cada una de las carpetas.
  param Initial_count: type dict() contiene la cantidad de archivos que hay por 
  cada carpeta.
  param all_dir: type dict() contiene los nombres de los archivos que corresponden 
  canciones, enumerados
  return dos diccionarios, uno que entrega las canciones separadas por artista y 
  por cancion, mientras que el otro entrega cada canción por individual, pero 
  sin separar por artista. 
  """
  dic_canciones_artist ={
  }
  dic_canciones ={
  }
  n=0
  k=0
  j=0
  m=0
  for folder in Folders: # ciclo que pasa por el nombre de cada artista
    dic_canciones_artist.update({j:{}}) # creacion diccionario por artista
    k = 0
    for i in range(0, Initial_count[n]): # Recorre la cantidad de archivos por artista
      indexArt = os.path.join(Folders[folder],all_dir[folder][i])
      if os.path.exists(indexArt): #Condicional para combrobar la existencia de la dirección entregada
          dic_canciones_artist[j].update({k:[]}) #crea lista por cancion
          dic_canciones.update({m:[]}) #crea lista por cancion
          openSongR = open(indexArt, 'r')
          Rcancion = openSongR.read()
          PATRON = r"[\n]"
          x = Rcancion
          openSongR.close()
          #seccion limpieza
          PATRON_NEW = r"[,.]"
          Xfinal = re.sub(PATRON_NEW, "", x)  
          Xfinal = re.sub(r"[']|[][]|[\n]+[\n]|[\"]", "", Xfinal) 
          Xfinal = re.sub(r"\n", " ", Xfinal)
          Xfinal = re.sub(r"[)(]", "", Xfinal) 
          Xfinal = re.sub(r"[\n]+\s+[\n]", "", Xfinal)
          Xfinal = re.sub(r"[?]", "", Xfinal)
          Xfinal = Xfinal.strip()
          dic_canciones_artist[j][k].append(Xfinal)
          dic_canciones[m].append(Xfinal)
          k = k+1
          m += 1
      else:
          continue
    n += 1
    j += 1
  return dic_canciones_artist, dic_canciones
  

probar función.

In [None]:
dic_artistas, dic_canciones = base_datos(folders, initial_count, allDir)
print(dic_artistas[2])

text_clean = re.sub(r"[,]|[][]","",str(dic_artistas[2][1]))
text_clean = re.sub(r"[][]","",str(dic_artistas[2][1]))
text_clean = re.sub(r"^[[]","",str(dic_artistas[2][1]))
text_clean = re.sub(r"[']","",str(dic_artistas[2][1]))

{0: ['eso que me atrae de ti no se lo que es no se lo que tienes pero quiero que me des es inevitable tu figura me llama luce sana tu dulce mirada me reclama quiero conocerte a fondo contarte las cosas que me ponen cachondo besarte como un adolescente ardiente quiero hincarle el diente a tu culo redondo sexo en la primera mirada era el postre que se adivinaba yo te di lo mejor de mi tu te esforzabas en que se te notara que yo te molaba esta decidido: hoy te abres para mi quieres sexo conmigo y yo bendigo mi suerte que fuerte! consigo que me lleves a tu piso contigo y voy a verte desnuda y a comerte cruda a gozar tu arte a mojarte a probar todas tus texturas a compartir locuras posturas torturas duras uh! tu boca es la droga mas pura siento el lento movimiento de tu lengua recorriendo mi clavicula drogao por el deseo sexual dulce mujer super sensual senti que era calor no cuerpo tan caliente y tan contento! embriagadas mis pupilas de ti en tus bragas mojadas mis dedos meti feliz senti l

Finalmente se logra la creación de la función encargada de enlistar por separado todas las canciones de cada uno de los artistas.
Ahora, el siguiente paso consiste en la creación de una función encargada de lemmatizar cada una de las canciones, con el fin de poder representar cada una en la matriz de representación, y que a su vez dichas palabras tengan concordancia con el vocabulario resultante tras el lemmatizado.


In [None]:
def lemmatizador_dic(diccionario_artistas: dict()): 
  """
  función creada con el fin de lemmatizar los textos al interior de un diccionario, 
  buscando recorrer al maximo la funcion
  :param diccionario_artistas type dict()
  return un dict() con los textos lemmatizados
  songs_lemma: diccionario que contiene diccionarios por artista
  list_songs_lema: diccionario que contiene el listado por canciones
  """
  nlp_lemma = stanza.Pipeline(lang='es', processors='tokenize,lemma')
  songs_lemma = {} #diccionario para guardar canciones lemmatizadas
  list_songs_lemma = {}
  m=0 #contador de diccionario
  n=0 #contador para crear de manera ordenada las carpetas por artista
  k=0 #contador para crear de manera ordenada las canciones lemmatizadas
  for artista in dic_artistas:
    #creación de diccionario por artista
    songs_lemma.update({n:{}})
    for cancion in dic_artistas[artista]:
      text_clean = re.sub(r"[,]|[][]","",str(dic_artistas[artista][cancion]))
      text_clean = re.sub(r"[][]","",text_clean)
      text_clean = re.sub(r"^[[]","",text_clean)
      text_clean = re.sub(r"[']","",text_clean)
      cancion_lemma = nlp_lemma(text_clean)
      #creación de nueva lista
      songs_lemma[n].update({k:[]})
      list_songs_lemma.update({m:[]})
      #ciclo for encargado de lematizar
      for i, sent in enumerate(cancion_lemma.sentences):
          for word in sent.words:
            songs_lemma[n][k].append(word.lemma)
            list_songs_lemma[m].append(word.lemma)
      m += 1
      k += 1
    n += 1
    k=0

  return songs_lemma, list_songs_lemma

Prueba de la función encargada de la lemmatización

In [None]:
canciones_lemmatizadas, lista_canciones_lemma = lemmatizador_dic(dic_artistas)

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.4.0.json:   0%|   …

2022-06-14 04:54:56 INFO: Loading these models for language: es (Spanish):
| Processor | Package |
-----------------------
| tokenize  | ancora  |
| mwt       | ancora  |
| lemma     | ancora  |

2022-06-14 04:54:56 INFO: Use device: cpu
2022-06-14 04:54:56 INFO: Loading: tokenize
2022-06-14 04:54:56 INFO: Loading: mwt
2022-06-14 04:54:56 INFO: Loading: lemma
2022-06-14 04:54:56 INFO: Done loading processors!


In [None]:
print(lista_canciones_lemma[1][1])

volar


Lemmatizador de textos terminado.
Ahora se debe crear el vocabulario, que va a representar las filas de las matrices. 

Representación de modelo de espacio vectorial: Creación de función para crear los vectores.

In [None]:
def Representacion_vectorial(tokens, vocabulario):
  """
  Función encargada de crear la matriz de documentos respecto index-term
  :param tokens type dict() contiene las canciones en varios listados.
  :param vocabulario type lista, contiene los index_term
  Se retornan dos matrices a la salida, una tras la normalización 
  por tamaño de documento y otra sin dicha normalización
  """
  cont = 0  
  m = 0
  c = 0
  j = 0
  #se sacan los tamaños de los index_term y del diccionario que contiene los tokens por artista
  #se utilizan en la creación del vector de espacio vectorial
  tam_term = len(vocabulario)
  num_documentos = len(tokens)
  MEV = np.zeros((tam_term, num_documentos))
  MEV_normalizada = np.zeros((tam_term, num_documentos))
  #ciclos for que recorren la totalidad de los tokens, y del vocabulario
  """for artista in canciones_lemmatizadas:
  print(str(artista))"""
  for cancion in range(len(tokens)):
    for i in range(tam_term): 
      #print(vocabulario[i])
      for j in range(len(tokens[c])):
        
        if vocabulario[i] == tokens[c][j]: 
          #condicional que se cumple cuando una palabra de los tokens es la misma a alguna palabra del vocabulario
          MEV[i,m] += 1 #conteo de una misma palabra en un documento
          cont += 1     
      MEV_normalizada[i,m] = MEV[i,m]/len(tokens[c]) #Normalización cada posición de acuerdo a la cantidad de palabras por documento
    #print(len(tokens[c]))
    m += 1
    c += 1
  #print(cont)
  print(MEV)
  print("tamaño de la matriz de representación matricial de los textos respecto a los index-term: ",MEV.shape)
  return MEV, MEV_normalizada

In [None]:
#lista de canciones sin stopwords
lista_wst_lemma = {}
for cancion in lista_canciones_lemma:
  lista_wst_lemma.update({cancion:[]})
  lista_wst_lemma[cancion] = limpieza_stopwords(stopwords, lista_canciones_lemma[cancion])


tokens totales sin limpiar: 448
tokens totales después de quitar stopwords: 233
tokens totales sin limpiar: 555
tokens totales después de quitar stopwords: 305
tokens totales sin limpiar: 520
tokens totales después de quitar stopwords: 260
tokens totales sin limpiar: 677
tokens totales después de quitar stopwords: 350
tokens totales sin limpiar: 696
tokens totales después de quitar stopwords: 383
tokens totales sin limpiar: 455
tokens totales después de quitar stopwords: 244
tokens totales sin limpiar: 395
tokens totales después de quitar stopwords: 225
tokens totales sin limpiar: 455
tokens totales después de quitar stopwords: 253
tokens totales sin limpiar: 332
tokens totales después de quitar stopwords: 179
tokens totales sin limpiar: 376
tokens totales después de quitar stopwords: 208
tokens totales sin limpiar: 361
tokens totales después de quitar stopwords: 206
tokens totales sin limpiar: 713
tokens totales después de quitar stopwords: 413
tokens totales sin limpiar: 353
tokens t

In [None]:
MEV, MEV_normalizada = Representacion_vectorial(lista_wst_lemma, vocabulario_lemma_wst)


[[0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 1. 0. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 1.]
 [0. 1. 0. ... 0. 0. 0.]]
tamaño de la matriz de representación matricial de los textos respecto a los index-term:  (4691, 52)


In [None]:
print(len(lista_canciones_lemma[0]))

448


# Similitud distancia coseno:
Creación de función que se encarga de calcular la distancia coseno entre columnas, ya que estas representan los documentos de manera vectorial

In [None]:
#creación de función que calcula distancia coseno

def CosDistance(a1, a2):
  num = np.dot(a1.T,a2)
  den = np.linalg.norm(a1)*np.linalg.norm(a2)
  cos = num/den
  print("La similitud coseno entre los vectores a1 y a2 es: ", cos)
  return cos

In [None]:
for i in range(len(MEV[0])):
  d1 = CosDistance(MEV[:,0],MEV[:,i])
  d2 = CosDistance(MEV_normalizada[:,0],MEV_normalizada[:,i])

La similitud coseno entre los vectores a1 y a2 es:  1.0
La similitud coseno entre los vectores a1 y a2 es:  0.9999999999999998
La similitud coseno entre los vectores a1 y a2 es:  0.5160930232497729
La similitud coseno entre los vectores a1 y a2 es:  0.5160930232497728
La similitud coseno entre los vectores a1 y a2 es:  0.40490405068741875
La similitud coseno entre los vectores a1 y a2 es:  0.4049040506874188
La similitud coseno entre los vectores a1 y a2 es:  0.4771248697483205
La similitud coseno entre los vectores a1 y a2 es:  0.47712486974832063
La similitud coseno entre los vectores a1 y a2 es:  0.44805599227674753
La similitud coseno entre los vectores a1 y a2 es:  0.4480559922767476
La similitud coseno entre los vectores a1 y a2 es:  0.407550434251765
La similitud coseno entre los vectores a1 y a2 es:  0.407550434251765
La similitud coseno entre los vectores a1 y a2 es:  0.45027543693879213
La similitud coseno entre los vectores a1 y a2 es:  0.4502754369387923
La similitud coseno

Una vez calculadas unas cuantas distancias coseno entre los documentos, tanto normalizados por tamaño de documento, como sin normalizar, es notorio que en este caso concreto, esto no reporta ninguna diferencia importante. En gran parte esto se explica por la gran dispersión existente en las matrices. Así mismo, la enorme cantidad de vocabulario, respecto a la cantidad de documentos, y lo poco recurrentes que son los terminos en los mismos, genera muy poca similitud entre estos, lo que demuestra que no es una de las mejores estrategias de clasificación cuando de estilos de autor se trata el problema principal.

In [None]:
print(len(MEV[0]))

52


Ahora bien, tras aplicar una normalización por tamaño de documentos, se procede a generar una ponderación global. En el siguiente recuadro de codigo se creara una función encargada de ponderar globalmente los documentos. Es decir, se tendra en cuenta y se otorgara un mayor peso semantico a las palabras que en menor cantidad de documentos aparezcan.

In [None]:
import math

In [None]:
# creación de función encargada de ponderar
def ponderar(Matriz):
  dfi = 0 #contador que refleja la cantidad de documentos en la que aparece un index-term
  total_documentos = len(Matriz[0])
  Matriz_ponderada = np.zeros((len(Matriz), len(Matriz[0])))
  for i in range(len(Matriz)):
    for j in range(len(Matriz[i])):
      if Matriz[i][j] >0:
        dfi += 1 #conteo de documentos en los que aparece
    if dfi > 0:
      Tdfi = total_documentos/dfi #cantidad de documentos en los que aparece un index-term sobre el total de documentos
      Ldfi = math.log(Tdfi)
      Matriz_ponderada[i,:] = Matriz[i,:]*Ldfi
    dfi = 0
  return Matriz_ponderada

In [None]:
MEV_ponderada_normalizada = ponderar(MEV_normalizada)
MEV_ponderada = ponderar(MEV)

In [None]:
print(MEV_ponderada_normalizada[0])

[0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.00848463
 0.         0.01159465 0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.        ]


In [None]:
# Calculo de algunas distancias cos en la nueva matriz ponderada con el fin
# de hacer un paralelo entre las diferencias de la matriz ponderada globalmente
# y la matris antes de la misma.
for i in range(len(MEV_ponderada_normalizada[0])):
  d1ponderada = CosDistance(MEV_ponderada_normalizada[:,0],MEV_ponderada_normalizada[:,i])
  d1 = CosDistance(MEV_ponderada[:,0],MEV_ponderada[:,i])

La similitud coseno entre los vectores a1 y a2 es:  1.0000000000000007
La similitud coseno entre los vectores a1 y a2 es:  1.0
La similitud coseno entre los vectores a1 y a2 es:  0.06331182543895247
La similitud coseno entre los vectores a1 y a2 es:  0.06331182543895246
La similitud coseno entre los vectores a1 y a2 es:  0.011756018154605485
La similitud coseno entre los vectores a1 y a2 es:  0.01175601815460548
La similitud coseno entre los vectores a1 y a2 es:  0.018803107970807916
La similitud coseno entre los vectores a1 y a2 es:  0.018803107970807913
La similitud coseno entre los vectores a1 y a2 es:  0.013513849346576038
La similitud coseno entre los vectores a1 y a2 es:  0.013513849346576038
La similitud coseno entre los vectores a1 y a2 es:  0.027577561978208577
La similitud coseno entre los vectores a1 y a2 es:  0.027577561978208567
La similitud coseno entre los vectores a1 y a2 es:  0.013580678214854987
La similitud coseno entre los vectores a1 y a2 es:  0.01358067821485499
L

# Análisis de los resultados observados por la clasificación por distancias coseno:
Tras calcular unas cuantas distancias coseno entre los distintos documentos/vectores de las matrices ponderadas de manera global (tanto la matriz normalizada por tamaño de documento, como aquella sin normalizar), se observa que la diferencia reflejada entre los documentos es supuestamente aún mayor, a pesar de calcular la misma entre canciones del mismo autor.
Lo anterior se debe a que la tarea de clasificación a la cual se le busca dar solución en este cuaderno, requiere características que van más allá de una carga semántica, a diferencia de labores que requieren una clasificación de temática. Esto debido a que una característica básica de los documentos aquí manipulados consiste en un manejo amplio de vocabulario, lo cual, a excepción de algunos conceptos, no resume el estilo ni aquello distintivo del autor.
Ahora bien, tras analizar los resultados que arrojan las distancias sobre los vectores ponderados, es notorio una vez más que la normalización no otorga una diferencia relevante. 
Para concluir sobre este tópico, se consideran ciertos puntos importantes del porque la distancia coseno entre los documentos del mismo autor, en el caso que atañe, no logra su cometido, a pesar de ser una buena opción en otras situaciones:

•	El buen desempeño de una representación matricial y su capacidad de clasificación de textos con base a la distancia coseno, depende en gran medida si la labor en cuestión se limita o define en una clasificación a partir de su temática.

•	Las ponderaciones, ya sean locales (por ejemplo, normalización a partir del tamaño del documento) o globales (ponderación a partir de la carga semántica), logran su máximo potencial en labores de clasificación de temática, ya que se busca que aquellos términos pertenecientes al campo semántico de un mismo tópico tengan una mayor relevancia a la hora de observar el parentesco y las diferencias entre unos y otros documentos. 

•	La clasificación requerida en este proyecto, va más allá de un tema de vocabulario y términos, ya que aquello que caracteriza a un verso (al fin y al cabo, el rap se asemeja a la poesía y a la estructura de las mismas) radica en su estructura, en el tipo de rima, y demás cuestiones que a lo largo del presente trabajo se irán estudiando. 

•	Por último, la cantidad de vocabulario utilizado es bastante, incluso una vez realizadas varias labores de preprocesamiento como lo son el lemmatizado y la limpieza de stopwords, lo que refleja que probablemente hayan pocos index-term que se compartan entre los textos, por lo que una carga semántica mayor sobre aquellos conceptos que en pocos documentos aparece, genera la falsa conclusión de que todos los documentos o una gran mayoría pertenecen a distintas clases entre sí, o que su parentesco es poco, cuando en realidad existen únicamente 3 clases (3 raperos escogidos para el presente proyecto).




# En busca de otros métodos de clasificación y otras características que aporten a la misma. 
Una vez observado que la clasificación por medio de distancia coseno no arrojo buenos resultados, se recurre a una clasificación basada en machine learning por medio de un support vector machine. 
No obstante, para dicha labor se probará la clasificación con los textos crudos, es decir, sin preprocesamiento alguno, a excepción de la remoción de signos de puntuación. No obstante, antes de ello, se procederá a obtener más características de los textos, con el fin de ampliar la cantidad, y por lo tanto aumentar la robustez del sistema. Algunas de las características a tener en cuenta son: 

• Etiquetas POS de mayor relevancia.

• Promedio de palabras por canción/línea.

• Estructura sintáctica característica.

•	bi-gramas.







# Conteo de etiquetas POS:

In [None]:
# conteo etiquetas pos por autor
"""
Recordemos que se tienen 3 variables que contienen en su interior 
las frases por autor, las cuales seran utilizadas en el siguiente apartado.
"""
POS_artistas = {0:[],1:[],2:[]}
# Se utilizara el diccionario creado por artista que a su vez contiene las 
# canciones de cada uno de ellos.
# Se reemplaza cada palabra por etiquetas pos
for rapero in dic_artistas:
  for cancion in dic_artistas[rapero]:
    texto = list_to_string(dic_artistas[rapero][cancion])
    pos_vocab_lemma = nlpPOS(texto)
    #ciclo for para guardar cada una de las etiquetas pos en 
    for i, sent in enumerate(pos_vocab_lemma.sentences):
        for word in sent.words:
          POS_artistas[rapero].append(word.pos)

In [None]:
print(POS_artistas)

{0: ['SCONJ', 'PRON', 'AUX', 'VERB', 'ADP', 'DET', 'NOUN', 'ADP', 'DET', 'NOUN', 'ADP', 'DET', 'NOUN', 'ADP', 'DET', 'NOUN', 'PRON', 'VERB', 'DET', 'NOUN', 'ADP', 'DET', 'PRON', 'VERB', 'DET', 'NOUN', 'NOUN', 'PRON', 'PRON', 'VERB', 'NOUN', 'PRON', 'PRON', 'VERB', 'ADV', 'VERB', 'ADP', 'VERB', 'NOUN', 'SCONJ', 'PRON', 'VERB', 'PRON', 'VERB', 'NOUN', 'ADP', 'DET', 'NOUN', 'PRON', 'VERB', 'NOUN', 'CCONJ', 'NOUN', 'VERB', 'ADV', 'ADP', 'DET', 'NOUN', 'PRON', 'VERB', 'ADP', 'NOUN', 'AUX', 'NOUN', 'CCONJ', 'NOUN', 'ADP', 'DET', 'NOUN', 'ADP', 'NOUN', 'PRON', 'VERB', 'ADP', 'NOUN', 'VERB', 'ADP', 'DET', 'NOUN', 'VERB', 'ADP', 'NOUN', 'NOUN', 'PRON', 'CCONJ', 'ADP', 'DET', 'DET', 'NOUN', 'PRON', 'ADJ', 'PRON', 'VERB', 'CCONJ', 'ADV', 'VERB', 'SCONJ', 'AUX', 'ADJ', 'VERB', 'DET', 'NOUN', 'VERB', 'SCONJ', 'VERB', 'CCONJ', 'AUX', 'ADJ', 'VERB', 'ADP', 'NOUN', 'ADP', 'NOUN', 'ADJ', 'VERB', 'DET', 'NOUN', 'ADP', 'NOUN', 'DET', 'NOUN', 'ADP', 'NOUN', 'AUX', 'VERB', 'PRON', 'ADP', 'NOUN', 'ADV', 'SC

Una vez generado el diccionario que contiene las etiquetas pos de cada uno de los artistas, se procede a calcular la cantidad que contiene cada artista de cada una de las etiquetas, y cuales de estas son las que más predominan.

In [None]:
# Diccionario que contendra el conteo de cada una de las etiquetas POS
# al interior de las canciones de cada uno de los artistas.

conteo_pos = {0:{'ADJ':0,
             'ADP':0,
             'ADV':0,
             'AUX':0,
             'CCONJ':0,
             'DET':0,
             'INTJ':0,
             'NOUN':0,
             'NUM':0,
             'PART':0,
             'PRON':0,
             'PROPN':0,
             'PUNCT':0,
             'SCONJ':0,
             'SYM':0,
             'VERB':0,
             'X':0}, 
              
              1:{'ADJ':0,
             'ADP':0,
             'ADV':0,
             'AUX':0,
             'CCONJ':0,
             'DET':0,
             'INTJ':0,
             'NOUN':0,
             'NUM':0,
             'PART':0,
             'PRON':0,
             'PROPN':0,
             'PUNCT':0,
             'SCONJ':0,
             'SYM':0,
             'VERB':0,
             'X':0}, 
              
              2:{'ADJ':0,
             'ADP':0,
             'ADV':0,
             'AUX':0,
             'CCONJ':0,
             'DET':0,
             'INTJ':0,
             'NOUN':0,
             'NUM':0,
             'PART':0,
             'PRON':0,
             'PROPN':0,
             'PUNCT':0,
             'SCONJ':0,
             'SYM':0,
             'VERB':0,
             'X':0}}
conteo_pos_promedio_word = {0:{'ADJ':0.0,
                              'ADP':0.0,
                              'ADV':0.0,
                              'AUX':0.0,
                              'CCONJ':0.0,
                              'DET':0.0,
                              'INTJ':0.0,
                              'NOUN':0.0,
                              'NUM':0.0,
                              'PART':0.0,
                              'PRON':0.0,
                              'PROPN':0.0,
                              'PUNCT':0.0,
                              'SCONJ':0.0,
                              'SYM':0.0,
                              'VERB':0.0,
                              'X':0.0}, 
                                
                            1:{'ADJ':0.0,
                              'ADP':0.0,
                              'ADV':0.0,
                              'AUX':0.0,
                              'CCONJ':0.0,
                              'DET':0.0,
                              'INTJ':0.0,
                              'NOUN':0.0,
                              'NUM':0.0,
                              'PART':0.0,
                              'PRON':0.0,
                              'PROPN':0.0,
                              'PUNCT':0.0,
                              'SCONJ':0.0,
                              'SYM':0.0,
                              'VERB':0.0,
                              'X':0.0}, 
                                
                            2:{'ADJ':0.0,
                              'ADP':0.0,
                              'ADV':0.0,
                              'AUX':0.0,
                              'CCONJ':0.0,
                              'DET':0.0,
                              'INTJ':0.0,
                              'NOUN':0.0,
                              'NUM':0.0,
                              'PART':0.0,
                              'PRON':0.0,
                              'PROPN':0.0,
                              'PUNCT':0.0,
                              'SCONJ':0.0,
                              'SYM':0.0,
                              'VERB':0.0,
                              'X':0.0}}
conteo_pos_promedio_cancion = {0:{'ADJ':0.0,
                                  'ADP':0.0,
                                  'ADV':0.0,
                                  'AUX':0.0,
                                  'CCONJ':0.0,
                                  'DET':0.0,
                                  'INTJ':0.0,
                                  'NOUN':0.0,
                                  'NUM':0.0,
                                  'PART':0.0,
                                  'PRON':0.0,
                                  'PROPN':0.0,
                                  'PUNCT':0.0,
                                  'SCONJ':0.0,
                                  'SYM':0.0,
                                  'VERB':0.0,
                                  'X':0.0}, 
                                    
                                1:{'ADJ':0.0,
                                  'ADP':0.0,
                                  'ADV':0.0,
                                  'AUX':0.0,
                                  'CCONJ':0.0,
                                  'DET':0.0,
                                  'INTJ':0.0,
                                  'NOUN':0.0,
                                  'NUM':0.0,
                                  'PART':0.0,
                                  'PRON':0.0,
                                  'PROPN':0.0,
                                  'PUNCT':0.0,
                                  'SCONJ':0.0,
                                  'SYM':0.0,
                                  'VERB':0.0,
                                  'X':0.0}, 
                                    
                                2:{'ADJ':0.0,
                                  'ADP':0.0,
                                  'ADV':0.0,
                                  'AUX':0.0,
                                  'CCONJ':0.0,
                                  'DET':0.0,
                                  'INTJ':0.0,
                                  'NOUN':0.0,
                                  'NUM':0.0,
                                  'PART':0.0,
                                  'PRON':0.0,
                                  'PROPN':0.0,
                                  'PUNCT':0.0,
                                  'SCONJ':0.0,
                                  'SYM':0.0,
                                  'VERB':0.0,
                                  'X':0.0}}
# ciclo for para recorrer el diccionario que contiene las canciones en formato
# etiquetas pos y realizar su respectivo conteo,
# y almacenar dichos resultados en el diccionario conteo_pos
for rapero in POS_artistas:
  for etiqueta in conteo_pos[rapero]:
    for word in POS_artistas[rapero]:
      if etiqueta == word:
        conteo_pos[rapero][etiqueta] += 1
      #calculo de porcentaje total de cierta etiqueta en las canciones de un artista especifico
    conteo_pos_promedio_word[rapero][etiqueta] = (conteo_pos[rapero][etiqueta]/len(POS_artistas[rapero]))*100
    conteo_pos_promedio_cancion[rapero][etiqueta] = (conteo_pos[rapero][etiqueta]/len(canciones_lemmatizadas[rapero]))

In [None]:
print(len(POS_artistas[0]))

8610


In [None]:
for etiqueta in conteo_pos_promedio_cancion[0]:
  print(etiqueta, "1. ", conteo_pos[0][etiqueta], "2. ", conteo_pos[1][etiqueta], "3. ", conteo_pos[2][etiqueta])

ADJ 1.  517 2.  445 3.  675
ADP 1.  1143 2.  1091 3.  1245
ADV 1.  374 2.  570 3.  533
AUX 1.  403 2.  452 3.  484
CCONJ 1.  295 2.  423 3.  407
DET 1.  1161 2.  1303 3.  1643
INTJ 1.  21 2.  3 3.  17
NOUN 1.  2256 2.  1898 3.  2537
NUM 1.  27 2.  50 3.  67
PART 1.  0 2.  0 3.  1
PRON 1.  789 2.  1089 3.  1355
PROPN 1.  208 2.  1 3.  111
PUNCT 1.  30 2.  5 3.  139
SCONJ 1.  322 2.  460 3.  423
SYM 1.  1 2.  0 3.  0
VERB 1.  1063 2.  1331 3.  1594
X 1.  0 2.  0 3.  0


Se recolectaran más características con el fin de observar cuales pueden aportar avances en la realización del proyecto. Por ejemplo, la cantidad de palabras tanto por canción, como por línea.

In [None]:
palabras_noise_lista = string_to_list(frases_noise)
palabras_proof_lista = string_to_list(frases_proof)
palabras_kaseo_lista = string_to_list(frases_kaseo)
num_words_rapper = {0:len(palabras_noise_lista),
                    1:len(palabras_kaseo_lista),
                    2:len(palabras_proof_lista)
}
#número promedio de palabras por cancion para cada artista
promedio_word_cancion = {0:0.0,1:0.0,2:0.0}
#1: noiseferatu, 2: proof, 3: kaseo
total = 0
totalT = 0
for rapero in canciones_lemmatizadas:
  total = 0
  promedio_word_cancion[rapero] = num_words_rapper[rapero]/len(canciones_lemmatizadas[rapero])
  #print(rapero)
  for cancion in canciones_lemmatizadas[rapero]:
    print(len(canciones_lemmatizadas[rapero][cancion]))
    total += len(canciones_lemmatizadas[rapero][cancion])
  #print(total)
  totalT += total
#print(totalT)

A continuación se observara la cantidad promedio de palabras por canción.

In [None]:
print(promedio_word_cancion)

{0: 467.72222222222223, 1: 643.5294117647059, 2: 527.5882352941177}


Es evidente que existen diferencias en la cantidad de palabras que cada autor hace uso en promedio para sus canciones. Más adelante se observara si esto tiene impacto alguno en la clasificación.
Ahora se procedera a calcular la cantidad de palabras promedio por cada salto de linea.


In [None]:
#se procede a almacenar las frases de cada rapero en una lista 
frases_noise_lista = re.split(r"[\n]",frases_noise)
frases_kaseo_lista = re.split(r"[\n]",frases_kaseo)
frases_proof_lista = re.split(r"[\n]",frases_proof)
frases_listas = {0:frases_noise_lista,
                 1:frases_proof_lista,
                 2:frases_kaseo_lista
}
num_palabras = 0
num_frases = 0
wordsxfrases = {0:0.0,1:0.0,2:0.0}
frasesxcancion = {0:0.0,1:0.0,2:0.0}
# diccionario para almacenar el promedio de palabras por frase
for rapero in frases_listas:
  num_palabras = 0
  for frase in range(len(frases_listas[rapero])):
    #se divide cada una de las frases en palabras para contar el promedio por frase de cada artista
    palabras_frase = string_to_list(frases_listas[rapero][frase])
    num_palabras += len(palabras_frase)
  num_frases = len(frases_listas[rapero]) 
  num_songs = len(canciones_lemmatizadas[rapero])
  frasesxcancion[rapero] = num_frases/num_songs
  print(num_frases)
  wordsxfrases[rapero] = num_palabras/num_frases
  print(wordsxfrases[rapero])



1084
7.766605166051661
871
10.29735935706085
1484
7.3719676549865225


Promedio de frases por canción para cada artista:

In [None]:
print(frasesxcancion)

{0: 60.22222222222222, 1: 51.23529411764706, 2: 87.29411764705883}


Se observa también aspectos interesantes si se tienen en cuenta las palabras por canción vs las frases por canción. Por ejemplo, el artista que corresponde al 1 en el diccionario frasesxcancion (proof), a pesar de tener un menor número de frases que los otros dos artistas, es el segundo en poseer mayor cantidad de palabras por canción (sacado del diccionario "promedio_word_cancion", llave 2), lo que se traduce en una mayor cantidad de palabras por frase.

In [None]:
from sklearn import svm #se importa libreria SVM

# crear vector de matrices etiquetadas para alimentar el SVM.

In [None]:
def crear_modelo(x, y):
   #División de datos de entrenamiento y prueba
   x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=4)
   modelo = svm.SVC(kernel='sigmoid')
   modelo.fit(x_train, y_train)
   #se realiza la primera predicción
   yf = modelo.predict(x_test)
   print("Primera predicción: ", yf)
   print("Datos reales:       ", y_test)
   #Evaluación de la clasificación
   #Evaluación del modelo con puntaje F1
   print("puntaje F1: %.4f" % f1_score(y_test, yf, average='weighted'))
   #Evaluación del modelo con indice de jaccard
   print("Jaccard indice: %.4f" %jaccard_score(y_test, yf, pos_label=1))
   return modelo

In [None]:
from sklearn.metrics import f1_score
from sklearn.metrics import jaccard_score

In [None]:
etiquetas = np.zeros(len(lista_canciones_lemma))
i = 0
clase = 1
for rapero in canciones_lemmatizadas:
  for cancion in canciones_lemmatizadas[rapero]:
    etiquetas[i]=clase
    i += 1
  clase += 1
# ahora se procede a transponer la matriz de 
# representación matricial ponderada de manera tanto
# local como global
unique_tokens_total = list(unique_tokens_total)
canciones_tokenizadas = {}
for cancion in dic_canciones:
  canciones_tokenizadas.update({cancion:None})
  canciones_tokenizadas[cancion] = string_to_list(str(dic_canciones[cancion]))

MEV_cruda, MEV_cruda_normalizada = Representacion_vectorial(canciones_tokenizadas, unique_tokens_total) #X como vector de caracteristicas


[[0. 1. 0. ... 0. 0. 0.]
 [0. 1. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 ...
 [0. 1. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]
tamaño de la matriz de representación matricial de los textos respecto a los index-term:  (6150, 52)


In [None]:
print(etiquetas)

[1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 2. 2. 2. 2. 2. 2.
 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3. 3.
 3. 3. 3. 3.]


In [None]:
print(MEV_cruda[6])

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 1. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0.]


In [None]:
#ponderacion global de matriz
MEV_cru_pond = ponderar(MEV_cruda_normalizada)
#matriz transpuesta para representación de vector x de caracteristicas
X = MEV_cru_pond.T #Vector de caracteristicas
y = etiquetas.T
y1 = np.zeros(len(etiquetas))
y1 = y1.T
y2 = np.zeros(len(etiquetas))
y2 = y2.T
y3 = np.zeros(len(etiquetas))
y3 = y3.T
#el primer svm se entrenara para reconocer al rapero 1 del resto de raperos
for i in  range(len(y1)):
  if etiquetas[i] == 3:
    y1[i] = 0
    y2[i] = 0
    y3[i] = 1
  elif etiquetas[i] == 2:
    y1[i] = 0
    y2[i] = 1
    y3[i] = 0
  elif etiquetas[i] == 1:
    y1[i] = 1
    y2[i] = 0
    y3[i] = 0


In [None]:
print(y2)

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0.]


In [None]:
print(y2)

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0.]


Una vez obtenido el vector a raiz de TF-IDF (term frequency-Inverse Document Frequency) se procede a entrenar un modelo basado en support vector machine. Se debe tener en cuenta que la maquina de soporte vectorial clasifica entre dos clases, por lo que se procede a aplicar una clasificacion one vs all para cada una de las clases, por lo que el vector de etiquetas debe ser modificado en cada caso, donde la etiqueta uno representara un rapero especifico, mientras que la etiqueta dos representara cualquiera de los otros dos restantes. 

In [None]:
# se importaran las librerias que se requieren
import pandas as pd
import pylab as pl
import numpy as np
import scipy.optimize as open
from sklearn import preprocessing
from sklearn.model_selection import train_test_split #Libreria para sets de entreno y test
import matplotlib.pyplot as plt

In [None]:
modelo = crear_modelo(X, y1)

Primera predicción:  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
Datos reales:        [0. 1. 0. 1. 0. 0. 0. 1. 1. 1. 1.]
puntaje F1: 0.2841
Jaccard indice: 0.0000


In [None]:
print(len(etiquetas))

52


El modelo de maquina de soporte vectorial no esta arrojando buenos resultados. Se considera que se debe en primera instancia a los pocos valores X que se poseen, por lo que, se procedera a redimensionar las canciones a 16 lineas, para así tener más datos de entrenamiento, además de generar un analisis más cercano de los datos. 

In [None]:
# division de las canciones en 16 lineas
# se borraran las ultimas lineas sino alcanzan 
# a completar las 16 necesarias
frases_16_lineas = {}
frases_16_txt = {}#creacion de diccionario para almacenar las 16 lineas en 
# formato texto, concatenado
verso_text = ""
num_linea = 0
verso = 0
etiquetas1 = [] #nuevo vector de etiquetas1
cont = 0
for rapero in frases_listas:
  num_linea = 0
  for frase in range(len(frases_listas[rapero])):
    if num_linea == 0: #condicional para crear nueva lista
      etiquetas1.append(rapero+1)# se agrega la correpondiente etiqueta del verso
      frases_16_lineas.update({verso:[]})# se crea una nueva lista que tendra 16 frases
      frases_16_txt.update({verso:[]})#Nueva lista que guarda 16 frases concatenadas
      verso_text = "" # variable para concatenar los textos
    verso_text = verso_text + frases_listas[rapero][frase] + " \n "
    
    frases_16_lineas[verso].append(frases_listas[rapero][frase])
    num_linea += 1
    if num_linea == 16: #condicional para reinicializar el contador y crear en la proxima iteración una nueva lista
      frases_16_txt[verso].append(verso_text)
      num_linea = 0
      verso += 1
    if num_linea < 16 and frase == len(frases_listas[rapero])-1:
      #condicional para borrar la ultima lista en caso tal de que no contenga las 16 lineas
      del etiquetas1[len(etiquetas1)-1]
      del frases_16_lineas[verso]
      del frases_16_txt[verso]
  

In [None]:
print(len(frases_16_lineas))

213


Así mismo como se creo el diccionario con el formato de 16 frases, se requiere que se guarden las mismas, pero donde las palabras sean reemplazadas por sus respectivas etiquetas pos. Lo anterior con el fin de calcular los bigramas más usuales en cuanto a etiquetas (estructura sintactica a nivel de bi-grama). Además, se podría calcular a su vez la cantidad promedio de cada etiqueta pos por cada 16 lineas con el fin de extraer más aspectos caracteristicos de cada autor.

In [None]:
lineas_tokenizadas = {}
i = 0
Y1 = np.zeros(len(etiquetas1))
Y1 = Y1.T
Y2 = np.zeros(len(etiquetas1))
Y2 = Y2.T
Y3 = np.zeros(len(etiquetas1))
Y3 = Y3.T
for versos in frases_16_lineas:
  lineas_tokenizadas.update({versos:None})
  lineas_tokenizadas[versos] = string_to_list(str(frases_16_lineas[versos]))
  if etiquetas1[i] == 3:
    Y1[i]=0 
    Y2[i]=0
    Y3[i]=1
  elif etiquetas1[i] == 2:
    Y1[i]=0
    Y2[i]=1
    Y3[i]=0
  elif etiquetas1[i] == 1:
    Y1[i]=1
    Y2[i]=0
    Y3[i]=0
  i += 1
MEV_16_lineas, MEV_16_lineas_normalizadas = Representacion_vectorial(lineas_tokenizadas,unique_tokens_total)

[[0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]
tamaño de la matriz de representación matricial de los textos respecto a los index-term:  (6150, 213)


In [None]:
print(MEV_16_lineas[0])

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]


In [None]:
#ponderacion global de matriz
MEV_16_pond = ponderar(MEV_16_lineas_normalizadas)
#matriz transpuesta para representación de vector x de caracteristicas
X_16 = MEV_16_pond.T #Vector de caracteristicas

In [None]:
print(len(Y3))

213


# Modelo basado en index-term de 16 lineas

In [None]:
print("modelo noise vs otros")
modelo1 = crear_modelo(X_16, Y1)
print("modelo proof vs otros")
modelo2 = crear_modelo(X_16, Y2)
print("modelo kaseo vs otros")
modelo3 = crear_modelo(X_16, Y3)

modelo noise vs otros
Primera predicción:  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
Datos reales:        [1. 0. 0. 1. 0. 1. 0. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.
 0. 0. 1. 1. 0. 0. 0. 0. 1. 1. 0. 0. 1. 1. 0. 0. 0. 0. 0.]
puntaje F1: 0.7005
Jaccard indice: 0.1667
modelo proof vs otros
Primera predicción:  [0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
Datos reales:        [0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0. 0. 0. 0. 1. 1. 0. 0. 0. 1. 0. 0. 0. 1.
 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 1. 1. 0. 0. 1. 0. 1. 0. 0.]
puntaje F1: 0.6246
Jaccard indice: 0.0769
modelo kaseo vs otros
Primera predicción:  [0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 0. 1. 0. 0.
 0. 1. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 1.]
Datos reales:        [0. 1. 0. 0. 0. 0. 1. 1. 0. 0. 1. 0. 0. 1. 0. 0. 1. 1. 1. 0. 0. 

Tras la clasificación de cada artista vs el resto, a partir de una modelo individual por cada uno, con la representación vectorial de los textos sin preprocesamiento alguno más alla de la eliminación de puntos y comas, y la normalización de los textos en minuscula, se logra apreciar cierta mejora respecto a la clasificación por distancias aplicada con anterioridad. Además, se observa que la división de los textos en fragmentos más pequeños por artistas (cada 16 lineas pasaron a formar un documento) tiene un efecto positivo en la clasificación, debido a que se aportan una mayor cantidad de muestras, tanto de entrenamiento como de validación, como a su vez, una extracción de caracteristicas más certera, debido a que se analizan textos de un menor tamaño.
**Aplicación de características más profundas en la representación matricial de documentos:**
Ahora bien, una vez clasificados los artistas de manera individual por medio de Maquinas de Soporte Vectorial con por medio me matrices de entrenamiento y validación únicamente alimentadas por los términos sin preprocesamiento alguno más allá de eliminación de algunos signos de puntuación, se procede a aumentar la robustez de los modelos introduciendo más caracteristicas que aportan a definir el estilo de un autor como lo son las etiquetas POS y el promedio de cada una de estas por textos, así como los n-grams a nivel de dependencias sintácticas (es decir, las palabras de cada uno de los textos son reemplazadas por sus etiquetas pos, y a partir de esto, se calculan los bi-gramas de los mismos, lo cual representaría las estructuras sintácticas mayoritariamente utilizadas por un autor.

**Creación de n-grams a partir de las etiquetas pos y las dependencias más usuales:**

In [None]:
# el diccionario que contiene los versos, separados por linea
# sera utilizado para crear otro diccionario en el cual se reemplazaran las palabras por sus respectivas etiquetas pos
POS_16_lineas = {}
linea_pos = ""
for verso in frases_16_lineas:
  POS_16_lineas.update({verso:[]})
  for linea in range(len(frases_16_lineas[verso])):
    # Acá se utilizara el pipeline almacenado en la variabel nlpPOS
    # con el fin de reemplazar cada linea en sus etiquetas POS
    texto = list_to_string(frases_16_lineas[verso][linea])
    POSlinea = nlpPOS(texto)
    #ciclo for para guardar cada una de las etiquetas pos en 
    linea_pos = ""
    for i, sent in enumerate(POSlinea.sentences):
        for word in sent.words:
          linea_pos = linea_pos+word.pos+" "
    POS_16_lineas[verso].append(linea_pos)

***Función que agrega marcas de inicio y fin:***

In [None]:
def marcas_inicio_fin(frases):
  frases_marca = frases 
  frases_marca = re.sub(r"['?!¡¿-]|[][]", "", frases_marca, flags=re.MULTILINE) #Eliminación de signos de puntuación
  frases_marca = re.sub(r"^", "<s> ", frases_marca, flags=re.MULTILINE)# marca de inicio
  frases_marca = re.sub(r" \\n ", " </s> <s> ", frases_marca, flags=re.MULTILINE) # eliminación de saltos de linea
  frases_marca = re.sub(r"$", " </s>", frases_marca, flags=re.MULTILINE) # marca de fin
  frases_marca = re.sub(r"<s>+\s+</s>", "", frases_marca, flags=re.MULTILINE) # eliminación de inicios de marcas, seguidos de un espacio y un fin de marca
  frases_marca = re.sub(r"\n+\n+\n+", "\n+", frases_marca, flags=re.MULTILINE) # eliminación de saltos de linea
  frases_marca = re.sub(r"\n+\n+", "\n+", frases_marca, flags=re.MULTILINE)
  return frases_marca

Se agregaran marcas de inicio y fin a cada línea de todos los versos conformados con las etiquetas POS, con el fin de observar los bi-gramas más usuales, y las etiquetas predominantes en inicio y fin de frase. 

In [None]:
POS_16_marcas = {}
linea = 0
for verso in range(len(POS_16_lineas)):
  POS_16_marcas.update({verso:[]})
  for linea in range(len(POS_16_lineas[verso])):
    POS_16_marcas[verso].append(marcas_inicio_fin(str(POS_16_lineas[verso][linea])))


In [None]:
frases_16_marcas = {}
for verso in range(len(frases_16_txt)):
  frases_16_marcas.update({verso:marcas_inicio_fin(str(frases_16_txt[verso]))})



In [None]:
print(len(POS_16_lineas))

213


Una vez obtenidos los textos en formato de etiquetas POS, se procede a calcular la cantidad promedio por cada 16 lineas de cada una de las etiquetas, con el fin de que sea otro parametro a tener en cuenta a la hora de alimentar el modelo SVM, mejorando así sus metricas. 

In [None]:
# Función que convierte listas en diccionarios
def list_to_dict(lista):
  dic_vocabulario = {}
  i=0
  for word in lista:
    dic_vocabulario.update({i:word})
    i+=1

  return dic_vocabulario
# Función que convierte diccionarios en listas
def dict_to_list(diccionario):
  matriz = []
  i=0
  for documento in diccionario:
    matriz.append([])
    for token in diccionario[documento]:
      matriz[i].append(token)
    i+=1
    
  return matriz

In [None]:
from numpy.core.multiarray import concatenate
#conteo de etiquetas pos por verso

def conteo_etiquetas_POS(diccionario_POS):
  """Se pretende entregar la matriz del total de los 
  textos y el conteo de cada una de las etiquetas POS"""
  # ciclo for para recorrer el diccionario que contiene las canciones en formato
  # etiquetas pos y realizar su respectivo conteo,
  # y almacenar dichos resultados en el diccionario conteo_pos
  cont_word = 0.0 #contador de palabras por verso
  conteo_POS ={'ADJ':0.0,
              'ADP':0.0,
              'ADV':0.0,
              'AUX':0.0,
              'CCONJ':0.0,
              'DET':0.0,
              'INTJ':0.0,
              'NOUN':0.0,
              'NUM':0.0,
              'PART':0.0,
              'PRON':0.0,
              'PROPN':0.0,
              'SCONJ':0.0,
              'SYM':0.0,
              'VERB':0.0,
              'X':0.0}
  #Se elimino el conteo de la etiqueta de puntuación, ya que no se tendra en cuenta en esta ocasión
  num_etiquetas = len(conteo_POS)
  num_txts = len(diccionario_POS)
  vector_words_verso = np.zeros((1,num_txts))
  matriz_POS = np.zeros((num_etiquetas,num_txts))
  n = 0 #contador documentos
  m = 0 #contador filas
  for verso in diccionario_POS:
    m = 0
    for etiqueta in conteo_POS:
      cont_word = 0
      conteo_POS[etiqueta] = 0.0
      for linea in range(len(diccionario_POS[verso])):
        linea_lista=(string_to_list(diccionario_POS[verso][linea]))
        for word in range(len(linea_lista)):
          cont_word += 1
          if etiqueta == linea_lista[word]:
            conteo_POS[etiqueta] += 1
            matriz_POS[m][n] = conteo_POS[etiqueta]
          #calculo de porcentaje total de cierta etiqueta en las canciones de un artista especifico
      conteo_POS[etiqueta] = (conteo_POS[etiqueta]/cont_word)*100
      matriz_POS[m][n] = (matriz_POS[m][n]/cont_word)

      m += 1
    vector_words_verso[0][n] = cont_word/16
    n += 1
  
  #matriz_POS = np.concatenate((matriz_POS, vector_words_verso))

  return matriz_POS, vector_words_verso

In [None]:
matriz_POS_versos, vector_words_verso = conteo_etiquetas_POS(POS_16_lineas)
matriz_POS_versos = ponderar(matriz_POS_versos)

In [None]:
# Recorrer la matriz de etiquetas POS con el fin de eliminar filas con todos sus números en 0
for i in range(len(matriz_POS_versos)):
  sum_fil = np.sum(matriz_POS_versos[:,i])
  print(sum_fil)
  if sum_fil == 0:
    del matriz_POS_versos[:,i]

0.004594162920891889
0.015074738946611899
0.002947460132207658
0.013547203307526977
0.01964874276451623
0.002285464334573402
0.0033817955632974867
0.018393774066456075
0.02201990329288953
0.05801399135662948
0.038199131735586984
0.44345701508756674
0.038815355560136364
0.027897030354121385
1.0247203805861185
0.00504881498146451


In [None]:
print(np.sum(matriz_POS_versos[:,0]))
print(matriz_POS_versos[:,0])

0.004594162920891889
[0.00033614 0.         0.0024945  0.00052411 0.00045138 0.
 0.         0.         0.         0.         0.         0.
 0.00078804 0.         0.         0.        ]


In [None]:
print(matriz_POS_versos)

[[0.00033614 0.00037054 0.00012466 ... 0.00021888 0.00037274 0.00032177]
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.0024945  0.00202488 0.00056768 ... 0.00177199 0.00169743 0.00122108]
 ...
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]]


Una vez obtenidas las matrices anteriores que contienen la cantidad normalizada de cada una de las etiquetas POS, además de la cantidad promedio de palabras, se entrenara un modelo de SVM unicamente con estas caracteristicas, con el fin de observar el valor individual que aportan estos datos, para a posteriori integrar estas caracteristicas con la matriz de index-term y tener una visión más amplia de la repercusión que ha tenido la integración de estas ultimas caracteristicas. 

In [None]:
# creación de vector x train
x_POS_16 = matriz_POS_versos.T

In [None]:
print(x_POS_16)

[[0.00033614 0.         0.0024945  ... 0.         0.         0.        ]
 [0.00037054 0.         0.00202488 ... 0.         0.         0.        ]
 [0.00012466 0.         0.00056768 ... 0.         0.         0.        ]
 ...
 [0.00021888 0.         0.00177199 ... 0.         0.         0.        ]
 [0.00037274 0.         0.00169743 ... 0.         0.         0.        ]
 [0.00032177 0.         0.00122108 ... 0.         0.         0.        ]]


# Modelo basado en conteo de etiquetas POS.

In [None]:
print("modelo noise vs otros")
modeloPOS1 = crear_modelo(x_POS_16, Y1)
print("modelo proof vs otros")
modeloPOS2 = crear_modelo(x_POS_16, Y2)
print("modelo kaseo vs otros")
modeloPOS3 = crear_modelo(x_POS_16, Y3)

modelo noise vs otros
Primera predicción:  [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
Datos reales:        [1. 0. 0. 1. 0. 1. 0. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.
 0. 0. 1. 1. 0. 0. 0. 0. 1. 1. 0. 0. 1. 1. 0. 0. 0. 0. 0.]
puntaje F1: 0.6671
Jaccard indice: 0.1429
modelo proof vs otros
Primera predicción:  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
Datos reales:        [0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0. 0. 0. 0. 1. 1. 0. 0. 0. 1. 0. 0. 0. 1.
 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 1. 1. 0. 0. 1. 0. 1. 0. 0.]
puntaje F1: 0.5620
Jaccard indice: 0.0000
modelo kaseo vs otros
Primera predicción:  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
Datos reales:        [0. 1. 0. 0. 0. 0. 1. 1. 0. 0. 1. 0. 0. 1. 0. 0. 1. 1. 1. 0. 0. 

Los resultados obtenidos por medio del conteo de etiquetas POS permite observar que estas por si solas no aportan absolutamente nada (basandonos en el indice de jaccard). 
Se procedera a utilizar estos conteos promedio junto a la matrix de terminos utilizada anteriormente, y así analizar si en conjunto esta caracteristica logra algún aporte. 

In [None]:
print(Y1)

[1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]


Ahora se concatena la matriz de entrenamiento de los index-term junto a la matriz de etiquetas POS, para finalmente entrena la support vector machine, y observar si esta da un mejor resultado.

# Modelo basado en la concatenación de los terminos y los conteos POS:

In [None]:
# concatenacion vectores
x_POS_terms = concatenate((X_16, x_POS_16),axis=1)

In [None]:
print(x_POS_terms[0])

[0. 0. 0. ... 0. 0. 0.]


In [None]:
print("modelo noise vs otros")
modeloPT1 = crear_modelo(x_POS_terms, Y1)
print("modelo proof vs otros")
modeloPT2 = crear_modelo(x_POS_terms, Y2)
print("modelo kaseo vs otros")
modeloPT3 = crear_modelo(x_POS_terms, Y3)

modelo noise vs otros
Primera predicción:  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
Datos reales:        [1. 0. 0. 1. 0. 1. 0. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.
 0. 0. 1. 1. 0. 0. 0. 0. 1. 1. 0. 0. 1. 1. 0. 0. 0. 0. 0.]
puntaje F1: 0.6837
Jaccard indice: 0.1538
modelo proof vs otros
Primera predicción:  [0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
Datos reales:        [0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0. 0. 0. 0. 1. 1. 0. 0. 0. 1. 0. 0. 0. 1.
 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 1. 1. 0. 0. 1. 0. 1. 0. 0.]
puntaje F1: 0.6246
Jaccard indice: 0.0769
modelo kaseo vs otros
Primera predicción:  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 0. 1. 0. 0.
 0. 1. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 1.]
Datos reales:        [0. 1. 0. 0. 0. 0. 1. 1. 0. 0. 1. 0. 0. 1. 0. 0. 1. 1. 1. 0. 0. 

A partir de los resultados obtenidos tras alimentar el modelo de SVM con la matriz resultante al unir la cantidad de cada una de las etiquetas POS por cada 16 líneas, con los index-term, se observa una disminución en la precisión del modelo, incluso en aquel que clasifica al artista kase.o vs los otros dos, lo cual sorprende, ya que cuando se genero el modelo únicamente con el uso de los index-term, tuvo un desempeño mejor, respecto al resto de modelos, y respecto al modelo actual del mismo artista. 
Lo anterior se debe en cierta medida al tamaño de muestras por artista, el cual puede resultar insuficiente para otorgar un aspecto descriptivo relacionado con las etiquetas a dichas escalas (a pesar de haber sido ampliado, a partir de una separación por batches de las canciones). Por otro lado, la disminución en la precisión de los modelos, en especial, el tercer modelo (encargado de clasificar a kase.o) puede ser a causa del uso ineficiente y poco descriptivo de las etiquetas POS, es decir, la cantidad de veces empleada una etiqueta especifica por cada x palabras no supone un aspecto demasiado caracteristico, ya que las estructuras gramaticales y el correcto desarrollo de las ideas requieren de todas y cada una de las etiquetas en cuestión, por lo que se considera de mayor provecho el alimentar los modelos con los bi-gramas generados  a partir de etiquetas POS (reflejando posibles estructuras sintácticas predilectas por cada uno de los artistas), junto a la matriz de index-term anteriormente utilizados. Aún así, seguirá comprobándose el aporte del conteo de etiquetas POS en conjunto con otras características, y ver la manera en que estas confluyen, ya que no sería pertinente descartarlas de una vez por todas. 



# Uso de bigramas:

In [None]:
#Librerias necesarias
from gensim.test.utils import datapath
import os
from gensim.models.word2vec import Text8Corpus
from gensim.models.phrases import Phrases, ENGLISH_CONNECTOR_WORDS

In [None]:
def bigramas(indexT):
  sentences = Text8Corpus(indexT)
  #colocaciones con un tresh
  """ Se crean dos variables que contengan las frases, una para aquellas que no son bigramas 
  ni de inicio ni de fin, y la otra para las marcas de inicio y fin. Lo anterior se realiza con la 
  finalidad de manipular individualmente los threshold para realizar ciertas pruebas"""
  phrasesMid= Phrases(sentences, min_count=1, threshold=0.1) 
  phrases = Phrases(sentences, min_count=1, threshold=0.1)
  #Determinación de patrones para separar así las frases que van al inicio y al final, de las que van en medio
  PATRON_iniciales = r'<s>+'
  PATRON_finales = r'</s>+'
  #Creación de listas para almacenar las colocaciones
  colocaciones_iniciales = []
  score_iniciales = []
  colocaciones_finales = []
  score_finales = []
  colocaciones_mid = []
  score_mid = []
  #variables para guardar max puntaje
  max_score_init = 0 
  max_score_end = 0
  """Ciclos for para guardar individualmente 
  las frases que constituyen el inicio y el 
  final, y a su vez las colocaiones que se 
  ubican en el medio"""
  for phrase,score in phrases.find_phrases(sentences).items(): 
  #se crea una variable de busqueda con el fin de 
  #separar las palabras iniciales, de las finales y las restantes
    if phrase == "</s>_<s>" or re.search(r'</s><s>', phrase) != None: # condiconal que elimina la aparición de marcas de inicio y fin, sin contenido alguno
      continue
    else:
      #se almacena el valor maximo de puntaje 
      #para decidir el treshold
      if re.search(PATRON_iniciales, phrase) != None: #colocaciones de inicio de frase
        colocaciones_iniciales.append(phrase)
        score_iniciales.append(score)
        if score > max_score_init:
            max_score_init =score #almacenamiento de maximo puntaje
      elif re.search(PATRON_finales, phrase) != None: #colocaciones de final de frase
        colocaciones_finales.append(phrase)
        score_finales.append(score)
        if score > max_score_end: #almacenamiento de maximo puntaje
            max_score_end =score

  for phrase,score in phrasesMid.find_phrases(sentences).items():
      if phrase == "</s>_<s>":
        continue
      else: 
        if ((re.search(PATRON_iniciales, phrase) == None) and (re.search(PATRON_finales, phrase) == None)):
          colocaciones_mid.append(phrase)
          score_mid.append(score)
        else:
          continue
  # se almacena en diccionarios las colocaciones y los puntajes de cada una
  col_init = {"colocaciones":colocaciones_iniciales,
                    "scores":score_iniciales
  }
  col_end = {"colocaciones":colocaciones_finales,
                    "scores":score_finales
  }
  col_mid = {"colocaciones":colocaciones_mid,
            "scores":score_mid
  }
  print(col_mid)
  print(sentences)
  # Se imprimen los puntajes maximos para observar el umbral en el cual las colocaciones de inicio y final desaparecen
  print("Score max inicio: "+f'{max_score_init}'+"\nScore max fin: "+f'{max_score_end}')
  #return col_init, col_end, col_mid
  return col_mid

In [None]:
# Para armar las frases en listas divididas cada dos palabras,
# se divide cada una de las frases en palabras
# posteriormente se unen por medio de un guion cada dos palabras, 
# con un contador que se reinicia de manera constante
def txt_format_bigrams(documentos):
  """
  param documentos: type dict: documentos guardados en listas
  return diccionario con el texto en forma de bigramas
  """
  versos_bigrams = {}
  cont_bigram = 0 # Contador que funciona para formar dos palabras, 
                  # guardarlas como un elemento aparte de una lista, 
                  # y reiniciar la formación de dichas palabras
  bigramas = ""
  for documento in documentos:
    versos_bigrams.update({documento:[]})
    for linea in range(len(documentos[documento])):
      linea_tokens = string_to_list(documentos[documento][linea])
      for token in range(len(linea_tokens)):
        if token < (len(linea_tokens)-1):
          bigramas = linea_tokens[token]+"_"+linea_tokens[token+1]# concatenacion de dos tokens
          versos_bigrams[documento].append(bigramas)# El anterior bigrama se anexa a la lista
        else:
          continue
  
  return versos_bigrams


In [None]:
#creacion de vocabulario a partir de bigramas
bigramas_16 = txt_format_bigrams(frases_16_lineas) #Se ponen todos los textos en formato de bigrama
#Ahora se almacenaran los bigramas en una unica lista
bigramas_total = []
for verso in bigramas_16:
  for bigrama in range(len(bigramas_16[verso])):
    bigramas_total.append(bigramas_16[verso][bigrama])
# Transformación en string los bigramas para generar el vocabulario
bigramas_total_txt = list_to_string(bigramas_total)
unique_2grams = set(word_tokenize(bigramas_total_txt)) # vocabulario bigrams
#el vocabulario se encuentra en una lista no ordenada, 
#por lo que la manipulación de la misma puede resultar
#complicado, por lo que se pasan dicho vocabulario a una
#lista ordenada
vocabulario_2grams = []
for bigrama in unique_2grams:
  vocabulario_2grams.append(bigrama)

In [None]:
print(bigramas_16)

{0: ['yo_venero', 'venero_al', 'al_ritmo', 'ritmo_venero', 'venero_al', 'al_ritmo', 'incluso_cuando', 'cuando_diario', 'diario_parece', 'parece_domingo', 'mandame_un', 'un_signo', 'signo_si', 'si_soy', 'soy_digno', 'de_barriles', 'barriles_de', 'de_veneno', 'veneno_benigno', 'bueno_incluso', 'incluso_si', 'si_sino', 'sino_no', 'no_se', 'se_si', 'si_ser', 'ser_un', 'un_sinner', 'sinner_es', 'es_mi', 'mi_sino', 'este_camino', 'camino_no', 'no_es', 'es_tan', 'tan_ameno', 'a_menos', 'menos_que', 'que_estes', 'estes_en', 'en_un', 'un_sello', 'de_esos', 'esos_que', 'que_perpetuan', 'perpetuan_al', 'al_plebeyo', 'en_el', 'el_bolsillo', 'bolsillo_un', 'un_sencillo', 'sencillo_aullo', 'se_oye', 'oye_en', 'en_la', 'la_radio', 'radio_una', 'una_cancion', 'cancion_sacada', 'sacada_de', 'de_tubos', 'tubos_de', 'de_ensayo', 'la_bulla', 'bulla_con', 'con_apoyo', 'apoyo_pa', 'pa_la', 'la_payo', 'payo_en', 'en_ese', 'ese_meollo', 'meollo_no', 'no_me', 'me_hallo', 'san_tono', 'tono_poco', 'poco_a', 'a_p

Como se observa, el tamaño del vocabulario de bigramas obtenido de manera sencilla con la función "set(word_tokenize(texto_bigrama))" es bastante grande, que más que aportar información importante, puede resultar innecesario, e incluso confuso para el modelo, por lo que se decide utilizar como vocabulario, los bigramas calculados por artista por medio de la función creada "bigramas", la cual utiliza la herramienta de colocaciones de gensim, donde la misma retorna las colocaciones y su respectivo puntaje de información mutua, el cual sera utilizado con aras de disminuir el vocabulario, y dejar toda aquella colocacion que resulta constante en las canciones del artista.

In [None]:
from io import open

In [None]:
#Colocaciones noise
index_noise = os.path.join(basepath,"noiseferatu/frases_noiseferatu.txt")
file_doc = open(index_noise, 'r')
noise_marcas = file_doc.read()
file_doc.close()
noise_marcas  = marcas_inicio_fin(noise_marcas)
index_noise_marcas = os.path.join(basepath,"noiseferatu/frases_marcas.txt")
file_doc = open(index_noise_marcas, 'w')
file_doc.write(noise_marcas)
file_doc.close()
col_mid_noise = bigramas(index_noise_marcas)
#colocaciones kaseo
index_kaseo = os.path.join(basepath,"kaseo/frases_kaseo.txt")
file_doc = open(index_kaseo, 'r')
kaseo_marcas = file_doc.read()
file_doc.close()
kaseo_marcas  = marcas_inicio_fin(kaseo_marcas)
index_kaseo_marcas = os.path.join(basepath,"kaseo/frases_marcas.txt")
file_doc = open(index_kaseo_marcas, 'w')
file_doc.write(kaseo_marcas)
file_doc.close()
col_mid_kaseo = bigramas(index_kaseo_marcas)
#colocaciones proof 
index_proof = os.path.join(basepath,"proof/frases_proof.txt")
file_doc = open(index_proof, 'r')
proof_marcas = file_doc.read()
file_doc.close()
proof_marcas  = marcas_inicio_fin(proof_marcas)
index_proof_marcas = os.path.join(basepath,"proof/frases_marcas.txt")
file_doc = open(index_proof_marcas, 'w')
file_doc.write(proof_marcas)
file_doc.close()
col_mid_proof = bigramas(index_proof_marcas)

{'colocaciones': ['a_la', 'en_la', 'de_la', 'por_el', 'que_se', 'no_basta', 'si_se', 'luego_de', 'me_siento', 'en_un', 'saco_de', 'viviendo_en', 'que_ni', 'y_no', 'que_es', 'la_puerta', 'espero_que', 'corona_de', 'estoy_en', 'se_vuelven', 'y_al', 'pegados_al', 'y_con', 'la_mente', 'pero_me', 'en_las', 'por_mi', 'parte_es', 'la_fe', 'del_malpensante', 'para_no', 'convertirme_en', 'promesa_de', 'ano_entrante', 'por_eso', 'bombeo_boom', 'bap_en', 'la_sangre', 'fumando_santa', 'maria_y', 'dios_te', 'mi_parte', 'es_la', 'fe_del', 'no_convertirme', 'en_promesa', 'de_ano', 'que_los', 'muros_aguanten', 'aunque_todo', 'parece_liquido', 'la_vida', 'ya_que', 'la_muerte', 'mas_de', 'como_el', 'en_el', 'a_mi', 'al_que', 'ya_esta', 'se_los', 'la_mano', 'no_es', 'ni_la', 'es_lo', 'yo_ya', 'es_para', 'es_un', 'a_las', 'de_lo', 'boom_bap', 'en_mi', 'en_esta', 'a_lo', 'falta_de', 'es_uno', 'de_troya', 'por_las', 'mejor_que', 'por_la', 'causa_del', 'se_creen', 'puede_que', 'no_sirve', 'seria_un', 'que_no

In [None]:
#creación de listado unificado
dic_colocaciones = {0:col_mid_noise,
                    1:col_mid_proof,
                    2:col_mid_kaseo
                   }
colocaciones_total = {'colocaciones': [],
                      'scores': [] 
                     }
num_col_artista = {0:0,1:0,2:0} #diccionario que almacena cantidad de colocaciones por artista
cont_col = 0
#ciclo for que recorre cada una de las colocaciones, y las
#agrega al diccionario colocaciones_total
for rapero in dic_colocaciones:
  for i in range(len(dic_colocaciones[rapero]['colocaciones'])):
    if float(dic_colocaciones[rapero]['scores'][i]) <= 15.0: #eliminación de colocaciones que tienen un alto puntaje de información mutua
      cont_col += 1
      colocaciones_total['colocaciones'].append(dic_colocaciones[rapero]['colocaciones'][i])
      colocaciones_total['scores'].append(dic_colocaciones[rapero]['scores'][i])   
  num_col_artista[rapero] = cont_col
  cont_col = 0

Como se observa en el recuadro de código anterior, se eliminan aquellas colocaciones que arrojan un puntaje mayor a 5, lo que puede plantear la siguiente pregunta ¿Por qué eliminar las colocaciones que superan este umbral?: Para responder la pregunta, primero se debe aclarar que el puntaje de cada colocación, equivale a la información mutua del mismo, lo cual quiere decir que entre mayor sea dicho número, menos cantidad de veces aparece en los textos, por lo que, no sería un bigrama realmente característico del artista (teniendo en cuenta que se calcularon los bigramas de manera individual por artista, y no de forma general). 


In [None]:
print("Número total de colocaciones: ",len(colocaciones_total['colocaciones']))

Número total de colocaciones:  1156


In [None]:
print(num_col_artista)

{0: 296, 1: 486, 2: 374}


In [None]:
#Eliminación de colocaciones repetidas en caso tal de que existan
for i in range(len(colocaciones_total['colocaciones'])):
  for j in range(i+1, len(colocaciones_total['colocaciones'])):
    if j<len(colocaciones_total['colocaciones']):
      if colocaciones_total['colocaciones'][i] == colocaciones_total['colocaciones'][j]:
        print("se elimino: ", colocaciones_total['colocaciones'][j])
        del colocaciones_total['colocaciones'][j]
        del colocaciones_total['scores'][j]
        j = j-1
      else:
        break

In [None]:
print(len(colocaciones_total['colocaciones']))

1156


Al parecer no existen colocaciones repetidas, por lo que se preserva la misma cantidad de colocaciones por artista.

Una vez obtenidos los textos en forma de bigrama, junto con el vocabulario correspondiente, se procede a entrenar los modelos SVM para cada rapero, con el fin de observar el valor de dicha estrategia.

In [None]:
MEV_bigrams, MEV_bigrams_normalize = Representacion_vectorial(bigramas_16, colocaciones_total['colocaciones'])
MEV_bigrams_ponderize = ponderar(MEV_bigrams_normalize)

[[0. 0. 0. ... 0. 0. 0.]
 [1. 0. 0. ... 0. 0. 1.]
 [0. 0. 1. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]
tamaño de la matriz de representación matricial de los textos respecto a los index-term:  (1156, 213)


In [None]:
print(MEV_bigrams[0])

[0. 0. 0. 0. 1. 0. 2. 2. 0. 0. 0. 0. 1. 0. 0. 0. 0. 2. 0. 0. 0. 0. 0. 0.
 0. 0. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 1. 0. 0. 2. 0.
 0. 0. 0. 0. 6. 0. 0. 1. 0. 0. 0. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 1.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 1. 0. 0. 1. 0. 1. 0. 0. 0. 0. 0. 5.
 1. 1. 0. 0. 1. 0. 0. 0. 1. 1. 0. 0. 0. 1. 0. 0. 0. 2. 1. 0. 4. 1. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 5. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.
 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 0. 0. 0. 0. 1. 0. 0. 0. 1. 0. 1.
 0. 0. 0. 0. 0. 0. 0. 2. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 1. 0. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]


# Creación de modelos SVM por artista con los bigramas

In [None]:
x_bigrams = MEV_bigrams_ponderize.T
modelo1_2grams = crear_modelo(x_bigrams, Y1)
modelo2_2grams = crear_modelo(x_bigrams, Y2)
modelo3_2grams = crear_modelo(x_bigrams, Y3)

Primera predicción:  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
Datos reales:        [1. 0. 0. 1. 0. 1. 0. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.
 0. 0. 1. 1. 0. 0. 0. 0. 1. 1. 0. 0. 1. 1. 0. 0. 0. 0. 0.]
puntaje F1: 0.7005
Jaccard indice: 0.1667
Primera predicción:  [0. 0. 1. 0. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
Datos reales:        [0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0. 0. 0. 0. 1. 1. 0. 0. 0. 1. 0. 0. 0. 1.
 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 1. 1. 0. 0. 1. 0. 1. 0. 0.]
puntaje F1: 0.7836
Jaccard indice: 0.3846
Primera predicción:  [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 1. 1. 0. 0. 0. 0. 1. 0.
 0. 1. 0. 0. 1. 0. 0. 1. 0. 0. 0. 0. 0. 0. 1. 1. 0. 0. 1.]
Datos reales:        [0. 1. 0. 0. 0. 0. 1. 1. 0. 0. 1. 0. 0. 1. 0. 0. 1. 1. 1. 0. 0. 1. 1. 0.
 1. 1. 0. 0. 1. 1. 0. 1. 0. 0. 0. 0. 0. 0. 0. 1. 0. 1. 1.

Los modelos creados por medio de bigramas, arrojan resultados similares que aquel modelo generado a partir de los index-term, por lo que, se concatenaran las dos matrices resultantes en ambos casos, con el fin de alimentar un modelo SVM y observar si la unión de ambas matrices ofrece mejores o peores resultados.

**modelo a partir de la concatenacion de los bigramas y los terminos**

In [None]:
x_bigrams_term = concatenate((X_16, x_bigrams),axis=1)
model1_bigram_term = crear_modelo(x_bigrams_term, Y1)
model2_bigram_term = crear_modelo(x_bigrams_term, Y2)
model3_bigram_term = crear_modelo(x_bigrams_term, Y3)

Primera predicción:  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
Datos reales:        [1. 0. 0. 1. 0. 1. 0. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.
 0. 0. 1. 1. 0. 0. 0. 0. 1. 1. 0. 0. 1. 1. 0. 0. 0. 0. 0.]
puntaje F1: 0.7005
Jaccard indice: 0.1667
Primera predicción:  [0. 0. 1. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
Datos reales:        [0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0. 0. 0. 0. 1. 1. 0. 0. 0. 1. 0. 0. 0. 1.
 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 1. 1. 0. 0. 1. 0. 1. 0. 0.]
puntaje F1: 0.6702
Jaccard indice: 0.1538
Primera predicción:  [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.
 0. 1. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 1.]
Datos reales:        [0. 1. 0. 0. 0. 0. 1. 1. 0. 0. 1. 0. 0. 1. 0. 0. 1. 1. 1. 0. 0. 1. 1. 0.
 1. 1. 0. 0. 1. 1. 0. 1. 0. 0. 0. 0. 0. 0. 0. 1. 0. 1. 1.

Tras generar los modelos con la combinación de bigramas e index-term, se logra observar una leve mejora (sin ser suficiente) en el segundo modelo respecto al indice de jaccard, y también en la metrica f1. Respecto al primer modelo alimentado unicamente con index-term, no se percibe diferencia alguna en las metricas, frente al modelo SVM entrenado con index-term y bigramas al tiempo. Por otro lado, el modelo 3 actual (entrenado con bigramas e index-term) aún no logra superar el desempeño del modelo 3 entrenado unicamente con bigramas, a pesar de ser el modelo por artista que en terminos generales mejores resultados a arrojado (siendo aun mayor la diferencia si comparamos las metricas de jaccard entre los modelos para cada uno de los artistas).

**modelo basado en la matriz resultante de la concatenación de los bigramas y el conteo de etiquetas pos**

In [None]:
#Prueba de unir bigrams con conteo POS
x_bigrams_conteo_pos = concatenate((x_bigrams,x_POS_16),axis=1)

In [None]:
print("modelo noise vs otros")
modelo1_2g_pos = crear_modelo(x_bigrams_conteo_pos, Y1)
print("modelo proof vs otros")
modelo2_2g_pos = crear_modelo(x_bigrams_conteo_pos, Y2)
print("modelo kaseo vs otros")
modelo3_2g_pos = crear_modelo(x_bigrams_conteo_pos, Y3)

modelo noise vs otros
Primera predicción:  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
Datos reales:        [1. 0. 0. 1. 0. 1. 0. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.
 0. 0. 1. 1. 0. 0. 0. 0. 1. 1. 0. 0. 1. 1. 0. 0. 0. 0. 0.]
puntaje F1: 0.7226
Jaccard indice: 0.2308
modelo proof vs otros
Primera predicción:  [0. 0. 1. 0. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
Datos reales:        [0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0. 0. 0. 0. 1. 1. 0. 0. 0. 1. 0. 0. 0. 1.
 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 1. 1. 0. 0. 1. 0. 1. 0. 0.]
puntaje F1: 0.7836
Jaccard indice: 0.3846
modelo kaseo vs otros
Primera predicción:  [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 1. 1. 0. 1. 1. 0. 0. 0. 0. 1. 0.
 0. 1. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 1. 1.]
Datos reales:        [0. 1. 0. 0. 0. 0. 1. 1. 0. 0. 1. 0. 0. 1. 0. 0. 1. 1. 1. 0. 0. 

Los resultados arrojados por los modelos entrenados con el conteo de etiquetas POS por cada 16 líneas, junto con los bi-gramas característicos de cada artista, muestran una mejora significativa, respecto a los anteriores modelos creados hasta el momento, lo que permite determinar que ambas características de manera conjunta aportan distintos aspectos propios de cada uno de ellos; de cierta manera se complementan. 

# Bigramas de etiquetas POS:
Como ultima caracteristica estudiada en este proyecto, se tendra en cuenta los bigramas para cada uno de los artistas, pero por medio de las etiquetas POS (estructura sintáctica formada a partir de bi-gramas), ya que esto puede arrojar caracteristicas claras en las estructuras que suele seguir cada artista a la hora de formar frases.

In [None]:
bigramas_POS = txt_format_bigrams(POS_16_lineas)
#Ahora se almacenaran los bigramas en una unica lista
bigramas_total_POS = []
for verso in bigramas_POS:
  for bigrama in range(len(bigramas_POS[verso])):
    bigramas_total_POS.append(bigramas_POS[verso][bigrama])
# Transformación en string los bigramas para generar el vocabulario
bigramas_total_POS_txt = list_to_string(bigramas_total_POS)
unique_2grams_POS = set(word_tokenize(bigramas_total_POS_txt)) # vocabulario bigrams
#el vocabulario se encuentra en una lista no ordenada, 
#por lo que la manipulación de la misma puede resultar
#complicado, por lo que se pasan dicho vocabulario a una
#lista ordenada
vocabulario_2grams_POS = []
for bigrama in unique_2grams_POS:
  vocabulario_2grams_POS.append(bigrama)

In [None]:
print("tamaño de tokens unicos por medio de bigramas", len(vocabulario_2grams_POS) )

tamaño de tokens unicos por medio de bigramas 179


Como se observa, la cantidad de bigramas únicos obtenidos a partir de la función set(word_tokenize) aplicada a las canciones en formato POS es relativamente pequeño, por lo que probablemente sea el vocabulario con el que posteriormente se crearan las matrices para alimentar los modelos. No obstante, se observarán las colocaciones resultantes junto a sus score, para analizar patrones y así finalmente decidir si se mantiene el listado actual.

In [None]:
#guardar los textos en formato POS
text_prueba1 = ""
text_prueba2 = ""
text_prueba3 = ""
for i in (range(len(POS_16_marcas))):
  for j in (range(len(POS_16_marcas[i]))):
    if etiquetas1[i] == 1:
      text_prueba1 = text_prueba1 + POS_16_marcas[i][j] + " \n"
    if etiquetas1[i] == 2:
      text_prueba2 = text_prueba2 + POS_16_marcas[i][j] + " \n"
    if etiquetas1[i] == 3:
      text_prueba3 = text_prueba3 + POS_16_marcas[i][j] + " \n"
  #Escribir en los archibos txt que almacena los textos en POS
#noise
index_noise_POS_marcas = os.path.join(basepath,"noiseferatu/POS_marcas.txt")
file_doc = open(index_noise_POS_marcas, 'w')
file_doc.write(text_prueba1)
file_doc.close()
#proof
index_proof_POS_marcas = os.path.join(basepath,"proof/POS_marcas.txt")
file_doc = open(index_proof_POS_marcas, 'w')
file_doc.write(text_prueba2)
file_doc.close()
#kaseo
index_kaseo_POS_marcas = os.path.join(basepath,"kaseo/POS_marcas.txt")
file_doc = open(index_kaseo_POS_marcas, 'w')
file_doc.write(text_prueba3)
file_doc.close()

In [None]:
#colocaciones noise
col_mid_noise = bigramas(index_noise_POS_marcas)
#colocaciones proof 
col_mid_proof = bigramas(index_proof_POS_marcas)
#colocaciones Kaseo
col_mid_kaseo = bigramas(index_kaseo_POS_marcas)

{'colocaciones': ['INTJ_PRON', 'PROPN_PROPN', 'INTJ_INTJ'], 'scores': [0.10208527855586678, 0.6870490065319244, 0.11621315192743764]}
<gensim.models.word2vec.Text8Corpus object at 0x7f557245f490>
Score max inicio: 0
Score max fin: 0.10927505330490404
{'colocaciones': ['INTJ_AUX'], 'scores': [0.2108843537414966]}
<gensim.models.word2vec.Text8Corpus object at 0x7f5574b47190>
Score max inicio: 0
Score max fin: 0
{'colocaciones': ['NUM_NUM', 'PROPN_PROPN', 'INTJ_PUNCT'], 'scores': [0.201171875, 1.1286043829296426, 0.15453863465866466]}
<gensim.models.word2vec.Text8Corpus object at 0x7f55708a3f90>
Score max inicio: 0
Score max fin: 0


Finalmente se utilizara el vocabulario logrado por medio de la función set(word_tokenize), ya que por medio de los bigramas calculados por medio de la librería de gensim se obtienen muy pocos bigramas para formar un vocabulario.

In [None]:
#creación de modelos
#Matriz bigramas POS
MEV_bigramas_pos, MEV_bigrams_pos_normalize = Representacion_vectorial(bigramas_POS,vocabulario_2grams_POS)

[[0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 1. ... 0. 0. 2.]
 ...
 [2. 3. 0. ... 5. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [3. 0. 1. ... 0. 0. 0.]]
tamaño de la matriz de representación matricial de los textos respecto a los index-term:  (179, 213)


In [None]:
MEV_bigrams_pos_ponderize= ponderar(MEV_bigrams_pos_normalize)  

In [None]:
x_bigramas_pos = MEV_bigrams_pos_ponderize.T

# Modelo basado en bigramas de etiquetas POS:

In [None]:
print("modelo noise vs otros")
modelo1_2g_pos = crear_modelo(x_bigramas_pos, Y1)
print("modelo proof vs otros")
modelo2_2g_pos = crear_modelo(x_bigramas_pos, Y2)
print("modelo kaseo vs otros")
modelo3_2g_pos = crear_modelo(x_bigramas_pos, Y3)

modelo noise vs otros
Primera predicción:  [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 1. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
Datos reales:        [1. 0. 0. 1. 0. 1. 0. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.
 0. 0. 1. 1. 0. 0. 0. 0. 1. 1. 0. 0. 1. 1. 0. 0. 0. 0. 0.]
puntaje F1: 0.7045
Jaccard indice: 0.2143
modelo proof vs otros
Primera predicción:  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
Datos reales:        [0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0. 0. 0. 0. 1. 1. 0. 0. 0. 1. 0. 0. 0. 1.
 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 1. 1. 0. 0. 1. 0. 1. 0. 0.]
puntaje F1: 0.5959
Jaccard indice: 0.0667
modelo kaseo vs otros
Primera predicción:  [0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 1. 0. 0. 0. 0. 0. 0. 1. 1. 1. 0. 0. 1. 0.
 0. 1. 0. 0. 1. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 1. 0. 1. 0.]
Datos reales:        [0. 1. 0. 0. 0. 0. 1. 1. 0. 0. 1. 0. 0. 1. 0. 0. 1. 1. 1. 0. 0. 

In [None]:
print(len(MEV_bigramas_pos[0])) 

213


In [None]:
#Probar bigramas texto junto bigramas etiquetas pos
x_2grams_POStext = concatenate((x_bigramas_pos,x_bigrams), axis=1)

In [None]:
print(len(x_2grams_POStext[0]))

1335


**Modelo basado en la concatenacion de los bigramas de etiquetas pos, y los bigramas del texto:**

In [None]:
print("modelo noise vs otros")
modelo1_2g_postext = crear_modelo(x_2grams_POStext, Y1)
print("modelo proof vs otros")
modelo2_2g_postext = crear_modelo(x_2grams_POStext, Y2)
print("modelo kaseo vs otros")
modelo3_2g_postext = crear_modelo(x_2grams_POStext, Y3)

modelo noise vs otros
Primera predicción:  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 1. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
Datos reales:        [1. 0. 0. 1. 0. 1. 0. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.
 0. 0. 1. 1. 0. 0. 0. 0. 1. 1. 0. 0. 1. 1. 0. 0. 0. 0. 0.]
puntaje F1: 0.7582
Jaccard indice: 0.3077
modelo proof vs otros
Primera predicción:  [0. 0. 1. 0. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
Datos reales:        [0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0. 0. 0. 0. 1. 1. 0. 0. 0. 1. 0. 0. 0. 1.
 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 1. 1. 0. 0. 1. 0. 1. 0. 0.]
puntaje F1: 0.7294
Jaccard indice: 0.2857
modelo kaseo vs otros
Primera predicción:  [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 1. 1. 0. 0. 0. 0. 1. 0.
 0. 1. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 1. 1.]
Datos reales:        [0. 1. 0. 0. 0. 0. 1. 1. 0. 0. 1. 0. 0. 1. 0. 0. 1. 1. 1. 0. 0. 

Tras entrenar los modelos, se observa un resultado grato(teniendo en cuenta la cantidad un tanto limitada del corpus) al combinar los bigramas o colocaciones, y los bigramas de etiquetas POS (los cuales representan cierta parte de la estructura sintactica), caracteristicas que aportan diferentes enfoques del estilo de un autor. 


In [None]:
x_2grams_POStext_conteo = concatenate((x_2grams_POStext,x_POS_terms), axis=1)

**Modelo a partir de la concatenacion de los bigramas tanto de etiquetas pos, como de texto, junto con los conteos de etiquetas pos:**

In [None]:
print("modelo noise vs otros")
modelo1_2g_postext_conteo = crear_modelo(x_2grams_POStext_conteo, Y1)
print("modelo proof vs otros")
modelo2_2g_postext_conteo = crear_modelo(x_2grams_POStext_conteo, Y2)
print("modelo kaseo vs otros")
modelo3_2g_postext_conteo = crear_modelo(x_2grams_POStext, Y3)

modelo noise vs otros
Primera predicción:  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
Datos reales:        [1. 0. 0. 1. 0. 1. 0. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.
 0. 0. 1. 1. 0. 0. 0. 0. 1. 1. 0. 0. 1. 1. 0. 0. 0. 0. 0.]
puntaje F1: 0.7226
Jaccard indice: 0.2308
modelo proof vs otros
Primera predicción:  [0. 0. 1. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
Datos reales:        [0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0. 0. 0. 0. 1. 1. 0. 0. 0. 1. 0. 0. 0. 1.
 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 1. 1. 0. 0. 1. 0. 1. 0. 0.]
puntaje F1: 0.6702
Jaccard indice: 0.1538
modelo kaseo vs otros
Primera predicción:  [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 1. 1. 0. 0. 0. 0. 1. 0.
 0. 1. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 1. 1.]
Datos reales:        [0. 1. 0. 0. 0. 0. 1. 1. 0. 0. 1. 0. 0. 1. 0. 0. 1. 1. 1. 0. 0. 

De acuerdo a los resultados de los modelos clasificados a partir de las colocaciones, los bi-gramas de etiquetas POS, y el conteo de las mismas, se observa una vez más que la redundancia en el uso de características estilo métricas a la hora de entrenar los modelos tiene efectos negativos en la clasificación y en las métricas finales, empeorando el performance del clasificador, o cuando menos, dejándolo en las mismas condiciones previas a la integración de dicha característica.

# Analisis de resultados:
Para este análisis de resultados se procederá a responder de manera detallada, cada una de las preguntas planteadas para la parte uno del taller.

**¿Qué tan importante es una buena estrategia de preprocesado para aumentar el rendimiento de los clasificadores?**

En primera instancia, se considera pertinente recalcar que el hecho de considerar una estrategia de preprocesado útil, depende en mayor medida a la aplicación en cuestión. Por ejemplo, cuando la tarea requiere una clasificación netamente de temática, un preprocesado equiparado de lematización, eliminación de stopwords, de signos de puntuación y demás, jugara un papel indispensable, ya que la temática de los textos estará en la carga semántica de los términos que contengan los mismos. Una vez aclarada la subjetividad que supone el determinar la utilidad de cada una de las técnicas de preprocesado, se considera de gran importancia generar una correcta estrategia de preprocesado, ya que el resultado de la misma supondrá un mejor funcionamiento de los clasificadores que fueron alimentados con los textos tras ser preprocesados. Ahora bien, si se requiere analizar más aspectos característicos de los textos, la reducción de los mismos por medio de estrategias de preprocesado, no resulta nada útil, lo cual es el caso de clasificación de este cuaderno, donde el estilo del autor se refleja en las estructuras que forma, las conjugaciones, conectores, adverbios y más palabras especificas que el mismo usa.

**¿El desbalance de las clases afecta el sistema de clasificación de documentos?** 
Efectivamente, como se observo en la sección **crear vector de matrices etiquetas para alimentar el clasificador SVM**, cuando se alimento el clasificador con las canciones enteras, sin división alguna, se observo una clasificación pésima, debido tanto al tamaño desigual entre canciones, como a la poca cantidad de muestras que estas representaban (52). Tras observar lo anterior, se decide dividir todas las frases de cada artista en grupos de 16 líneas, con el fin de: normalizar el tamaño de cada uno de los documentos (cada 16 líneas se considera ahora un documento aparte con su respectiva etiqueta), y aumentar la cantidad de documentos por artista.
Una vez realizado lo anterior, se obtuvieron resultados significativamente mejores, ya que antes de ello, las predicciones daban siempre una única clase, sin importar que perteneciera o no a esta.
**Nota**: Algunas líneas fueron eliminadas de cada uno de los artistas. Esto debido a que, al momento de dividir el número de líneas por cada uno de los artistas, quedaban unas cuantas que no completaban el grupo de líneas requeridas (16), por lo que se prefiere eliminarlas, ya que no aportarían información que se encontrase en las mismas condiciones que los textos restantes. No obstante, la cantidad por cada una de los textos eliminados no suponen sumas superiores a 15 líneas, frente a más o menos 1000 frases por cada uno de los raperos. 

**¿Cuál es el esquema de ponderado de términos que mejores resultados entrega? ¿A qué se debe esto?**

La ponderación local permite ajustar el peso de un termino al interior de un documento, frente a los términos restantes, es decir, dependerá del tamaño del texto la importancia que pueda tener la cantidad de veces que aparezca una palabra respecto al total de palabras. El efecto y los beneficios de la ponderación local, incrementan conforme la desigualdad en el tamaño de los documentos es mayor.

Por otro lado, como se concluyó en la sección **Análisis de los resultados observados por la clasificación por distancias coseno**, la ponderación global tiene una influencia positiva sobre aquellas tareas de clasificación que dependen en mayor grado de la temática manejada en el texto, ya que gracias a la ponderación global, se tiene en cuenta la carga semántica de las palabras al interior de un texto, donde una palabra que aparezca en una menor cantidad de pesos, deberá tener más peso frente a otras palabras que aparecen en un número importante de documentos. 

Aun así, en casos donde se trabaja con las colocaciones, se puede hacer uso del puntaje de información mutua, con el fin de eliminar aquellas colocaciones que por artista han sido poco utilizadas, con el fin de posteriormente poder aplicar un ponderado global, para que las colocaciones que aún se conservan para cada uno de los artistas, adquieran un mayor peso.

**¿Cuáles documentos no fueron bien clasificados? ¿Por qué razones?**

Los documentos que mostraron mayor complejidad para ser clasificados son aquellos que comparten mayor cantidad de términos o palabras, a pesar de usarse en contextos distintos. Por ejemplo la clasificación entre el rapero originario de España, vs los dos restantes (que pertenecen a Latinoamérica) fue la que mejores resultados arrojo, esto debido a que en gran medida las conjugaciones utilizadas por los españoles son distintas a las utilizadas por los latinos, incluyendo así mismo palabras que hacen parte de la jerga de cada cultura. 

**Características que demostraron mayor potencial de manera individual:**
De manera inicial, la clasificación basada en una bolsa de palabras, carente de preprocesamiento alguno, dio resultados similares al modelo entrenado por medio de bi-gramas, más sin embargo, dicha bolsa de palabras se reemplaza por los bi-gramas debido a que, en conjunto, estas dos características empeoran el rendimiento del clasificador, mientras que, los bi-gramas o las colocaciones, aportan más valor que las bolsas de palabras a la hora de entrenar los modelos de forma individual, ya que las métricas para evaluar el rendimiento del modelo, fueron superiores en el caso de la clasificación realizada por medio de estos últimos. 

Por otro lado, el análisis de estructuras sintácticas a partir de los bi-gramas de las etiquetas POS, también logro modelos con métricas similares a las obtenidas por medio del entrenamiento de colocaciones, con la ventaja de que estas estructuras sintácticas aportan una característica estilo métrica distinta.

**Características que mejor funcionaron de forma conjunta:**

Una vez generados todos los modelos con la unión de todas y cada una de las características, se evidencia un mejor resultado entre aquellas características estilo métricas que resaltan enfoques diferentes. Por ejemplo, los mejores resultados finalmente fueron logrados a partir de conectar los bi-gramas (o colocaciones) y las estructuras sintácticas a partir de bi-gramas.


# Conclusión:
A pesar de que no se logro un resultado excepcional, las diferentes pruebas con diferentes caracteristicas - caracteristicas cada vez más complejas - permitieron observar una mejora ostensible en las metricas arrojadas por cada uno de los modelos.

Cabe recalcar que el aumento del corpus tiene una relación directa con el performance de los modelos, por lo que el hecho de que los mismos finalmente hayan logrado mayores puntajes tanto de jaccard, como de f1 por medio de caracteristicas cada vez más profundas, reflejan el potencial de las mismas frente al estudio de estilos de autor. 

Ahora bien, al momento de precisar que características aportaron un mejor resultado, tanto de manera conjunta como individual, se deben mencionar los bi-gramas, y las estructuras sintácticas a partir de bi-gramas surgidos por medio de las etiquetas POS. Las primeras aportan colocaciones usuales utilizadas por cada uno de los raperos, las cuales pueden deberse a aspectos culturales, y sociales, mientras que las segundas, describen las estructuras a nivel de bi-grama mayormente utilizadas por cada uno de los artistas, lo que supone dos enfoques diferentes, que aportan distintos detalles a nivel de estilo de autor. 

Lo anterior se ratifica gracias a los resultados arrojados a raíz de unir características con enfoques similares, como por ejemplo aquellos modelos creados a partir de bigramas e index-term, los cuales arrojaron peores resultados de manera conjunta, que cada uno por individual; no solo no aportan enfoques distintos, sino que incluso atiborran los modelos de características redundantes, empeorando así el funcionamiento y la precisión final (esto mismo ocurrio cuando se equiparo a los bi-gramas, tanto de palabras como de etiquetas POS, los conteos de etiquetas POS).

Por otro lado, es pertinente no perder de vista el impacto que tuvo el generar batches de 16 lineas de las canciones de cada uno de los artistas, ya que esto tuvo dos aportes indispensables a la hora de entrenar los modelos:
* Mayor cantidad de muestras con las cuales alimentar el modelo.
* Un analísis más cercano de cada uno de los textos del autor.

En conclusión, aquellas características que logran aportar perspectivas distintas dentro de un escrito, son las que se complementan de manera óptima entre sí. Además, el normalizar el tamaño de los versos por autor, permite un análisis más exhaustivo y preciso de los documentos.

# Trabajo futuro: 
Para proyectos futuros que sigan la misma línea de estudio, se considera pertinente el utilizar modelos más robustos, como lo pueden ser técnicas de deep learning, con el fin de generar una identificación más certera de cada uno de los artistas. Claro está que el tamaño del corpus resulta indispensable, ya que esto aportaría una cantidad mayor de aspectos claves para determinar a qué autor pertenece una canción o un poema. Además, la ampliación de características puede resultar interesante, explorando otras características estilo métricas, como lo pueden ser las dependencias, y estructuras sintácticas de mayor envergadura.

# Bibliografia: 
- [1] https://www.mdpi.com/2076-3417/12/3/1674 "Determination of the Features of the Author’s Style of A.S. Pushkin’s Poems by Machine Learning Methods"
- [2] https://www.mdpi.com/2076-3417/11/18/8665 "Comparative Analysis of Reasoning in Russian Classic Poetry"