# Modelo no supervisado de clasificación de texto

## Introducción

En este notebook se presenta un modelo no supervisado de clasificación de texto. El modelo se basa en el uso de embeddings de palabras y clustering. Se utiliza el algoritmo de clustering KMeans para agrupar los textos en clusters. 



In [1]:
### Librerias necesarias Doc2Vec

import gensim
from gensim.models import Doc2Vec
from gensim.models.doc2vec import TaggedDocument

### Librerias necesarias para el preprocesamiento de texto
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import PorterStemmer

### Descargar stopwords
nltk.download('stopwords')
nltk.download('punkt')


### Otras librerias necesarias
import numpy as np
import pandas as pd
import re
import os

[nltk_data] Downloading package stopwords to /Users/sero/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /Users/sero/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


### 1.1 Modelo Doc2Vec

El modelo Doc2Vec es una extensión del modelo Word2Vec que agrega un vector adicional para cada documento en el corpus. Este vector adicional se entrena junto con los vectores de palabras y se utiliza para representar el contenido de un documento en un espacio vectorial. Esto permite comparar documentos y encontrar similitudes entre ellos. En este caso ocurre lo siguiente:

#### ¿Cómo funciona Doc2Vec?

Doc2Vec tiene dos enfoques principales:

1. **PV-DM (Distributed Memory):** Este modelo predice una palabra en el documento usando el contexto de palabras a su alrededor y un vector que representa al documento completo. En otras palabras:
   - Se toma un documento y se le asigna un vector único (el vector del documento).
   - Luego, junto con las palabras cercanas, este vector se usa para predecir una palabra en el documento.
   - Al entrenar el modelo, este vector se va ajustando para que capture mejor el significado del documento.

2. **PV-DBOW (Distributed Bag of Words):** Aquí se usa solo el vector del documento para predecir palabras al azar dentro del documento, sin tener en cuenta el contexto de palabras. Es más rápido, pero menos preciso.

En resumen, Doc2Vec es un modelo que entrena vectores para palabras y documentos al mismo tiempo. Estos vectores pueden ser usados luego para comparar documentos, encontrar similitudes entre ellos, o incluso para clasificarlos.

![Proceso doc2vec](../../Datos/Imágenes/doc2vec.png)


## 2. Cargar el texto

El dataset "es_tweets_laboral" de la colección "somosnlp-hackathon-2022" en Hugging Face está diseñado específicamente para el análisis de texto relacionado con temas laborales en español. Este dataset contiene tuits que abordan temas laborales, y es ideal para tareas de clasificación de texto, análisis de sentimientos, y otras aplicaciones de procesamiento de lenguaje natural (NLP) enfocadas en el ámbito laboral.

**Características del Dataset:**
- *Contenido*: Incluye tuits en español relacionados con temas laborales, como empleo, condiciones de trabajo, y derechos laborales.
- *Etiquetas*: Los tuits pueden estar etiquetados según el tema o el sentimiento, lo que facilita su uso en tareas de clasificación supervisada.
- *Aplicaciones*: Este dataset es útil para construir modelos que analicen la percepción de los usuarios sobre temas laborales, detectar tendencias en el mercado laboral, o identificar problemas comunes en el ámbito laboral.

El dataset es parte de un esfuerzo colaborativo durante el Hackathon de SomosNLP en 2022, que busca fomentar el desarrollo de tecnologías de procesamiento de lenguaje natural en español.



In [2]:
### Carga dataset desde huggingface

from datasets import load_dataset
import tqdm as notebook_tqdm
import re

# Cargando el dataset "es_tweets_laboral" desde Hugging Face
dataset = load_dataset("somosnlp-hackathon-2022/es_tweets_laboral")

# Explorando el contenido del dataset
print(dataset)


DatasetDict({
    train: Dataset({
        features: ['text', 'intent', 'entities'],
        num_rows: 184
    })
    test: Dataset({
        features: ['text', 'intent', 'entities'],
        num_rows: 47
    })
})


In [3]:
train = dataset['train']
test = dataset['test']

# Explorando el contenido de los datos de entrenamiento

train_df = train.to_pandas()
test_df = test.to_pandas()
print("Shape of train data: ", train_df.shape)
print("Shape of test data: ", test_df.shape)

train_df.head()

Shape of train data:  (184, 3)
Shape of test data:  (47, 3)


Unnamed: 0,text,intent,entities
0,"ni siquiera decir ""palabras sucias"" te hace me...",abuso_autoridad,"[{'value': 'mal jefe,', 'entity': 'denuncia'}]"
1,"un amigo de mi hermana le comentó, dudo mucho ...",salario_precario,"[{'value': 'nos maltratan con el salario', 'en..."
2,respecto a los salarios: todos merecemos un sa...,salario_precario,[{'value': 'salario que nos permita vivir dign...
3,@FOVISSSTEmx @fovissste Gracias por su atenció...,derechos_laborales,[{'value': 'no es un esquema que favorezca al ...
4,"docentes venezolanos, perciben salarios insufi...",salario_precario,"[{'value': 'perciben salarios insuficientes', ..."


In [4]:
test_df.head()

Unnamed: 0,text,intent,entities
0,#OficinaDeEnvigado #TrabajoPorHoras #AbusoLabo...,explotacion_laboral,"[{'value': '#AbusoLaboral', 'entity': 'denunci..."
1,@MarianaLaActriz Oiga no la he visto cotizar e...,acoso_laboral,"[{'value': 'acoso sexual', 'entity': 'denuncia..."
2,La Asociación de Rectores Universitarios exigi...,salario_precario,"[{'value': 'ajuste del incremento salarial', '..."
3,"15).-Venezuela. Gobierno. Rusia. Presenta, en ...",salario_precario,[{'value': 'índice relativamente bajo de desem...
4,Después que Maduro bajó el salario mínimo de $...,salario_precario,"[{'value': 'bajó el salario mínimo', 'entity':..."


## 3. Preprocesamiento

Empezamos por cargar el dataset y realizar un preprocesamiento básico de los textos. En este caso, se eliminan las menciones a usuarios, los enlaces, y los caracteres especiales. Además, se convierten los textos a minúsculas y se eliminan las stopwords.

In [5]:
########## Preprocesamiento de texto ###############

def preprocess_text(text):
    # Eliminando caracteres especiales y números
    text = re.sub(r'[^a-zA-ZáéíóúÁÉÍÓÚ\s]', '', text, re.I|re.A)
    # Convertir a minúsculas
    text = text.lower()
    # eliminando stopwords
    stop_words = set(stopwords.words('spanish'))
    word_tokens = word_tokenize(text)
    text = [i for i in word_tokens if not i in stop_words]
    text = ' '.join(text)
    return text

# Aplicando la función de preprocesamiento a los datos de entrenamiento y prueba

train_df['text_pre'] = train_df['text'].apply(preprocess_text)

test_df['text_pre'] = test_df['text'].apply(preprocess_text)

train_df.head()

Unnamed: 0,text,intent,entities,text_pre
0,"ni siquiera decir ""palabras sucias"" te hace me...",abuso_autoridad,"[{'value': 'mal jefe,', 'entity': 'denuncia'}]",siquiera decir palabras sucias hace menos prof...
1,"un amigo de mi hermana le comentó, dudo mucho ...",salario_precario,"[{'value': 'nos maltratan con el salario', 'en...",amigo hermana comentó dudo vuelva trabajar uni...
2,respecto a los salarios: todos merecemos un sa...,salario_precario,[{'value': 'salario que nos permita vivir dign...,respecto salarios merecemos salario permita vi...
3,@FOVISSSTEmx @fovissste Gracias por su atenció...,derechos_laborales,[{'value': 'no es un esquema que favorezca al ...,fovissstemx fovissste gracias atención desgrac...
4,"docentes venezolanos, perciben salarios insufi...",salario_precario,"[{'value': 'perciben salarios insuficientes', ...",docentes venezolanos perciben salarios insufic...


## 4. Modelo de Clasificación de Texto

Una vez que hemos preprocesado los textos, podemos aplicar un modelo de clasificación no supervisado para agruparlos en categorías o clusters. En este caso, utilizaremos el algoritmo de clustering KMeans para agrupar los textos en clusters. AUnque primero debemos convertir los textos en vectores numéricos utilizando embeddings de palabras.


In [6]:
################## Entrenamiento de Word2Vec ####################

# Tokenizando el texto

train_df['text_tokens'] = train_df['text_pre'].apply(lambda x: x.split())
test_df['text_tokens'] = test_df['text_pre'].apply(lambda x: x.split())

train_df.head()

Unnamed: 0,text,intent,entities,text_pre,text_tokens
0,"ni siquiera decir ""palabras sucias"" te hace me...",abuso_autoridad,"[{'value': 'mal jefe,', 'entity': 'denuncia'}]",siquiera decir palabras sucias hace menos prof...,"[siquiera, decir, palabras, sucias, hace, meno..."
1,"un amigo de mi hermana le comentó, dudo mucho ...",salario_precario,"[{'value': 'nos maltratan con el salario', 'en...",amigo hermana comentó dudo vuelva trabajar uni...,"[amigo, hermana, comentó, dudo, vuelva, trabaj..."
2,respecto a los salarios: todos merecemos un sa...,salario_precario,[{'value': 'salario que nos permita vivir dign...,respecto salarios merecemos salario permita vi...,"[respecto, salarios, merecemos, salario, permi..."
3,@FOVISSSTEmx @fovissste Gracias por su atenció...,derechos_laborales,[{'value': 'no es un esquema que favorezca al ...,fovissstemx fovissste gracias atención desgrac...,"[fovissstemx, fovissste, gracias, atención, de..."
4,"docentes venezolanos, perciben salarios insufi...",salario_precario,"[{'value': 'perciben salarios insuficientes', ...",docentes venezolanos perciben salarios insufic...,"[docentes, venezolanos, perciben, salarios, in..."


In [7]:
# Entrenando el modelo Doc2Vec

documents = [TaggedDocument(doc, [i]) for i, doc in enumerate(train_df['text_tokens'])]

# Definiendo el modelo Doc2Vec

model = Doc2Vec(documents, vector_size=100, window=2, min_count=1, workers=4)

# Guardando el modelo entrenado

model.save("doc2vec.model")


In [8]:
# Cargando el modelo entrenado

model = Doc2Vec.load("doc2vec.model")

# Obteniendo el vector de una palabra

model.wv['trabajo']

# Obteniendo las palabras más similares a una palabra

model.wv.most_similar('abuso')


[('tv', 0.3388918340206146),
 ('páginas', 0.33612701296806335),
 ('inspección', 0.3290232717990875),
 ('casa', 0.30751997232437134),
 ('gómezpalacios', 0.3025720715522766),
 ('interiorizado', 0.3020995855331421),
 ('fernand', 0.28665125370025635),
 ('cuantamugre', 0.28345754742622375),
 ('terminó', 0.27055150270462036),
 ('maldonado', 0.2618955671787262)]

In [9]:
# Obteniendo la similitud entre dos palabras

model.wv.similarity('trabajo', 'empleo')


0.10175322

In [10]:
#### Hacemos un clustering de los tweets con KMeans

from sklearn.cluster import KMeans

# Obteniendo los vectores de los tweets

vectors = [model.infer_vector(doc) for doc in train_df['text_tokens']]

# Definiendo el modelo KMeans

kmeans = KMeans(n_clusters=5, random_state=0)

# Entrenando el modelo KMeans

kmeans.fit(vectors)

# Obteniendo las etiquetas de los clusters

train_df['cluster'] = kmeans.labels_

# Explorando los clusters

train_df['cluster'].value_counts()



cluster
3    61
2    50
1    31
0    21
4    21
Name: count, dtype: int64

In [11]:
### Veamos los tweets de un cluster

pd.set_option('display.max_colwidth', None)

train_df[train_df['cluster'] == 0]['text'].head(10)

0                                 ni siquiera decir "palabras sucias" te hace menos profesional.lo que verdaderamente te quita profesionalismo es ser corrupto, mala gente, mal jefe, patán, la falta de compromiso, etc. eso sí afecta tu profesionalismo, no la manera en que lleves tu cabello o tu vida personal
1                                un amigo de mi hermana le comentó, dudo mucho que vuelva a trabajar en la universidad, me gusta lo que hago, pero nos maltratan con el salario y quiero formar una familia! qué gran verdad, todos los trabajadores somos maquievalicamente maltratados por este injusto gobierno!!
13                                                                                 @CarolinaPiparo Carolina...los trabajadores pagamos Ganancias ( MM dijo "ningún trabajador pagará, etc...) de n/sueldo en blanco. Estos son evasores, y fugadores. De paso devuelven la que se llevaron, guita que entró del FMI.
18                                                                  Se au

In [12]:
### Veamos el centroide de cada cluster

for i in range(5):
    print("Cluster ", i)
    print(model.wv.most_similar(positive=[kmeans.cluster_centers_[i]], topn=10))
    print("\n\n")

Cluster  0
[('salum', 0.3681280016899109), ('mortal', 0.31465664505958557), ('plantean', 0.31280219554901123), ('capaz', 0.31043264269828796), ('salario', 0.3078862130641937), ('sacando', 0.3050749897956848), ('vida', 0.3005218505859375), ('bajo', 0.29367339611053467), ('si', 0.29026374220848083), ('cuento', 0.2901109755039215)]



Cluster  1
[('si', 0.38502249121665955), ('sacando', 0.36337897181510925), ('explotada', 0.32770878076553345), ('diciendo', 0.3119906485080719), ('salario', 0.30475783348083496), ('hogar', 0.2944182753562927), ('vida', 0.29437094926834106), ('prohibidoolvidar', 0.28389671444892883), ('httpstcondhjiggsq', 0.283516526222229), ('además', 0.2834523618221283)]



Cluster  2
[('salario', 0.4218840003013611), ('si', 0.36491858959198), ('mortal', 0.3533870577812195), ('lucha', 0.33517539501190186), ('escuchada', 0.335084468126297), ('incendio', 0.31260403990745544), ('capaz', 0.30838945508003235), ('país', 0.3079666197299957), ('httpstcorpunorsx', 0.3077945709228515