# Trabajo Práctico NLP: Detección de Tópicos y Clasificación

**Mariela Iaccarino**

Certificación Experta en NLP - ITBA

Con este código se realiza la detección de tópicos en textos  entrenando modelos de tópicos diariamente con BERTopic, y luego fusionando estos modelos en un único modelo combinado. Los tópicos resultantes se almacenan en OpenSearch, lo que permite realizar búsquedas y clasificaciones eficientes de nuevos documentos, incluyendo la extracción de entidades y análisis de sentimiento. El proceso facilita el análisis y agrupamiento de grandes volúmenes de texto a lo largo del tiempo.

Las diferencias clave entre el código anterior "TP_NLP_2_ProcesamientoDiario" radican en el enfoque del procesamiento diario de tópicos, la comparación entre días, la generación de nuevos tópicos, y el almacenamiento en la base de datos.

Aquí están las principales diferencias:

**Flujo de Procesamiento:**

*TP_NLP_2_ProcesamientoDiario:* Tiene un enfoque iterativo y dinámico. Primero, entrena el modelo de tópicos solo con los datos del primer día, guarda estos tópicos en la base de datos, y luego, para cada día siguiente, compara los nuevos tópicos con los existentes para decidir si debe crear nuevos tópicos o fusionarlos con los existentes.

*TP_NLP_3_MergeModels:* Se enfoca en entrenar modelos de tópicos diariamente y luego fusionar esos modelos en un solo modelo combinado. Después de la fusión, se almacenan los embeddings de los tópicos en OpenSearch.

**Comparación entre Días:**

*TP_NLP_2_ProcesamientoDiario:* Compara los tópicos de cada día con los tópicos existentes en la base de datos y decide si fusionarlos o crear un nuevo tópico. Esto evita la proliferación de tópicos redundantes.

*TP_NLP_3_MergeModels:* No compara los tópicos generados en diferentes días antes de fusionarlos; simplemente los fusiona al final del procesamiento diario.

**Almacenamiento y Fusión de Tópicos:**

*TP_NLP_2_ProcesamientoDiario:* Los tópicos se almacenan inmediatamente después de ser procesados y, si un nuevo tópico es similar a uno existente, se fusionan antes de almacenarse. La fusión se realiza sobre la marcha en lugar de al final del procesamiento diario.

*TP_NLP_3_MergeModels:* Los tópicos de cada día se fusionan en un modelo combinado final, y este modelo fusionado es el que se almacena en OpenSearch.

**Generación de Nuevos Tópicos:**

*TP_NLP_2_ProcesamientoDiario:* Decide si un nuevo tópico debe ser creado o fusionado con uno existente antes de almacenarlo, lo que permite una evaluación más dinámica y precisa de los tópicos día a día.

*TP_NLP_3_MergeModels:* Genera nuevos tópicos basados en la probabilidad y la similitud entre los documentos al final del proceso.

## 1. Configuración y Carga de Datos
1.1 Importación de librerías necesarias:

In [1]:
!pip install datasets umap-learn chromadb hdbscan sentence_transformers BERTopic matplotlib opensearch-py==2.3.0




In [2]:
from datasets import load_dataset
import pandas as pd
from umap import UMAP
from hdbscan import HDBSCAN
from sentence_transformers import SentenceTransformer
from sklearn.feature_extraction.text import CountVectorizer

from bertopic import BERTopic
from bertopic.representation import KeyBERTInspired
from bertopic.vectorizers import ClassTfidfTransformer
from datetime import datetime
from transformers import pipeline

from sklearn.metrics.pairwise import cosine_similarity
from opensearch_data_model import Topic, TopicKeyword, os_client
from datetime import datetime
from dateutil.parser import parse
from utils import SPANISH_STOPWORDS
import numpy as np
import matplotlib.pyplot as plt

import urllib3
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
import warnings
warnings.filterwarnings("ignore", category=urllib3.exceptions.InsecureRequestWarning)

  from .autonotebook import tqdm as notebook_tqdm


1.2 Funciones

In [3]:
def topic_threshold(topic_id, topic_model, probs):
    try:
        docs_per_topics =  [i for i, x in enumerate(topic_model.topics_) if x== topic_id    ]
        return np.array(  [probs[doc_idx] for doc_idx in docs_per_topics  ]).mean() 
    except:
        return 0


In [4]:
def delete_index_opensearch(index_name: str) -> bool:

    try:
        # Consulta para eliminar todos los documentos
        delete_query = {
                        "query": {
                        "match_all": {}
                        }
        }

        # Ejecutar la operación de borrado por consulta
        response = os_client.delete_by_query(index=index_name, body=delete_query)

        return True

    except Exception as e:
        print(f"Ha ocurrido un error: {e}")
        return

In [5]:


def topic_threshold(topic_id, merged_model_final, probs):
    try:
        # Obtener los documentos asociados con el topic_id en el modelo fusionado
        docs_per_topic = [i for i, x in enumerate(merged_model_final.topics_) if x == topic_id]
        
        # Calcular el umbral de probabilidad como el promedio de probabilidades para los documentos del tópico
        return np.array([probs[doc_idx] for doc_idx in docs_per_topic]).mean()
    except:
        return 0

In [6]:
def get_topic_name(keywords):
    return ', '.join([k for k, s in keywords[:4]])

In [7]:

# Configuración de pipelines para NER y análisis de sentimiento
ner_pipeline = pipeline('ner', model='dbmdz/bert-large-cased-finetuned-conll03-english')
sentiment_pipeline = pipeline('sentiment-analysis', model='distilbert-base-uncased-finetuned-sst-2-english')

# Función para extracción de entidades
def extract_entities(text):
    entities = ner_pipeline(text)
    return [entity['word'] for entity in entities]

# Función para análisis de sentimiento
def analyze_sentiment(text):
    sentiment = sentiment_pipeline(text)
    return sentiment[0]


Some weights of the model checkpoint at dbmdz/bert-large-cased-finetuned-conll03-english were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [8]:
Topic.init()

1.3 Carga y preparación de datos:

Se carga un conjunto de datos de noticias de 5 días y se le agrega un campo de fecha.

In [9]:

# Función para agregar un campo fecha a un dataset
def add_fecha_field(dataset, fecha):
    df = pd.DataFrame(dataset['train'])
    df['date'] = fecha
    return df

# Cargar datasets y agregar el campo fecha
datasets = [
    ("jganzabalseenka/news_2024-07-01_24hs", '2024-07-01'),
    ("jganzabalseenka/news_2024-07-12_24hs", '2024-07-12'),
    ("jganzabalseenka/news_2024-07-14_24hs", '2024-07-14'),
    ("jganzabalseenka/news_2024-07-16_24hs", '2024-07-16'),
    ("jganzabalseenka/news_2024-07-19_24hs", '2024-07-19')
    
]


df_list = [add_fecha_field(load_dataset(ds[0]), ds[1]) for ds in datasets]
df = pd.concat(df_list, ignore_index=True)

# Seleccionar una muestra de 1000 textos por día
df_sample = df.groupby('date').apply(lambda x: x.sample(min(len(x), 10000))).reset_index(drop=True)



In [10]:
# Mostrar una muestra del dataset
df[['title', 'text', 'date']].head()


Unnamed: 0,title,text,date
0,"Domingo, 30 de junio de 2024 (24:00 GMT)","30 Jun, 2024 Por Newsroom Infobae Nuevo FRANC...",2024-07-01
1,"Encontraron un golpe, dos pelos y manchas roja...","1 Jul, 2024 Por Federico Fahsbender Nuevo En ...",2024-07-01
2,Las cinco enfermedades por las que se ha conce...,"1 Jul, 2024 Por Diego Mariño Nuevo La pensión...",2024-07-01
3,"Así fue el espectacular cumpleaños de Vida, la...","30 Jun, 2024 Nuevo La creatividad fluye por la...",2024-07-01
4,Clima en Madrid: conoce el pronóstico y prepár...,"1 Jul, 2024 Por Infobae Noticias Nuevo Los pr...",2024-07-01


1.4 Configuración del Modelo de Embeddings y Otros Modelos:

In [11]:

# Configuración del modelo de embeddings
embedding_model = SentenceTransformer("all-MiniLM-L6-v2")

# Configuración de UMAP para reducción de dimensionalidad
umap_model = UMAP(n_neighbors=15, n_components=5, min_dist=0.0, metric='cosine')

# Configuración de HDBSCAN para clustering
hdbscan_model = HDBSCAN(min_cluster_size=15, metric='euclidean', cluster_selection_method='eom', prediction_data=True)



## 2. Procesamiento y Detección de Tópicos Diarios

Entrenamiento Diario: 

Para cada día de datos, se entrena un modelo de detección de tópicos utilizando BERTopic. Este proceso implica generar embeddings para los textos y luego aplicar UMAP para reducir la dimensionalidad y HDBSCAN para agrupar los textos en tópicos.

In [12]:



# Entrenar el modelo de tópicos para cada día
def train_topic_model_for_day(df_day):
    texts = df_day['text'].tolist()
    entities = set(sum(list([list(e) for e in df_day['entities_transformers'].values]), []))
    keywords = set(sum(list([list(e) for e in df_day['keywords'].values]), []))
    all_tokens = list(entities.union(keywords))
# Configurar el vectorizador
    tf_vectorizer = CountVectorizer(
        max_df=0.9,
        min_df=0.1,
        ngram_range=(1, 3),
        stop_words=SPANISH_STOPWORDS,
        lowercase=False,
        vocabulary=all_tokens,)
    
    topic_model = BERTopic(
    embedding_model=embedding_model,
    umap_model=umap_model,
    hdbscan_model=hdbscan_model,
    vectorizer_model=tf_vectorizer,
    ctfidf_model=ClassTfidfTransformer(),
    representation_model=KeyBERTInspired(),
    language='spanish'
)
    topics, probs = topic_model.fit_transform(texts)
    df_day['topic'] = topics
    df_day['probs'] = probs
    return df_day, topic_model

# Separar el dataframe por día y entrenar el modelo
df_day_1 = df[df['date'] == '2024-07-01']
df_day_2 = df[df['date'] == '2024-07-12']
df_day_3 = df[df['date'] == '2024-07-14']
df_day_4 = df[df['date'] == '2024-07-16']
df_day_5 = df[df['date'] == '2024-07-19']

df_day_1, topic_model_1 = train_topic_model_for_day(df_day_1)
df_day_2, topic_model_2 = train_topic_model_for_day(df_day_2)
df_day_3, topic_model_3 = train_topic_model_for_day(df_day_3)
df_day_4, topic_model_4 = train_topic_model_for_day(df_day_4)
df_day_5, topic_model_5 = train_topic_model_for_day(df_day_5)



  idf = np.log((avg_nr_samples / df) + 1)
huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabli

In [13]:
df_day_1[['title', 'topic', 'probs']].head()

Unnamed: 0,title,topic,probs
0,"Domingo, 30 de junio de 2024 (24:00 GMT)",3,0.585768
1,"Encontraron un golpe, dos pelos y manchas roja...",84,0.871173
2,Las cinco enfermedades por las que se ha conce...,-1,0.0
3,"Así fue el espectacular cumpleaños de Vida, la...",-1,0.0
4,Clima en Madrid: conoce el pronóstico y prepár...,-1,0.0


In [14]:
df_day_2[['title', 'topic', 'probs']].head()

Unnamed: 0,title,topic,probs
16025,De las quemaduras al melanoma: estos son los p...,89,0.790974
16026,Guillermo Varela recibió la roja en el pospart...,36,0.606102
16027,Martín de la Puente opta a ser primer español ...,20,0.713434
16028,El bonito pueblo de Asturias que fue la primer...,-1,0.0
16029,China usaría a Perú como su 'chacra': financia...,56,0.693983


In [15]:
df_day_3[['title', 'topic', 'probs']].head()

Unnamed: 0,title,topic,probs
33868,"Andy Samberg reveló que ""Saturday Night Live"" ...",-1,0.0
33869,A qué hora juegan Argentina vs Colombia HOY en...,2,1.0
33870,Organismo de transparencia de México indaga ha...,-1,0.0
33871,Josepmir Ballón aconsejó a Paolo Guerrero tras...,-1,0.0
33872,La líder del opositor Partido de los Trabajado...,10,0.460167


In [16]:
df_day_4[['title', 'topic', 'probs']].head()

Unnamed: 0,title,topic,probs
41053,ATU responde al Metropolitano y afirma descono...,115,0.445518
41054,"Kevin Serna, preparado para sumarse a Fluminen...",-1,0.0
41055,La acusación popular solicita al juez Peinado ...,2,1.0
41056,La ola de detenciones de opositores marca la c...,2,0.7674
41057,Incautaron 200 piezas de armas de grueso calib...,35,0.410993


In [17]:
df_day_5[['title', 'topic', 'probs']].head()

Unnamed: 0,title,topic,probs
58336,"El día de las ""pantallas azules de la muerte"":...",1,1.0
58337,Boluarte seguirá siendo investigada por 'Rolex...,37,0.120997
58338,"""Esto es una venganza, hay una interna familia...",-1,0.0
58339,Escándalo en Ecuador: Independiente del Valle ...,-1,0.0
58340,El tango con el que Cacho Castaña rebautizó a ...,-1,0.0


### 3. Fusión de Modelos 

Fusión de Modelos: Después de entrenar los modelos diarios, se fusionan para crear un modelo combinado que pueda identificar y agrupar tópicos similares a lo largo de múltiples días.


In [18]:

# Fusionar los modelos
merged_model = BERTopic.merge_models([topic_model_1, topic_model_2])
merged_model_2 = BERTopic.merge_models([merged_model, topic_model_3])
merged_model_3 = BERTopic.merge_models([merged_model_2, topic_model_4])
merged_model_final = BERTopic.merge_models([merged_model_3, topic_model_5])


In [19]:
len(merged_model_final.get_topic_info())

197

In [20]:
merged_model_final.get_topic_info().tail(5)

Unnamed: 0,Topic,Count,Name,Representation,Representative_Docs
192,191,16,191_formación deportiva_distintos espacios_esp...,"[formación deportiva, distintos espacios, espa...",
193,192,16,192_promociones especiales_económico_contexto ...,"[promociones especiales, económico, contexto e...",
194,193,52,193_Shannen Doherty_Doherty_Leslie Sloane_Sloane,"[Shannen Doherty, Doherty, Leslie Sloane, Sloa...",
195,194,17,194_privacidad_Interior_La Voz_consultas,"[privacidad, Interior, La Voz, consultas, Hugo...",
196,195,33,195_julio_2020_Nacionales_Rosario Finanzas,"[julio, 2020, Nacionales, Rosario Finanzas, de...",


### 4. Almacenamiento en OpenSearch

Almacenamos los embeddings de los tópicos en OpenSearch y verificamos el almacenamiento:

In [21]:
delete_index_opensearch("topic")

Ha ocurrido un error: ConnectionTimeout caused by - ReadTimeoutError(HTTPSConnectionPool(host='localhost', port=9200): Read timed out. (read timeout=10))


In [22]:

# Concatenar los DataFrames
df_combined = pd.concat([df_day_1, df_day_2,df_day_3, df_day_4,df_day_5])

# Obtener la fecha mínima y máxima
min_date = df_combined['date'].min()
max_date = df_combined['date'].max()

# Mostrar resultados
print(f"Fecha mínima: {min_date}")
print(f"Fecha máxima: {max_date}")

Fecha mínima: 2024-07-01
Fecha máxima: 2024-07-19


In [23]:
texts = df_combined['text'].tolist()

In [24]:
docs, probs = merged_model_final.transform(texts)

In [25]:

# Obtener embeddings de los tópicos

# Calcular la similitud de coseno entre los tópicos del modelo fusionado
embedings = merged_model_final.embedding_model.embed(texts)
sim_matrix = cosine_similarity(
    merged_model_final.topic_embeddings_,
    embedings
)

Almacenamiento en OpenSearch
Guardar Tópicos: Los embeddings de los tópicos detectados y fusionados se almacenan en OpenSearch. Esto permite realizar búsquedas rápidas y eficientes sobre los tópicos utilizando la búsqueda vectorial.

In [26]:
for topic in merged_model_final.get_topics().keys():
    if topic > -1:
        print(topic)
        keywords = merged_model_final.topic_representations_[topic]
        topic_keywords = [TopicKeyword(name=k, score=s) for k, s in keywords]
        threshold = topic_threshold(topic, merged_model_final, probs)

        # Check to ensure topic + 1 is within bounds of sim_matrix
        if topic + 1 < len(sim_matrix):
            best_doc_index = sim_matrix[topic + 1].argmax()
            best_doc = df_combined.iloc[best_doc_index].text

            topic_doc = Topic(
                vector=list(merged_model_final.topic_embeddings_[topic + 1]),
                similarity_threshold=threshold,
                created_at=datetime.now(),
                to_date=parse(max_date),
                from_date=parse(min_date),
                index=topic,
                keywords=topic_keywords,
                name=get_topic_name(keywords),
                best_doc=best_doc
            )

            print(topic_doc.save())
        else:
            print(f"Index {topic + 1} out of bounds for sim_matrix with size {len(sim_matrix)}")


0
created
1
created
2
created
3
created
4
created
5
created
6
created
7
created
8
created
9
created
10
created
11
created
12
created
13
created
14
created
15
created
16
created
17
created
18
created
19
created
20
created
21
created
22
created
23
created
24
created
25
created
26
created
27
created
28
created
29
created
30
created
31
created
32
created
33
created
34
created
35
created
36
created
37
created
38
created
39
created
40
created
41
created
42
created
43
created
44
created
45
created
46
created
47
created
48
created
49
created
50
created
51
created
52
created
53
created
54
created
55
created
56
created
57
created
58
created
59
created
60
created
61
created
62
created
63
created
64
created
65
created
66
created
67
created
68
created
69
created
70
created
71
created
72
created
73
created
74
created
75
created
76
created
77
created
78
created
79
created
80
created
81
created
82
created
83
created
84
created
85
created
86
created
87
created
88
created
89
created
90
created
91
create

### 5. Clasificación de Nuevos Documentos

Clasificación de Textos Nuevos: Para clasificar un nuevo texto, se generan embeddings del texto y se compara con los embeddings almacenados en OpenSearch para encontrar el tópico más similar. Además, se extraen entidades y se realiza un análisis de sentimiento.

In [27]:
Topic.search().count()

196

Inferencia

Finalmente, clasificamos un nuevo texto en los tópicos existentes y extraemos las entidades, keywords y realizamos análisis de sentimiento utilizando pipelines de Hugging Face:

In [28]:
def classify_text(title, text):
    # Combinar título y texto
    combined_text = title + " " + text
    
    # Generar embeddings del texto combinado
    new_embed = embedding_model.encode([combined_text])  
    
    # Construir la consulta KNN para OpenSearch
    query = {
        "size": 5,
        "query": {
            "knn": {
                "vector": {
                    "vector": new_embed[0].tolist(),
                    "k": 1000
                }
            }
        }
    }
    
    # Ejecutar la búsqueda en OpenSearch
    response = os_client.search(index='topic', body=query)
    
    # Verificar si se encontraron resultados
    if response['hits']['hits']:
        # Obtener la información del tópico más cercano
        topic_id = response['hits']['hits'][0]['_id']
        keywords = response['hits']['hits'][0]['_source']['keywords']
        name = response['hits']['hits'][0]['_source']['name']  # Obtener el nombre del tópico
        best_doc = response['hits']['hits'][0]['_source']['best_doc']  # Obtener el mejor documento
        
        # Extraer entidades y análisis de sentimiento
        entities = extract_entities(combined_text)
        sentiment = analyze_sentiment(combined_text)
        
        # Devolver los resultados
        return topic_id, name, keywords, best_doc, entities, sentiment
    
    # Si no se encuentra ningún resultado, devolver None
    return None, None, None, None, None, None


# Ejemplo de clasificación
new_title = "Argentina Campeon"
new_text = "Termino la copa America y Argentina salio campeon"
topic_id, name, keywords, best_doc, entities, sentiment = classify_text(new_title, new_text)
print(f"Tópico: {topic_id}, Nombre: {name}, Keywords: {keywords}, Best Doc: {best_doc}, Entidades: {entities}, Sentimiento: {sentiment}")

Tópico: 28_Argentina_Ecuador,_Estados_Unidos,_Selección_Argentina,_Selección_argentina, Nombre: Argentina Ecuador, Estados Unidos, Selección Argentina, Selección argentina, Keywords: [{'name': 'Argentina Ecuador', 'score': 0.5752172470092773}, {'name': 'Estados Unidos', 'score': 0.5319218635559082}, {'name': 'Selección Argentina', 'score': 0.5267184972763062}, {'name': 'Selección argentina', 'score': 0.5267184972763062}, {'name': 'elenco sudamericano', 'score': 0.4912717938423157}, {'name': 'Estados', 'score': 0.46807193756103516}, {'name': 'Ecuador', 'score': 0.4515247941017151}, {'name': 'Colombia', 'score': 0.44594353437423706}, {'name': 'Argentina', 'score': 0.4335523843765259}, {'name': 'argentina', 'score': 0.4335523843765259}], Best Doc: Después de la victoria de la Selección Argentina por 2 a 0 a Perú el sábado que le permitió clasificarse a los cuartos de final como primero del grupo A, la Albiceleste ya sabía que enfrentaría al segundo del B, zona que se definió este domingo 

In [32]:
new_doc = "Termino la copa America y Argentina salio campeon"

new_doc_embed = merged_model_final.embedding_model.embed(new_doc)
# %%
new_doc_embed.shape
# %%
query = {
    "size": 5,
    "query": {
        "knn": {
        "vector": {
            "vector": list(new_doc_embed),
            "k" : 1000
        }
        }
    }
}

In [33]:
response = os_client.search(index='topic', body=query)
df_hits = pd.DataFrame(response['hits']['hits'])
winning_topic = Topic.get(df_hits.iloc[0]._id)
winning_topic.to_dict()

{'vector': [0.006594548933207989,
  -0.005314750596880913,
  -0.009479755535721779,
  -0.0587519109249115,
  0.019448816776275635,
  0.021108094602823257,
  -0.013067275285720825,
  0.030273329466581345,
  0.01625511795282364,
  0.06247052550315857,
  -0.010957061313092709,
  -0.01951008290052414,
  -0.016442282125353813,
  -0.012081317603588104,
  0.05383506789803505,
  -0.01787150278687477,
  -0.08403657376766205,
  -0.03343706578016281,
  0.016158046200871468,
  0.00477356044575572,
  0.13138847053050995,
  -0.06377695500850677,
  -0.09493201971054077,
  0.05591892451047897,
  -0.06026830896735191,
  -0.00029407787951640785,
  -0.02219163253903389,
  0.007861596532166004,
  -0.0692497044801712,
  -0.04561888426542282,
  -0.030020587146282196,
  0.006395361386239529,
  0.05233905464410782,
  0.019911587238311768,
  -0.015559965744614601,
  -0.032992858439683914,
  0.02408270165324211,
  -0.08977442234754562,
  -0.0018837129464372993,
  0.030781300738453865,
  -0.053896214812994,
  0.