# Topic Modeling con BERTopic

En este tutorial exploraremos c√≥mo usar BERTopic para crear temas a partir del conocido conjunto de datos 20Newsgroups. Discutiremos los casos de uso y los m√©todos m√°s frecuentes, junto con los par√°metros importantes a tener en cuenta.

## BERTopic
BERTopic es una t√©cnica de modelado de temas que aprovecha los transformers de ü§ó y una TF-IDF basada en clases personalizada para crear grupos densos que permiten obtener temas f√°cilmente interpretables y al mismo tiempo conservar palabras importantes en las descripciones de los temas.

<br>

<img src="https://raw.githubusercontent.com/MaartenGr/BERTopic/master/images/logo.png" width="40%">

# Habilitar la GPU

Primero, debes habilitar las GPU para el cuaderno:

- Navega a Editar‚ÜíConfiguraci√≥n del cuaderno
- selecciona GPU en el men√∫ desplegable Acelerador de hardware

[Referencia](https://colab.research.google.com/notebooks/gpu.ipynb)

# **Instalando BERTopic**

Comenzamos instalando BERTopic desde PyPi (para ejecutar en COLAB)

In [None]:
%%capture
!pip install bertopic

## Reiniciar el cuaderno
Despu√©s de instalar BERTopic, algunos paquetes que ya estaban cargados fueron actualizados y para usarlos correctamente, ahora debemos reiniciar el cuaderno.

Desde el men√∫:

Entorno de ejecuci√≥n ‚Üí Reiniciar entorno de ejecuci√≥n

# Datos
Para este ejemplo, utilizaremos el popular conjunto de datos "20 Newsgroups", que contiene aproximadamente 18000 publicaciones de grupos de noticias:
```
from sklearn.datasets import fetch_20newsgroups

docs = fetch_20newsgroups(subset='all', remove=('headers', 'footers', 'quotes'))['data']
```
(hemos cambiado los datos al conjunto de datos Lee en Gensim)

In [None]:
import requests

lee_data_url = 'https://www.dropbox.com/s/55pbyhi50gbvgtj/lee_background.cor?dl=1'


response = requests.get(lee_data_url)
data = response.text

docs = [d for d in data.split('\n')]
len(docs)

In [None]:
docs[0]

# **Topic Modeling**

En este ejemplo, repasaremos los componentes principales de BERTopic y los pasos necesarios para crear un modelo de temas s√≥lido.

## Entrenamiento

Comenzamos instanciando BERTopic. Establecemos el idioma en `english` ya que nuestros documentos est√°n en ingl√©s. Si deseas utilizar un modelo multiling√ºe, por favor usa `language="multilingual"` en su lugar.

Tambi√©n calcularemos las probabilidades de los temas. Sin embargo, esto puede ralentizar significativamente BERTopic cuando se trabaja con grandes cantidades de datos (>100_000 documentos). Se recomienda desactivarlo si deseas acelerar el modelo.

**NOTA**: Usa `language="multilingual"` para seleccionar un modelo que soporta 50+ lenguajes.

In [None]:
from bertopic import BERTopic
from sklearn.feature_extraction.text import CountVectorizer

topic_model = BERTopic(language="english", calculate_probabilities=True, verbose=True)

topics, probs = topic_model.fit_transform(docs)
#entrenamos y luego reducimos vocabulario
vectorizer_model = CountVectorizer(stop_words="english", ngram_range=(1, 2), min_df=0.5)
topic_model.update_topics(docs, vectorizer_model=vectorizer_model)

BERTopic calcula internamente la matriz TF-IDF de cada cluster para determinar los t√©rminos m√°s importantes.

In [None]:
topic_model.c_tf_idf_

In [None]:
#los t√©rminos de la matriz tf_idf est√°n en topic_model.vectorizer_model.get_feature_names_out()
import numpy as np

np.random.choice(topic_model.vectorizer_model.get_feature_names_out(), 5, replace=False)

In [None]:
topic_model.vectorizer_model

In [None]:
topic_model.topic_labels_

## Extracci√≥n de temas
Despu√©s de ajustar nuestro modelo, podemos comenzar a ver los resultados. Por lo general, comenzamos por examinar los temas m√°s frecuentes, ya que representan mejor la colecci√≥n de documentos.

In [None]:
freq = topic_model.get_topic_info(); freq.head(5)

El n√∫mero -1 se refiere a todos los valores at√≠picos y generalmente se deben ignorar. A continuaci√≥n, echemos un vistazo a un tema frecuente que se gener√≥:

In [None]:
topic_model.get_topic(0)  # Select the most frequent topic

**NOTA**: BERTopic es estoc√°stico, lo que significa que los temas pueden variar en diferentes ejecuciones. Esto se debe principalmente a la naturaleza estoc√°stica de UMAP.

## Atributos

Existen varios atributos a los que puedes acceder despu√©s de entrenar tu modelo de BERTopic:


| Atributo | Descripci√≥n |
|------------------------|---------------------------------------------------------------------------------------------|
| topics_               | Los temas que se generan para cada documento despu√©s de entrenar o actualizar el modelo de temas. |
| probabilities_ | Las probabilidades que se generan para cada documento si se utiliza HDBSCAN. |
| topic_sizes_           | El tama√±o de cada tema.                                                                      |
| topic_mapper_          | Una clase para realizar un seguimiento de los temas y sus mapeos cada vez que se fusionan/reducen.             |
| topic_representations_ | Las mejores *n* palabras por tema y sus respectivos valores c-TF-IDF.                             |
| c_tf_idf_              | La matriz de tema-t√©rmino calculada mediante c-TF-IDF.                                       |
| topic_labels_          | Las etiquetas predeterminadas para cada tema.                                                          |
| custom_labels_         | Etiquetas personalizadas para cada tema generadas mediante `.set_topic_labels`.                                                               |
| topic_embeddings_      | Las incrustaciones para cada tema si se utiliz√≥ `embedding_model`.                                                              |
| representative_docs_   | Los documentos representativos para cada tema si se utiliza HDBSCAN.                                                |

Por ejemplo, para acceder a los temas predichos para los primeros 10 documentos, simplemente ejecutamos lo siguiente:

In [None]:
topic_model.topics_[:10]

In [None]:
topic_model.topic_sizes_

In [None]:
topic_model.topic_labels_

# **Visualizaci√≥n**
Existen varias opciones de visualizaci√≥n disponibles en BERTopic, como la visualizaci√≥n de temas, probabilidades y temas a lo largo del tiempo. El modelado de temas es, hasta cierto punto, bastante subjetivo. Las visualizaciones ayudan a comprender los temas que se crearon.

## Visualizar temas
Despu√©s de haber entrenado nuestro modelo `BERTopic`, podemos iterativamente revisar quiz√°s cientos de temas para tener una buena comprensi√≥n de los temas que se extrajeron. Sin embargo, esto lleva bastante tiempo y carece de una representaci√≥n global. En cambio, podemos visualizar los temas que se generaron de manera muy similar a [LDAvis](https://github.com/cpsievert/LDAvis):

In [None]:
topic_model.visualize_topics()

## Visualizar las probabilidades de los temas

La variable `probabilities` que se devuelve de `transform()` o `fit_transform()` se puede utilizar para comprender qu√© tan seguro est√° BERTopic de que ciertos temas se encuentren en un documento.

Para visualizar las distribuciones, simplemente llamamos a:

In [None]:
topic_model.visualize_distribution(probs[1], min_probability=0.015)

## Visualizar la jerarqu√≠a de temas

Los temas que se crearon pueden ser reducidos jer√°rquicamente. Para comprender la estructura jer√°rquica potencial de los temas, podemos utilizar `scipy.cluster.hierarchy` para crear grupos y visualizar c√≥mo se relacionan entre s√≠. Esto puede ayudar a seleccionar un n√∫mero apropiado de temas al reducir la cantidad de temas que has creado.

In [None]:
topic_model.visualize_hierarchy(top_n_topics=50)

## Visualizar t√©rminos

Podemos visualizar los t√©rminos seleccionados para algunos temas mediante la creaci√≥n de gr√°ficos de barras a partir de los puntajes c-TF-IDF para cada representaci√≥n de tema. Podemos obtener informaci√≥n de los puntajes relativos de c-TF-IDF entre y dentro de los temas. Adem√°s, puedes comparar f√°cilmente las representaciones de los temas entre s√≠.

In [None]:
topic_model.visualize_barchart(top_n_topics=5)

In [None]:
vectorizer_model = CountVectorizer(stop_words="english", ngram_range=(1, 1), min_df=0.05)
topic_model.update_topics(docs, vectorizer_model=vectorizer_model)

In [None]:
topic_model.c_tf_idf_

In [None]:
topic_model.visualize_barchart(top_n_topics=5)

## Visualizar la similitud de temas

Habiendo generado incrustaciones de temas, tanto a trav√©s de c-TF-IDF como de incrustaciones, podemos crear una matriz de similitud simplemente aplicando similitudes coseno a trav√©s de esas incrustaciones de temas. El resultado ser√° una matriz que indica qu√© tan similares son ciertos temas entre s√≠.

In [None]:
topic_model.visualize_heatmap(n_clusters=5, width=500, height=500)

## Visualizar la disminuci√≥n del puntaje de t√©rminos

Los temas est√°n representados por una serie de palabras que comienzan con la mejor palabra representativa. Cada palabra est√° representada por un puntaje c-TF-IDF. Cuanto mayor sea el puntaje, m√°s representativa ser√° la palabra para el tema. Dado que las palabras del tema est√°n ordenadas seg√∫n su puntaje c-TF-IDF, los puntajes disminuyen lentamente a medida que se agregan palabras. En alg√∫n momento, agregar palabras a la representaci√≥n del tema solo aumenta marginalmente el puntaje total de c-TF-IDF y no ser√≠a beneficioso para su representaci√≥n.

Para visualizar este efecto, podemos trazar los puntajes c-TF-IDF para cada tema seg√∫n el rango de t√©rminos de cada palabra. En otras palabras, la posici√≥n de las palabras (rango de t√©rminos), donde las palabras con el puntaje c-TF-IDF m√°s alto tendr√°n un rango de 1, se colocar√°n en el eje x. Mientras que el eje y estar√° poblado por los puntajes c-TF-IDF. El resultado es una visualizaci√≥n que muestra la disminuci√≥n del puntaje c-TF-IDF al agregar palabras a la representaci√≥n del tema. Esto te permite, utilizando el m√©todo del codo, seleccionar el mejor n√∫mero de palabras en un tema.

In [None]:
topic_model.visualize_term_rank()

# **Representaci√≥n de temas**
Despu√©s de haber creado el modelo de temas, es posible que no est√©s satisfecho con algunos de los par√°metros que has elegido. Afortunadamente, BERTopic te permite actualizar los temas despu√©s de haber sido creados.

Esto te permite ajustar el modelo seg√∫n tus especificaciones y deseos.

## Actualizar temas
Cuando hayas entrenado un modelo y hayas visto los temas y las palabras que los representan, es posible que no est√©s satisfecho con la representaci√≥n. Tal vez olvidaste eliminar las palabras vac√≠as (stopwords) o quieres probar un rango de n-gramas diferente. Podemos usar la funci√≥n `update_topics` para actualizar la representaci√≥n de los temas con nuevos par√°metros para `c-TF-IDF`:

In [None]:
vectorizer_model = CountVectorizer(stop_words="english", ngram_range=(1, 2), max_df=0.7)
topic_model.update_topics(docs, vectorizer_model=vectorizer_model)


In [None]:
topic_model.get_topic(0)   # We select topic that we viewed before

In [None]:
topic_model.c_tf_idf_

## Reducci√≥n de temas
Tambi√©n podemos reducir el n√∫mero de temas despu√©s de haber entrenado un modelo de BERTopic. La ventaja de hacer esto es que puedes decidir el n√∫mero de temas despu√©s de saber cu√°ntos se crean en realidad. Es dif√≠cil predecir antes de entrenar tu modelo cu√°ntos temas hay en tus documentos y cu√°ntos se extraer√°n. En cambio, podemos decidir despu√©s cu√°ntos temas parecen realistas:

In [None]:
topic_model.reduce_topics(docs, nr_topics=60)

In [None]:
# Access the newly updated topics with:
print(topic_model.topics_)

# **Buscar temas**
Despu√©s de haber entrenado nuestro modelo, podemos usar `find_topics` para buscar temas que sean similares a un t√©rmino de b√∫squeda de entrada. Aqu√≠, vamos a buscar temas que se relacionen estrechamente con el t√©rmino de b√∫squeda "veh√≠culo". Luego, extraemos el tema m√°s similar y verificamos los resultados:

In [None]:
similar_topics, similarity = topic_model.find_topics("fire", top_n=5); similar_topics

In [None]:
topic_model.get_topic(7)

# **Modelos de embeddings**
El par√°metro `embedding_model` recibe una cadena que apunta a un modelo de Sentence-Transformers, un SentenceTransformer o un modelo de embeddings de documentos de Flair.

## Sentence-Transformers
Puedes seleccionar cualquier modelo de sentence-transformers aqu√≠ y pasarlo a trav√©s de BERTopic con `embedding_model`:



In [None]:
topic_model = BERTopic(embedding_model="xlm-r-bert-base-nli-stsb-mean-tokens")

O selecciona un modelo de SentenceTransformer con tus propios par√°metros:

In [None]:
from sentence_transformers import SentenceTransformer

sentence_model = SentenceTransformer("distilbert-base-nli-mean-tokens", device="cpu")
topic_model = BERTopic(embedding_model=sentence_model, verbose=True)

Haz clic [aqu√≠](https://www.sbert.net/docs/pretrained_models.html) para obtener una lista de los modelos de sentence transformers admitidos.

In [None]:
topics, probs = topic_model.fit_transform(docs)


In [None]:
vectorizer_model = CountVectorizer(stop_words="english", ngram_range=(1, 2), max_df=0.7)
topic_model.update_topics(docs, vectorizer_model=vectorizer_model)

In [None]:
topic_model.get_topics()

In [None]:
topic_model.visualize_barchart(top_n_topics=5)