<a href="https://colab.research.google.com/github/lucasquemelli/nlp_introduction/blob/main/BERTopic.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Libraries

In [1]:
import requests
from bs4 import BeautifulSoup

In [2]:
import spacy


# Data Collection

## Webscraping

We used text collected from the Wikipedia website. The text is information about Data Science in Portuguese.

In [3]:
url = "https://pt.wikipedia.org/wiki/Ci%C3%AAncia_de_dados"

# Fazendo a requisição para a página
response = requests.get(url)

# Verificando se a requisição foi bem-sucedida (código 200)
if response.status_code == 200:
    # Parseando o conteúdo da página com BeautifulSoup
    soup = BeautifulSoup(response.text, 'html.parser')

    # Agora você pode procurar por elementos HTML e extrair informações
    # Vamos extrair o título da página como exemplo
    titulo_pagina = soup.title.text
    print(f"Título da página: {titulo_pagina}")

    # Também podemos extrair o texto do conteúdo principal da página
    conteudo_principal = soup.find('div', {'id': 'mw-content-text'})
    texto = conteudo_principal.get_text()
    print(texto)
else:
    print(f"A requisição falhou com o código de status {response.status_code}")


Título da página: Ciência de dados – Wikipédia, a enciclopédia livre
A ciência de dados (em inglês:  data science) é uma área interdisciplinar, que localiza-se em uma interface entre a estatística e a ciência da computação e utiliza o método científico; processos, algoritmos e sistemas, para extrair conhecimento e tomar decisões a partir de dados dos diversos tipos, sendo eles ruidosos, nebulosos, estruturados ou não-estruturados. Sendo assim uma área voltada para o estudo e a análise organizada de dados científicos e mercadológicos, financeiros, sociais, geográficos, históricos, biológicos, psicológicos, dentre muitos outros. Visa, desse modo, a extração de conhecimento, detecção de padrões e/ou obtenção de insights para possíveis tomadas de decisão. Ciência de dados enquanto campo existe há 30 anos, porém ganhou mais destaque nos últimos anos devido a alguns fatores como o surgimento e popularização de grandes bancos de dados e o desenvolvimento de áreas como machine learning. Cienti

## Tokenization

Here we begin the process of cleaning the text with the appropriate treatments in order to transform it into tokens.

In [4]:
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.7.0/pt_core_news_sm-3.7.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m41.7 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.7.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')


In [5]:
# definindo modelo de linguagem em português nível médio
nlp = spacy.load("pt_core_news_sm")

# Carregar o modelo de linguagem em português do spaCy
nlp = spacy.load('pt_core_news_sm')

# Aplicar o modelo ao texto
doc = nlp(texto)

# Inicializar a lista de tokens
tokens = []

# Iterar sobre os tokens no documento
for token in doc:
    # Verificar se o token é um verbo, é alfabético e não é uma stop word
    if token.pos_ == "VERB" and token.is_alpha and not token.is_stop:
        tokens.append(str.lower(token.lemma_))
    elif not token.pos_ == "VERB" and token.is_alpha and not token.is_stop:
        tokens.append(str.lower(token.text))

# Exibir os tokens resultantes
print(tokens)


['ciência', 'dados', 'inglês', 'data', 'science', 'interdisciplinar', 'interface', 'estatística', 'ciência', 'computação', 'utilizar', 'método', 'científico', 'processos', 'algoritmos', 'sistemas', 'extrair', 'conhecimento', 'tomar', 'decisões', 'dados', 'diversos', 'tipos', 'sendo', 'ruidosos', 'nebulosos', 'estruturar', 'ser', 'voltar', 'estudo', 'análise', 'organizar', 'dados', 'científicos', 'mercadológicos', 'financeiros', 'sociais', 'geográficos', 'históricos', 'biológicos', 'psicológicos', 'dentre', 'visa', 'modo', 'extração', 'conhecimento', 'detecção', 'padrões', 'obtenção', 'insights', 'possíveis', 'tomar', 'decisão', 'ciência', 'dados', 'campo', 'existir', 'há', 'anos', 'ganhar', 'destaque', 'últimos', 'anos', 'devido', 'fatores', 'surgimento', 'popularização', 'bancos', 'dados', 'desenvolvimento', 'áreas', 'machine', 'learning', 'cientistas', 'dados', 'trabalhar', 'setor', 'privado', 'transformar', 'quantidades', 'dados', 'brutos', 'insights', 'negócios', 'auxiliar', 'empre

In [6]:
len(tokens)

1119

# Modeling

## Installing model library

In [7]:
!pip install bertopic

Collecting bertopic
  Downloading bertopic-0.16.0-py2.py3-none-any.whl (154 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m154.1/154.1 kB[0m [31m4.4 MB/s[0m eta [36m0:00:00[0m
Collecting hdbscan>=0.8.29 (from bertopic)
  Downloading hdbscan-0.8.33.tar.gz (5.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.2/5.2 MB[0m [31m19.8 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Collecting umap-learn>=0.5.0 (from bertopic)
  Downloading umap-learn-0.5.5.tar.gz (90 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m90.9/90.9 kB[0m [31m13.5 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting sentence-transformers>=0.4.1 (from bertopic)
  Downloading sentence_transformers-2.3.1-py3-none-any.whl (132 kB)
[2K     [90m━━━━━

In [8]:
from bertopic import BERTopic

## Instantiate model

As we used the Wikipedia page in Portuguese, it was necessary to define the Portuguese language to instantiate the model. We also use a ready-made embedding_model instead of none at all to reduce model tuning time.

In [9]:
# instantiate model
topic_model = BERTopic(language="portuguese", embedding_model="all-MiniLM-L6-v2")

In [10]:
# fit and transform
topics, probs = topic_model.fit_transform(tokens)

modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/10.6k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

## Model Visualization

### Topics information

In [12]:
topics

[8,
 5,
 -1,
 3,
 16,
 6,
 6,
 29,
 8,
 14,
 11,
 0,
 9,
 -1,
 22,
 26,
 31,
 12,
 2,
 17,
 5,
 27,
 27,
 0,
 -1,
 -1,
 36,
 21,
 36,
 -1,
 35,
 18,
 5,
 9,
 -1,
 -1,
 21,
 22,
 -1,
 -1,
 -1,
 -1,
 -1,
 0,
 -1,
 12,
 -1,
 23,
 14,
 24,
 19,
 2,
 -1,
 8,
 5,
 -1,
 31,
 1,
 27,
 -1,
 17,
 22,
 27,
 -1,
 0,
 12,
 14,
 -1,
 5,
 17,
 -1,
 -1,
 24,
 9,
 5,
 -1,
 20,
 10,
 2,
 -1,
 5,
 32,
 24,
 -1,
 18,
 -1,
 2,
 17,
 31,
 11,
 -1,
 20,
 19,
 -1,
 33,
 -1,
 8,
 5,
 24,
 16,
 6,
 -1,
 33,
 17,
 0,
 18,
 24,
 9,
 -1,
 24,
 9,
 5,
 2,
 28,
 3,
 5,
 10,
 7,
 4,
 -1,
 2,
 4,
 4,
 4,
 -1,
 4,
 -1,
 -1,
 12,
 23,
 5,
 2,
 -1,
 -1,
 27,
 27,
 -1,
 -1,
 -1,
 33,
 12,
 -1,
 5,
 -1,
 -1,
 12,
 33,
 1,
 3,
 -1,
 35,
 31,
 3,
 5,
 9,
 11,
 33,
 8,
 5,
 2,
 0,
 28,
 6,
 2,
 32,
 8,
 19,
 7,
 7,
 -1,
 6,
 24,
 11,
 35,
 5,
 17,
 -1,
 -1,
 19,
 7,
 8,
 5,
 0,
 35,
 23,
 2,
 17,
 2,
 -1,
 30,
 8,
 5,
 31,
 -1,
 -1,
 6,
 22,
 -1,
 -1,
 -1,
 25,
 27,
 33,
 -1,
 8,
 5,
 29,
 9,
 -1,
 0,
 -1,
 2,
 8,
 5,
 16,
 1

In [13]:
probs

array([1.        , 1.        , 0.        , ..., 1.        , 0.96716372,
       0.        ])

With the command below, we understand the essence of model output. We see each topic/cluster, the number of tokens in each topic and its representation indicating the tokens that are contained in each topic/cluster.

     - The value -1 indicates outliers. Therefore, we have 289 outliers.

In [14]:
topic_model.get_topic_info()

Unnamed: 0,Topic,Count,Name,Representation,Representative_Docs
0,-1,279,-1_empresas_outubro_negócios_portal,"[empresas, outubro, negócios, portal, profissi...","[outubro, outubro, empresas]"
1,0,66,0_usuário_uso_fatores_silver,"[usuário, uso, fatores, silver, sendo, william...","[usuário, uso, usuário]"
2,1,50,1_the_of_in_big,"[the, of, in, big, and, to, what, gap, good, o...","[of, the, the]"
3,2,43,2_editar_transformar_tomar_mudar,"[editar, transformar, tomar, mudar, aumentar, ...","[editar, editar, editar]"
4,3,39,3_data_statistical_volume_analytics,"[data, statistical, volume, analytics, statist...","[data, data, data]"
5,4,35,4_sites_journal_social_facebook,"[sites, journal, social, facebook, pdf, mongod...","[journal, sites, journal]"
6,5,34,5_dados_contextos__,"[dados, contextos, , , , , , , , ]","[dados, dados, dados]"
7,6,30,6_business_principal_marketing_industry,"[business, principal, marketing, industry, man...","[business, business, business]"
8,7,30,7_aplicações_abril_acordo_aplicar,"[aplicações, abril, acordo, aplicar, ações, as...","[acordo, acordo, acordo]"
9,8,29,8_ciência_ciências_referências_,"[ciência, ciências, referências, , , , , , , ]","[ciência, ciência, ciência]"


In [15]:
topic_model.get_topic(0)

[('usuário', 0.1075965279150735),
 ('uso', 0.1075965279150735),
 ('fatores', 0.08305575830076367),
 ('silver', 0.08305575830076367),
 ('sendo', 0.08305575830076367),
 ('william', 0.08305575830076367),
 ('usar', 0.08305575830076367),
 ('maio', 0.08305575830076367),
 ('ramo', 0.08305575830076367),
 ('nate', 0.08305575830076367)]

In [16]:
topic_model.get_representative_docs(0)

['usuário', 'uso', 'usuário']

In [17]:
top = topic_model.get_topic_info()

In [18]:
for item in top.values:
    idTopico = item[0]
    contagem = item[1]
    conteudo = item[2]

    print("#########################")
    print("ID do tópico:", idTopico)
    print("Contagem do tópico:", contagem)
    print("Conteúdo do tópico:", conteudo)


#########################
ID do tópico: -1
Contagem do tópico: 279
Conteúdo do tópico: -1_empresas_outubro_negócios_portal
#########################
ID do tópico: 0
Contagem do tópico: 66
Conteúdo do tópico: 0_usuário_uso_fatores_silver
#########################
ID do tópico: 1
Contagem do tópico: 50
Conteúdo do tópico: 1_the_of_in_big
#########################
ID do tópico: 2
Contagem do tópico: 43
Conteúdo do tópico: 2_editar_transformar_tomar_mudar
#########################
ID do tópico: 3
Contagem do tópico: 39
Conteúdo do tópico: 3_data_statistical_volume_analytics
#########################
ID do tópico: 4
Contagem do tópico: 35
Conteúdo do tópico: 4_sites_journal_social_facebook
#########################
ID do tópico: 5
Contagem do tópico: 34
Conteúdo do tópico: 5_dados_contextos__
#########################
ID do tópico: 6
Contagem do tópico: 30
Conteúdo do tópico: 6_business_principal_marketing_industry
#########################
ID do tópico: 7
Contagem do tópico: 30
Conteúdo do

### Visualizations

#### 2D distance between topics/clusters

Below, the distance that the topics are between them in a 2D plane.

     The larger the circle, the larger the cluster in number of tokens.
     The closer the circles are to each other, the more semantically similar the words that make up the circles are.

In [21]:
topic_model.visualize_topics()

#### Bar chart of topics/clusters

Below, the topics grouped by bar.

In [19]:
topic_model.visualize_barchart()

#### Topic/cluster correlation matrix

I want to see the top 20 topics in a heatmap. This way, we can see the correlation between the topics.

In [26]:
topic_model.visualize_heatmap(top_n_topics=20)

#### Probability distribution

In [20]:
topic_model.visualize_distribution(probs)

#### Hierarchy

In [21]:
topic_model.visualize_hierarchy()

#### Term score

In [22]:
topic_model.visualize_term_rank()

# HTML

In [47]:
# # HTML com as células do código
# !jupyter nbconvert --execute --to html "/content/BERTopic.ipynb"