# Descrição

Não é necessário utilizar a GPU, a execução é rápida.

Este notebook baixa as 269 emendas do tipo CCJ anotadas pelo consultor. Utiliza-se:

- a versão supervisionada do BERTopic, que possui um classificador, que é alimentado pela representação do texto através de embeddings;

- o texto **completo** da emenda, sem nenhum tipo de pré processamento ou segmentação

- os tópicos anotados pelo consultor são passados como 'target' para o modelo


# Instalações

In [1]:
!pip install -U sentence-transformers

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting sentence-transformers
  Downloading sentence-transformers-2.2.2.tar.gz (85 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m86.0/86.0 KB[0m [31m2.7 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting transformers<5.0.0,>=4.6.0
  Downloading transformers-4.27.4-py3-none-any.whl (6.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.8/6.8 MB[0m [31m49.5 MB/s[0m eta [36m0:00:00[0m
Collecting sentencepiece
  Downloading sentencepiece-0.1.97-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m46.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting huggingface-hub>=0.4.0
  Downloading huggingface_hub-0.13.4-py3-none-any.whl (200 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m200.1

In [2]:
!pip install gdown

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


# ⚠ ⚠ ⚠

A célula referente à instalação que der erro deve ser executada novamente (executá-la 2 vezes):

In [3]:
!pip install --upgrade joblib==1.1.0

!pip install hdbscan

!pip install bertopic

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting joblib==1.1.0
  Downloading joblib-1.1.0-py2.py3-none-any.whl (306 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m307.0/307.0 KB[0m [31m8.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: joblib
  Attempting uninstall: joblib
    Found existing installation: joblib 1.1.1
    Uninstalling joblib-1.1.1:
      Successfully uninstalled joblib-1.1.1
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
scikit-learn 1.2.2 requires joblib>=1.1.1, but you have joblib 1.1.0 which is incompatible.
imbalanced-learn 0.10.1 requires joblib>=1.1.1, but you have joblib 1.1.0 which is incompatible.[0m[31m
[0mSuccessfully installed joblib-1.1.0
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/

In [5]:
import pandas as pd
import numpy as np
import gdown
import seaborn as sns
from sentence_transformers import SentenceTransformer
from bertopic import BERTopic
from bertopic.vectorizers import ClassTfidfTransformer
from bertopic.dimensionality import BaseDimensionalityReduction
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder

# Baixando a base de dados com as CCJ's e seus respectivos tópicos:

In [6]:
id = "1-60Vyv8j8uSm5_I4hi05aV6s_LFny86Y"
output = "base_dados_CCJs_e_tópicos.xlsx"
gdown.download(id=id, output=output, quiet=False)

Downloading...
From: https://drive.google.com/uc?id=1-60Vyv8j8uSm5_I4hi05aV6s_LFny86Y
To: /content/base_dados_CCJs_e_tópicos.xlsx
100%|██████████| 293k/293k [00:00<00:00, 70.4MB/s]


'base_dados_CCJs_e_tópicos.xlsx'

In [7]:
df = pd.read_excel("base_dados_CCJs_e_tópicos.xlsx")
df.head(5)
# link desta base:
# https://docs.google.com/spreadsheets/d/1-60Vyv8j8uSm5_I4hi05aV6s_LFny86Y/edit?usp=sharing&ouid=112604482026911414314&rtpof=true&sd=true

Unnamed: 0,nome,texto,todos_os_tópicos
0,CCJ_1,...,custeio
1,CCJ_2,...,pensão mínima
2,CCJ_3,...,Regime Geral de Previdência Social de transição
3,CCJ_4,...,estados e municípios
4,CCJ_5,...,militares


In [8]:
len(df)

269

# Fazendo o encoding dos nossos labels/tópicos

Note que o pipeline do BERTopic de modo supervisionado utiliza um classificador (regressão logística) para "agrupar" os documentos em cada classe/tópico. 

Referência: https://maartengr.github.io/BERTopic/getting_started/supervised/supervised.html

Assim, o BERTopic deve receber os 'tópicos' já anotados através de uma representação de classes abstraída poruma variável numérica. Por exemplo, o tópico "Abono Permanente" representa a classe 0, o tópico "Abono Salarial" representa a classe 1, etc. Portanto, usamos um LabelEncoder para transformar os tópicos anotados em uma representação numérica:

In [9]:
label_encoder = LabelEncoder()
 
# transformando cada tópico da nossa base em uma representação numérica:
label = label_encoder.fit_transform(df['todos_os_tópicos'])

# inserindo a representação numérica de cada classe/tópico em nosso dataframe:
df['encoded_label'] = label  

df

Unnamed: 0,nome,texto,todos_os_tópicos,encoded_label
0,CCJ_1,...,custeio,14
1,CCJ_2,...,pensão mínima,21
2,CCJ_3,...,Regime Geral de Previdência Social de transição,10
3,CCJ_4,...,estados e municípios,16
4,CCJ_5,...,militares,18
...,...,...,...,...
264,CCJ_265,...,pensão,20
265,CCJ_266,...,pensão mínima,21
266,CCJ_267,...,pensão,20
267,CCJ_268,...,pensão,20


# Fazendo o Fit da BERTopic supervisionada:

Note que estamos passando o texto **completo** da CCJ ao modelo, sem utilizar o Ulysses Segmenter para fazer a limpeza do texto e remover a justificativa. Assim fica mais comparável aos experimentos do Flávio, que foram feitos com a LookForSimilar, com o texto inteiro. 

Num segundo experimento, podemos "limpar" o texto e remover a justificativa com o segmentador do Felipe.

Devemos passar a representação numérica (encoded labels) para a BERTopic supervisionada. Utilizamos o modelo multilingual (paraphrase-multilingual-MiniLM-L12-v2)

In [10]:

docs = df['texto']
y = df['encoded_label']

# Skip over dimensionality reduction, replace cluster model with classifier,
# and reduce frequent words while we are at it.
empty_dimensionality_model = BaseDimensionalityReduction()
clf = LogisticRegression()
ctfidf_model = ClassTfidfTransformer(reduce_frequent_words=True)

# Create a fully supervised BERTopic instance
topic_model= BERTopic(
        umap_model=empty_dimensionality_model,
        hdbscan_model=clf,
        ctfidf_model=ctfidf_model,
        language="multilingual"
)
topics, probs = topic_model.fit_transform(docs, y=y)

Downloading (…)0fe39/.gitattributes:   0%|          | 0.00/968 [00:00<?, ?B/s]

Downloading (…)_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Downloading (…)83e900fe39/README.md:   0%|          | 0.00/3.79k [00:00<?, ?B/s]

Downloading (…)e900fe39/config.json:   0%|          | 0.00/645 [00:00<?, ?B/s]

Downloading (…)ce_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/471M [00:00<?, ?B/s]

Downloading (…)nce_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

Downloading (…)tencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

Downloading tokenizer.json:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/480 [00:00<?, ?B/s]

Downloading unigram.json:   0%|          | 0.00/14.8M [00:00<?, ?B/s]

Downloading (…)900fe39/modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

# Resultado

No dataframe abaixo, "Name" são os tópicos gerados pela BERTopic supervisionada, e "Class" são os tópicos anotados pelo consultor. Nota-se que um pré processamento melhor do texto melhoraria nossos resultados:

In [11]:
# Mapeando os tópicos anotados (strings) em relação aos label encoders númericos obtidos:
mappings = topic_model.topic_mapper_.get_mappings()
mappings = {value: df["todos_os_tópicos"][key] for key, value in mappings.items()}

# Colocando uma coluna em nosso dataframe com o tópico anotado:
df = topic_model.get_topic_info()
df["Class"] = df.Topic.map(mappings)
df

Unnamed: 0,Topic,Count,Name,Class
0,0,28,0_alíquotas_confiscatório_progressivas_tributo,trabalhadores rurais
1,1,25,1_serviço_anos_transição_público,outros
2,2,20,2_dependente_23_pensão_morte,pensão
3,3,19,3_média_26_cálculo_acréscimo,pensão
4,4,18,4_extinção_vantagens_34_ente,pensão
5,5,15,5_suez_batalhão_paz_ex,Regime Geral de Previdência Social / Regime Pr...
6,6,14,6_203_bpc_critério_per,Regime Próprio de Previdência Social
7,7,13,7_formal_salário_morte_fonte,Oficial de Justiça
8,8,13,8_pedágio_20_iv_transição,magistério
9,9,11,9_conversão_especial_agentes_exposição,estados e municípios
