In [1]:
import pandas as pd
import warnings 
warnings.filterwarnings("ignore")

In [2]:
data = pd.read_csv('/kaggle/input/dadoscien/dadosTextosCientificos.tsv',sep='\t', encoding='latin1')

In [3]:
data

Unnamed: 0,Título_Público,Descricao_pública
0,Açúcar de frutas e aplicação em bolos como sub...,O uso de inovações tecnológicas auxilia as ind...
1,Desenvolver uma linha de farofas com castanhas...,O uso de inovações tecnológicas auxilia as ind...
2,Desenvolvimento de cobertura líquida para sorvete,O Brasil é considerado um país com a maior bio...
3,Desenvolvimento de conserva de tomate cereja,O Brasil é considerado o país com maior biodiv...
4,Desenvolvimento de massa alimentícia enriqueci...,Nos últimos anos a comunidade científica tem d...
...,...,...
2720,Desenvolvimento de ativos biotecnológicos para...,O avanço das tecnologias para estudos genômico...
2721,SIMA MV POWER,Projeto de PD&I para desenvolvimento de um sis...
2722,Talhonameno Ótimo Klabin,"A Klabin S/A é uma empresa brasileira, de cará..."
2723,Tecnologia de Quantificação de Estoque de Carb...,Com a execução do presente projeto espera-se d...


# Fazendo um rápido tratamento, apenas substituindo valores vazios por strings vazias


In [4]:
data['Descricao_pública'] = data['Descricao_pública'].fillna("").astype(str)

In [5]:
# Verificar a disponibilidade da GPU no Kaggle
import torch

gpu_available = torch.cuda.is_available()
gpu_name = torch.cuda.get_device_name(0) if gpu_available else "No GPU found"
gpu_available, gpu_name

(True, 'Tesla T4')

# Criação de Entidades Nomeadas, primeiro utilizei o modelo baseado em BERT que encontrei no langchain focado para NER

In [6]:
from transformers import pipeline

# Criar o pipeline para NER configurado para rodar na GPU
ner_pipeline = pipeline(
    "ner",
    model="Davlan/bert-base-multilingual-cased-ner-hrl",
    tokenizer="Davlan/bert-base-multilingual-cased-ner-hrl",
    aggregation_strategy="simple",
    device=0  # Configurar para rodar na GPU
)

"Pipeline configurado com sucesso para rodar na GPU."

config.json:   0%|          | 0.00/1.10k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/709M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/264 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/996k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

'Pipeline configurado com sucesso para rodar na GPU.'

# Esse modelo tem apenas 3 entidades que ele pode nomear 
## location (LOC), organizations (ORG), and person (PER).


In [14]:
from datasets import Dataset

# Converter o DataFrame para um Dataset da biblioteca datasets
dataset = Dataset.from_pandas(data[['Título_Público', 'Descricao_pública']])

# Função para extrair entidades nomeadas em lote
def extract_entities_batch(batch):
    try:
        entities = [ner_pipeline(text) for text in batch['Descricao_pública']]
        return {"Entidades": entities}  # Retorna uma lista do mesmo comprimento do batch
    except Exception as e:
        # Em caso de erro, retorna uma lista vazia correspondente ao tamanho do batch
        return {"Entidades": [[] for _ in range(len(batch['Descricao_pública']))]}

# Aplicar o pipeline no dataset em batch
dataset = dataset.map(extract_entities_batch, batched=True)

# Converter de volta para um DataFrame para visualizar
data = dataset.to_pandas()

# Exibir as primeiras linhas do resultado
data[['Título_Público', 'Entidades']].head()

Map:   0%|          | 0/2725 [00:00<?, ? examples/s]

Unnamed: 0,Título_Público,Entidades
0,Açúcar de frutas e aplicação em bolos como sub...,"[{'end': 243, 'entity_group': 'LOC', 'score': ..."
1,Desenvolver uma linha de farofas com castanhas...,"[{'end': 375, 'entity_group': 'LOC', 'score': ..."
2,Desenvolvimento de cobertura líquida para sorvete,"[{'end': 8, 'entity_group': 'LOC', 'score': 0...."
3,Desenvolvimento de conserva de tomate cereja,"[{'end': 8, 'entity_group': 'LOC', 'score': 0...."
4,Desenvolvimento de massa alimentícia enriqueci...,"[{'end': 535, 'entity_group': 'ORG', 'score': ..."


In [15]:
data

Unnamed: 0,Título_Público,Descricao_pública,Entidades
0,Açúcar de frutas e aplicação em bolos como sub...,O uso de inovações tecnológicas auxilia as ind...,"[{'end': 243, 'entity_group': 'LOC', 'score': ..."
1,Desenvolver uma linha de farofas com castanhas...,O uso de inovações tecnológicas auxilia as ind...,"[{'end': 375, 'entity_group': 'LOC', 'score': ..."
2,Desenvolvimento de cobertura líquida para sorvete,O Brasil é considerado um país com a maior bio...,"[{'end': 8, 'entity_group': 'LOC', 'score': 0...."
3,Desenvolvimento de conserva de tomate cereja,O Brasil é considerado o país com maior biodiv...,"[{'end': 8, 'entity_group': 'LOC', 'score': 0...."
4,Desenvolvimento de massa alimentícia enriqueci...,Nos últimos anos a comunidade científica tem d...,"[{'end': 535, 'entity_group': 'ORG', 'score': ..."
...,...,...,...
2720,Desenvolvimento de ativos biotecnológicos para...,O avanço das tecnologias para estudos genômico...,[]
2721,SIMA MV POWER,Projeto de PD&I para desenvolvimento de um sis...,"[{'end': 15, 'entity_group': 'ORG', 'score': 0..."
2722,Talhonameno Ótimo Klabin,"A Klabin S/A é uma empresa brasileira, de cará...","[{'end': 12, 'entity_group': 'ORG', 'score': 0..."
2723,Tecnologia de Quantificação de Estoque de Carb...,Com a execução do presente projeto espera-se d...,"[{'end': 106, 'entity_group': 'LOC', 'score': ..."


# Criação de entidades nomeadas com SpaCy
## Aqui as entidades são bem melhores categorizadas e ele retorna o texto a qual foi feita a entidade

In [16]:
import spacy

# Carregar o modelo de NER do SpaCy para português
nlp = spacy.load("pt_core_news_lg")

def extract_entities_spacy(text):
    if not isinstance(text, str):
        return []  # Retornar lista vazia se o texto não for uma string
    doc = nlp(text)
    entities = [{"text": ent.text, "label": ent.label_} for ent in doc.ents]
    return entities

# Aplicar a extração de entidades na coluna Descricao_pública
data['Entidades_SpaCy'] = data['Descricao_pública'].apply(extract_entities_spacy)

# Exibir as primeiras linhas do DataFrame com as novas entidades
data[['Título_Público', 'Entidades_SpaCy']].head()

Unnamed: 0,Título_Público,Entidades_SpaCy
0,Açúcar de frutas e aplicação em bolos como sub...,"[{'text': 'Brasil', 'label': 'LOC'}, {'text': ..."
1,Desenvolver uma linha de farofas com castanhas...,"[{'text': 'Brasil', 'label': 'LOC'}]"
2,Desenvolvimento de cobertura líquida para sorvete,"[{'text': 'Brasil', 'label': 'LOC'}, {'text': ..."
3,Desenvolvimento de conserva de tomate cereja,"[{'text': 'Brasil', 'label': 'LOC'}, {'text': ..."
4,Desenvolvimento de massa alimentícia enriqueci...,[{'text': 'Objetivos de Desenvolvimento Susten...


In [17]:
data

Unnamed: 0,Título_Público,Descricao_pública,Entidades,Entidades_SpaCy
0,Açúcar de frutas e aplicação em bolos como sub...,O uso de inovações tecnológicas auxilia as ind...,"[{'end': 243, 'entity_group': 'LOC', 'score': ...","[{'text': 'Brasil', 'label': 'LOC'}, {'text': ..."
1,Desenvolver uma linha de farofas com castanhas...,O uso de inovações tecnológicas auxilia as ind...,"[{'end': 375, 'entity_group': 'LOC', 'score': ...","[{'text': 'Brasil', 'label': 'LOC'}]"
2,Desenvolvimento de cobertura líquida para sorvete,O Brasil é considerado um país com a maior bio...,"[{'end': 8, 'entity_group': 'LOC', 'score': 0....","[{'text': 'Brasil', 'label': 'LOC'}, {'text': ..."
3,Desenvolvimento de conserva de tomate cereja,O Brasil é considerado o país com maior biodiv...,"[{'end': 8, 'entity_group': 'LOC', 'score': 0....","[{'text': 'Brasil', 'label': 'LOC'}, {'text': ..."
4,Desenvolvimento de massa alimentícia enriqueci...,Nos últimos anos a comunidade científica tem d...,"[{'end': 535, 'entity_group': 'ORG', 'score': ...",[{'text': 'Objetivos de Desenvolvimento Susten...
...,...,...,...,...
2720,Desenvolvimento de ativos biotecnológicos para...,O avanço das tecnologias para estudos genômico...,[],"[{'text': 'TIMP', 'label': 'LOC'}]"
2721,SIMA MV POWER,Projeto de PD&I para desenvolvimento de um sis...,"[{'end': 15, 'entity_group': 'ORG', 'score': 0...",[]
2722,Talhonameno Ótimo Klabin,"A Klabin S/A é uma empresa brasileira, de cará...","[{'end': 12, 'entity_group': 'ORG', 'score': 0...","[{'text': 'Klabin S/A', 'label': 'ORG'}, {'tex..."
2723,Tecnologia de Quantificação de Estoque de Carb...,Com a execução do presente projeto espera-se d...,"[{'end': 106, 'entity_group': 'LOC', 'score': ...","[{'text': 'Suzano', 'label': 'LOC'}, {'text': ..."


# Concatenando as entidades feitas com o BERT e com o SpaCy

In [19]:
# Combinar entidades do Hugging Face e SpaCy em uma única lista
def combine_entities(row):
    # Garantir que 'Entidades' e 'Entidades_SpaCy' sejam listas antes de processar
    hf_entities = [ent['word'] for ent in row['Entidades']] if isinstance(row['Entidades'], list) else []
    spacy_entities = [ent['text'] for ent in row['Entidades_SpaCy']] if isinstance(row['Entidades_SpaCy'], list) else []
    return list(set(hf_entities + spacy_entities))  # Remover duplicatas

# Criar a nova coluna
data['Entidades_Combinadas'] = data.apply(combine_entities, axis=1)

# Visualizar os dados
data[['Título_Público', 'Entidades_Combinadas']].head()

Unnamed: 0,Título_Público,Entidades_Combinadas
0,Açúcar de frutas e aplicação em bolos como sub...,"[ODS, Brasil, Objetivos de Desenvolvimento Sus..."
1,Desenvolver uma linha de farofas com castanhas...,[Brasil]
2,Desenvolvimento de cobertura líquida para sorvete,"[Mata Atlântica, ODS, Brasil, DS, Objetivos de..."
3,Desenvolvimento de conserva de tomate cereja,"[Mata Atlântica, Brasil, DS, Dipteryx, Amazôni..."
4,Desenvolvimento de massa alimentícia enriqueci...,"[ODS, Brasil, Objetivos de Desenvolvimento Sus..."


In [20]:
data

Unnamed: 0,Título_Público,Descricao_pública,Entidades,Entidades_SpaCy,Entidades_Combinadas
0,Açúcar de frutas e aplicação em bolos como sub...,O uso de inovações tecnológicas auxilia as ind...,"[{'end': 243, 'entity_group': 'LOC', 'score': ...","[{'text': 'Brasil', 'label': 'LOC'}, {'text': ...","[ODS, Brasil, Objetivos de Desenvolvimento Sus..."
1,Desenvolver uma linha de farofas com castanhas...,O uso de inovações tecnológicas auxilia as ind...,"[{'end': 375, 'entity_group': 'LOC', 'score': ...","[{'text': 'Brasil', 'label': 'LOC'}]",[Brasil]
2,Desenvolvimento de cobertura líquida para sorvete,O Brasil é considerado um país com a maior bio...,"[{'end': 8, 'entity_group': 'LOC', 'score': 0....","[{'text': 'Brasil', 'label': 'LOC'}, {'text': ...","[Mata Atlântica, ODS, Brasil, DS, Objetivos de..."
3,Desenvolvimento de conserva de tomate cereja,O Brasil é considerado o país com maior biodiv...,"[{'end': 8, 'entity_group': 'LOC', 'score': 0....","[{'text': 'Brasil', 'label': 'LOC'}, {'text': ...","[Mata Atlântica, Brasil, DS, Dipteryx, Amazôni..."
4,Desenvolvimento de massa alimentícia enriqueci...,Nos últimos anos a comunidade científica tem d...,"[{'end': 535, 'entity_group': 'ORG', 'score': ...",[{'text': 'Objetivos de Desenvolvimento Susten...,"[ODS, Brasil, Objetivos de Desenvolvimento Sus..."
...,...,...,...,...,...
2720,Desenvolvimento de ativos biotecnológicos para...,O avanço das tecnologias para estudos genômico...,[],"[{'text': 'TIMP', 'label': 'LOC'}]",[TIMP]
2721,SIMA MV POWER,Projeto de PD&I para desenvolvimento de um sis...,"[{'end': 15, 'entity_group': 'ORG', 'score': 0...",[],[]
2722,Talhonameno Ótimo Klabin,"A Klabin S/A é uma empresa brasileira, de cará...","[{'end': 12, 'entity_group': 'ORG', 'score': 0...","[{'text': 'Klabin S/A', 'label': 'ORG'}, {'tex...","[Projetosde Reforma Agrária, Klabin, PDC, São ..."
2723,Tecnologia de Quantificação de Estoque de Carb...,Com a execução do presente projeto espera-se d...,"[{'end': 106, 'entity_group': 'LOC', 'score': ...","[{'text': 'Suzano', 'label': 'LOC'}, {'text': ...","[Brasil, Infraestrutura, Suzano]"


# Criação da coluna Texto_Completo que foi feita a partir do dataset + as entidades nomeadas
## Essa é a coluna principal usada no projeto

In [22]:
# Função para combinar o texto da descrição com as entidades combinadas
def update_texto_completo(row):
    # Combinar entidades em um único texto
    combined_entities_text = " ".join(row['Entidades_Combinadas']) if isinstance(row['Entidades_Combinadas'], list) else ""
    # Concatenar a descrição pública com as entidades
    return f"{row['Descricao_pública']} {combined_entities_text}"

# Criar a coluna Texto_Completo
data['Texto_Completo'] = data.apply(update_texto_completo, axis=1)

# Visualizar as primeiras linhas do DataFrame
data[['Título_Público', 'Texto_Completo']].head()


Unnamed: 0,Título_Público,Texto_Completo
0,Açúcar de frutas e aplicação em bolos como sub...,O uso de inovações tecnológicas auxilia as ind...
1,Desenvolver uma linha de farofas com castanhas...,O uso de inovações tecnológicas auxilia as ind...
2,Desenvolvimento de cobertura líquida para sorvete,O Brasil é considerado um país com a maior bio...
3,Desenvolvimento de conserva de tomate cereja,O Brasil é considerado o país com maior biodiv...
4,Desenvolvimento de massa alimentícia enriqueci...,Nos últimos anos a comunidade científica tem d...


In [23]:
data

Unnamed: 0,Título_Público,Descricao_pública,Entidades,Entidades_SpaCy,Entidades_Combinadas,Texto_Completo
0,Açúcar de frutas e aplicação em bolos como sub...,O uso de inovações tecnológicas auxilia as ind...,"[{'end': 243, 'entity_group': 'LOC', 'score': ...","[{'text': 'Brasil', 'label': 'LOC'}, {'text': ...","[ODS, Brasil, Objetivos de Desenvolvimento Sus...",O uso de inovações tecnológicas auxilia as ind...
1,Desenvolver uma linha de farofas com castanhas...,O uso de inovações tecnológicas auxilia as ind...,"[{'end': 375, 'entity_group': 'LOC', 'score': ...","[{'text': 'Brasil', 'label': 'LOC'}]",[Brasil],O uso de inovações tecnológicas auxilia as ind...
2,Desenvolvimento de cobertura líquida para sorvete,O Brasil é considerado um país com a maior bio...,"[{'end': 8, 'entity_group': 'LOC', 'score': 0....","[{'text': 'Brasil', 'label': 'LOC'}, {'text': ...","[Mata Atlântica, ODS, Brasil, DS, Objetivos de...",O Brasil é considerado um país com a maior bio...
3,Desenvolvimento de conserva de tomate cereja,O Brasil é considerado o país com maior biodiv...,"[{'end': 8, 'entity_group': 'LOC', 'score': 0....","[{'text': 'Brasil', 'label': 'LOC'}, {'text': ...","[Mata Atlântica, Brasil, DS, Dipteryx, Amazôni...",O Brasil é considerado o país com maior biodiv...
4,Desenvolvimento de massa alimentícia enriqueci...,Nos últimos anos a comunidade científica tem d...,"[{'end': 535, 'entity_group': 'ORG', 'score': ...",[{'text': 'Objetivos de Desenvolvimento Susten...,"[ODS, Brasil, Objetivos de Desenvolvimento Sus...",Nos últimos anos a comunidade científica tem d...
...,...,...,...,...,...,...
2720,Desenvolvimento de ativos biotecnológicos para...,O avanço das tecnologias para estudos genômico...,[],"[{'text': 'TIMP', 'label': 'LOC'}]",[TIMP],O avanço das tecnologias para estudos genômico...
2721,SIMA MV POWER,Projeto de PD&I para desenvolvimento de um sis...,"[{'end': 15, 'entity_group': 'ORG', 'score': 0...",[],[],Projeto de PD&I para desenvolvimento de um sis...
2722,Talhonameno Ótimo Klabin,"A Klabin S/A é uma empresa brasileira, de cará...","[{'end': 12, 'entity_group': 'ORG', 'score': 0...","[{'text': 'Klabin S/A', 'label': 'ORG'}, {'tex...","[Projetosde Reforma Agrária, Klabin, PDC, São ...","A Klabin S/A é uma empresa brasileira, de cará..."
2723,Tecnologia de Quantificação de Estoque de Carb...,Com a execução do presente projeto espera-se d...,"[{'end': 106, 'entity_group': 'LOC', 'score': ...","[{'text': 'Suzano', 'label': 'LOC'}, {'text': ...","[Brasil, Infraestrutura, Suzano]",Com a execução do presente projeto espera-se d...


# Criando os embeddings com o Bertimbau

In [24]:
from transformers import AutoTokenizer, AutoModel
import torch

# Verificar se a GPU está disponível
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# Carregar o modelo e tokenizer BERT para embeddings
tokenizer = AutoTokenizer.from_pretrained("neuralmind/bert-base-portuguese-cased")
model = AutoModel.from_pretrained("neuralmind/bert-base-portuguese-cased").to(device)  # Mover o modelo para a GPU

# Garantir que a coluna Texto_Completo não tenha valores nulos ou inválidos
data['Texto_Completo'] = data['Texto_Completo'].fillna("").astype(str)

# Função ajustada para gerar embeddings
def get_embedding(text):
    # Garantir que o texto seja uma string
    if not isinstance(text, str):
        text = ""
    # Tokenizar o texto
    inputs = tokenizer(text, return_tensors='pt', truncation=True, max_length=512, padding=True).to(device)
    with torch.no_grad():
        # Passar o texto pelo modelo
        outputs = model(**inputs)
    # Usar a representação do token [CLS]
    embedding = outputs.last_hidden_state[:, 0, :].squeeze().cpu().numpy()
    return embedding

# Gerar embeddings para o texto combinado
data['Embedding'] = data['Texto_Completo'].apply(get_embedding)


tokenizer_config.json:   0%|          | 0.00/43.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/647 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/210k [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/2.00 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/438M [00:00<?, ?B/s]

In [25]:
data

Unnamed: 0,Título_Público,Descricao_pública,Entidades,Entidades_SpaCy,Entidades_Combinadas,Texto_Completo,Embedding
0,Açúcar de frutas e aplicação em bolos como sub...,O uso de inovações tecnológicas auxilia as ind...,"[{'end': 243, 'entity_group': 'LOC', 'score': ...","[{'text': 'Brasil', 'label': 'LOC'}, {'text': ...","[ODS, Brasil, Objetivos de Desenvolvimento Sus...",O uso de inovações tecnológicas auxilia as ind...,"[0.060752884, 0.070770845, 0.8306281, -0.38015..."
1,Desenvolver uma linha de farofas com castanhas...,O uso de inovações tecnológicas auxilia as ind...,"[{'end': 375, 'entity_group': 'LOC', 'score': ...","[{'text': 'Brasil', 'label': 'LOC'}]",[Brasil],O uso de inovações tecnológicas auxilia as ind...,"[0.010140376, -0.051328316, 0.4771008, -0.1479..."
2,Desenvolvimento de cobertura líquida para sorvete,O Brasil é considerado um país com a maior bio...,"[{'end': 8, 'entity_group': 'LOC', 'score': 0....","[{'text': 'Brasil', 'label': 'LOC'}, {'text': ...","[Mata Atlântica, ODS, Brasil, DS, Objetivos de...",O Brasil é considerado um país com a maior bio...,"[-0.17340481, -0.02278357, 0.8985503, -0.14591..."
3,Desenvolvimento de conserva de tomate cereja,O Brasil é considerado o país com maior biodiv...,"[{'end': 8, 'entity_group': 'LOC', 'score': 0....","[{'text': 'Brasil', 'label': 'LOC'}, {'text': ...","[Mata Atlântica, Brasil, DS, Dipteryx, Amazôni...",O Brasil é considerado o país com maior biodiv...,"[-0.05400467, 0.029514743, 1.0342393, 0.159381..."
4,Desenvolvimento de massa alimentícia enriqueci...,Nos últimos anos a comunidade científica tem d...,"[{'end': 535, 'entity_group': 'ORG', 'score': ...",[{'text': 'Objetivos de Desenvolvimento Susten...,"[ODS, Brasil, Objetivos de Desenvolvimento Sus...",Nos últimos anos a comunidade científica tem d...,"[0.11934674, 0.066863135, 0.750548, 0.04394060..."
...,...,...,...,...,...,...,...
2720,Desenvolvimento de ativos biotecnológicos para...,O avanço das tecnologias para estudos genômico...,[],"[{'text': 'TIMP', 'label': 'LOC'}]",[TIMP],O avanço das tecnologias para estudos genômico...,"[-0.37801555, 0.04850528, 0.81914765, -0.03314..."
2721,SIMA MV POWER,Projeto de PD&I para desenvolvimento de um sis...,"[{'end': 15, 'entity_group': 'ORG', 'score': 0...",[],[],Projeto de PD&I para desenvolvimento de um sis...,"[-0.057034876, -0.2522624, 0.29755655, 0.03301..."
2722,Talhonameno Ótimo Klabin,"A Klabin S/A é uma empresa brasileira, de cará...","[{'end': 12, 'entity_group': 'ORG', 'score': 0...","[{'text': 'Klabin S/A', 'label': 'ORG'}, {'tex...","[Projetosde Reforma Agrária, Klabin, PDC, São ...","A Klabin S/A é uma empresa brasileira, de cará...","[-0.45277563, -0.08399752, 1.0192388, 0.047760..."
2723,Tecnologia de Quantificação de Estoque de Carb...,Com a execução do presente projeto espera-se d...,"[{'end': 106, 'entity_group': 'LOC', 'score': ...","[{'text': 'Suzano', 'label': 'LOC'}, {'text': ...","[Brasil, Infraestrutura, Suzano]",Com a execução do presente projeto espera-se d...,"[-0.24239993, -0.060290627, 0.7719905, -0.2102..."


# Criando os Cluster com os vetores feitos do texto + NER 

In [43]:
from sklearn.cluster import KMeans
import numpy as np

# Criar uma matriz de embeddings
X = np.vstack(data['Embedding'].values)

# Definir o número de clusters
num_clusters = 6

# Aplicar K-Means
kmeans = KMeans(n_clusters=num_clusters, random_state=42)
data['Cluster'] = kmeans.fit_predict(X)

# Exibir os resultados
data[['Título_Público', 'Cluster']].head()


Unnamed: 0,Título_Público,Cluster
0,Açúcar de frutas e aplicação em bolos como sub...,3
1,Desenvolver uma linha de farofas com castanhas...,2
2,Desenvolvimento de cobertura líquida para sorvete,2
3,Desenvolvimento de conserva de tomate cereja,2
4,Desenvolvimento de massa alimentícia enriqueci...,2


# A maioria dos cluster ficaram razoáveis, com contexto certo com alguns cluster que tem certos artigos que não fazem muito sentido serem categorizados lá, porem no geral está bom para os testes com o Bert  

In [44]:
# Exibir alguns exemplos de cada cluster
for i in range(num_clusters):
    print(f"\nCluster {i}:")
    display(data[data['Cluster'] == i][['Título_Público', 'Descricao_pública']].head())



Cluster 0:


Unnamed: 0,Título_Público,Descricao_pública
17,Caixa de Transmissão IoT para monitoramento de...,O projeto em questão é o desenvolvimento de um...
23,HUAWEI SOLAR TRACKING CONTROL (AI BASED),O Objetivo deste projeto consiste no desenvolv...
24,Siemens-Energy,"Análise dos dados coletados na indústria, estr..."
36,AIPIM,O projeto AIPIM  Análise Inteligente de Propr...
38,Alocação de recursos em infraestruturas geogra...,Este projeto visa o desenvolvimento de modelos...



Cluster 1:


Unnamed: 0,Título_Público,Descricao_pública
22,HUAWEI - PV generation with optimal BESS based...,Executar atividades de pesquisa e desenvolvime...
27,5G-EdgeServices,Projeto e desenvolvimento de um arcabouço de f...
28,5GApps,Plataforma de software para Edge Computing bas...
29,Accounting Integration,Desenvolvimento de solução tecnológica para pr...
30,ACELERA VTEX,Prototipação de COMPONENTES DE INTERCEPTAÇÃO ...



Cluster 2:


Unnamed: 0,Título_Público,Descricao_pública
1,Desenvolver uma linha de farofas com castanhas...,O uso de inovações tecnológicas auxilia as ind...
2,Desenvolvimento de cobertura líquida para sorvete,O Brasil é considerado um país com a maior bio...
3,Desenvolvimento de conserva de tomate cereja,O Brasil é considerado o país com maior biodiv...
4,Desenvolvimento de massa alimentícia enriqueci...,Nos últimos anos a comunidade científica tem d...
5,Desenvolvimento de Mistura Instantânea (Tipo C...,O Estado de Mato Grosso do Sul apresenta uma g...



Cluster 3:


Unnamed: 0,Título_Público,Descricao_pública
0,Açúcar de frutas e aplicação em bolos como sub...,O uso de inovações tecnológicas auxilia as ind...
15,AGILE - Engrenagens de manufatura aditiva com ...,Projeto para mapear o potencial de engrenagens...
16,AgriGear - Superacabamento de engrenagens para...,O sistema de transmissão de um veículo é respo...
18,DfTP - Avaliação Termofluídica de uma Caixa de...,O objetivo desse projeto é a avaliação experim...
19,DRS: DEMO - Demonstrador Técnico Econômico de ...,O estado de tensão residual influencia amplame...



Cluster 4:


Unnamed: 0,Título_Público,Descricao_pública
490,PayBack - Gesta?o de Abastecimento de Frota,MEIO DE PAGAMENTO DIGITAL PARA ABASTECIMENTO D...
872,MARINA - Recuperac?a?o e identificac?a?o autom...,"Desenvolvimento a ni?vel de proto?tipo, de uma..."
1361,3KW OFFGRID,"Existem dois tipos de sistemas fotovoltaicos, ..."
1367,APLICATIVO DE ANA?LISE DE SINAIS E DE INTELIGE...,Elaborac?a?o de um sistema de aquisic?a?o e tr...
1380,DESENVOLVIMENTO DE BANDEJA MICROPROCESSADA PAR...,A Ok Energy e? uma empresa cearense de tecnolo...



Cluster 5:


Unnamed: 0,Título_Público,Descricao_pública
13,Vida útil de castanha de baru torrada acondici...,Desenvolver e avaliar revestimentos biodegradá...
26,Sistema de Localização de Pontos de Derivação ...,Desenvolvimento de solução não-invasiva para a...
44,Análise de dados e Gestão de Casos de Testes a...,Análise de dados aplicada para propositura de ...
52,ASEB,Protótipo de sistema para automação do process...
54,AutoPatents - Classificação Automatizada de Pe...,Desenvolvimento de solução tecnológica para cl...


# Divisão dos textos para o treinamento do Bert

In [45]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder

# Codificar os clusters como números
label_encoder = LabelEncoder()
data['Cluster_Label'] = label_encoder.fit_transform(data['Cluster'])

# Dividir os dados em treino e validação
train_texts, val_texts, train_labels, val_labels = train_test_split(
    data['Texto_Completo'],
    data['Cluster_Label'],
    test_size=0.2,
    random_state=42
)


# Tokenizacao e definição dos datasets

In [46]:
from transformers import AutoTokenizer
import torch

# Tokenizar os textos
tokenizer = AutoTokenizer.from_pretrained("neuralmind/bert-base-portuguese-cased")

# Tokenizar os textos de treino e validação
train_encodings = tokenizer(list(train_texts), truncation=True, padding=True, max_length=512)
val_encodings = tokenizer(list(val_texts), truncation=True, padding=True, max_length=512)

# Criar datasets para PyTorch
class TextDataset(torch.utils.data.Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels

    def __getitem__(self, idx):
        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        item['labels'] = torch.tensor(self.labels[idx], dtype=torch.long)
        return item

    def __len__(self):
        return len(self.labels)

train_dataset = TextDataset(train_encodings, train_labels.tolist())
val_dataset = TextDataset(val_encodings, val_labels.tolist())


# Treinamento do Bertimbau

![image.png](attachment:dba4760d-8e54-4409-835d-ba220e53da7f.png)

In [47]:
from transformers import AutoModelForSequenceClassification, Trainer, TrainingArguments

# Carregar o modelo pré-treinado para classificação
model = AutoModelForSequenceClassification.from_pretrained(
    "neuralmind/bert-base-portuguese-cased",
    num_labels=len(label_encoder.classes_)
)

import os

# Desativar Weights & Biases
os.environ["WANDB_DISABLED"] = "true"

# Configurar TrainingArguments 
training_args = TrainingArguments(
    output_dir='./results',
    eval_strategy="epoch",  
    save_strategy="epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    num_train_epochs=3,
    weight_decay=0.01,
    logging_dir='./logs',
    logging_steps=10
)

# Criar o Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=val_dataset
)

# Treinar o modelo
trainer.train()


Some weights of BertForSequenceClassification were not initialized from the model checkpoint at neuralmind/bert-base-portuguese-cased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
Using the `WANDB_DISABLED` environment variable is deprecated and will be removed in v5. Use the --report_to flag to control the integrations used for logging result (for instance --report_to none).


Epoch,Training Loss,Validation Loss
1,0.5186,0.397784
2,0.2824,0.358419
3,0.1355,0.312764


TrainOutput(global_step=411, training_loss=0.4384446155343323, metrics={'train_runtime': 416.2464, 'train_samples_per_second': 15.712, 'train_steps_per_second': 0.987, 'total_flos': 1720808101601280.0, 'train_loss': 0.4384446155343323, 'epoch': 3.0})

In [48]:
def predict_cluster(text):
    # Tokenizar o texto
    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=512).to(model.device)
    # Obter as predições
    with torch.no_grad():
        outputs = model(**inputs)
    logits = outputs.logits
    predicted_class = torch.argmax(logits, dim=1).item()
    return label_encoder.inverse_transform([predicted_class])[0]


# Predição do Texto

In [60]:
# Lista de novos textos para classificação
novos_textos = [
    "Software",
    "Inteligência Artificial",
    "Desenvolvimento Sustentável",
    "Análise financeira",
    "Biomassa"
]

# Função para prever os clusters para vários textos
def predict_clusters(text_list):
    predictions = {}
    for text in text_list:
        cluster = predict_cluster(text)  # Chama a função `predict_cluster` definida anteriormente
        predictions[text] = cluster
    return predictions

# Obter as previsões
clusters_previstos = predict_clusters(novos_textos)

# Exibir os resultados
for texto, cluster in clusters_previstos.items():
    print(f"O texto '{texto}' foi classificado no cluster: {cluster}")


O texto 'Software' foi classificado no cluster: 1
O texto 'Inteligência Artificial' foi classificado no cluster: 1
O texto 'Desenvolvimento Sustentável' foi classificado no cluster: 5
O texto 'Análise financeira' foi classificado no cluster: 5
O texto 'Biomassa' foi classificado no cluster: 2


# Conclusão

### No geral acho que ficou decente, o Bert consegue classificar os textos nos clusters, os melhores cluster são os que refletem pesquisa em comidas e biomassa, e o cluster de tecnologia e software, para melhorias eu acho que nomear as entidades na mão e tratar robustamente a base ajude a ter os cluster mais bem definidos