### Notebook para clusterizar as entidades 

In [3]:
# Configurando Proxy

import os
from getpass import getpass

chave  = os.getenv('USER')
senha  = getpass('Senha: ')

os.environ['HTTP_PROXY']  = f'http://{chave}:{senha}@inet-sys.petrobras.com.br:804'
os.environ['HTTPS_PROXY'] = f'http://{chave}:{senha}@inet-sys.petrobras.com.br:804'
os.environ['NO_PROXY']    = '127.0.0.1, localhost, petrobras.com.br, petrobras.biz'

Senha:  ··········


In [4]:
import json
import numpy as np
from sklearn.cluster import DBSCAN
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt, mpld3
import pandas as pd
from collections import Counter

Ler todas as entidades identicadas no texto, mas que não foram linkadas a nenhuma URI existente no PetroOntoVec.

In [5]:
# path_json = "../../Corpora/Predicao/Prediction_json/"  # Documentos novos
path_json = "../../Corpora/Predicao - avaliação/Prediction_json/"  # PetroNER-teste para avaliação do pipeline

#listas para receber entidades não ligadas ao PetroKGraph
classe = []
entity = []
embedding = []

# Iterando por cada arquivo
for file in os.listdir(path_json):
    filename = os.fsdecode(file)
    if file.endswith(".json"):
        print(filename)
        
        with open(path_json + filename, 'r') as f:
            pred_dic = json.load(f)
        
        sentence_key = pred_dic.keys()
        
         # Iterando por cada sentença
        for key in sentence_key:
            # Iterando por entidade identificada
            for n in range(len(pred_dic[key]['NER']['Entities'])):

                # verificando se não está linkado a uma URI do PetroKGraph
                if pred_dic[key]['NER']['Grafo'][n] == None:
                    classe.append(pred_dic[key]['NER']['Classes'][n])
                    entity.append(pred_dic[key]['NER']['Entities'][n])
                    embedding.append(pred_dic[key]['NER']['Embedding'][n])

petroner-uri-teste.json


### Clusterizando os embeddings

Clusterizando os embedings usando uma algoritmo de clusterização por densidade

In [6]:
# Algoritmo de clusterização
# alpha é o parâmetro de distância cosseno usado para treinar modelo triplet - 
# o que estiver dentro de um círculo de raio alpha é considerado um cluster
alpha = 0.05 
embedding = np.array(embedding)
clustering = DBSCAN(eps=alpha, min_samples=5, metric='cosine').fit(embedding)

Agora vamos reduzir a dimensionalidade para poder visualizar os vetores

In [7]:
PCA_embedding = PCA(n_components=2).fit_transform(embedding)

In [8]:
fig, ax = plt.subplots(figsize=(20, 20))#, layout='constrained')
plt.scatter(PCA_embedding.T[0], PCA_embedding.T[1], c=clustering.labels_, s=80)

for i in range(len(embedding)):
    plt.text(x=PCA_embedding.T[0][i], 
             y=PCA_embedding.T[1][i],
             s= str(clustering.labels_[i]), 
             fontdict=dict(size=10))
             #s='(' + str(clustering.labels_[i]) + ') ' + ' - ' + classe[i] + ' - ' + entity[i] + ' - ' + str(i), fontdict=dict(size=10),)
    if i > 1000:
        break
    
mpld3.display(fig)

In [9]:
# Criando dicionário com as informações das novas entidades clusterizadas

new_entities = {}

# Criando DataFrame 
df = pd.DataFrame({'cluster': clustering.labels_,
                   'classe': classe,
                   'label': entity})

# iterenado por todos os clusters (menos o cluster -1)
for n in set(clustering.labels_):
    if n != -1:

        # Verificando qual a classe predominante
        cluster_classes = df[df['cluster'] == n]['classe'].values
        first_cluster_class = Counter(cluster_classes).most_common(1)[0][0]

        # Filtrando apenas as labels da classe dominante
        cluster_labels = df[(df['cluster'] == n) & 
                            (df['classe'] == first_cluster_class)]['label'].values

        # Definindo como label válida, os termos que abrangem f% de todos os elementos clusterizados
        f = 0.5
        new_label = []
        count_label = 0
        f_label = f * len(cluster_labels)

        for lab in Counter(cluster_labels).most_common():
            if count_label < f_label:
                new_label.append(lab[0])
                count_label = count_label + lab[1]
            else:
                break

        new_entities[str(n)] = {'classe': first_cluster_class,
                           'label': new_label,
                           'URI': '#NEW_' + first_cluster_class + '_' + new_label[0].replace(' ','_')}

In [10]:
new_entities

{'0': {'classe': 'BACIA',
  'label': ['Bacia de o Tucano',
   'Recôncavo - Tucano - Jatobá',
   'Tucano',
   'Tucano Sul'],
  'URI': '#NEW_BACIA_Bacia_de_o_Tucano'},
 '1': {'classe': 'UNIDADE_CRONO',
  'label': ['Neoaptiano', 'neoaptianas'],
  'URI': '#NEW_UNIDADE_CRONO_Neoaptiano'},
 '2': {'classe': 'ROCHA',
  'label': ['calcilutitos'],
  'URI': '#NEW_ROCHA_calcilutitos'},
 '3': {'classe': 'UNIDADE_LITO',
  'label': ['Membro Oiteirinhos'],
  'URI': '#NEW_UNIDADE_LITO_Membro_Oiteirinhos'},
 '4': {'classe': 'POÇO',
  'label': ['poços 5 - CPB - 1A - SE',
   'poço 7 - CP - 252 - SE',
   '1 - 7 - CP - 252 - SE 46'],
  'URI': '#NEW_POÇO_poços_5_-_CPB_-_1A_-_SE'},
 '5': {'classe': 'FLUIDO', 'label': ['fluidos'], 'URI': '#NEW_FLUIDO_fluidos'},
 '6': {'classe': 'BACIA',
  'label': ['Bacia de Paris'],
  'URI': '#NEW_BACIA_Bacia_de_Paris'},
 '7': {'classe': 'BACIA', 'label': ['bacia'], 'URI': '#NEW_BACIA_bacia'},
 '8': {'classe': 'POÇO',
  'label': ['Bu - 91', 'Bu - 91 / GI - 07', 'Bu - 91 / GI 

In [11]:
# import pickle
# path_entities = "../../Corpora/Predicao/Prediction_graph/"            # Documentos novos
path_entities = "../../Corpora/Predicao - avaliação/Prediction_graph/"  # PetroNER-teste para avaliação do pipeline
filename_entities = "New_entities"

#Salvando o arquivo as novas entidades
with open(path_entities + filename_entities, 'w+') as f:
    json.dump(new_entities, f)

### Iterar novamente pelos arquivos e atualizar os JSONs com as informações das entidades novas.

In [12]:
#Contador para acompanhar a iteração entre as entidades clusterizadas
cluster_i = 0

# Iterando por cada arquivo
for file in os.listdir(path_json):
    filename = os.fsdecode(file)
    if file.endswith(".json"):
        print(filename)
        
        with open(path_json + filename, 'r') as f:
            pred_dic = json.load(f)
        
        sentence_key = pred_dic.keys()
        
         # Iterando por cada sentença
        for key in sentence_key:
            # Iterando por entidade identificada
            for n in range(len(pred_dic[key]['NER']['Entities'])):

                # verificando se não está linkado a uma URI do PetroKGraph
                if pred_dic[key]['NER']['Grafo'][n] == None:
                    # Verificando se a entidade foi clusterizada em algum cluster (diferente de -1)
                    clus = str(clustering.labels_[cluster_i])
                    if clus != str(-1):
                        # Verificando se a classe da sentença é a mesma do cluster
                        if pred_dic[key]['NER']['Classes'][n] == new_entities[clus]['classe']:
                            # Gravando a URI da nova entidade
                            pred_dic[key]['NER']['Grafo'][n] = new_entities[clus]['URI']
                            # Apagando os embeddings das entidades identificadas 
                            pred_dic[key]['NER']['Embedding'][n] = None
                    
                    cluster_i = cluster_i + 1
                    
        #Salvando o arquivo JSON
        with open(path_json + filename, 'w+') as f:
            json.dump(pred_dic, f)

petroner-uri-teste.json
