In [1]:
#!pip install gliner

In [2]:
def metrics(y_pred_set, y_true_set):
    # Converter listas para conjuntos para usar as operações de interseção e diferença
    y_pred_set = set(tuple(sorted(pair)) for pair in y_pred_set)
    y_true_set = set(tuple(sorted(pair)) for pair in y_true_set)
    
    TP = len(y_pred_set & y_true_set)  # Interseção entre predições corretas e verdadeiras
    FP = len(y_pred_set - y_true_set)  # Predições incorretas (falsos positivos)
    FN = len(y_true_set - y_pred_set)  # Entidades verdadeiras não preditas (falsos negativos)

    # Calcular as métricas
    precision = TP / (TP + FP) if (TP + FP) > 0 else 0
    recall = TP / (TP + FN) if (TP + FN) > 0 else 0
    f1 = 2 * (precision * recall) / (precision + recall) if (precision + recall) > 0 else 0

    return precision, recall, f1


In [3]:
import torch
from gliner import GLiNER

  from .autonotebook import tqdm as notebook_tqdm


In [4]:
# first load your model

model = GLiNER.from_pretrained("gliner-community/gliner_medium-v2.5")

Fetching 10 files: 100%|██████████| 10/10 [00:00<00:00, 258907.65it/s]


In [5]:
# save

model.save_pretrained("gliner_Med")

In [6]:
# load

loaded_model = GLiNER.from_pretrained("gliner_Med", load_tokenizer = True, local_files_only=True)

config.json not found in /home/cz/mds3/REN/gliner_Med


# LoadingData

In [7]:
import os
import numpy as np
from tqdm import tqdm

In [8]:
root = ''

In [9]:
path = os.path.join(root, '')

In [10]:
texts = np.load(path+'/texts_test_v1.npy',allow_pickle=True)

In [11]:
targets =  np.load(path+'/labels_test_v1.npy',allow_pickle=True).item()

## Testing

In [13]:
saving_true =[]
saving_pred = []
for i in tqdm(range(len(texts))):

    text = texts[i]
    labels = list(targets[i].keys())
    
    entities = loaded_model.predict_entities(text,labels, threshold=0.4)
    
    for entity in entities:
        print(entity["text"], "=>", entity["label"])
        # Extract predicted entities
        predicted_entities = {(entity["text"], entity["label"]) for entity in entities}
        true_entities = {(label, entity) for label in targets[i] for entity in targets[i][label]}
        saving_pred.append(predicted_entities)
        saving_true.append(true_entities)
            

  2%|▏         | 1/64 [00:00<00:18,  3.34it/s]

Arezzo => ORG
Soma => ORG
Hering => ORG
Hering => ORG
Soma => ORG
Hering => ORG
Hering => ORG
Yara => ORG
Associação Brasileira de Proteína Animal => ORG
ABPA => ORG
Rio Grande do Sul => LOC
Santa Catarina => LOC


  5%|▍         | 3/64 [00:00<00:13,  4.46it/s]

Banco Mundial => PESSOA
Fundo Monetário Internacional => PESSOA
FMI => PESSOA
Valor => PESSOA
Center for Macroeconomics and Development => PESSOA
Ministério da Fazenda => PESSOA
Valor => PESSOA


  6%|▋         | 4/64 [00:00<00:15,  3.97it/s]

Campinas => LOC
Coleção Patricia Phelps de Cisneros => ORG
São Paulo => LOC
Casa Triângulo => ORG
São Paulo => LOC
Pavilhão Ciccillo => PESSOA


  8%|▊         | 5/64 [00:01<00:16,  3.48it/s]

Senado => PESSOA
Presidência => LOC
Palácio do Planalto => PESSOA
Brasil => LOC


  9%|▉         | 6/64 [00:01<00:17,  3.35it/s]

Bolsa Família => PESSOA
Bolsa Família => PESSOA
Bolsa Família => PESSOA
Brasil => ORG
Maceió => LOC
Bolsa Família => PESSOA
Cadastro Único => PESSOA
Estado => ORG
Estado => ORG
Estado => ORG
Orçamento => PESSOA


 11%|█         | 7/64 [00:01<00:17,  3.29it/s]

MAP => ORG
Bad => ORG
Jacarezinho => LOC
Jacarezinho => LOC
Estadão => ORG
Twitter => ORG
Facebook => ORG


 12%|█▎        | 8/64 [00:02<00:17,  3.12it/s]

Supremo Tribunal Federal => ORG
Tribunal Superior Eleitoral => ORG
PF => ORG
Supremo => ORG


 14%|█▍        | 9/64 [00:02<00:18,  3.01it/s]

Israel => LOC
Universidade Bocconi => ORG
T20 => PESSOA
G20 => PESSOA
Declaração de Salamanca => PESSOA


 16%|█▌        | 10/64 [00:03<00:17,  3.03it/s]

St. Paul => LOC
Minnesota => LOC


 17%|█▋        | 11/64 [00:03<00:17,  2.99it/s]

CPI => ORG
CPI => ORG
Alhambra => ORG


 20%|██        | 13/64 [00:03<00:13,  3.67it/s]

Facebook => ORG
Universidade Hebraica de Jerusalém => PESSOA
Ra'am => PESSOA
Parlamento => PESSOA
Pfizer => ORG
Governo federal => ORG
Brasil => PESSOA
BNDES => ORG


 23%|██▎       | 15/64 [00:04<00:11,  4.36it/s]

PSol => PESSOA
PRP => PESSOA
Republicanos => PESSOA
PRP => PESSOA
Polícia Federal => PESSOA
Junta Comercial do Estado da Bahia => LOC
Administração Pública => PESSOA
Polícia Federal => PESSOA


 25%|██▌       | 16/64 [00:04<00:12,  3.75it/s]

Pernambuco => LOC
Recife => LOC
Paulista => LOC
Jaboatão dos Guararapes => LOC
Olinda => LOC
Camaragibe => LOC
Carpina => LOC
Cabo de Santo Agostinho => LOC
Pernambuco => LOC
PE => LOC
Recife => LOC
Recife => LOC
Recife => LOC
Recife => LOC
Porcogate => ORG
Cabo de Santo Agostinho => LOC
Olinda => LOC
Paulista => LOC
Recife => LOC
Cabo de Santo Agostinho => LOC
Olinda => LOC
Paulista => LOC


 27%|██▋       | 17/64 [00:04<00:12,  3.77it/s]

PSC => ORG
STJ => ORG


 28%|██▊       | 18/64 [00:05<00:12,  3.69it/s]

Sindicato dos Auditores Fiscais de Tributos de Rondônia => PESSOA
Sindafisco => PESSOA
Sindicato dos Técnicos Tributários do Estado => PESSOA
Sintec => PESSOA
Secretaria de Finanças de Rondônia => PESSOA
Sefin => PESSOA
Estado de Rondônia => LOC
Porto Velho => LOC
Candeias do Jamari => LOC
SEFIN => PESSOA
Estado de Rondônia => LOC
Governo do Estado => ORG
Sefin => PESSOA
Sindafisco => PESSOA
Fisco => PESSOA
Sintec => PESSOA


 30%|██▉       | 19/64 [00:05<00:12,  3.54it/s]

Secretaria Municipal de Trabalho e Ação Social => ORG
Jornal Gazeta => ORG
Diário Oficial dos Municípios => ORG
AROM => ORG
Câmara Municipal => ORG
Zona da Mata => PESSOA


 31%|███▏      | 20/64 [00:05<00:13,  3.34it/s]

AdC => ORG
Liga Portuguesa de Futebol Profissional => ORG
Primeira e Segunda Ligas => ORG
AdC => ORG
AdC => ORG
LPFP => ORG
AdC => ORG
AdC => ORG
LPFP => ORG
Segunda Ligas => ORG
LPFP => ORG
AdC => ORG
AdC => ORG
AdC => ORG
Liga de Clubes => ORG
AdC => ORG


 33%|███▎      | 21/64 [00:06<00:13,  3.17it/s]

Instituto Federal de Educação, Ciência e Tecnologia de Rondônia => ORG
Ifro => ORG
Liga Acadêmica de Clínica Cirúrgica de Rondônia => ORG
Laccro => ORG
Hospital de Base Dr. Ary Pinheiro => ORG
Fiocruz RO => ORG
Núcleo de Vigilância Epidemiológica e Ambiental de Guajará-Mirim => ORG
Nuvepa => ORG
Núcleo => ORG
Laboratório de Entomologia => ORG
Fiocruz RO => ORG
Nuvepa => ORG
Guajará-Mirim => LOC
Corpo de Bombeiros => ORG
Agência Estadual de Vigilância em Saúde => ORG
Agevisa => ORG
Unidade de Assistência Médica Intensiva => ORG
AMI => ORG
Polícia Militar => ORG
Centro de Medicina => ORG


 34%|███▍      | 22/64 [00:06<00:13,  3.06it/s]

BRASÍLIA => LOC
Distrito Federal => LOC
Mané Garrincha => LOC
Controladoria-Geral do DF => PESSOA
Diretoria de Serviços de Internação => PESSOA
Tribunal de Contas do DF => ORG
GLOBO => PESSOA
DF => LOC
Controladoria-Geral => ORG
GDF => ORG
SES/DF => ORG
Secretaria Estadual de Saúde => PESSOA
Brasília => LOC


 36%|███▌      | 23/64 [00:06<00:13,  2.96it/s]

Vitória => LOC
Rio de Janeiro => LOC
Controladoria Geral da União => ORG
Região dos Lagos => LOC
Nova Iguaçu => LOC
Miracema => LOC
Serra => LOC
Espírito Santo => LOC
São Pedro da Aldeia => LOC
Armação de Búzios => LOC
Vitória => LOC


 38%|███▊      | 24/64 [00:07<00:13,  2.92it/s]

RJ2 => ORG
Rio de Janeiro => LOC
Secretaria de Estado de Saúde => ORG
Covid-19 => PESSOA
Health Supllies => ORG
RJ2 => ORG
RJ2 => ORG
Brasil => LOC
Pernambuco => LOC
RJ => LOC
São Paulo => LOC
Pernambuco => LOC
governo paulista => ORG
Rio de Janeiro => LOC


 39%|███▉      | 25/64 [00:07<00:13,  2.85it/s]

São Paulo => LOC
PSL => ORG


 41%|████      | 26/64 [00:07<00:13,  2.84it/s]

PSDB => ORG
Folha => ORG
Folha => ORG
Rio => PESSOA
Ministério Público => ORG
TCE => ORG
Folha => ORG
OAB-GO => ORG
Ordem dos Advogados do Brasil Seção Goiás => ORG
OAB-GO => ORG


 44%|████▍     | 28/64 [00:08<00:10,  3.45it/s]

Mapa => ORG
Brasil => LOC
O Presente Rural => ORG
Crea/PR => ORG
Asseapar => ORG


 45%|████▌     | 29/64 [00:08<00:10,  3.22it/s]

Rondônia => LOC
Rondônia => LOC
SEEB-RO => PESSOA
Estado => LOC
Ariquemes => LOC
Ouro Preto do Oeste => LOC
São Miguel do Guaporé => LOC
Alta Floresta => LOC
Madeira-Mamoré => PESSOA
Porto Velho => LOC
Jatuarana => LOC
Tribunal de Justiça => PESSOA
Ji-Paraná => LOC
Ariquemes => LOC
BRADESCO => PESSOA
Itapuã => LOC
Jaru => LOC
Ouro Preto do Oeste => LOC
Credijurd => PESSOA


 47%|████▋     | 30/64 [00:09<00:10,  3.25it/s]

Maranhão => LOC
Maranhão => LOC
São Luís => LOC
São José de Ribamar => LOC
São José de Ribamar => LOC
São José de Ribamar => LOC
Maranhão => LOC
São Luís => LOC
São Luís => LOC
Timbiras => LOC
Matinha => LOC


 48%|████▊     | 31/64 [00:09<00:10,  3.09it/s]

Nordeste => LOC
Roraima => LOC
Estados => LOC
Roraima => LOC
Estado de Minas => LOC
Roraima => LOC
Nordeste => LOC
China => LOC


 50%|█████     | 32/64 [00:09<00:10,  3.10it/s]

Acre => LOC
Amazonas => LOC
Cruzeiro do Sul => LOC
CGU => ORG
Guajará => LOC
Tribunal de Justiça Federal => ORG


 52%|█████▏    | 33/64 [00:10<00:10,  2.98it/s]

Tribunal de Contas da União => ORG
TCU => ORG
governo federal => ORG
Saúde => ORG
Cidadania => ORG
Educação => ORG
Economia => ORG
Infraestrutura => PESSOA
TCU => ORG
TCU => ORG
TCU => ORG
WhatsApp Web => PESSOA


 53%|█████▎    | 34/64 [00:10<00:10,  2.86it/s]

Aroeiras => LOC
Paraíba => LOC
Aroeiras => LOC
Fundo Nacional de Saúde => ORG
Aroeiras => LOC
Aroeiras => LOC
Ministério da Saúde => ORG
CGU => ORG
Aroeiras => LOC


 55%|█████▍    | 35/64 [00:10<00:09,  3.14it/s]

Câmara dos Deputados => ORG
PL-AM => ORG
Agência Câmara de Notícias => PESSOA


 56%|█████▋    | 36/64 [00:11<00:09,  3.11it/s]

G1 => ORG
Distrito Federal => LOC
Brasil => LOC
G1 => ORG
Ministério Público de Contas => ORG
Tribunais de Contas dos Estados => ORG
DF => LOC
Rio de Janeiro => LOC
Santa Catarina => LOC
Pará => LOC
MDB => ORG
Conselho Nacional dos Secretários de Saúde => ORG
Conass => ORG
Polícia Federal => ORG
Ministério Público Federal => ORG


 58%|█████▊    | 37/64 [00:11<00:09,  2.96it/s]

Marinha => ORG
FNDE => ORG
Controladoria-Geral da União => ORG
CGU => ORG
FNDE => ORG
FNDE => ORG
Congresso em Foco => ORG
FNDE => ORG
CGU => ORG
FNDE => ORG


 61%|██████    | 39/64 [00:11<00:07,  3.34it/s]

Saúde => ORG
Tribunal de Justiça => ORG
Prefeitura de Rondonópolis => ORG
Munícipio => ORG
Receita Federal => ORG
País => ORG
Nubank => ORG
Nubank => ORG
Banco Central => ORG
Canaltech => ORG
Canaltech => ORG


 62%|██████▎   | 40/64 [00:12<00:07,  3.19it/s]

Palmas => LOC
Porto Nacional => LOC
TO => LOC
Brasília => LOC
Palmas => LOC
Porto Nacional => LOC
TO => LOC
Sudeste => LOC
Aracaju => LOC
Sergipe => LOC
Controladoria-Geral da União => ORG
CGU => ORG
Aracaju => LOC
Nossa Senhora do Socorro => LOC
CGU => ORG
CGU => ORG


 64%|██████▍   | 41/64 [00:12<00:07,  3.09it/s]

Campo Grande => LOC
Mato Grosso do Sul => LOC
MS => PESSOA
Seduc => ORG
Tribunal de Contas do Estado => ORG
TCE => ORG
PSC => ORG
Mato Grosso do Sul => LOC


 66%|██████▌   | 42/64 [00:12<00:06,  3.17it/s]

Brasil => LOC
Amapá => LOC
Amazonas => LOC
Distrito Federal => LOC
Pará => LOC
Rio de Janeiro => LOC
Rio Grande do Sul => LOC
Rondônia => LOC
Roraima => LOC
Santa Catarina => LOC
Pará => LOC
Amazonas => LOC
PSC => ORG
Aracaju => LOC
SE => LOC
Fortaleza => LOC
CE => LOC
Macapá => LOC
AP => ORG
Recife => LOC
PE => LOC
Rio Branco => LOC
AC => LOC
São Luiz => LOC
MA => LOC
BBC News Brasil => ORG
CGU => ORG
Rio Branco => LOC
São Luís => LOC
MA => LOC
Rio de Janeiro => LOC


 69%|██████▉   | 44/64 [00:13<00:05,  3.64it/s]

ALMT => ORG
Assembleia Legislativa => ORG
Mato Grosso => LOC
Mato Grosso => LOC
Batalhão de Emergências Ambientais => ORG
BEA => ORG
Brasil => LOC
Amazônia => LOC
Sorriso => LOC
Mato Grosso => LOC
Ministério Público do Estado do Rio de Janeiro => ORG
Grupo de Atuação Especializada no Combate à Corrupção => ORG
GAECC => ORG
MPRJ => ORG
OZZ Saúde Eireli => ORG
SAMU => ORG
Corpo de Bombeiros => ORG
Município do Rio => ORG


 70%|███████   | 45/64 [00:13<00:05,  3.48it/s]

Câmara de Vereadores => ORG
Brasileira => PESSOA
Câmara => PESSOA
Câmara => PESSOA
Brasileira => PESSOA
Transjordana => PESSOA
Diário Oficial => ORG
Comissão Parlamentar de Inquérito => ORG
plenário => ORG
TCE => ORG


 72%|███████▏  | 46/64 [00:14<00:05,  3.35it/s]

Sala de Estado Maior => ORG
TJ/AM => ORG
OAB/AM => ORG
PDT => ORG
TRF-1 => ORG
Greenfield => ORG
STF => ORG
Ministério Púbico Federal => ORG
Lava Jato => ORG


 73%|███████▎  | 47/64 [00:14<00:05,  3.17it/s]

Holding Haus => ORG
W3haus => ORG
Orbitall => ORG
Logbank => ORG
White Lable => PESSOA
Middle Market => PESSOA
Banco Safra => ORG
Banco Inter => ORG
Magalu => ORG
Logbank => ORG
Orbitall => ORG
Logbank => ORG
Ipiranga => ORG
Creditas => ORG
Stone => ORG
Logbank => ORG


 75%|███████▌  | 48/64 [00:14<00:05,  3.16it/s]

Argentina => LOC
Buenos Aires => LOC
Grande Buenos Aires => LOC
IFE => ORG
Assistência ao Trabalho e à Produção => PESSOA
ATP => ORG


 77%|███████▋  | 49/64 [00:15<00:05,  2.99it/s]

Distrito Federal => LOC
Agepar => ORG


 78%|███████▊  | 50/64 [00:15<00:04,  3.02it/s]

Equatorial Piauí => ORG
Piauí => LOC
MDB => ORG
Prefeitura de Teresina => ORG
Alepi => ORG
São Raimundo Nonato => LOC
Maranhão => LOC
Detran => ORG
TV Tropical => ORG


 81%|████████▏ | 52/64 [00:16<00:03,  3.45it/s]

Corumbá => LOC
Mato Grosso do Sul => LOC
Metrópoles => PESSOA
Sindicato Nacional dos Servidores Federais da Educação Básica, Profissional e Tecnológica => PESSOA
Sinasefe => PESSOA
Corumbá => LOC
Estação Radar => LOC
Aeroporto => LOC
Mato Grosso do Sul => LOC
Brasil => LOC
Sinasefe => PESSOA
Tribunal Regional Federal da 1ª Região => ORG
TRF-1 => ORG
Economia => PESSOA
Metrópoles => ORG
Comissão de Valores Mobiliários => PESSOA
CVM => PESSOA
3ª Turma => ORG


 84%|████████▍ | 54/64 [00:16<00:02,  4.06it/s]

AFP => PESSOA
O Dia => ORG
Argentina => LOC
La Patria de Oruro => ORG
CTI => PESSOA
MAS => PESSOA
Casa Branca => ORG
Hospital Presbiteriano => ORG
Metrópoles => ORG
The News York Times => ORG
CNN => ORG


 88%|████████▊ | 56/64 [00:16<00:01,  4.77it/s]

PSOL => PESSOA
Câmara => PESSOA
Ministério Público do Distrito Federal => PESSOA
Procuradoria Federal dos Direitos do Cidadão => PESSOA
ECA => PESSOA
Recife => LOC
PE => LOC
Justiça => PESSOA
PSOL-MG => PESSOA
Frente Parlamentar Antirracista => PESSOA
Feminista => PESSOA
Ministério Público do Piauí => ORG
promotoria de justiça de Barras => ORG
Câmara Municipal de Barras => ORG


 89%|████████▉ | 57/64 [00:17<00:01,  4.67it/s]

MPF-RJ => ORG
Rede Globo => ORG
R7 => PESSOA
Veja => ORG
Safra de Nova York => ORG
Grupo Globo => ORG
Grupo Globo => ORG
Veja => ORG


 91%|█████████ | 58/64 [00:17<00:01,  3.92it/s]

VPR => ORG
Conselho Nacional da Amazônia Legal => ORG
Agência Brasil => ORG
Brasil => LOC
Forças Armadas => ORG
Estado brasileiro => ORG
Amazônia => LOC
Estado brasileiro => ORG
Forças Armadas => ORG
Estado brasileiro => ORG


 92%|█████████▏| 59/64 [00:17<00:01,  3.81it/s]

Distrito Federal => LOC
DF => LOC


 94%|█████████▍| 60/64 [00:18<00:01,  3.36it/s]

Câmara de Vereadores de Santa Rosa do Piauí => PESSOA
Progressistas => PESSOA
Governo Federal => ORG
Cidadesnanet => ORG
Câmara => PESSOA
Ministério Público Federal => PESSOA
Câmara => PESSOA
Ministério Público Federal => PESSOA


 97%|█████████▋| 62/64 [00:18<00:00,  3.96it/s]

CCom => PESSOA
Departamento Estadual de Trânsito do Piauí => ORG
Detran-PI => ORG
Palácio de Karnak => PESSOA
Detran => ORG
Departamento de Trânsito => ORG
Piauí => LOC
Pro-Piauí => PESSOA
Detran => ORG
Detran => ORG
Detran => ORG
CNH => ORG
CRLV => ORG
Detran => ORG
Detran => ORG
PRF => ORG
Ciptran => ORG
BPRE => ORG
Strans => ORG
US$ 360 => PESSOA
R$ 1.932 => PESSOA


 98%|█████████▊| 63/64 [00:18<00:00,  3.72it/s]

Bom Princípio => LOC
Norte do Piauí => LOC
PT => ORG
Portal do Rurik => ORG
CDC => ORG
Banco do Brasil => ORG
Bom Princípio => LOC
Delegacia da Policia Civil => ORG
Parnaíba => LOC
Portal do Rurik => ORG


100%|██████████| 64/64 [00:19<00:00,  3.34it/s]

Portal V1 => ORG
Justiça => ORG
Câmara de Vereadores => ORG
Justiça => ORG





In [14]:
precision_all = []
recall_all =[]
f1_all = []
for i in range(64):
    precision, recall, f1 = metrics(y_pred_set = saving_pred[i], y_true_set=saving_true[i])
    precision_all.append(precision)
    recall_all.append(recall)
    f1_all.append(f1)

In [15]:
np.mean(precision_all)

0.46953124999999996

In [16]:
np.mean(recall_all)

0.1887479679870353

In [17]:
np.mean(f1_all)

0.2464073950551982