### Buscando o modelo de Postagger no repositório do Hugging Faces

In [1]:
import re
from transformers import pipeline
from transformers import AutoTokenizer, AutoModelForTokenClassification
# modelo BioBERTpt treinado com o MacMorpho
# http://nilc.icmc.usp.br/macmorpho/


In [3]:
model = AutoModelForTokenClassification.from_pretrained("pucpr-br/postagger-bio-portuguese")
tokenizer = AutoTokenizer.from_pretrained('pucpr-br/postagger-bio-portuguese')

nlp_token_class = pipeline('ner', model=model, tokenizer=tokenizer, grouped_entities=True)


Downloading:   0%|          | 0.00/709M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/996k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/112 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/39.0 [00:00<?, ?B/s]

In [53]:
class Token:
    def __init__(self, text, pos):
        self.text = text
        self.pos = pos
    def get_text(self):
        return self.text
    def get_pos(self):
        return self.pos

In [54]:
def replaceWhiteSpaces(str):
    return re.sub('\s{2,}',' ',str)

def tokenizaFrase(frase, lower):
    frase = frase.replace('  ',' . ').replace(':',' ').replace('+',' . ').replace('#',' ').replace('(',' (').replace(')',') ').replace('[',' [').replace(']','] ')
    frase = replaceWhiteSpaces(frase.strip())
    if lower==1:
        frase=frase.lower()
    #doc = nlp(frase)
    doc = nlp_token_class(frase)
    lista_obj=[]
    for d in doc:
        pos = d['entity_group']
        pos = getTipoTag(pos)
        text = frase[d['start']:d['end']]
        obj = Token(text, pos)
        lista_obj.append(obj)
    return lista_obj
    
def getTipoTag(tag):
    # ADJ é igual
    if tag == 'V':
        return 'VERB'
    if tag == 'N':
        return 'NOUN'
    if tag == 'PU':
        return 'PUNCT'
    if tag == 'PROPESS':
        return 'PRON'
    if tag == 'NPROP':
        return 'NOUN'   
    if tag == 'PCP':
        return 'AUX'  
    if tag == 'VAUX':
        return 'VERB'
    if tag == 'ART':
        return 'DET'
    if tag == 'KS':
        return 'SCONJ'
    if tag == 'PREP' or tag == 'PREP+ART':
        return 'ADP'
    if tag == 'KC':
        return 'CCONJ'
    if tag == 'ADJ':
        return 'ADV'
    
    
    
def isTokenFimChunk(pos):
    if pos != 'VERB' and pos != 'AUX' and pos != 'PUNCT' and pos != 'PRON':    
        return False
    else:
        return True
    
def isTokenImportant(pos):
    if pos == 'NOUN' or pos == 'PROPN' or pos == 'ADJ':
        return True
    else:
        return False
    
def deveInserirToken(tamanhoTokens, pos):
    if tamanhoTokens!=0 or (tamanhoTokens==0 and (pos != 'ADP' and pos != 'DET' and pos != 'SCONJ' and pos != 'CCONJ')):
        return True
    else:
        return False
    
def deveManterToken(pos):
    if pos != 'DET' and pos != 'SCONJ' and pos != 'CCONJ' and pos != 'ADP':
        return True
    else:
        return False
    
def get_np(frase, lower):
        doc = tokenizaFrase(frase, lower)
        lista_chunks = []
        all_novo_chunk = []
        temNoun=0
        tokens_chunk = []
        for num, token in enumerate(doc):
            if not isTokenFimChunk(token.get_pos()):
                if deveInserirToken(len(tokens_chunk), token.get_pos()):
                    tokens_chunk.append(token)
                if isTokenImportant(token.get_pos()):
                    temNoun=1
            else:
                if len(tokens_chunk)!=0 and temNoun == 1:
                    novo_chunk = ''
                    deve_manter = 0
                    # retirando ultimos tokens do chunk se não forem importantes
                    for i in range(len(tokens_chunk)-1,-1,-1):
                        pos = tokens_chunk[i].get_pos()
                        texto = tokens_chunk[i].get_text()
                        if deveManterToken(pos):
                            deve_manter = 1
                        if deve_manter==1:
                            novo_chunk = texto+' '+novo_chunk
                    all_novo_chunk.append(novo_chunk.strip())
                    lista_chunks.append(tokens_chunk)
                    tokens_chunk = []
                    temNoun = 0
                else:
                        tokens_chunk = []
                        temNoun = 0
        return all_novo_chunk


In [55]:
#ex = 'Há um único quadro de leitura aberto iniciado por códon de metionina de 1.458 nt no quadro com uma homeobox e uma repetição CAX, e o quadro de leitura aberto está previsto para codificar uma proteína de 51.659 daltons.'
ex = 'Data de Criação do Documento: 22/04/2014   Dispneia importante aos esforços + dor tipo peso no peito no esforço. Obeso, has, icc  c # cintilografia miocardica para avaliar angina.'
#ex = 'Em uso de insulina nph, metformina, sinvastatina 40mg 2 cp, carvedilol 6,25mg, losartana 50mg 2 x dia, AAS 100mg, clopidogrel 75mg. Tabagista há mais de 40 anos. Hoje fuma 8 cigarros por dia. Antes 2 carteiras/dia. Nega queixas.  O # LAboratorial 07/08/2013: HB: 12,9; Hematocrito 37,5; glicemia: 144; microalbuminuria: 2030,7 mg.  Cintilografia de perfusao miocardica agosto/13: Sem evidencias de isquemia miocardica, fç do VE preservada com hipocinesia septal.'
#ex='AVC EM JUGULAR ESQUERDA, SEM SINAIS FLOGÍSTICOS, COM SOROTERAPIA EM CURSO. RELATA ELIMINAÇÕES VESICAIS E INTESTINAIS. RIM TRANSPLANTADO.'

print('---Frase original:---\n')
print(ex)
print('\n\n---Chunks da frase:---\n')
print(get_np(ex, 0))


---Frase original:---

Data de Criação do Documento: 22/04/2014   Dispneia importante aos esforços + dor tipo peso no peito no esforço. Obeso, has, icc  c # cintilografia miocardica para avaliar angina.


---Chunks da frase:---

['Data de Criação do Documento 22', '04', '2014', 'Dispneia importante aos esforços', 'dor tipo peso no peito no esforço', 'Obeso', 'has', 'icc', 'cintilografia miocardica', 'angina']


In [None]:
'''
ADJ: adjective
ADP: adposition
ADV: adverb
AUX: auxiliary
CCONJ: coordinating conjunction
DET: determiner
INTJ: interjection
NOUN: noun
NUM: numeral
PART: particle
PRON: pronoun
PROPN: proper noun
PUNCT: punctuation
SCONJ: subordinating conjunction
SYM: symbol
VERB: verb
X: other

https://universaldependencies.org/u/pos/
'''