<a href="https://colab.research.google.com/github/marcospontoexe/PUC/blob/main/Clinical_POS_Tagging_and_NER.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **[TUTORIAL]** Desenvolvimento de POS-Tagging e NER para textos clínicos em português
Iremos, de maneira prática, passar por algoritmos de Processamento de Linguagem Natural utilizados no desenvolvimento de tarefas relacionadas a extração de informações de textos clínicos e biomédicos.

Ao final deste tutorial você saberá:

*   Entender os conceitos básicos de Processamento de Linguagem Natural
*   Aplicar algoritmos de Sequence Labeling em textos
*   Compreender os desafios no processamento de textos clínicos
*   Obter uma base de scripts que pode ser utilizada na resolução de diferentes tarefas de NLP para saúde

O escopo deste tutorial compreende:

1.  Processamento básico de textos com o pacote [NLTK](https://www.nltk.org/)
2.   Sequence Labeling: POS-Tagging e Named Entity Recognition (NER) para textos clínicos utilizando o [Flair](https://github.com/flairNLP/flair)









### **O que é Natural Language Processing ou Processamento de Linguagem Natural?**

É uma sub-área da Inteligência Artificial que objetiva o entendimento de linguagens humanas por parte das máquinas.

Neste sentido, é uma área de fundamental importância para extração informação de textos clínicos.

### **1) Processando textos usando o NLTK**

Como o nome já diz, o NLTK (Natural Language Toolkit) é um toolkit para processamento de linguagem natural. Ele fornece várioas funcionalidades para criação de programas de PLN.

> **OBSERVAÇÃO**: Você pode optar por utilizar outros pacotes como o [Stanza](https://stanfordnlp.github.io/stanza/) e o [spaCy](https://spacy.io/).



#### Importando o NLTK

In [None]:
import nltk

#### Operações Básicas ou Pré-processamento
As operações a seguir geralmente fazem parte de uma etapa do NLP chamada de **Pré-processamento**, e já se tornaram triviais a todos programas de NLP, pois preparam o texto bruto para ser realmente processado e "entendido" pela máquina.

*   Tokenização
*   Segmentação de sentenças
*   Normalização
*   Stemming
*   Lematização



##### Tokenização
Serve para separar o texto em *tokens* - que são uma sequência de caracteres com algum significado semântico.

In [None]:
# Você deve importar o tokenizador da biblioteca NLTK
import nltk
from nltk import tokenize

# Caso não tenha feito o download de todos recursos do NLTK, você pode fazê-lo de maneira individual
nltk.download('punkt')

# Um texto de exemplo
texto = "Um exemplo de texto para visualizarmos a técnica de tokenização. Todas palavras do texto serão separadas. Mais um exemplo."

# Tokeniza o texto
tokens = tokenize.word_tokenize(texto, language='portuguese')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [None]:
# Mostra o texto tokenizado
tokens

['Um',
 'exemplo',
 'de',
 'texto',
 'para',
 'visualizarmos',
 'a',
 'técnica',
 'de',
 'tokenização',
 '.',
 'Todas',
 'palavras',
 'do',
 'texto',
 'serão',
 'separadas',
 '.',
 'Mais',
 'um',
 'exemplo',
 '.']

Quantos caracteres temos?

In [None]:
len(texto)

122

Quantos tokens temos?

In [None]:
len(tokens)

22

Quantos tokens únicos nós temos?

In [None]:
len(set(tokens))

17

In [None]:
# Usando a biblioteca collections
from collections import Counter

contador = Counter(tokens)

for cont in contador.items():
  print(cont)

('Um', 1)
('exemplo', 2)
('de', 2)
('texto', 2)
('para', 1)
('visualizarmos', 1)
('a', 1)
('técnica', 1)
('tokenização', 1)
('.', 3)
('Todas', 1)
('palavras', 1)
('do', 1)
('serão', 1)
('separadas', 1)
('Mais', 1)
('um', 1)


In [None]:
# Mostra os termos mais frequentes
contador.most_common(3)

[('.', 3), ('exemplo', 2), ('de', 2)]

##### Segmentação de sentenças
As regras principais de segmentação de sentenças contam com a divisão a partir de pontuações encontradas no texto ou quebras de linha.

In [None]:
from nltk import sent_tokenize

texto = "Definição da sentença 1. Mais uma sentença. Última sentença. Mais uma senteça"

sents = sent_tokenize(texto)

In [None]:
# Imprime as sentenças
sents

['Definição da sentença 1.',
 'Mais uma sentença.',
 'Última sentença.',
 'Mais uma senteça']

##### Stemming
Reduz as palavras ao seu *stem*, retirando o sufixo. Faz com que palavras de mesmo significado semântico (ou similar) sejam escritas da mesma maneira (e.g., correr, correndo, correu). Geralmente o stem não é uma palavra válida.


In [None]:
# Caso não tenha feito o download de todos recursos do NLTK, você pode fazê-lo de maneira individual
nltk.download('rslp')

# Inicia o Stemmer
stemmer = nltk.stem.RSLPStemmer()

print(stemmer.stem("ferro"))
print(stemmer.stem("ferreiro"))

print(stemmer.stem("correr"))
print(stemmer.stem("correu"))

[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.
ferr
ferr
corr
corr


In [None]:
# Define uma função que faz Stemming em todo um texto
def Stemming(texto):
  stemmer = nltk.stem.RSLPStemmer()
  novotexto = []
  for token in texto:
    novotexto.append(stemmer.stem(token.lower()))
  return novotexto

texto1 = "Eu gostei de correr"
texto2 = "Eu gosto de corrida"

# Tokeniza o texto
tokens1 = tokenize.word_tokenize(texto1, language='portuguese')
tokens2 = tokenize.word_tokenize(texto2, language='portuguese')

novotexto1 = Stemming(tokens1)
novotexto2 = Stemming(tokens2)

print(novotexto1)
print(novotexto2)

['eu', 'gost', 'de', 'corr']
['eu', 'gost', 'de', 'corr']


##### Lematização
Similar ao processo de Stemming, porém, faz uma análise morfológica completa para identificar e remover os sufixos. Geralmente leva os verbos ao infinitivo e substantivos/adjetivos ao masculino singular. Se diferencia do Stemming pois sempre gera uma palavra válida.

Infelizmente, esta funcionalidade não é suportada pelo NLTK. [Neste link](https://lars76.github.io/nlp/lemmatize-portuguese/) você pode encontrar alternativas para realizar a lematização em português.

Para este tutorial iremos utilizar o stemmer, caso queira saber um pouco mais sobre o impacto dessa decisão, você pode ler [este capítulo](https://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html) do livro de Information Retrieval da Universidade de Stanford.


##### Retirada de Stop-words
As vezes é necessário remover as palavras de maior ocorrência no conjunto de textos, pois geralmente elas não agregam grande valor semântico aos textos e não ajudam no processo de selecionar as informações relevantes ao sistema de NLP.

Este processo pode ser diferente, de acordo com a tarefa de NLP que você está executando, mas no geral temos duas abordagens: retirar as palavras de maior ocorrência levando em conta a [lei de Zipf](http://terrierteam.dcs.gla.ac.uk/publications/rtlo_DIRpaper.pdf), ou utilizar uma lista de stop-words pronta para seu idioma. Iremos realizar a segunda opção.

In [None]:
# Caso não tenha feito o download de todos recursos do NLTK, você pode fazê-lo de maneira individual
nltk.download('stopwords')

# O NLTK fornece uma lista de stop-words para o idioma português
stopwords = nltk.corpus.stopwords.words('portuguese')
stopwords

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


['de',
 'a',
 'o',
 'que',
 'e',
 'é',
 'do',
 'da',
 'em',
 'um',
 'para',
 'com',
 'não',
 'uma',
 'os',
 'no',
 'se',
 'na',
 'por',
 'mais',
 'as',
 'dos',
 'como',
 'mas',
 'ao',
 'ele',
 'das',
 'à',
 'seu',
 'sua',
 'ou',
 'quando',
 'muito',
 'nos',
 'já',
 'eu',
 'também',
 'só',
 'pelo',
 'pela',
 'até',
 'isso',
 'ela',
 'entre',
 'depois',
 'sem',
 'mesmo',
 'aos',
 'seus',
 'quem',
 'nas',
 'me',
 'esse',
 'eles',
 'você',
 'essa',
 'num',
 'nem',
 'suas',
 'meu',
 'às',
 'minha',
 'numa',
 'pelos',
 'elas',
 'qual',
 'nós',
 'lhe',
 'deles',
 'essas',
 'esses',
 'pelas',
 'este',
 'dele',
 'tu',
 'te',
 'vocês',
 'vos',
 'lhes',
 'meus',
 'minhas',
 'teu',
 'tua',
 'teus',
 'tuas',
 'nosso',
 'nossa',
 'nossos',
 'nossas',
 'dela',
 'delas',
 'esta',
 'estes',
 'estas',
 'aquele',
 'aquela',
 'aqueles',
 'aquelas',
 'isto',
 'aquilo',
 'estou',
 'está',
 'estamos',
 'estão',
 'estive',
 'esteve',
 'estivemos',
 'estiveram',
 'estava',
 'estávamos',
 'estavam',
 'estivera'

In [None]:
# Define uma função que remove as stop words de um texto
def removeStopWords(texto):
    stopwords = nltk.corpus.stopwords.words('portuguese')
    novotexto = []
    for token in texto:
        if token.lower() not in stopwords:
            novotexto.append(token)
    return novotexto

texto = "Quais palavras serão retiradas deste texto? Eu não sei, mas este processo é necessário em alguns momentos."

# Tokeniza o texto
tokens = tokenize.word_tokenize(texto, language='portuguese')

novotexto = removeStopWords(tokens)

print(novotexto)

['Quais', 'palavras', 'retiradas', 'deste', 'texto', '?', 'sei', ',', 'processo', 'necessário', 'alguns', 'momentos', '.']


> **IMPORTANTE**: Em alguns casos retirar as palavras referentes a negação (i.e., não) pode retirar um significado semântico muito importante do texto. Por exemplo, no texto: "*O paciente não apresenta sintomas da doença*". Neste caso a negação muda completamente o sentido da frase. Existem alguns outros casos (principalmente quando utilizamos *Deep Learning*) em que **a retirada das stop-words pode ser prejudicial ao algoritmo**, portanto, sempre teste seus algoritmos com e sem esta opção!

### **2) Sequence Labeling: POS-Tagging e Named Entity Recognition (NER) para textos clínicos**

O **Sequence Labeling** é uma tarefa de *Machine Learning* que envolve a atribuição algorítmica de uma etiqueta categórica a cada membro de uma sequência de valores observados, em nosso caso, aplicar etiquetas aos tokens presentes em um texto.

Mas antes de aplicarmos de fato algoritmos deste tipo, vamos contextualizar rapidamente aqui, a grande intersecção que a área de **Natural Language Processing** tem com o **Machine Learning**.

#### **O que é *Machine Learning*?**

É uma área da Inteligência Artificial que provê a sistemas a habilidade de **automaticamente aprender tarefas sem que seja explicitamente programada para tal**.


###### Mas, quando usar?

Qualquer tarefa computacional em que não seja factível explicitamente definir regras de funcionamento ou que esta programação demande muito tempo, o *Machine Learning* (ML) pode ser aplicado.

Por exemplo, eu gostaria que meu sistema receba uma imagem e diga o nome dos objetos encontrados. Seria humanamente impossível criar regras de reconhecimento de padrões para todos objetos existentes. O ML seria capaz de tentar compreender estas imagens e automaticamente generalizar estes padrões.


###### Qual a ligação de ML com NLP?

A medida que as tarefas de NLP foram ficando mais complexas, o uso exclusivo de regras e padrões para extrair informações do texto foi ficando insustentável. Desde então, técnicas de ML se tornaram essenciais para a área de NLP.

OK, vamos então para nosso primeiro exemplo de Sequence Labeling.



#### **POS-Tagging (Part-of-speech Tagging)**
O **POS-Tagging** é um algoritmo de NLP que busca atribuir valor morfológico às palavras encontradas em um texto (e.g., substantivo, verbo, adjetivo, etc.). Ou seja, **com este tipo de algoritmo, sabemos o "tipo" e o "papel" de cada palavra no texto**, o que pode auxiliar um sistema a compreender trechos de texto de maneira mais acurada.

> **E agora, como eu posso aplicar o POS-Tagging ao meu texto?**

As duas principais opções são:

1.   Obter um corpus de documentos, anotá-los manualmente com as categorias morfológicas, treinar um algoritmo de Machine Learning a partir deste corpus, e então, utilizar o modelo gerado para realizar o POS-Tagging em seu texto
2.    Utilizar um modelo treinado para o idioma e contexto adequados para seu texto

Provavelmente você irá preferir a segunda opção, pois é muito mais rápido e prático utilizar um modelo já pronto. Porém, **nem sempre existe um modelo adequado para seu tipo de texto (e.g., jornalístico, médico, legal) e idioma**.

Hoje é o seu dia de sorte, pois o grupo de pesquisa **HAILab**, já [disponibilizou um modelo de POS-Tagger treinado em textos clínicos no idioma Português](https://github.com/HAILab-PUCPR/portuguese-clinical-pos-tagger)! E melhor ainda, este modelo já foi agregado a ferramenta de Sequence Labeling chamada [Flair](https://github.com/flairNLP/flair/blob/master/resources/docs/TUTORIAL_2_TAGGING.md), que possui desempenho estado da arte em diversas tarefas de NLP.

Então vamos lá!






##### **Abrindo uma base de dados**
Vamos utilizar um dataset de textos clínicos em Português Europeu, disponível [neste link](https://github.com/fabioacl/PortugueseClinicalNER).

> **OBSERVAÇÃO**: Em breve, o corpus [SemClinBr](https://github.com/HAILab-PUCPR/SemClinBr), desenvolvido pelo HAILab estará disponível para acesso mediante solicitação, para fins acadêmicos e de pesquisa.



In [None]:
# Instala pacote gitPython, que serve para copiar arquivos do GitHub
!pip install gitpython

In [None]:
import git
# Copia repositório para diretório atual
git.Git("./").clone("https://github.com/kunkaweb/PortugueseClinicalNER.git")

''

Agora vamos armazenar alguns dos dados dos arquivos originais, em uma lista.

In [None]:
import os

# Cria lista
textos = []
directory = "PortugueseClinicalNER/Texts SPN 2 Raw/"

# Percorre arquivos do diretório
for filename in os.listdir(directory):
  #Se é um arquivo texto
  if filename.endswith(".txt"):

    # Abre arquivo
    f = open(os.path.join(directory, filename), "r", encoding='cp1252')
    # Adiciona texto na lista
    textos.append(f.read().replace("\n", " "))
    # Guarda

  else:
    continue

In [None]:
# Imprime lista
textos

['Apresentamos um caso clínico de uma mulher de 68 anos com internamento prévio em 2013 devido a um hematoma lenticulo-caudado com inundação para o sistema ventricular. Tanto a RM cerebral quanto a angio-RM do polígono não apresentavam outras alterações relevantes. Em setembro de 2016, após instalação súbita de défices sensitivos foi diagnosticada uma hemorragia subaracnoidea (HSA). À data da alta não apresentava sinais focais. Posteriormente, múltiplas vindas ao serviço de urgência por alteração da sensibilidade do membro superior esquerdo. Foi medicada com zonisamida com resolução do quadro. Em março de 2017, regressou ao serviço de urgência por tonturas e vómitos. Realizou TC-CE que revelou nova HSA. A RM cerebral e medular evidenciou deposição de hemossiderina nos sulcos cerebelosos e hemisféricos. A angiografia cerebral convencional excluiu a malformação aneurismática e o PET- -PiB mostrou aumento moderado da deposição de B-amilóide. A avaliação do LCR identificou uma diminuição d

##### **Executando o POS-Tagging nos textos**
Vamos utilizar o Flair, que nada mais é que um algoritmo de ML que já foi treinado em diversos corpus anotados diferentes, entre eles, um para português clínico.

In [None]:
# Instala o Flair
!pip install flair

In [None]:
from flair.models import SequenceTagger
from flair.data import Sentence

# Carrega o modelo clínico do HAILab
postagger = SequenceTagger.load('pt-pos-clinical')

2021-10-20 14:39:13,789 loading file /root/.flair/models/pucpr-flair-clinical-pos-tagging-best-model.pt


In [None]:
# Obtém primeiro texto da lista (modifique para verificar os outros - ou itere a lista)
text = textos[0]

# Passa texto para o Flair
sentence = Sentence(text)

# Faz predição das POS-tags
postagger.predict(sentence)

In [None]:
# Imprime resultado
print(sentence.to_tagged_string())

Apresentamos <VB> um <CD> caso <NN> clínico <JJ> de <IN> uma <CD> mulher <NN> de <IN> 68 <CD> anos <NN> com <IN> internamento <NN> prévio <JJ> em <IN> 2013 <CD> devido <VB> a <IN> um <CD> hematoma <NN> lenticulo-caudado <JJ> com <IN> inundação <NN> para <IN> o <DT> sistema <NN> ventricular <JJ> . <.> Tanto <IN> a <DT> RM <NN> cerebral <JJ> quanto <RB> a <IN> angio-RM <NN> do <IN> polígono <NN> não <RB> apresentavam <VB> outras <DT> alterações <NN> relevantes <JJ> . <.> Em <IN> setembro <NN> de <IN> 2016 <CD> , <,> após <IN> instalação <NN> súbita <JJ> de <IN> défices <NN> sensitivos <JJ> foi <VB> diagnosticada <VB> uma <CD> hemorragia <NN> subaracnoidea <JJ> ( <(> HSA <NN> ) <)> . <.> À <IN> data <NN> da <IN> alta <NN> não <RB> apresentava <VB> sinais <NN> focais <JJ> . <.> Posteriormente <RB> , <,> múltiplas <JJ> vindas <NN> ao <IN> serviço <NN> de <IN> urgência <NN> por <IN> alteração <NN> da <IN> sensibilidade <NN> do <IN> membro <NN> superior <JJ> esquerdo <JJ> . <.> Foi <VB> medic

Você pode verificar o signicado de cada POS-tag [neste link](https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html), do Penn TreeBank.

In [None]:
for entity in sentence.get_spans('pos'):
    print(entity)

Span [1]: "Apresentamos"   [− Labels: VB (0.9994)]
Span [2]: "um"   [− Labels: CD (0.9941)]
Span [3]: "caso"   [− Labels: NN (0.9983)]
Span [4]: "clínico"   [− Labels: JJ (0.9473)]
Span [5]: "de"   [− Labels: IN (1.0)]
Span [6]: "uma"   [− Labels: CD (0.9901)]
Span [7]: "mulher"   [− Labels: NN (0.9798)]
Span [8]: "de"   [− Labels: IN (1.0)]
Span [9]: "68"   [− Labels: CD (1.0)]
Span [10]: "anos"   [− Labels: NN (0.9999)]
Span [11]: "com"   [− Labels: IN (1.0)]
Span [12]: "internamento"   [− Labels: NN (0.9999)]
Span [13]: "prévio"   [− Labels: JJ (0.9892)]
Span [14]: "em"   [− Labels: IN (1.0)]
Span [15]: "2013"   [− Labels: CD (1.0)]
Span [16]: "devido"   [− Labels: VB (0.7576)]
Span [17]: "a"   [− Labels: IN (0.9989)]
Span [18]: "um"   [− Labels: CD (0.9236)]
Span [19]: "hematoma"   [− Labels: NN (0.9938)]
Span [20]: "lenticulo-caudado"   [− Labels: JJ (0.7174)]
Span [21]: "com"   [− Labels: IN (1.0)]
Span [22]: "inundação"   [− Labels: NN (0.9998)]
Span [23]: "para"   [− Labels: IN



> **Por que não utilizar um modelo generalista, treinado em textos jornalísticos?**
Por mais que os modelos generalistas tenham sido treinados com volumes maiores de dados, eles têm diversas características diferentes dos textos clínicos, bem como, um vocabulário diferente, fazendo com que o desempenho do modelo seja muito baixo em textos especializados em algum assunto, como é o texto clínico. [Neste link](http://www.nltk.org/howto/portuguese_en.html) você encontra um exemplo de treinamento utilizando o NLTK e um corpus jornalístico anotado em português.

> **E seu eu quiser treinar um novo modelo?**
Você precisaria realizar todo o processo de anotação manual dos textos do seu corpus, provavelmente apoiado por especialistas da área e linguistas (como [neste artigo](https://www.researchgate.net/publication/283081235_Elaboracao_de_um_Corpus_Medico_baseado_em_Narrativas_Clinicas_contidas_em_Sumarios_de_Alta_Hospitalar)), além de depois treinar um algoritmo de Machine Learning para aprender com os exemplos dados em seu corpus. Para algo mais prático, aconselharia a utilizar o próprio Flair, que já possui configurações e arquitetura otimizados para o Sequence Labeling, conforme [este tutorial](https://github.com/flairNLP/flair/blob/master/resources/docs/TUTORIAL_7_TRAINING_A_MODEL.md).

> **Mas, para quê serve o POS-Tagging afinal?**
Ao sabermos as categorias morfológicas das palavras em um texto, podemos inferir uma série de informações úteis sobre o texto, como, identificar nomes de pessoas (substantivos próprios), características de pacientes (adjetivos), encaminhamentos (verbos), etc. Um exemplo disso é [este trabalho](https://link.springer.com/chapter/10.1007/978-3-319-03005-0_72), que utilizou regras e padrões morfológicos para identificar trechos de continuidade do cuidado em sumários de alta. Além disso, o POS-Tagging é fundamental para um algoritmo de NER, pois ele dá subsídios para definição categórica dos termos encontrados no texto.

> **OBSERVAÇÃO**: Você poderia optar pela utilização de outras ferramentas de Machine Learning para treinar seu modelo, como o [scikit-learn](https://scikit-learn.org/stable/). Utilizamos o Flair por ser de fácil uso e apresentar uma arquitetura que fornece resultados estado da arte.

#### **Named Entity Recognition (NER)**
O **NER** é uma subtarefa de NLP que busca localizar e classificar entidades nomeadas mencionadas em texto não estruturado em categorias predefinidas, como nomes de pessoas, organizações, locais, códigos médicos, expressões de tempo, quantidades, valores monetários, porcentagens, etc.

O funcionamento de um algoritmo de NER é muito **semelhante ao POS-Tagging** pois ambos visam a categorização das palavras encontradas no texto (i.e., Sequence Labeling). Portanto, todos os processos necessários para a obtenção de um modelo são necessários, como a obtenção dos dados, anotação dos mesmos e treinamento de um algoritmo de ML.

##### Formatando os dados
Vamos transformar os dados no formato aceito pela biblioteca Flair, e assim efetuar a treinamento de nosso modelo.

In [None]:
import os
import pandas as pd
import numpy as np
import csv

# Total de 281 arquivos
directories = ["PortugueseClinicalNER/Texts SPN 1 Labeled English/", "PortugueseClinicalNER/Texts SPN 2 Labeled English/"]

all = []

# Percorre diretórios
for dir in directories:
  # Percorre arquivos do diretório
  for filename in os.listdir(dir):
    # Se é um arquivo excel
    if filename.endswith(".xlsx"):

      # Abre o arquivo excel
      read_file = pd.read_excel(os.path.join(dir, filename))

      # Remove a coluna referente ao lemma
      read_file = read_file.drop(read_file.columns[2], axis=1)

      # Escreve o excel em formato CSV (texto)
      read_file.to_csv(os.path.join(dir, filename).replace(".xlsx", ".csv"), index = None, header=True, sep='\t')

      # Armazena nome do novo arquivo
      all.append(os.path.join(dir, filename).replace(".xlsx", ".csv"))

    else:
      continue

Para ficar no formato correto, é preciso separar os textos em sentenças no CSV. Além disso é preciso agrupar todos arquivos em 3 diferentes, um com os textos para treinamento, outro para testes e outro para validação.

In [None]:
# Vamos separarar em:
# TRAIN: 224 (80%)
# TEST: 29 (10%)
# DEV: 28 (10%)

count = 0
# Percorre todos arquivos CSV gerados
for filename in all:

  count += 1

  if count <= 224:
    name = 'train.txt'
  elif count <= 253:
    name = 'test.txt'
  else:
    name = 'dev.txt'

  with open(filename) as i, open(name, 'a') as o:
      for line in i:
        #if line.startswith(".\tpunc\tO\n"):# Se for linha de ponto final
        #    line = ".\tpunc\tO\n\n" # Adiciona uma nova quebra de linha
        o.write(line)



> **IMPORTANTE**: Note que a coluna de anotação referente ao NER utiliza um formato chamado IOB, muito comum em algoritmos de NER. Veja mais [neste link](https://en.wikipedia.org/wiki/Inside%E2%80%93outside%E2%80%93beginning_(tagging)).



##### Treinando o modelo de NER no Flair
Agora que temos os arquivos no [formato pedido pela ferramenta](https://github.com/flairNLP/flair/blob/master/resources/docs/TUTORIAL_6_CORPUS.md#reading-your-own-sequence-labeling-dataset), vamos treinar nosso modelo.

A ferramenta Flair, oferece resultados estado da arte em Sequence Labeling, em contrapartida, seu processo de treinamento é extremamente oneroso. Abaixo segue o script responsável pelo treinamento do modelo utilizando o Flair.

**Não iremos executá-lo durante este tutorial devido a falta de tempo**. Quando forem executar lembrem-se de ativar a GPU do Google Colab, ou executar em uma máquina com uma placa de vídeo Nvidia. (Ambiente de Execução > Alterar tipo de ambiente de execução > GPU).

Ainda assim, talvez o custo de treinamento seja alto demais para os recursos do Google Colab, neste caso você deve executar em uma máquina com uma boa GPU e memória.

In [None]:
from flair.data import Corpus
from flair.datasets import ColumnCorpus
from flair.embeddings import TokenEmbeddings, WordEmbeddings, StackedEmbeddings, FlairEmbeddings, CharacterEmbeddings

# define as colunas do arquivo
columns = {0: 'text', 1: 'pos', 2: 'ner'}

# Define o diretório onde os arquivos se encontram
data_folder = './'

# 1. Inicia corpus
corpus: Corpus = ColumnCorpus(data_folder, columns,
                              train_file='train.txt',
                              test_file='test.txt',
                              dev_file='dev.txt')

# 2. Define o tipo de predição que queremos
tag_type = 'ner'

# 3. Monta o dicionário de tags
tag_dictionary = corpus.make_tag_dictionary(tag_type=tag_type)
print(tag_dictionary)

# 4. Inicializa os Embeddings (em português jornalístico - é possível você utilizar um modelo próprio se quiser)
embedding_types = [
    FlairEmbeddings('portuguese-forward'),
    FlairEmbeddings('portuguese-backward'),
]

embeddings: StackedEmbeddings = StackedEmbeddings(embeddings=embedding_types)

# 5. Inicializa o SequenceTagger
from flair.models import SequenceTagger

tagger: SequenceTagger = SequenceTagger(hidden_size=256,
                                        embeddings=embeddings,
                                        tag_dictionary=tag_dictionary,
                                        tag_type=tag_type,
                                        use_crf=True)

# 6. Inicializa o Trainer
from flair.trainers import ModelTrainer

trainer: ModelTrainer = ModelTrainer(tagger, corpus)

# 7. Inicia treinamento
trainer.train('./',
              learning_rate=0.1,
              mini_batch_size=32,
              max_epochs=50,
              embeddings_storage_mode='gpu')

##### Predizendo as entidades com o Flair
Uma vez que nosso modelo esteja treinado, podemos tentar predizer as entidades de qualquer texto. Lembrando que as tags estão abreviadas, conforme o trabalho do autor do corpus. Algumas referências a seguir.

CH: Characterization;
T: Test;
EV: Evolution;
G: Genetics;
AS: Anatomical Site;
N: Negation;
OBS: Additional Observations;
C: Condition;
R: Results;
DT: DateTime;
THER: Therapeutics;
V: Value;
RA: Route of Administration;
O: Out

In [None]:
# Carregaria o modelo que treinamos (basta deixar o arquivo no mesmo diretório)
model = SequenceTagger.load('final-model.pt')

# Cria uma sentença de exemplo
sentence = Sentence('O paciente apresenta sintomas de hipertensão')

# Faz predição
model.predict(sentence)

print(sentence.to_tagged_string())

> **OBSERVAÇÃO 1**: Caso queira um modelo mais leve, você pode optar por utilizar outros algoritmos de ML como [neste tutorial](https://towardsdatascience.com/named-entity-recognition-and-classification-with-scikit-learn-f05372f07ba2) ou [neste](https://towardsdatascience.com/named-entity-recognition-with-nltk-and-spacy-8c4a7d88e7da).

> **OBSERVAÇÃO 2**: Atualmente muitos dos modelos estado da arte fazem uso dos [Transformers](https://huggingface.co/transformers/), que disponibilizam uma série de arquiteturas para processamento de textos. O grupo HAILab já disponibilizou no site oficial dos Transformers um modelo chamado [BioBertPt](https://huggingface.co/pucpr/biobertpt-clin), para uso em textos clínicos em Português. Mais informações no [github](https://github.com/HAILab-PUCPR/BioBERTpt).

##### Predizendo entidades com modelos pré-treinados utilizando Transformers
As arquiteturas que fornecem resultados estado da arte em diversas tarefas de NLP atualmente são as baseadas em **Transformers**.

A [HuggingFace](https://huggingface.co/) disponibiliza um repositório com milhares de modelos Transformers pré-treinados, prontos para serem utilizados ou ajustados para alguma tarefa específica.

O HAILab disponibilizou [neste repositório](https://huggingface.co/pucpr), uma série de modelos, para extração de conceitos em textos clínicos, incluindo: substâncias farmacológicas, diagnósticos, sintomas, procedimentos, entre outros.

A seguir vamos utilizar o modelo que captura substâncias farmacológicas no texto.

In [None]:
# Instala a biblioteca que manipula os Transformers
!pip install transformers

In [None]:
# Importa o modelo de substâncias farmacológicas
from transformers import AutoTokenizer, AutoModelForTokenClassification, pipeline

tokenizer = AutoTokenizer.from_pretrained("pucpr/clinicalnerpt-pharmacologic")

model = AutoModelForTokenClassification.from_pretrained("pucpr/clinicalnerpt-pharmacologic")

In [None]:
#Executa o PIPELINE - que extrai as informações encontradas
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "ESTAVA EM USO DE FUROSEMIDA 40 BID, DIGOXINA 0,25 /D, SINVASTATINA 40 /NOITE, CAPTOPRIL 50 TID, ISOSSORBIDA 20 TID, AAS 100 /D E ESPIRONOLACTONA 25 /D."

ner_results = nlp(example)
print(ner_results)

[{'entity': 'B-PharmacologicSubstance', 'score': 0.97776645, 'index': 5, 'word': 'fur', 'start': 17, 'end': 20}, {'entity': 'B-PharmacologicSubstance', 'score': 0.9757279, 'index': 6, 'word': '##ose', 'start': 20, 'end': 23}, {'entity': 'B-PharmacologicSubstance', 'score': 0.9817026, 'index': 7, 'word': '##mida', 'start': 23, 'end': 27}, {'entity': 'B-PharmacologicSubstance', 'score': 0.9972006, 'index': 11, 'word': 'dig', 'start': 36, 'end': 39}, {'entity': 'B-PharmacologicSubstance', 'score': 0.9964234, 'index': 12, 'word': '##ox', 'start': 39, 'end': 41}, {'entity': 'B-PharmacologicSubstance', 'score': 0.995932, 'index': 13, 'word': '##ina', 'start': 41, 'end': 44}, {'entity': 'B-PharmacologicSubstance', 'score': 0.95315003, 'index': 20, 'word': 'sin', 'start': 54, 'end': 57}, {'entity': 'B-PharmacologicSubstance', 'score': 0.92704445, 'index': 21, 'word': '##vas', 'start': 57, 'end': 60}, {'entity': 'B-PharmacologicSubstance', 'score': 0.92315763, 'index': 22, 'word': '##tati', 'st

### **Conclusão**
Neste breve tutorial repassamos pelos conceitos básicos de NLP, bem como, vimos exemplos práticos de 2 sub-tarefas muito importantes para área como o **POS-Tagging** e **Named Entity Recognition**.

Estes scripts podem ser ponto de partida para diversos **Sistemas de Apoio a Decisão em Saúde** que fazem uso de informações contidas em textos clínicos.



Este notebook foi produzido por Prof. Dr. [Lucas Oliveira](http://lattes.cnpq.br/3611246009892500).