<a href="https://colab.research.google.com/github/ilexistools/ebralc2021/blob/main/etiquetador_nlpnet.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Etiquetador nlpnet**

O etiquetador nlpnet alcança a acúracia de 97,33%.

Sua documentação completa está disponível em:
http://nilc.icmc.usp.br/nlpnet/index.html 

Vamos aprender a realizar a instalação e fazer o uso básico.


## Instalação

1. Instalar a biblioteca do nlpnet:

In [None]:
!pip install nlpnet

2. Importar o nltk e instalar o recurso 'punkt' do nltk:

In [None]:
import nltk  

try:
  nltk.data.find('tokenizers/punkt')
except LookupError:
  nltk.download('punkt')

3. Baixar o modelo treinado para o português:

In [None]:
import requests
import tarfile

url = 'http://nilc.icmc.usp.br/nlpnet/data/pos-pt.tgz'
response = requests.get(url, stream=True)
file = tarfile.open(fileobj=response.raw, mode="r|gz")
file.extractall(path=".")



## Utilização básica

Para testar o funcionamento do etiquetador, utilizamos o seguinte exemplo:


In [None]:
import nlpnet 

tagger = nlpnet.POSTagger('/content/pos-pt', language='pt')
tagger.tag('O rato roeu a roupa do rei de Roma.')

[[('O', 'ART'),
  ('rato', 'N'),
  ('roeu', 'V'),
  ('a', 'ART'),
  ('roupa', 'N'),
  ('do', 'PREP+ART'),
  ('rei', 'N'),
  ('de', 'PREP'),
  ('Roma', 'NPROP'),
  ('.', 'PU')]]

No exemplo, podemos observar a etiquetagem de uma frase. A função 'tag()' itemiza e etiqueta o texto.

# Etiquetar um corpus


In [None]:
import os 
import nltk 
import nlpnet 

# 1. Informe o caminho da pasta do corpus:
corpus_folder = '/content/drive/MyDrive/CORPORA/noticias_pc/'

# 2. Informe o caminho do pasta onde salvar os textos etiquetados:  
save_folder = '/content/drive/MyDrive/CORPORA/_temp/'

tagger = nlpnet.POSTagger('/content/pos-pt', language='pt')
files = os.listdir(corpus_folder)
for filename in files:
  with open(corpus_folder + filename, 'r', encoding='utf-8') as fh:
    content = fh.read()
  sents = nltk.sent_tokenize(content,language='portuguese')
  tagged_sents = []
  for sent in sents:
    tagged_sent = []
    for token in tagger.tag(sent)[0]:
      tagged_sent.append(nltk.tuple2str(token))
    tagged_sents.append(' '.join(tagged_sent))
  with open(save_folder + filename, 'w', encoding='utf-8') as fh:
    fh.write('\n'.join(tagged_sents))


  






# Saiba mais...

http://nilc.icmc.usp.br/nlpnet/index.html