## Utilizar dataframe para preprocessar cada texto

- Abrir os arquivos

In [1]:
import os
corpora_path = '../data/corpora/'
corpora_dirs = os.listdir(corpora_path)
corpora_dirs = [d for d in corpora_dirs]

In [2]:
corpora_dirs

['Mahatma Gandhi',
 'Neymar',
 'LexCorp',
 'Raposa',
 'Donut',
 'Arnold Schwarzenegger',
 'Arco do Triunfo',
 'Nanotecnologia',
 'Oracle',
 'Afeganistão',
 'Nárnia',
 'UFLA']

In [3]:
corpora = {}
for corpus in corpora_dirs:
    files = [os.path.join(corpora_path + corpus, f) \
             for f in os.listdir(corpora_path + corpus) \
             if os.path.isfile(os.path.join(corpora_path + corpus, f))]
    corpora[corpus] = {'raw': [], 'tokenized': [], 'words': [], 'tag':[]}
    for file in files:
        lines = []
        with open(file, 'r') as txt_file:
            for line in txt_file.readlines():
                if line != '\n' and line != '' and line != ' ': 
                    lines.append(line)
            corpora[corpus]['raw'].append(lines)

- Preprocessar os textos

In [4]:
from nlp import lexical

In [5]:
normalizer = lexical.Preprocessing()

In [6]:
def normalizar(line):
    sentences = normalizer.tokenize_sentences(line)
    return sentences

In [7]:
import re
for corpus, infos in corpora.items():
    sentences = []
    corpora[corpus]['words'] = []
    words = []
    for text in infos['raw']:
        for line in text:
            texto = line.strip()
            tmp_sentences = []
            if texto != '/n' and texto != '':
                tmp_sentences = normalizar(texto)
            #print(type(tmp_sentences))
            sentences.extend(tmp_sentences)
            for tokens in sentences:
                for doc in tokens:
                    words.extend([w for w in doc])
    corpora[corpus]['tokenized'] = sentences
    corpora[corpus]['words'].extend(words)

In [8]:
corpora['Nanotecnologia']['tokenized']


['A nanotecnologia  é uma ciência que se dedica ao estudo da manipulação da matéria numa escala atómica e molecular lidando com estruturas entre 1 e 1000 nanômetros.',
 'Pode ser utilizada em diferentes áreas como, a medicina, eletrónica, ciência da computação, física, química, biologia e engenharia dos materiais.',
 'O princípio básico da nanotecnologia é a construção de estruturas e novos materiais a partir dos átomos.',
 'É uma área promissora, mas que dá apenas seus primeiros passos, mostrando, contudo, resultados surpreendentes (na produção de semicondutores, Nanocompósitos, Biomateriais, Chips, entre outros).',
 'Criada no Japão, a nanotecnologia busca inovar invenções, aprimorando-as e proporcionando uma melhor vida ao Homem.',
 'Um dos instrumentos utilizados para exploração de materiais nessa escala é o Microscópio eletrônico de varredura (MEV) e o Microscópio de varredura por Tunelamento (STM), que permite a observação de átomos e moléculas ao nível atômico.',
 'O objetivo pr

# Tagger

In [9]:
from nlp import morphosyntax

In [10]:
morpho = morphosyntax.Morpho()

In [11]:
docs = []

In [12]:
for corpus in corpora:
    for sentence in corpora[corpus]['tokenized']:
        doc = morpho.tag(sentence)
        corpora[corpus]['tag'].append(doc)

In [16]:
corpora['Nanotecnologia']['tag']

[[('A', 'DET', '', 'O'),
  ('nanotecnologia', 'NOUN', '', 'O'),
  (' ', 'SPACE', '', 'O'),
  ('é', 'VERB', '', 'O'),
  ('uma', 'DET', '', 'O'),
  ('ciência', 'NOUN', '', 'O'),
  ('que', 'PRON', '', 'O'),
  ('se', 'PRON', '', 'O'),
  ('dedica', 'VERB', '', 'O'),
  ('a', 'ADP', '', 'O'),
  ('o', 'DET', '', 'O'),
  ('estudo', 'NOUN', '', 'O'),
  ('da', 'ADP', '', 'O'),
  ('manipulação', 'NOUN', '', 'O'),
  ('da', 'ADP', '', 'O'),
  ('matéria', 'NOUN', '', 'O'),
  ('numa', 'ADJ', '', 'O'),
  ('escala', 'NOUN', '', 'O'),
  ('atómica', 'ADJ', '', 'O'),
  ('e', 'CCONJ', '', 'O'),
  ('molecular', 'NOUN', '', 'O'),
  ('lidando', 'VERB', '', 'O'),
  ('com', 'ADP', '', 'O'),
  ('estruturas', 'NOUN', '', 'O'),
  ('entre', 'ADP', '', 'O'),
  ('1', 'NUM', '', 'O'),
  ('e', 'CCONJ', '', 'O'),
  ('1000', 'CCONJ', '', 'O'),
  ('nanômetros', 'NOUN', '', 'O'),
  ('.', 'PUNCT', '', 'O')],
 [('Pode', 'AUX', '', 'O'),
  ('ser', 'AUX', '', 'O'),
  ('utilizada', 'VERB', '', 'O'),
  ('em', 'ADP', '', 'O'),
  (

In [13]:
for sentence in corpora['Nanotecnologia']['tag']:
    print(sentence)

[('A', 'DET', '', 'O'), ('nanotecnologia', 'NOUN', '', 'O'), (' ', 'SPACE', '', 'O'), ('é', 'VERB', '', 'O'), ('uma', 'DET', '', 'O'), ('ciência', 'NOUN', '', 'O'), ('que', 'PRON', '', 'O'), ('se', 'PRON', '', 'O'), ('dedica', 'VERB', '', 'O'), ('a', 'ADP', '', 'O'), ('o', 'DET', '', 'O'), ('estudo', 'NOUN', '', 'O'), ('da', 'ADP', '', 'O'), ('manipulação', 'NOUN', '', 'O'), ('da', 'ADP', '', 'O'), ('matéria', 'NOUN', '', 'O'), ('numa', 'ADJ', '', 'O'), ('escala', 'NOUN', '', 'O'), ('atómica', 'ADJ', '', 'O'), ('e', 'CCONJ', '', 'O'), ('molecular', 'NOUN', '', 'O'), ('lidando', 'VERB', '', 'O'), ('com', 'ADP', '', 'O'), ('estruturas', 'NOUN', '', 'O'), ('entre', 'ADP', '', 'O'), ('1', 'NUM', '', 'O'), ('e', 'CCONJ', '', 'O'), ('1000', 'CCONJ', '', 'O'), ('nanômetros', 'NOUN', '', 'O'), ('.', 'PUNCT', '', 'O')]
[('Pode', 'AUX', '', 'O'), ('ser', 'AUX', '', 'O'), ('utilizada', 'VERB', '', 'O'), ('em', 'ADP', '', 'O'), ('diferentes', 'DET', '', 'O'), ('áreas', 'NOUN', '', 'O'), ('como', '