# Dando inicio a construção do tradutor / organizador de sentenças.

## Importando as bibliotecas

In [None]:
import nltk


In [None]:
import nltk.tokenize as tkz

In [None]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

##Iniciando os testes

In [None]:
frase = 'Eu comer maçã ontem. Eu gostar maçã muito.'

###Com word e sentence tokenizer

In [None]:
sentenc_tks = tkz.sent_tokenize(frase)
sentenc_tks

['Eu comer maçã ontem.', 'Eu gostar maçã muito.']

In [None]:
words_tkz = tkz.word_tokenize(frase)
words_tkz

['Eu', 'comer', 'maçã', 'ontem', '.', 'Eu', 'gostar', 'maçã', 'muito', '.']

###Com treebank word tokenizer

In [None]:
tbw_tkz = tkz.TreebankWordTokenizer()

In [None]:
tbw_tkz.tokenize(frase)

['Eu', 'comer', 'maçã', 'ontem.', 'Eu', 'gostar', 'maçã', 'muito', '.']

## WORD TOKENIZE faz o serviço necessário para nosso problema

## Procurando Stop Words

In [None]:
from nltk.corpus import stopwords

In [None]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
pt_br_SW = set(stopwords.words('portuguese'))

In [None]:
words_tkz

['Eu', 'comer', 'maçã', 'ontem', '.', 'Eu', 'gostar', 'maçã', 'muito', '.']

In [None]:
[word for word in words_tkz if word not in pt_br_SW]

['Eu', 'comer', 'maçã', 'ontem', '.', 'Eu', 'gostar', 'maçã', '.']

## POS_Tagging

In [None]:
import nltk.tag as tagger

In [None]:
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

In [None]:
tags = tagger.pos_tag(words_tkz)
tags

[('Eu', 'NNP'),
 ('comer', 'NN'),
 ('maçã', 'NN'),
 ('ontem', 'NN'),
 ('.', '.'),
 ('Eu', 'NNP'),
 ('gostar', 'NN'),
 ('maçã', 'NN'),
 ('muito', 'NN'),
 ('.', '.')]

Não funciona com o NLTK básico

##Usaremos um Home Brew - https://github.com/inoueMashuu/POS-tagger-portuguese-nltk/tree/master/trained_POS_taggers

In [None]:
import joblib


In [None]:
teste_tagger = joblib.load('/content/POS_tagger_brill.pkl')

In [None]:
tagueados = teste_tagger.tag(words_tkz)
tagueados

[('Eu', 'PROPESS'),
 ('comer', 'V'),
 ('maçã', 'N'),
 ('ontem', 'ADV'),
 ('.', '.'),
 ('Eu', 'PROPESS'),
 ('gostar', 'V'),
 ('maçã', 'N'),
 ('muito', 'ADV'),
 ('.', '.')]

In [None]:
teste_tagger.tag(tkz.word_tokenize('Eu estou de mau!'))

[('Eu', 'PROPESS'),
 ('estou', 'VAUX'),
 ('de', 'PREP'),
 ('mau', 'ADJ'),
 ('!', '!')]

In [None]:
teste_tagger.rules()

(Rule('059', 'PREP|+', 'PREP', [(Pos([1]),'N')]),
 Rule('049', 'PREP', 'PREP|+', [(Word([0]),'de'), (Pos([1]),'ART')]),
 Rule('059', 'PREP|+', 'PREP', [(Pos([1]),'NPROP')]),
 Rule('064', 'PREP|+', 'PREP', [(Pos([1, 2]),'NUM')]),
 Rule('064', 'PREP|+', 'PREP', [(Pos([1, 2]),'V')]),
 Rule('059', 'ART', 'PREP|+', [(Pos([1]),'ART')]),
 Rule('043', 'PREP|+', 'PREP', [(Word([1, 2]),'um')]),
 Rule('054', 'ART', 'PROSUB', [(Word([1]),'de')]),
 Rule('049', 'PREP', 'PREP|+', [(Word([0]),'por'), (Pos([1]),'ART')]),
 Rule('049', 'PREP', 'ART', [(Word([0]),'a'), (Pos([1]),'N')]),
 Rule('040', 'ART', 'PREP|+', [(Word([0]),'a'), (Word([1]),'a')]),
 Rule('043', 'PREP|+', 'PREP', [(Word([1, 2]),'uma')]),
 Rule('049', 'PREP', 'PREP|+', [(Word([0]),'em'), (Pos([1]),'ART')]),
 Rule('059', 'PREP|+', 'PREP', [(Pos([1]),'PROADJ')]),
 Rule('059', 'PREP|+', 'PREP', [(Pos([1]),'ADJ')]),
 Rule('059', 'V', 'VAUX', [(Pos([1]),'PCP')]),
 Rule('054', 'ART', 'PROSUB', [(Word([1]),'que')]),
 Rule('054', 'ART', 'PREP|+

## Stemming

In [None]:
frase

'Eu comer maçã ontem. Eu gostar maçã muito.'

In [None]:
words_tkz

['Eu', 'comer', 'maçã', 'ontem', '.', 'Eu', 'gostar', 'maçã', 'muito', '.']

In [None]:
tagueados

[('Eu', 'PROPESS'),
 ('comer', 'V'),
 ('maçã', 'N'),
 ('ontem', 'ADV'),
 ('.', '.'),
 ('Eu', 'PROPESS'),
 ('gostar', 'V'),
 ('maçã', 'N'),
 ('muito', 'ADV'),
 ('.', '.')]

Podemos colocar uma regra para dividir as frases a partir de sujeitos ou de pronomes

In [None]:
teste_tagger.tag(tkz.word_tokenize('Fabio comeu uma maçã ontem!'))

[('Fabio', 'NPROP'),
 ('comeu', 'V'),
 ('uma', 'ART'),
 ('maçã', 'N'),
 ('ontem', 'ADV'),
 ('!', '!')]

In [None]:
[v[0] for v in tagueados if v[1] is 'V']

['comer', 'gostar']

In [None]:
from nltk.stem import RegexpStemmer

In [None]:
stemmerRGX = RegexpStemmer('er$|ar$|ir$')

In [None]:
stemmerRGX.stem('comer')


'com'

In [None]:
stemmerRGX.stem('gostar')

'gost'

##Lemmatização??

In [None]:
from nltk.stem import WordNetLemmatizer

In [None]:
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


True

In [None]:
WN_Lemm = WordNetLemmatizer()

In [None]:
WN_Lemm.lemmatize('comi', pos='v')

'comi'

Criar um func para lemmatizar verbos com o objetivo de coloca-los no infinitivo para facilitar a sugestão de sinais para o usuário

In [None]:
from nltk.corpus import mac_morpho

In [None]:
nltk.download('mac_morpho')

[nltk_data] Downloading package mac_morpho to /root/nltk_data...
[nltk_data]   Unzipping corpora/mac_morpho.zip.


True

In [None]:
tagged_sents = mac_morpho.tagged_sents()
tagged_sents

[[('Jersei', 'N'), ('atinge', 'V'), ('média', 'N'), ('de', 'PREP'), ('Cr$', 'CUR'), ('1,4', 'NUM'), ('milhão', 'N'), ('em', 'PREP|+'), ('a', 'ART'), ('venda', 'N'), ('de', 'PREP|+'), ('a', 'ART'), ('Pinhal', 'NPROP'), ('em', 'PREP'), ('São', 'NPROP'), ('Paulo', 'NPROP')], [('Programe', 'V'), ('sua', 'PROADJ'), ('viagem', 'N'), ('a', 'PREP|+'), ('a', 'ART'), ('Exposição', 'NPROP'), ('Nacional', 'NPROP'), ('do', 'NPROP'), ('Zebu', 'NPROP'), (',', ','), ('que', 'PRO-KS-REL'), ('começa', 'V'), ('dia', 'N'), ('25', 'N|AP')], ...]

In [None]:
tags = [tuple[0] for tuple in mac_morpho.tagged_sents()]
tags

[('Jersei', 'N'),
 ('Programe', 'V'),
 ('Safra', 'N'),
 ('A', 'ART'),
 ('A', 'ART'),
 ('Em', 'PREP|+'),
 ('A', 'ART'),
 ('A', 'ART'),
 ('"', '"'),
 ('O', 'ART'),
 ('A', 'ART'),
 ('agricultores', 'N'),
 ('A', 'ART'),
 ('O', 'ART'),
 ('Antonio', 'NPROP'),
 ('Ele', 'PROPESS'),
 ('As', 'ART'),
 ('O', 'ART'),
 ('Em', 'PREP|+'),
 ('Por', 'PREP|+'),
 ('Exemplo', 'N'),
 ('Essa', 'PROADJ'),
 ('Ainda', 'ADV'),
 ('Mantinha', 'V'),
 ('A', 'ART'),
 ('O', 'ART'),
 ('Ela', 'PROPESS'),
 ('Em', 'PREP|+'),
 ('Os', 'ART'),
 ('Segundo', 'PREP'),
 ('Isso', 'PROSUB'),
 ('Assim', 'ADV'),
 ('Mas', 'KC'),
 ('Segundo', 'PREP'),
 ('Mas', 'KC'),
 ('Sobre', 'PREP'),
 ('Por', 'PREP|+'),
 ('Ele', 'PROPESS'),
 ('O', 'ART'),
 ('Agora', 'ADV'),
 ('O', 'ART'),
 ('Augusto', 'NPROP'),
 ('Embora', 'KS'),
 ('As', 'ART'),
 ('A', 'ART'),
 ('Porém', 'KC'),
 ('Os', 'ART'),
 ('A', 'ART'),
 ('Em', 'PREP|+'),
 ('Há', 'V'),
 ('O', 'ART'),
 ('As', 'ART'),
 ('Venda', 'N'),
 ('Venda', 'N'),
 ('As', 'ART'),
 ('De', 'PREP'),
 ('Em', 'PR

In [None]:
nltk.FreqDist(tags)


FreqDist({('Jersei', 'N'): 1,
          ('Programe', 'V'): 1,
          ('Safra', 'N'): 1,
          ('A', 'ART'): 4705,
          ('Em', 'PREP|+'): 2192,
          ('"', '"'): 2672,
          ('O', 'ART'): 5537,
          ('agricultores', 'N'): 1,
          ('Antonio', 'NPROP'): 13,
          ('Ele', 'PROPESS'): 692,
          ('As', 'ART'): 769,
          ('Por', 'PREP|+'): 132,
          ('Exemplo', 'N'): 12,
          ('Essa', 'PROADJ'): 115,
          ('Ainda', 'ADV'): 58,
          ('Mantinha', 'V'): 1,
          ('Ela', 'PROPESS'): 188,
          ('Os', 'ART'): 1530,
          ('Segundo', 'PREP'): 934,
          ('Isso', 'PROSUB'): 184,
          ('Assim', 'ADV'): 75,
          ('Mas', 'KC'): 945,
          ('Sobre', 'PREP'): 32,
          ('Agora', 'ADV'): 86,
          ('Augusto', 'NPROP'): 11,
          ('Embora', 'KS'): 57,
          ('Porém', 'KC'): 26,
          ('Há', 'V'): 229,
          ('Venda', 'N'): 3,
          ('De', 'PREP'): 261,
          ('Pérsio', 'NPROP'): 1,


In [None]:
nltk.FreqDist(tags).max()

('O', 'ART')

In [None]:
frase

'Eu comer maçã ontem. Eu gostar maçã muito.'

In [None]:
from nltk.tag.sequential import UnigramTagger
unitagg = nltk.tag.UnigramTagger(tagged_sents)

In [None]:
unitagg.tag(words_tkz)

[('Eu', 'PROPESS'),
 ('comer', 'V'),
 ('maçã', 'N'),
 ('ontem', 'ADV'),
 ('.', '.'),
 ('Eu', 'PROPESS'),
 ('gostar', 'V'),
 ('maçã', 'N'),
 ('muito', 'ADV'),
 ('.', '.')]

### Ótimo taggeador NLTK Unigram

In [None]:
bitagg = nltk.tag.BigramTagger(tagged_sents)

In [None]:
bitagg.tag(words_tkz)

[('Eu', 'PROPESS'),
 ('comer', None),
 ('maçã', None),
 ('ontem', None),
 ('.', None),
 ('Eu', None),
 ('gostar', None),
 ('maçã', None),
 ('muito', None),
 ('.', None)]

### Bigram não funcionou

In [None]:
#bitagg = nltk.tag.BigramTagger(tagged_sents)

In [None]:
tritagg = nltk.tag.TrigramTagger(tagged_sents)

In [None]:
tritagg.tag(words_tkz)

[('Eu', 'PROPESS'),
 ('comer', None),
 ('maçã', None),
 ('ontem', None),
 ('.', None),
 ('Eu', None),
 ('gostar', None),
 ('maçã', None),
 ('muito', None),
 ('.', None)]

### Trigram idem. Ficamos com Unigram

## Temas interessantes da linguagem para aplicação das regras:


https://www.todamateria.com.br/gramatica/

https://www.todamateria.com.br/funcao-sintatica/



## A diante com UnigramTagger do nltk.tag

In [None]:
unitagg.tag(words_tkz)

[('Eu', 'PROPESS'),
 ('comer', 'V'),
 ('maçã', 'N'),
 ('ontem', 'ADV'),
 ('.', '.'),
 ('Eu', 'PROPESS'),
 ('gostar', 'V'),
 ('maçã', 'N'),
 ('muito', 'ADV'),
 ('.', '.')]

In [None]:
unitagg.tag(tkz.word_tokenize("Eu comer mação ontem, gostar muito de maçã"))

[('Eu', 'PROPESS'),
 ('comer', 'V'),
 ('mação', None),
 ('ontem', 'ADV'),
 (',', ','),
 ('gostar', 'V'),
 ('muito', 'ADV'),
 ('de', 'PREP'),
 ('maçã', 'N')]

In [None]:
nltk.pos_tag(tkz.word_tokenize("Eu comer mação ontem, gostar muito de maçã"))

[('Eu', 'NNP'),
 ('comer', 'NN'),
 ('mação', 'NN'),
 ('ontem', 'NN'),
 (',', ','),
 ('gostar', 'NN'),
 ('muito', 'NN'),
 ('de', 'IN'),
 ('maçã', 'FW')]