In [1]:
import gensim

In [3]:
model = gensim.models.KeyedVectors.load_word2vec_format('glove_pt_wiki.model', binary=True)  # GloVe Model

In [4]:
print('bens_de_raiz' in model.vocab)

False


In [5]:
synonyms = ['fazenda', 'propriedade', 'mercadoria', 'virtude', 'riqueza', 'artigo', 'bem', 'possessão', 'recurso', 'proveito', 'lucro', 'patrimônio', 'produto', 'património', 'bens', 'vantagem', 'herança', 'objecto_posto_à_venda', 'bens_de_raiz', 'bastante', 'benefício', 'posse']

In [8]:
[print(synonym) for synonym in synonyms if synonym in model.vocab]
[print(synonym) for synonym in synonyms if synonym not in model.vocab]

fazenda
propriedade
mercadoria
virtude
riqueza
artigo
bem
possessão
recurso
proveito
lucro
patrimônio
produto
património
bens
vantagem
herança
bastante
benefício
posse
objecto_posto_à_venda
bens_de_raiz


[None, None]

In [5]:
import spacy

nlp = spacy.load('en')

doc = nlp(u"this is spacy lemmatize testing. programming books are more better than others")

for token in doc:
    print(token, token.lemma, token.lemma_)

this 552 this
is 536 be
spacy 776980 spacy
lemmatize 776981 lemmatize
testing 4191 testing
. 453 .
programming 2171 programming
books 1300 book
are 536 be
more 597 more
better 761 better
than 626 than
others 655 other


In [7]:
import spacy

nlp = spacy.load('pt')

doc = nlp(u"Olá, tudo bem?")

for token in doc:
    print(token, token.lemma, token.lemma_)



    Only loading the 'pt' tokenizer.

Olá 0 
, 0 
tudo 0 
bem 0 
? 0 


In [2]:
from spacy.lang.pt import Portuguese
from spacy.lang.pt.lemmatizer import LOOKUP

In [3]:
def get_lemma(text):
    return LOOKUP.get(text, text) # if no lemma found, return original text

nlp = Portuguese()
doc = nlp(u'Dra. deu um presente aos pais de Maria')
for token in doc:
    lemma = get_lemma(token.lower_)
    print(lemma)

dr
.
dar
um
presentar
o
o
pai
de
maria


In [6]:
from treetagger import TreeTagger
def lemmatize(text, language='portuguese'):
    tt = TreeTagger(language=language)
    lemmas = tt.tag(text)
    return [tuples[0] if tuples[2] == '<unknown>' else tuples[2] for tuples in lemmas]
print(lemmatize('Dra. deu um presente aos pais de Maria'))

['dra.', 'dar', 'um', 'presente', 'a', 'o', 'pai', 'de', 'maria']


In [8]:
doc = nlp(u'Estou testando as novas características deste componente que estou utilizando')
for token in doc:
    lemma = get_lemma(token.lower_)
    print(lemma)
print(lemmatize('Estou testando as novas características deste componente que estou utilizando'))

estar
testar
o
novo
característico
d
este
componente
que
estar
utilizar
['estar', 'testar', 'o', 'novo', 'característica', 'de+este', 'componente', 'que', 'estar', 'utilizar']


In [9]:
texto = 'A Pró-Reitora de Gestão e Desenvolvimento de Pessoas da\nUniversidade Federal de São João del-Rei - UFSJ, no uso de suas\natribuições, HOMOLOGA o concurso público para provimento de\ncargo da Carreira de Magistério Superior, CPD 051/2016, na área de\nDERMATOLOGIA, para o Departamento de Medicina (DEMED),\nEdital publicado no DOU do dia 01/08/2016 e torna público seu\nresultado, a saber: 1º LUGAR: VALÉRIA AZEVEDO JUNQUEIRA;\n2° LUGAR: MAHYRA LEITE RIBEIRO.\nEm 28 de setembro de 2016'

In [12]:
def teste(string):
    doc = nlp(string)
    for token in doc:
        lemma = get_lemma(token.lower_)
        print(lemma)
    print(lemmatize(string))

In [13]:
teste(texto)

o
pró
-
reitor
de
gestão
e
desenvolvimento
de
pessoa
da


universidade
federal
de
ser
joão
del
-
rei
-
ufsj
,
o
usar
de
suar


atribuição
,
homologar
o
concurso
público
parir
provimento
de


cargo
da
carreira
de
magistério
superior
,
cpd
051/2016
,
o
área
de


dermatologia
,
parir
o
departamento
de
medicinar
(
demed
)
,


edital
publicar
o
dar
do
dia
01/08/2016
e
tornar
público
seu


resultar
,
o
saber
:
1º
lugar
:
valéria
azevedo
junqueira
;


2
°
lugar
:
mahyra
leite
ribeiro
.


em
28
de
setembro
de
2016
['o', 'pró-reitora', 'de', 'gestão', 'e', 'desenvolvimento', 'de', 'pessoa', 'de+a', 'universidade', 'federal', 'de', 'são', 'joão', 'del-Rei', '-', 'ufsj', ',', 'em', 'o', 'uso', 'de', 'seu', 'atribuição', ',', 'homologa', 'o', 'concurso', 'público', 'para', 'provimento', 'de', 'cargo', 'de', 'o', 'carreira', 'de', 'magistério', 'superior', ',', 'cpd', '@card@', ',', 'em', 'o', 'área', 'de', 'dermatologia', ',', 'para', 'o', 'departamento', 'de', 'medicina', '(', 'demed', ')', ',', 

In [2]:
import nlpnet
tagger = nlpnet.POSTagger('pos-pt/', language='pt')
tagger.tag('O rato roeu a roupa do rei de Roma.')

[[('O', 'ART'),
  ('rato', 'N'),
  ('roeu', 'V'),
  ('a', 'ART'),
  ('roupa', 'N'),
  ('do', 'PREP+ART'),
  ('rei', 'N'),
  ('de', 'PREP'),
  ('Roma', 'NPROP'),
  ('.', 'PU')]]

In [3]:
tagger.tag('O rato roeu a roupa do rei de Roma.')

[[('O', 'ART'),
  ('rato', 'N'),
  ('roeu', 'V'),
  ('a', 'ART'),
  ('roupa', 'N'),
  ('do', 'PREP+ART'),
  ('rei', 'N'),
  ('de', 'PREP'),
  ('Roma', 'NPROP'),
  ('.', 'PU')]]