## Spacy

In [1]:
import spacy

In [2]:
nlp = spacy.load('pt_core_news_lg')
print(type(nlp))
print(nlp.pipe_names)

<class 'spacy.lang.pt.Portuguese'>
['tok2vec', 'morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']


In [4]:
documento = nlp("As ações do Magazine Luiza S.A., Franca, Brasil, acumularam baixa de 70% ao ano. Assim já devolveram todos os ganhos do período da pandemeia")
print(len(documento.vocab))
print(type(documento))

375
<class 'spacy.tokens.doc.Doc'>


#### Tokenization

In [5]:
tokens = [t for t in documento]
tokens[:5]

[As, ações, do, Magazine, Luiza]

In [6]:
print("Tokens: ", [token.text for token in documento])
print("Formato: ", [token.shape_ for token in documento])

Tokens:  ['As', 'ações', 'do', 'Magazine', 'Luiza', 'S.A.', ',', 'Franca', ',', 'Brasil', ',', 'acumularam', 'baixa', 'de', '70', '%', 'ao', 'ano', '.', 'Assim', 'já', 'devolveram', 'todos', 'os', 'ganhos', 'do', 'período', 'da', 'pandemeia']
Formato:  ['Xx', 'xxxx', 'xx', 'Xxxxx', 'Xxxxx', 'X.X.', ',', 'Xxxxx', ',', 'Xxxxx', ',', 'xxxx', 'xxxx', 'xx', 'dd', '%', 'xx', 'xxx', '.', 'Xxxxx', 'xx', 'xxxx', 'xxxx', 'xx', 'xxxx', 'xx', 'xxxx', 'xx', 'xxxx']


#### Pos-taggin

In [7]:
for token in documento:
  print(token.text, " - ", token.pos_ , " - ", token.dep_ , " - ", token.lemma_ , " - ", token.shape_)

As  -  DET  -  det  -  o  -  Xx
ações  -  NOUN  -  nsubj  -  ação  -  xxxx
do  -  ADP  -  case  -  de o  -  xx
Magazine  -  PROPN  -  nmod  -  Magazine  -  Xxxxx
Luiza  -  PROPN  -  appos  -  Luiza  -  Xxxxx
S.A.  -  PROPN  -  flat:name  -  S.A.  -  X.X.
,  -  PUNCT  -  punct  -  ,  -  ,
Franca  -  PROPN  -  conj  -  Franca  -  Xxxxx
,  -  PUNCT  -  punct  -  ,  -  ,
Brasil  -  PROPN  -  conj  -  Brasil  -  Xxxxx
,  -  PUNCT  -  punct  -  ,  -  ,
acumularam  -  VERB  -  ROOT  -  acumular  -  xxxx
baixa  -  NOUN  -  obj  -  baixa  -  xxxx
de  -  ADP  -  case  -  de  -  xx
70  -  NUM  -  nummod  -  70  -  dd
%  -  SYM  -  nmod  -  %  -  %
ao  -  ADP  -  case  -  a o  -  xx
ano  -  NOUN  -  nmod  -  ano  -  xxx
.  -  PUNCT  -  punct  -  .  -  .
Assim  -  ADV  -  advmod  -  assim  -  Xxxxx
já  -  ADV  -  advmod  -  já  -  xx
devolveram  -  VERB  -  ROOT  -  devolver  -  xxxx
todos  -  DET  -  det  -  todo  -  xxxx
os  -  DET  -  det  -  o  -  xx
ganhos  -  NOUN  -  obj  -  ganho  -  xxxx
d

#### Morfologia

In [8]:
for token in documento:
  print(token.text, " - ", token.morph)

As  -  Definite=Def|Gender=Fem|Number=Plur|PronType=Art
ações  -  Gender=Fem|Number=Plur
do  -  Definite=Def|Gender=Masc|Number=Sing|PronType=Art
Magazine  -  Gender=Fem|Number=Sing
Luiza  -  Gender=Fem|Number=Sing
S.A.  -  Number=Sing
,  -  
Franca  -  Gender=Fem|Number=Sing
,  -  
Brasil  -  Gender=Masc|Number=Sing
,  -  
acumularam  -  Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin
baixa  -  Gender=Fem|Number=Sing
de  -  
70  -  NumType=Card
%  -  
ao  -  Definite=Def|Gender=Masc|Number=Sing|PronType=Art
ano  -  Gender=Masc|Number=Sing
.  -  
Assim  -  
já  -  
devolveram  -  Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin
todos  -  Gender=Masc|Number=Plur|PronType=Tot
os  -  Definite=Def|Gender=Masc|Number=Plur|PronType=Art
ganhos  -  Gender=Masc|Number=Plur
do  -  Definite=Def|Gender=Masc|Number=Sing|PronType=Art
período  -  Gender=Masc|Number=Sing
da  -  Definite=Def|Gender=Fem|Number=Sing|PronType=Art
pandemeia  -  Gender=Fem|Number=Sing


#### NER

In [9]:
for token in documento:
  print(token.text, " - ", token.tag_)

As  -  DET
ações  -  NOUN
do  -  ADP
Magazine  -  PROPN
Luiza  -  PROPN
S.A.  -  PROPN
,  -  PUNCT
Franca  -  PROPN
,  -  PUNCT
Brasil  -  PROPN
,  -  PUNCT
acumularam  -  VERB
baixa  -  NOUN
de  -  ADP
70  -  NUM
%  -  SYM
ao  -  ADP
ano  -  NOUN
.  -  PUNCT
Assim  -  ADV
já  -  ADV
devolveram  -  VERB
todos  -  DET
os  -  DET
ganhos  -  NOUN
do  -  ADP
período  -  NOUN
da  -  ADP
pandemeia  -  NOUN


In [10]:
for ent in documento.ents:
  print(ent.text, " - ", ent.label_)

Magazine Luiza S.A.  -  ORG
Franca  -  LOC
Brasil  -  LOC
pandemeia  -  ORG


#### Stop words

In [11]:

token_lista = []
for token in documento:
  token_lista.append(token.text)

stop_lista = []
for words in nlp.Defaults.stop_words:
  stop_lista.append(words)

semstop = [word for word in token_lista if not word in stop_lista]

print(documento.text)
print(semstop)

As ações do Magazine Luiza S.A., Franca, Brasil, acumularam baixa de 70% ao ano. Assim já devolveram todos os ganhos do período da pandemeia
['As', 'ações', 'Magazine', 'Luiza', 'S.A.', ',', 'Franca', ',', 'Brasil', ',', 'acumularam', 'baixa', '70', '%', 'ano', '.', 'Assim', 'devolveram', 'ganhos', 'período', 'pandemeia']


#### Vocab

In [12]:
print("Hash: ", nlp.vocab.strings["dados"])
print("Hash: ", documento.vocab.strings["dados"])
print("String: ", nlp.vocab.strings[6013848609874238634])

Hash:  6013848609874238634
Hash:  6013848609874238634
String:  dados


In [13]:
lex = nlp.vocab["dados"]
print(lex.text, " - ", lex.orth, " - ", lex.is_alpha, " - ", lex.is_lower)

dados  -  6013848609874238634  -  True  -  True


In [14]:
print(nlp("dados são uma nova forma de ver o mundo").vector)

[ 0.5255733  -1.0520301  -1.0489888   0.22808893 -2.7599888   0.91837215
 -1.6993556  -0.44524103 -2.209261   -1.2901455   0.9939946  -1.3996754
  0.7378708  -1.6957022  -1.382649   -1.1241877   2.503239    1.3766589
 -0.63682556  2.7080245  -0.6679023   0.7990059  -1.3761922   1.6491444
 -0.6950322   0.69378555 -0.19840002  1.6926199  -0.3071023   0.71506053
  0.03211441  0.27212894 -1.9055911  -1.5586021  -0.9775556   0.7999823
 -0.9553054   0.5265729  -0.87427455 -1.2073755  -2.117481    1.2241988
  1.5149522  -0.79308677 -1.1521667   0.13741441 -1.7882053   0.50415283
  1.3089666   0.06542712 -0.6260744  -1.5624356  -0.707184   -1.2425367
 -0.04237115 -0.5879791   1.7004043  -0.24798778  0.11633212 -0.55506223
  2.0148706   0.01965364  0.92778563  2.3571968  -0.49526003  1.0151839
  0.57112557  1.3510779  -0.3038622  -0.24523441 -0.42284998 -0.69732666
  0.71998227  0.2875956   0.10309222 -0.6866155   2.128672    0.9791889
 -1.4044011  -0.4600078   0.10599887  0.84635675  1.2420444

#### Similaridade

In [15]:
documento1 = nlp("Ele viaja regularmente de carro")
documento2 = nlp("Ela regularmente de avião viaja")
print(documento1.similarity(documento2))
print(documento2.similarity(documento1))

0.8941741168014388
0.8941741168014388


In [16]:
documento3 = nlp("Devemos dizer comprimento ou cumprimento?")
tokenA = documento3[2]
print(tokenA)
tokenB = documento3[4]
print(tokenB)
print(tokenA.similarity(tokenB))

comprimento
cumprimento
0.5804340243339539


In [17]:
documento4 = nlp("Ele pede descrição. Ele pede discrição")
partA = documento4[0:3]
print(partA)
partB = documento4[4:7]
print(partB)
print(partA.similarity(partB))

Ele pede descrição
Ele pede discrição
0.9630053639411926


#### Matcher

In [18]:
from typing import Match
from spacy.matcher import Matcher

documento5 = nlp("Você pode ligar para (51) - 9964656570 ou (11) 12344988 ")

matcher = Matcher(nlp.vocab)
padrao = [{"ORTH": "("} ,{"SHAPE": "dd"},{"ORTH": ")"}, {"ORTH": "-", "OP":"?"} , {"IS_DIGIT": True}]
matcher.add("telefone", [padrao])
matches = matcher(documento5)
for id, inicio, fim in matches:
  print(documento5[inicio:fim])


(51) - 9964656570
(11) 12344988


In [19]:
documento6 = nlp("Estamos infectados com micro organismos. MICROORGANISMOS são perigosos. Não enxergamos micro-organismos")
matcher = Matcher(nlp.vocab)
padrao1 = [{"LOWER":"micro-organismos"}]
padrao2 = [{"LOWER":"microorganismos"}]
padrao3 = [{"LOWER":"micro"}, {"LOWER":"organismos"}]

matcher.add("padrao", [padrao1,padrao2,padrao3])

matches = matcher(documento6)
for id, inicio, fim in matches:
  print(documento6[inicio:fim])


micro organismos
MICROORGANISMOS
micro-organismos


#### Displacy

In [20]:
from spacy import displacy
displacy.render(documento,style="ent", jupyter=True)

In [21]:
documento.user_data['title'] = "Exemplo"
displacy.render(documento,style="dep", jupyter=True,
                options={'compact': True, 'distance' : 80, 'color': '#FFFFFF', 'bg': '#000000', 'font': 'Arial' })

#### Pipelines

In [22]:
print("Pipeline Normal: ", nlp.pipe_names)

Pipeline Normal:  ['tok2vec', 'morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']


In [23]:
nlp.remove_pipe('tok2vec')
print("Pipeline sem tok2vec: ", nlp.pipe_names)

Pipeline sem tok2vec:  ['morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']


In [24]:
nlp.add_pipe('tok2vec', after='morphologizer')
print("Pipeline Normal: ", nlp.pipe_names)

Pipeline Normal:  ['morphologizer', 'tok2vec', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']


## NLTK

In [25]:
import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, WordNetLemmatizer, SnowballStemmer, LancasterStemmer
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.tag import pos_tag, pos_tag_sents
import string
nltk.download("stopwords")
nltk.download("punkt")
nltk.download("tagsets")
nltk.download("wordnet")
nltk.download("averaged_perceptron_tagger")
nltk.download("maxent_ne_chunker")
nltk.download("words")

[nltk_data] Downloading package stopwords to /home/pras/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /home/pras/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package tagsets to /home/pras/nltk_data...
[nltk_data]   Unzipping help/tagsets.zip.
[nltk_data] Downloading package wordnet to /home/pras/nltk_data...
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/pras/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     /home/pras/nltk_data...
[nltk_data]   Unzipping chunkers/maxent_ne_chunker.zip.
[nltk_data] Downloading package words to /home/pras/nltk_data...
[nltk_data]   Unzipping corpora/words.zip.


True

In [46]:
Texto = "As ações do Magazine Luiza S.A., Franca, Brasil, acumularam baixa de 70% ao ano. Assim já devolveram todos os ganhos do período da pandemeia"

In [47]:
sentencas = sent_tokenize(Texto, language="portuguese")
print(type(sentencas))
print(sentencas)
print(len(sentencas))

<class 'list'>
['As ações do Magazine Luiza S.A., Franca, Brasil, acumularam baixa de 70% ao ano.', 'Assim já devolveram todos os ganhos do período da pandemeia']
2


In [48]:
tokens = word_tokenize(Texto, language="portuguese")
print(tokens)
print(len(tokens))

['As', 'ações', 'do', 'Magazine', 'Luiza', 'S.A.', ',', 'Franca', ',', 'Brasil', ',', 'acumularam', 'baixa', 'de', '70', '%', 'ao', 'ano', '.', 'Assim', 'já', 'devolveram', 'todos', 'os', 'ganhos', 'do', 'período', 'da', 'pandemeia']
29


In [49]:
stops = stopwords.words("portuguese")
print(len(stops))
print(stops)

207
['a', 'à', 'ao', 'aos', 'aquela', 'aquelas', 'aquele', 'aqueles', 'aquilo', 'as', 'às', 'até', 'com', 'como', 'da', 'das', 'de', 'dela', 'delas', 'dele', 'deles', 'depois', 'do', 'dos', 'e', 'é', 'ela', 'elas', 'ele', 'eles', 'em', 'entre', 'era', 'eram', 'éramos', 'essa', 'essas', 'esse', 'esses', 'esta', 'está', 'estamos', 'estão', 'estar', 'estas', 'estava', 'estavam', 'estávamos', 'este', 'esteja', 'estejam', 'estejamos', 'estes', 'esteve', 'estive', 'estivemos', 'estiver', 'estivera', 'estiveram', 'estivéramos', 'estiverem', 'estivermos', 'estivesse', 'estivessem', 'estivéssemos', 'estou', 'eu', 'foi', 'fomos', 'for', 'fora', 'foram', 'fôramos', 'forem', 'formos', 'fosse', 'fossem', 'fôssemos', 'fui', 'há', 'haja', 'hajam', 'hajamos', 'hão', 'havemos', 'haver', 'hei', 'houve', 'houvemos', 'houver', 'houvera', 'houverá', 'houveram', 'houvéramos', 'houverão', 'houverei', 'houverem', 'houveremos', 'houveria', 'houveriam', 'houveríamos', 'houvermos', 'houvesse', 'houvessem', 'houv

In [50]:
palavras_sem_stopwords = [p for p in tokens if p not in stops]
print(len(palavras_sem_stopwords))
print(Texto)
print(palavras_sem_stopwords)    

22
As ações do Magazine Luiza S.A., Franca, Brasil, acumularam baixa de 70% ao ano. Assim já devolveram todos os ganhos do período da pandemeia
['As', 'ações', 'Magazine', 'Luiza', 'S.A.', ',', 'Franca', ',', 'Brasil', ',', 'acumularam', 'baixa', '70', '%', 'ano', '.', 'Assim', 'devolveram', 'todos', 'ganhos', 'período', 'pandemeia']


In [51]:
print(string.punctuation)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


In [52]:
palavras_sem_pontuacao = [p for p in palavras_sem_stopwords if p not in string.punctuation]
print(len(palavras_sem_pontuacao))
print(Texto)
print(palavras_sem_pontuacao)

17
As ações do Magazine Luiza S.A., Franca, Brasil, acumularam baixa de 70% ao ano. Assim já devolveram todos os ganhos do período da pandemeia
['As', 'ações', 'Magazine', 'Luiza', 'S.A.', 'Franca', 'Brasil', 'acumularam', 'baixa', '70', 'ano', 'Assim', 'devolveram', 'todos', 'ganhos', 'período', 'pandemeia']


In [53]:
frequencia = nltk.FreqDist(palavras_sem_pontuacao)
frequencia

FreqDist({'As': 1, 'ações': 1, 'Magazine': 1, 'Luiza': 1, 'S.A.': 1, 'Franca': 1, 'Brasil': 1, 'acumularam': 1, 'baixa': 1, '70': 1, ...})

In [54]:
mais_comuns = frequencia.most_common(5)
mais_comuns

[('As', 1), ('ações', 1), ('Magazine', 1), ('Luiza', 1), ('S.A.', 1)]

In [55]:
stemmer = PorterStemmer()
stem1  = [stemmer.stem(word) for word in palavras_sem_stopwords]
print(palavras_sem_pontuacao)
print(stem1)

['As', 'ações', 'Magazine', 'Luiza', 'S.A.', 'Franca', 'Brasil', 'acumularam', 'baixa', '70', 'ano', 'Assim', 'devolveram', 'todos', 'ganhos', 'período', 'pandemeia']
['as', 'açõ', 'magazin', 'luiza', 's.a.', ',', 'franca', ',', 'brasil', ',', 'acumularam', 'baixa', '70', '%', 'ano', '.', 'assim', 'devolveram', 'todo', 'ganho', 'período', 'pandemeia']


In [56]:
stemmer2 = SnowballStemmer("portuguese")
stem2 = [stemmer2.stem(word) for word in palavras_sem_pontuacao]
print(palavras_sem_pontuacao)
print(stem2)


['As', 'ações', 'Magazine', 'Luiza', 'S.A.', 'Franca', 'Brasil', 'acumularam', 'baixa', '70', 'ano', 'Assim', 'devolveram', 'todos', 'ganhos', 'período', 'pandemeia']
['as', 'açõ', 'magazin', 'luiz', 's.a.', 'franc', 'brasil', 'acumul', 'baix', '70', 'ano', 'assim', 'devolv', 'tod', 'ganh', 'períod', 'pandem']


In [57]:
stemmer3 = LancasterStemmer()
stem3 = [stemmer3.stem(word) for word in palavras_sem_pontuacao]
print(palavras_sem_pontuacao)
print(stem3)

['As', 'ações', 'Magazine', 'Luiza', 'S.A.', 'Franca', 'Brasil', 'acumularam', 'baixa', '70', 'ano', 'Assim', 'devolveram', 'todos', 'ganhos', 'período', 'pandemeia']
['as', 'açõ', 'magazin', 'luiz', 's.a.', 'franc', 'brasil', 'acumularam', 'baix', '70', 'ano', 'assim', 'devolveram', 'todo', 'ganho', 'período', 'pandeme']


In [58]:
nltk.help.upenn_tagset()

$: dollar
    $ -$ --$ A$ C$ HK$ M$ NZ$ S$ U.S.$ US$
'': closing quotation mark
    ' ''
(: opening parenthesis
    ( [ {
): closing parenthesis
    ) ] }
,: comma
    ,
--: dash
    --
.: sentence terminator
    . ! ?
:: colon or ellipsis
    : ; ...
CC: conjunction, coordinating
    & 'n and both but either et for less minus neither nor or plus so
    therefore times v. versus vs. whether yet
CD: numeral, cardinal
    mid-1890 nine-thirty forty-two one-tenth ten million 0.5 one forty-
    seven 1987 twenty '79 zero two 78-degrees eighty-four IX '60s .025
    fifteen 271,124 dozen quintillion DM2,000 ...
DT: determiner
    all an another any both del each either every half la many much nary
    neither no some such that the them these this those
EX: existential there
    there
FW: foreign word
    gemeinschaft hund ich jeux habeas Haementeria Herr K'ang-si vous
    lutihaw alai je jour objets salutaris fille quibusdam pas trop Monte
    terram fiche oui corporis ...
IN: preposition or

In [59]:
token2 = sent_tokenize(Texto)

ntokens = []
for tokensentenca in token2:
  ntokens.append(word_tokenize(tokensentenca))

print(ntokens)

possenteca = pos_tag_sents(ntokens)

[['As', 'ações', 'do', 'Magazine', 'Luiza', 'S.A.', ',', 'Franca', ',', 'Brasil', ',', 'acumularam', 'baixa', 'de', '70', '%', 'ao', 'ano', '.'], ['Assim', 'já', 'devolveram', 'todos', 'os', 'ganhos', 'do', 'período', 'da', 'pandemeia']]


In [60]:
lemmatizer = WordNetLemmatizer()
resultado = [lemmatizer.lemmatize(palavra) for palavra in palavras_sem_stopwords]
print(palavras_sem_pontuacao)
print(resultado)

['As', 'ações', 'Magazine', 'Luiza', 'S.A.', 'Franca', 'Brasil', 'acumularam', 'baixa', '70', 'ano', 'Assim', 'devolveram', 'todos', 'ganhos', 'período', 'pandemeia']
['As', 'ações', 'Magazine', 'Luiza', 'S.A.', ',', 'Franca', ',', 'Brasil', ',', 'acumularam', 'baixa', '70', '%', 'ano', '.', 'Assim', 'devolveram', 'todos', 'ganhos', 'período', 'pandemeia']


In [61]:
texto_en = "Barack Obama foi um presidente dos EUA"
token3 = word_tokenize(texto_en)
tags = pos_tag(token3)
en = nltk.ne_chunk(tags)
print(en)

(S
  (PERSON Barack/NNP)
  (ORGANIZATION Obama/NNP)
  foi/NN
  um/JJ
  presidente/NN
  dos/NN
  (ORGANIZATION EUA/NNP))
