In [1]:
import spacy
spacy.__version__

'3.1.2'

In [3]:
#Objeto que fará o precessamento da pln nos dados...
# a partir da pipeline spacy em portugues pt_core_news_sm
pln = spacy.load('pt_core_news_sm')
pln

<spacy.lang.pt.Portuguese at 0x1a56d377fa0>

In [None]:
"""
def manda_pra_doc(descricao):
    documento = pln(descricao)

df[nova coluna] = df[['descrição']].apply(manda_pra_doc, axis=1)
"""

In [4]:
#Texto a ser feito um processamento em portugues
documento = pln('Estou aprendendo processamento de linguagem natural, curso em Curitiba')

In [7]:
for token in documento:
    print(token.text, token.pos_)

#Explicando o que significa o pos_ "AUX"
spacy.explain("AUX")

Estou AUX
aprendendo VERB
processamento NOUN
de ADP
linguagem NOUN
natural ADJ
, PUNCT
curso NOUN
em ADP
Curitiba PROPN


'auxiliary'

# Legenda
##### 
#### -> lemma: raiz da palavra
#### -> pos: parte da fala
#### -> tag: informações morfológicas, como se o verbo está no passado
#### -> dep: dependência sintática
#### -> shape: formato (maiúsculo, minúsculo, dígitos)
#### -> alpha: se é alfabético
#### -> stop: se é stopword
#### -> morph: análise morfológica

In [15]:
for token in documento:
    print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_, 
          token.shape_, token.is_alpha, token.is_stop, token.morph)

Estou Estou AUX AUX aux Xxxxx True True Mood=Ind|Number=Sing|Person=1|Tense=Pres|VerbForm=Fin
aprendendo aprender VERB VERB ROOT xxxx True False VerbForm=Ger
processamento processamento NOUN NOUN obj xxxx True False Gender=Masc|Number=Sing
de de ADP ADP case xx True True 
linguagem linguagem NOUN NOUN nmod xxxx True False Gender=Fem|Number=Sing
natural natural ADJ ADJ amod xxxx True False Gender=Fem|Number=Sing
, , PUNCT PUNCT punct , False False 
curso cursar NOUN NOUN conj xxxx True False Gender=Masc|Number=Sing
em em ADP ADP case xx True True 
Curitiba Curitiba PROPN PROPN nmod Xxxxx True False Gender=Masc|Number=Sing


In [17]:
#Buscando palavras que são nomes próprios
for token in documento:
    if token.pos_ == 'PROPN':
        print(token.text)

Curitiba


# Lema

### -> Lematização: "Lema" de uma palavra de acordo com seu significado no dicionário - palavra base (análise vocabular e morfológica)
### -> Stemização: Extrair o radical das palavras

In [18]:
#Extraindo a raiz da palavra
for token in documento:
    print(token.text, token.lemma_)

Estou Estou
aprendendo aprender
processamento processamento
de de
linguagem linguagem
natural natural
, ,
curso cursar
em em
Curitiba Curitiba


In [19]:
#Mostrando a palavra base das palavras em diferentes classes gramáticais
doc = pln('encontrei encontraram encontrarão encontrariam cursando curso cursei')
[token.lemma_ for token in doc]

['encontrar',
 'encontrar',
 'encontrar',
 'encontrar',
 'cursar',
 'cursar',
 'cursar']

In [24]:
#RETIRANDO DO PLURAL
doc_exemplo = pln('coisas')
[token.lemma_ for token in doc_exemplo]

['coisa']

# NLTK x spaCy

In [22]:
#Extrai a raíz da palavra
import nltk

stemmer = nltk.stem.RSLPStemmer()
stemmer.stem('aprendendo')

'aprend'

In [25]:
for token in documento:
    print(token.text, token.lemma_, stemmer.stem(token.text))

Estou Estou est
aprendendo aprender aprend
processamento processamento process
de de de
linguagem linguagem lingu
natural natural natur
, , ,
curso cursar curs
em em em
Curitiba Curitiba curitib


# Entidades

### -> NER (Named-Entity Recognition)
### -> Encontrar e classificar entidades no texto, dependendo da base de dados que foi utilizada para o treinamento (pessoa, localização, empresa, numéricos)
### -> Usado em chatbots para saber o assunto falado
### -> Siglas: https://spacy.io/api/annotation#named-entities

In [26]:
texto = 'A IBM é uma empresa dos Estados Unidos voltada para a área de informática. Sua sede no Brasil fica em São Paulo e a receita em 2018 foi de aproximadamente 320 bilhões de reais'

In [27]:
documento = pln(texto)

In [28]:
for entidade in documento.ents:
    print(entidade.text, entidade.label_)

IBM ORG
Estados Unidos LOC
Brasil LOC
São Paulo LOC


In [29]:
from spacy import displacy
displacy.render(documento, style = 'ent', jupyter = True)

In [30]:
texto = 'Bill Gates nasceu em Seattle em 28/10/1955 e foi o criador da Microsoft'

In [31]:
documento = pln(texto)
for entidade in documento.ents:
    print(entidade.text, entidade.label_)

Bill Gates PER
Seattle LOC
Microsoft ORG


In [32]:
displacy.render(documento, style = 'ent', jupyter = True)

In [33]:
for entidade in documento.ents:
    if entidade.label_ == 'PER':
        print(entidade.text)

Bill Gates


In [42]:
texto = 'Maria comprou crack'
documento = pln(texto)
for entidade in documento.ents:
    print(entidade.text, entidade.label_)

Maria PER


## Etapa 5: Stopwords

-> Palavras que aparecem com muita frequência e que não apresentam muito significado (e, a, de, da, etc)

In [43]:
from spacy.lang.pt.stop_words import STOP_WORDS

In [44]:
print(STOP_WORDS)

{'grandes', 'pelos', 'povo', 'ora', 'estes', 'alguns', 'falta', 'onde', 'sexta', 'entre', 'dezasseis', 'sempre', 'custa', 'apontar', 'estás', 'pois', 'partir', 'conselho', 'estiveste', 'inclusive', 'devem', 'estará', 'tiveste', 'duas', 'fazemos', 'posição', 'fará', 'tem', 'ambas', 'contra', 'maiorias', 'das', 'ali', 'do', 'ainda', 'somos', 'oitavo', 'tivemos', 'tempo', 'eles', 'vem', 'cedo', 'também', 'corrente', 'ter', 'porque', 'nessa', 'próxima', 'que', 'geral', 'dão', 'boa', 'nos', 'embora', 'sobre', 'foi', 'novas', 'primeiro', 'vocês', 'foram', 'oitava', 'primeira', 'quais', 'três', 'poder', 'depois', 'a', 'vais', 'ao', 'pôde', 'o', 'mal', 'fomos', 'numa', 'talvez', 'algo', 'todo', 'fostes', 'pode', 'no', 'quinto', 'quero', 'nossos', 'próximo', 'desta', 'como', 'conhecido', 'só', 'mesmo', 'às', 'tentei', 'vinte', 'doze', 'um', 'nas', 'obrigada', 'certeza', 'põem', 'sistema', 'fui', 'agora', 'cento', 'dizem', 'adeus', 'nuns', 'este', 'em', 'quatro', 'estivemos', 'caminho', 'forma',

In [45]:
len(STOP_WORDS)

416

In [47]:
#Verificando se é stopword
pln.vocab['ir'].is_stop

True

In [49]:
#texto sem stopwords
documento = pln('Estou aprendendo processamento de linguagem natural, curso em Curitiba')
for token in documento:
    if not pln.vocab[token.text].is_stop:
        print(token.text)

aprendendo
processamento
linguagem
natural
,
curso
Curitiba


## Etapa 6: Parsing de dependências
 
- Relação pai-filho entre as palavras

### Exemplo1

In [50]:
documento = pln('reserve uma passagem saindo de Guarulhos e chegando em Curitiba')

In [55]:
#Setando palavras que queremos
origem = documento[5]
destino = documento[9]
origem, destino

(Guarulhos, Curitiba)

In [56]:
#Salvando as palavras anteriores a Guarulhos
list(origem.ancestors)

[saindo, passagem, reserve]

In [53]:
##Salvando as palavras anteriores a Curitiba
list(destino.ancestors)

[chegando, saindo, passagem, reserve]

In [54]:
documento[0].is_ancestor(documento[2])

True

### Exemplo2

In [57]:
documento = pln('Reserva de uma mesa para o restaurante e de um táxi para o hotel')

In [58]:
#Setando o que fazer
tarefas = documento[3], documento[10]
locais = documento[6], documento[13]

In [63]:
#tuplas do que fazer e para onde ir
tarefas, locais

((mesa, táxi), (restaurante, hotel))

In [64]:
for local in locais:
    print('local: ', local)
    #Vai ir no local e depois vai buscar no ancestral do local
    for objeto in local.ancestors:
        print(objeto)

local:  restaurante
mesa
Reserva
local:  hotel
táxi
mesa
Reserva


In [65]:
#Percorrendo o local
for local in locais:
    #Percorrendo os ancestrais na frase do local
    for objeto in local.ancestors:
        #Se os vaores estiverem na lista de tarefas definidos na penultima celula:
        #print
        if objeto in tarefas:
            print(f"Reserva de {objeto} é para o {local}")
            break

Reserva de mesa é para o restaurante
Reserva de táxi é para o hotel


In [62]:
#Filhos seria o que vem a direita
list(documento[6].children)

[para, o]

### Exemplo 3

In [66]:
#Importando a visualização do spacy
from spacy import displacy

In [67]:
documento = pln('Reserva de uma mesa para o restaurante e de um táxi para o hotel')

In [74]:
#displacy.serve(documento, style='dep') -> Código para Spider or pycharm
displacy.render(documento, style='dep', options={'distance': 90})

In [69]:
#Buscando o que fazer na palavra mesa
#Quem aponta para mesa
list(documento[3].ancestors)

[Reserva]

In [70]:
#A quem mesa aponta
#Do que fazer
list(documento[3].children)

[de, uma, restaurante, táxi]

### Exemplo 4

In [71]:
documento = pln('Que locais podemos visitar em Curitiba e para ficar em Guarulhos?')
lugares = documento[5], documento[10]
acoes = documento[3], documento[8]
lugares, acoes

((Curitiba, Guarulhos), (visitar, ficar))

In [72]:
for local in lugares:
    for acao in local.ancestors:
        if acao in acoes:
            print("{} para {}".format(local, acao))
            break

Curitiba para visitar
Guarulhos para ficar


In [73]:
displacy.render(documento, style='dep', jupyter=True, options={'distance': 90})