In [1]:
import spacy
spacy.__version__

'3.1.2'

In [2]:
#Objeto que fará o precessamento da pln nos dados...
# a partir da pipeline spacy em portugues pt_core_news_sm
pln = spacy.load('pt_core_news_sm')
pln

<spacy.lang.pt.Portuguese at 0x1c1b194baf0>

In [3]:
"""
def manda_pra_doc(descricao):
    documento = pln(descricao)

df[nova coluna] = df[['descrição']].apply(manda_pra_doc, axis=1)
"""

"\ndef manda_pra_doc(descricao):\n    documento = pln(descricao)\n\ndf[nova coluna] = df[['descrição']].apply(manda_pra_doc, axis=1)\n"

In [4]:
#Texto a ser feito um processamento em portugues
documento = pln('Estou aprendendo processamento de linguagem natural, curso em Curitiba')

In [5]:
for token in documento:
    print(token.text, token.pos_)

#Explicando o que significa o pos_ "AUX"
spacy.explain("AUX")

Estou AUX
aprendendo VERB
processamento NOUN
de ADP
linguagem NOUN
natural ADJ
, PUNCT
curso NOUN
em ADP
Curitiba PROPN


'auxiliary'

# Legenda
##### 
#### -> lemma: raiz da palavra
#### -> pos: parte da fala
#### -> tag: informações morfológicas, como se o verbo está no passado
#### -> dep: dependência sintática
#### -> shape: formato (maiúsculo, minúsculo, dígitos)
#### -> alpha: se é alfabético
#### -> stop: se é stopword
#### -> morph: análise morfológica

In [6]:
for token in documento:
    print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_, 
          token.shape_, token.is_alpha, token.is_stop, token.morph)

Estou Estou AUX AUX aux Xxxxx True True Mood=Ind|Number=Sing|Person=1|Tense=Pres|VerbForm=Fin
aprendendo aprender VERB VERB ROOT xxxx True False VerbForm=Ger
processamento processamento NOUN NOUN obj xxxx True False Gender=Masc|Number=Sing
de de ADP ADP case xx True True 
linguagem linguagem NOUN NOUN nmod xxxx True False Gender=Fem|Number=Sing
natural natural ADJ ADJ amod xxxx True False Gender=Fem|Number=Sing
, , PUNCT PUNCT punct , False False 
curso cursar NOUN NOUN conj xxxx True False Gender=Masc|Number=Sing
em em ADP ADP case xx True True 
Curitiba Curitiba PROPN PROPN nmod Xxxxx True False Gender=Masc|Number=Sing


In [7]:
#Buscando palavras que são nomes próprios
for token in documento:
    if token.pos_ == 'PROPN':
        print(token.text)

Curitiba


# Lema

### -> Lematização: "Lema" de uma palavra de acordo com seu significado no dicionário - palavra base (análise vocabular e morfológica)
### -> Stemização: Extrair o radical das palavras

In [8]:
#Extraindo a raiz da palavra
for token in documento:
    print(token.text, token.lemma_)

Estou Estou
aprendendo aprender
processamento processamento
de de
linguagem linguagem
natural natural
, ,
curso cursar
em em
Curitiba Curitiba


In [9]:
#Mostrando a palavra base das palavras em diferentes classes gramáticais
doc = pln('encontrei encontraram encontrarão encontrariam cursando curso cursei')
[token.lemma_ for token in doc]

['encontrar',
 'encontrar',
 'encontrar',
 'encontrar',
 'cursar',
 'cursar',
 'cursar']

In [10]:
#RETIRANDO DO PLURAL
doc_exemplo = pln('coisas')
[token.lemma_ for token in doc_exemplo]

['coisa']

# NLTK x spaCy

In [11]:
#Extrai a raíz da palavra
import nltk

stemmer = nltk.stem.RSLPStemmer()
stemmer.stem('aprendendo')

'aprend'

In [12]:
for token in documento:
    print(token.text, token.lemma_, stemmer.stem(token.text))

Estou Estou est
aprendendo aprender aprend
processamento processamento process
de de de
linguagem linguagem lingu
natural natural natur
, , ,
curso cursar curs
em em em
Curitiba Curitiba curitib


# Entidades

### -> NER (Named-Entity Recognition)
### -> Encontrar e classificar entidades no texto, dependendo da base de dados que foi utilizada para o treinamento (pessoa, localização, empresa, numéricos)
### -> Usado em chatbots para saber o assunto falado
### -> Siglas: https://spacy.io/api/annotation#named-entities

In [13]:
texto = 'A IBM é uma empresa dos Estados Unidos voltada para a área de informática. Sua sede no Brasil fica em São Paulo e a receita em 2018 foi de aproximadamente 320 bilhões de reais'

In [14]:
documento = pln(texto)

In [15]:
for entidade in documento.ents:
    print(entidade.text, entidade.label_)

IBM ORG
Estados Unidos LOC
Brasil LOC
São Paulo LOC


In [16]:
from spacy import displacy
displacy.render(documento, style = 'ent', jupyter = True)

In [17]:
texto = 'Bill Gates nasceu em Seattle em 28/10/1955 e foi o criador da Microsoft'

In [18]:
documento = pln(texto)
for entidade in documento.ents:
    print(entidade.text, entidade.label_)

Bill Gates PER
Seattle LOC
Microsoft ORG


In [19]:
displacy.render(documento, style = 'ent', jupyter = True)

In [20]:
for entidade in documento.ents:
    if entidade.label_ == 'PER':
        print(entidade.text)

Bill Gates


In [21]:
texto = 'Maria comprou crack'
documento = pln(texto)
for entidade in documento.ents:
    print(entidade.text, entidade.label_)

Maria PER


## Etapa 5: Stopwords

-> Palavras que aparecem com muita frequência e que não apresentam muito significado (e, a, de, da, etc)

In [22]:
from spacy.lang.pt.stop_words import STOP_WORDS

In [23]:
print(STOP_WORDS)

{'aos', 'nuns', 'quieta', 'foram', 'tão', 'qualquer', 'exemplo', 'aquilo', 'diz', 'naquela', 'vocês', 'à', 'bom', 'números', 'estava', 'próxima', 'ele', 'me', 'sua', 'meses', 'nenhuma', 'cada', 'estará', 'ser', 'alguns', 'grande', 'além', 'maiorias', 'doze', 'seis', 'pouco', 'num', 'conhecido', 'possivelmente', 'ainda', 'fazia', 'do', 'pelos', 'mil', 'parte', 'vossa', 'número', 'pois', 'máximo', 'devem', 'se', 'estou', 'nos', 'primeira', 'segundo', 'quinto', 'têm', 'vezes', 'aqui', 'vários', 'estivestes', 'tempo', 'quinze', 'das', 'sexto', 'dentro', 'dos', 'todo', 'inclusive', 'todas', 'podia', 'tal', 'mais', 'sétimo', 'grandes', 'nesta', 'veja', 'tem', 'ao', 'fez', 'estas', 'teus', 'zero', 'relação', 'vens', 'algumas', 'cento', 'possível', 'fim', 'estive', 'bem', 'em', 'maioria', 'esta', 'qual', 'elas', 'querem', 'a', 'essas', 'lado', 'fazer', 'cima', 'custa', 'sexta', 'estivemos', 'vão', 'quieto', 'forma', 'deste', 'fostes', 'nada', 'questão', 'desde', 'disso', 'favor', 'estes', 'lá'

In [24]:
len(STOP_WORDS)

416

In [25]:
#Verificando se é stopword
pln.vocab['ir'].is_stop

True

In [26]:
#texto sem stopwords
documento = pln('Estou aprendendo processamento de linguagem natural, curso em Curitiba')
for token in documento:
    if not pln.vocab[token.text].is_stop:
        print(token.text)

aprendendo
processamento
linguagem
natural
,
curso
Curitiba


## Etapa 6: Parsing de dependências
 
- Relação pai-filho entre as palavras

### Exemplo1

In [27]:
documento = pln('reserve uma passagem saindo de Guarulhos e chegando em Curitiba')

In [28]:
#Setando palavras que queremos
origem = documento[5]
destino = documento[9]
origem, destino

(Guarulhos, Curitiba)

In [29]:
#Salvando as palavras anteriores a Guarulhos
list(origem.ancestors)

[saindo, passagem, reserve]

In [30]:
##Salvando as palavras anteriores a Curitiba
list(destino.ancestors)

[chegando, saindo, passagem, reserve]

In [31]:
documento[0].is_ancestor(documento[2])

True

### Exemplo2

In [32]:
documento = pln('Reserva de uma mesa para o restaurante e de um táxi para o hotel')

In [33]:
#Setando o que fazer
tarefas = documento[3], documento[10]
locais = documento[6], documento[13]

In [34]:
#tuplas do que fazer e para onde ir
tarefas, locais

((mesa, táxi), (restaurante, hotel))

In [35]:
for local in locais:
    print('local: ', local)
    #Vai ir no local e depois vai buscar no ancestral do local
    for objeto in local.ancestors:
        print(objeto)

local:  restaurante
mesa
Reserva
local:  hotel
táxi
mesa
Reserva


In [36]:
#Percorrendo o local
for local in locais:
    #Percorrendo os ancestrais na frase do local
    for objeto in local.ancestors:
        #Se os vaores estiverem na lista de tarefas definidos na penultima celula:
        #print
        if objeto in tarefas:
            print(f"Reserva de {objeto} é para o {local}")
            break

Reserva de mesa é para o restaurante
Reserva de táxi é para o hotel


In [37]:
#Filhos seria o que vem a direita
list(documento[6].children)

[para, o]

### Exemplo 3

In [38]:
#Importando a visualização do spacy
from spacy import displacy

In [39]:
documento = pln('Reserva de uma mesa para o restaurante e de um táxi para o hotel')

In [40]:
#displacy.serve(documento, style='dep') -> Código para Spider or pycharm
displacy.render(documento, style='dep', options={'distance': 90})

In [41]:
#Buscando o que fazer na palavra mesa
#Quem aponta para mesa
list(documento[3].ancestors)

[Reserva]

In [42]:
#A quem mesa aponta
#Do que fazer
list(documento[3].children)

[de, uma, restaurante, táxi]

### Exemplo 4

In [43]:
#Identificar qual cidade vamos ficar e visitar
documento = pln('Que locais podemos visitar em Curitiba e para ficar em Guarulhos?')
lugares = documento[5], documento[10]
acoes = documento[3], documento[8]
lugares, acoes

((Curitiba, Guarulhos), (visitar, ficar))

In [44]:
#Local + ação
for local in lugares:
    for acao in local.ancestors:
        if acao in acoes:
            print("{} para {}".format(local, acao))
            break

Curitiba para visitar
Guarulhos para ficar


In [45]:
#Plotando o gráfico das dependencias entre as palavras
displacy.render(documento, style='dep', jupyter=True, options={'distance': 90})

In [46]:
documento = pln('Que locais podemos visitar em Curitiba e para ficar em Guarulhos?')
lugares = []
acoes = []
for token in documento:
    if token.pos_ == "PROPN":
        lugares.append(token)
    elif token.pos_ == "VERB":
        acoes.append(token)
    else:
        pass
    
for local in lugares:
        for acao in local.ancestors:
            if acao in acoes:
                print(f"{local} para {acao}")
                #O break é necessário para parar a análise na lista
                break

Curitiba para visitar
Guarulhos para ficar


In [47]:
documento = pln('Que locais podemos visitar em Curitiba e para ficar em Guarulhos?')
lugares = []
acoes = []
for token in documento:
    if token.pos_ == "PROPN":
        lugares.append(token)
    elif token.pos_ == "VERB":
        acoes.append(token)
    else:
        pass
    
for local in lugares:
        for acao in local.ancestors:
            if acao in acoes:
                print(f"{local} para {acao}")
                #O break é necessário para parar a análise na lista
                #Sem o break
                #break

Curitiba para visitar
Curitiba para podemos
Guarulhos para ficar
Guarulhos para visitar
Guarulhos para podemos


### Etapa 7: Semelhanças entre palavras e frases

- Verificar se duas palavras são semelhantes ou logicamente relacionadas
- Usa o algoritmo GloVe (Global Vectors for Word Representation)
- Artigo original: https://nlp.stanford.edu/pubs/glove.pdf

In [48]:
pln = spacy.load('pt_core_news_lg')
pln

<spacy.lang.pt.Portuguese at 0x1c1c6598670>

#### Exemplo 1

In [49]:
p1 = pln("olá")
p2 = pln("oi")
p3 = pln("ou")

In [50]:
p1.similarity(p2)

0.8078887901849083

In [51]:
p2.similarity(p1)

0.8078887901849083

In [52]:
p1.similarity(p3)

-0.04316642149643528

In [53]:
p2.similarity(p3)

-0.04030130906070436

In [54]:
texto1 = pln('Quando será lançado o novo filme?')
texto2 = pln('O novo filme será lançado mês que vem')
texto3 = pln('Qual a cor do carro?')

In [55]:
texto1.similarity(texto2)

0.7609563453554925

In [56]:
texto1.similarity(texto3)

0.45435413659957075

#### Exemplo 2

In [57]:
texto = pln('gato cachorro cavalo pessoa')

In [58]:
#Verificando a similaridade de cada palavra dentro de um texto
#util se a palavra estiver repetida
for texto1 in texto:
  #print('----', texto1)
  for texto2 in texto:
    #print(texto2)
    similaridade = int(texto1.similarity(texto2) * 100)
    print("{} é {} similar a {}".format(texto1, similaridade, texto2))

gato é 100 similar a gato
gato é 83 similar a cachorro
gato é 51 similar a cavalo
gato é 23 similar a pessoa
cachorro é 83 similar a gato
cachorro é 100 similar a cachorro
cachorro é 55 similar a cavalo
cachorro é 29 similar a pessoa
cavalo é 51 similar a gato
cavalo é 55 similar a cachorro
cavalo é 100 similar a cavalo
cavalo é 13 similar a pessoa
pessoa é 23 similar a gato
pessoa é 29 similar a cachorro
pessoa é 13 similar a cavalo
pessoa é 100 similar a pessoa


### Etapa 8: Tokenização

In [59]:
documento = pln('Estou aprendendo processamento de linguagem natural, curso em Curitiba')

In [60]:
#Separando a separação correta
for token in documento:
    print(token)

Estou
aprendendo
processamento
de
linguagem
natural
,
curso
em
Curitiba


In [61]:
#
documento1 = 'Estou aprendendo processamento de linguagem natural, curso em Curitiba'
documento1.split(' ')

['Estou',
 'aprendendo',
 'processamento',
 'de',
 'linguagem',
 'natural,',
 'curso',
 'em',
 'Curitiba']