# NLP - Processamento de Linguagem Natural

In [1]:
# instalando recursos necessários
%pip install -U spacy

Collecting spacy
  Downloading spacy-3.3.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (6.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.3/6.3 MB[0m [31m121.2 kB/s[0m eta [36m0:00:00[0m00:01[0m00:02[0m
[?25hCollecting cymem<2.1.0,>=2.0.2
  Downloading cymem-2.0.6-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (35 kB)
Collecting requests<3.0.0,>=2.13.0
  Using cached requests-2.27.1-py2.py3-none-any.whl (63 kB)
Collecting tqdm<5.0.0,>=4.38.0
  Downloading tqdm-4.64.0-py2.py3-none-any.whl (78 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m78.4/78.4 KB[0m [31m141.7 kB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hCollecting preshed<3.1.0,>=3.0.2
  Downloading preshed-3.0.6-cp310-cp310-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl (128 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m128.8/128.8 KB[0m [31m141.9 kB/s[0m eta [36m0:00:00[0ma [36m

In [6]:
#carregando spacy
import spacy
spacy.cli.download('pt_core_news_sm')


Collecting pt-core-news-sm==3.3.0
  Using cached https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.3.0/pt_core_news_sm-3.3.0-py3-none-any.whl (13.0 MB)
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')


In [8]:
#carregando modelo do spacy
nlp = spacy.load('pt_core_news_sm')

In [9]:
doc = nlp("Para enxergar claro, bastar mudar a direção do olhar.")

In [10]:
for token in doc:
    print(token.text)

Para
enxergar
claro
,
bastar
mudar
a
direção
do
olhar
.


É chamado de span (não confundir com spam) um subconjunto de palavras do texto, para isso fazemos:

In [11]:
span = doc[0:3]
print(span.text)

Para enxergar claro


As funções is_alpha, is_punct e like_num verificam se o token é um texto, pontuação ou um número respectivamente.

#### Fluxos de processamento
Os fluxos de processamento servem para identificar marcadores de classes gramaticais (identificar substantivos, verbos e adjetivos), dependências sintáticas e entidades nomeadas.
O fluxo de processamento possui três tamanhos baseados na quantidade de conteúdo https://spacy.io/models/pt:

- final _sm: small - pequeno (12 mb)

- final _md: medium - médio (40 mb)

- final _lg: large - grande (541 MB)

Para realizar a instalação de um fluxo de processamento em português, use o respectivo comando abaixo (não é necessário instalar os três, caso queira somente testar, instale o primeiro pacote)

- spacy.cli.download('pt_core_news_sm')
- spacy.cli.download('pt_core_news_md')
- spacy.cli.download('pt_core_news_lg')

#### Mais exemplos

In [12]:
doc1 = nlp('Eu comi uma deliciosa pizza')


In [13]:
for token in doc1:
    print(token.text, token.pos_)

Eu PRON
comi VERB
uma DET
deliciosa ADJ
pizza NOUN



Identificamos um pronome (PRON), um verbo (VERB), um artigo indefinido (DET), um adjetivo (ADJ) e um substantivo (NOUN).

In [14]:
doc2 = nlp('Eu tenho usado o serviço de armazenamento na nuvem da Google, é a opção mais barata no Brasil, pago somente R$ 9.99 por mês.')

for ent in doc2.ents:
    print(ent.text, ent.label_)

Google ORG
Brasil LOC
R$ MISC


In [15]:
from spacy import displacy

displacy.render(doc2, style = "ent", jupyter = True)

In [16]:
spacy.cli.download('pt_core_news_lg')
nlp_lg = spacy.load('pt_core_news_lg')

Collecting pt-core-news-lg==3.3.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_lg-3.3.0/pt_core_news_lg-3.3.0-py3-none-any.whl (568.2 MB)
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 568.2/568.2 MB 482.1 kB/s eta 0:00:00
Installing collected packages: pt-core-news-lg
Successfully installed pt-core-news-lg-3.3.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_lg')


In [18]:
doc2_lg = nlp_lg('Eu tenho usado o serviço de armazenamento na nuvem da Google, é a opção mais barata no Brasil, pago somente R$ 9.99 por mês.')

for ent in doc2_lg.ents:
    print(ent.text, ent.label_)

displacy.render(doc2_lg, style = "ent", jupyter = True)

Google ORG
Brasil LOC


##### Marcação do reconhecimento de entidades

O uso de processamento de linguagem natural ainda não está tão maduro para a língua portuguesa como está para a língua inglesa. Observem que R$ não foi classificado como MONEY.

Podemos também criar nossas entidades, para isso devemos criar um span com rótulo e adicionar a lista de entidades do doc.

In [30]:
from spacy.tokens import Span

doc3 = nlp('Olá forasteiro, esta manhã teremos café, pão, ovos mexidos e manteiga, deseja que anotemos o pedido?')

span_with_label = Span(doc3, 0, 2, label="GREETING")
doc3.ents = [span_with_label]

for ent in doc3.ents:
    print(ent.text, ent.label_)

Olá forasteiro GREETING


O spacy não possui um stemmer, havendo a necessidade de utilizar uma outra biblioteca muito famosa na área de processamento de linguagem natural: a nltk. 

Não iremos abordar sobre essa biblioteca, mas, para mais informações, vocês podem acessar o livro online gratuito.

Por padrão, o spacy possui uma função lemma embutida ao objeto. Para usá-la, siga o comando abaixo:

In [52]:
doc4 = nlp('Você precisa entender, a maioria destas pessoas não está preparada para despertar. E muitas delas estão tão inertes, tão desesperadamente dependentes do sistema, que irão lutar para protegê-lo.')

for token in doc4:
    if token.pos_ == 'VERB':
        print(token.text, token.lemma_)

precisa precisar
entender entender
despertar despertar
lutar lutar
protegê-lo protegê-lo


Outra técnica muito utilizada é a verificação de similaridade. Com o spacy podemos checar se um documento ou um span ou um token são similares. Veremos nos exemplos abaixo:

In [54]:
doc5 = nlp_lg('Eu gosto de pizza.')
doc6 = nlp_lg('Eu gosto de fast-food.')
doc7 = nlp_lg('Eu prefiro comer salada.')

print(doc5.similarity(doc6))
print(doc5.similarity(doc7))

0.9831460868659236
0.8485166471843034


In [55]:
doc8 = nlp_lg("Temos sorvete, pizza, batata-frita e refrigerante.")
token1 = doc8[3]
token2 = doc8[7]
print(token1.similarity(token2))

0.37072521448135376


E como é feita a similaridade entre palavras? Utilizando vetores de palavras, cujo objetivo é permitir que palavras próximas estejam agrupadas mais próximas de si, por exemplo as palavras peixe e tubarão aparecem mais vezes juntas do que peixe e mamífero, logo peixe e tubarão estão mais próximas semanticamente.

Um ponto a ser levado em consideração é que a similaridade depende do contexto da aplicação, observe o exemplo abaixo:

In [57]:
doc9  = nlp_lg('Eu gosto cachorros.')
doc10 = nlp_lg('Eu odeio cachorros.')

print(doc9.similarity(doc10))

0.968480081567788


#### Exercícios

Extraia do texto todas os substantivos e verbos do seguinte texto abaixo:

CAPÍTULO PRIMEIRO / ÓBITO DO AUTOR
Algum tempo hesitei se devia abrir estas memórias pelo princípio ou pelo fim, isto é, se poria em primeiro lugar o meu nascimento ou a minha morte. Suposto o uso vulgar seja começar pelo nascimento, duas considerações me levaram a adotar diferente método: a primeira é que eu não sou propriamente um autor defunto, mas um defunto autor, para quem a campa foi outro berço; a segunda é que o escrito ficaria assim mais galante e mais novo. Moisés, que também contou a sua morte, não a pôs no intróito, mas no cabo: diferença radical entre este livro e o Pentateuco.
Dito isto, expirei às duas horas da tarde de uma sexta-feira do mês de agosto de 1869, na minha bela chácara de Catumbi. Tinha uns sessenta e quatro anos, rijos e prósperos, era solteiro, possuía cerca de trezentos contos e fui acompanhado ao cemitério por onze amigos. Onze amigos! Verdade é que não houve cartas nem anúncios. Acresce que chovia — peneirava uma chuvinha miúda, triste e constante, tão constante e tão triste, que levou um daqueles fiéis da última hora a intercalar esta engenhosa idéia no discurso que proferiu à beira de minha cova: — "Vós, que o conhecestes, meus senhores, vós podeis dizer comigo que a natureza parece estar chorando a perda irreparável de um dos mais belos caracteres que têm honrado a humanidade. Este ar sombrio, estas gotas do céu, aquelas nuvens escuras que cobrem o azul como um crepe funéreo, tudo isso é a dor crua e má que lhe rói à Natureza as mais íntimas entranhas; tudo isso é um sublime louvor ao nosso ilustre finado."
Bom e fiel amigo! Não, não me arrependo das vinte apólices que lhe deixei. E foi assim que cheguei à cláusula dos meus dias; foi assim que me encaminhei para o undiscovered country de Hamlet, sem as ânsias nem as dúvidas do moço príncipe, mas pausado e trôpego como quem se retira tarde do espetáculo. Tarde e aborrecido. Viram-me ir umas nove ou dez pessoas, entre elas três senhoras, minha irmã Sabina, casada com o Cotrim, a filha, — um lírio do vale, — e... Tenham paciência! daqui a pouco lhes direi quem era a terceira senhora. Contentem-se de saber que essa anônima, ainda que não parenta, padeceu mais do que as parentas. É verdade, padeceu mais. Não digo que se carpisse, não digo que se deixasse rolar pelo chão, convulsa. Nem o meu óbito era coisa altamente dramática... Um solteirão que expira aos sessenta e quatro anos, não parece que reúna em si todos os elementos de uma tragédia. E dado que sim, o que menos convinha a essa anônima era aparentá-lo. De pé, à cabeceira da cama, com os olhos estúpidos, a boca entreaberta, a triste senhora mal podia crer na minha extinção.
— "Morto! morto!" dizia consigo.
E a imaginação dela, como as cegonhas que um ilustre viajante viu desferirem o vôo desde o llisso às ribas africanas, sem embargo das ruínas e dos tempos, — a imaginação dessa senhora também voou por sobre os destroços presentes até às ribas de uma África juvenil... Deixá-la ir; lá iremos mais tarde; lá iremos quando eu me restituir aos primeiros anos. Agora, quero morrer tranqüilamente, metodicamente, ouvindo os soluços das damas, as falas baixas dos homens, a chuva que tamborila nas folhas de tinhorão da chácara, e o som estrídulo de uma navalha que um amolador está afiando lá fora, à porta de um correeiro. Juro-lhes que essa orquestra da morte foi muito menos triste do que podia parecer. De certo ponto em diante chegou a ser deliciosa. A vida estrebuchava- me no peito, com uns ímpetos de vaga marinha, esvaía-se-me a consciência, eu descia à imobilidade física e moral, e o corpo fazia-se-me planta, e pedra e lodo, e coisa nenhuma.
Morri de uma pneumonia; mas se lhe disser que foi menos a pneumonia, do que uma idéia grandiosa e útil, a causa da minha morte, é possível que o leitor me não creia, e todavia é verdade. Vou expor-lhe sumariamente o caso. Julgue-o por si mesmo.

------

1. Quantos substantivos e verbos foram identificados?

2. Separe todos os verbos em uma lista e aplique a Lemmatization sobre eles obtendo outra lista. Nesta nova lista remova as duplicatas e conte quantos verbos únicos há.

In [60]:
brascubas = nlp_lg('''CAPÍTULO PRIMEIRO / ÓBITO DO AUTOR
Algum tempo hesitei se devia abrir estas memórias pelo princípio ou pelo fim, isto é, se poria em primeiro lugar o meu nascimento ou a minha morte. Suposto o uso vulgar seja começar pelo nascimento, duas considerações me levaram a adotar diferente método: a primeira é que eu não sou propriamente um autor defunto, mas um defunto autor, para quem a campa foi outro berço; a segunda é que o escrito ficaria assim mais galante e mais novo. Moisés, que também contou a sua morte, não a pôs no intróito, mas no cabo: diferença radical entre este livro e o Pentateuco.
Dito isto, expirei às duas horas da tarde de uma sexta-feira do mês de agosto de 1869, na minha bela chácara de Catumbi. Tinha uns sessenta e quatro anos, rijos e prósperos, era solteiro, possuía cerca de trezentos contos e fui acompanhado ao cemitério por onze amigos. Onze amigos! Verdade é que não houve cartas nem anúncios. Acresce que chovia — peneirava uma chuvinha miúda, triste e constante, tão constante e tão triste, que levou um daqueles fiéis da última hora a intercalar esta engenhosa idéia no discurso que proferiu à beira de minha cova: — "Vós, que o conhecestes, meus senhores, vós podeis dizer comigo que a natureza parece estar chorando a perda irreparável de um dos mais belos caracteres que têm honrado a humanidade. Este ar sombrio, estas gotas do céu, aquelas nuvens escuras que cobrem o azul como um crepe funéreo, tudo isso é a dor crua e má que lhe rói à Natureza as mais íntimas entranhas; tudo isso é um sublime louvor ao nosso ilustre finado."
Bom e fiel amigo! Não, não me arrependo das vinte apólices que lhe deixei. E foi assim que cheguei à cláusula dos meus dias; foi assim que me encaminhei para o undiscovered country de Hamlet, sem as ânsias nem as dúvidas do moço príncipe, mas pausado e trôpego como quem se retira tarde do espetáculo. Tarde e aborrecido. Viram-me ir umas nove ou dez pessoas, entre elas três senhoras, minha irmã Sabina, casada com o Cotrim, a filha, — um lírio do vale, — e... Tenham paciência! daqui a pouco lhes direi quem era a terceira senhora. Contentem-se de saber que essa anônima, ainda que não parenta, padeceu mais do que as parentas. É verdade, padeceu mais. Não digo que se carpisse, não digo que se deixasse rolar pelo chão, convulsa. Nem o meu óbito era coisa altamente dramática... Um solteirão que expira aos sessenta e quatro anos, não parece que reúna em si todos os elementos de uma tragédia. E dado que sim, o que menos convinha a essa anônima era aparentá-lo. De pé, à cabeceira da cama, com os olhos estúpidos, a boca entreaberta, a triste senhora mal podia crer na minha extinção.
— "Morto! morto!" dizia consigo.
E a imaginação dela, como as cegonhas que um ilustre viajante viu desferirem o vôo desde o llisso às ribas africanas, sem embargo das ruínas e dos tempos, — a imaginação dessa senhora também voou por sobre os destroços presentes até às ribas de uma África juvenil... Deixá-la ir; lá iremos mais tarde; lá iremos quando eu me restituir aos primeiros anos. Agora, quero morrer tranqüilamente, metodicamente, ouvindo os soluços das damas, as falas baixas dos homens, a chuva que tamborila nas folhas de tinhorão da chácara, e o som estrídulo de uma navalha que um amolador está afiando lá fora, à porta de um correeiro. Juro-lhes que essa orquestra da morte foi muito menos triste do que podia parecer. De certo ponto em diante chegou a ser deliciosa. A vida estrebuchava- me no peito, com uns ímpetos de vaga marinha, esvaía-se-me a consciência, eu descia à imobilidade física e moral, e o corpo fazia-se-me planta, e pedra e lodo, e coisa nenhuma.
Morri de uma pneumonia; mas se lhe disser que foi menos a pneumonia, do que uma idéia grandiosa e útil, a causa da minha morte, é possível que o leitor me não creia, e todavia é verdade. Vou expor-lhe sumariamente o caso. Julgue-o por si mesmo.''')


In [85]:
print('1. Quantos substantivos e verbos foram identificados?')

brascubas_arr_verb = [{token.pos_: token.text} for token in brascubas if token.pos_ == 'VERB']
brascubas_arr_verb = [(brascubas_arr_verb[key].values()) for key, value in enumerate(brascubas_arr_verb)]
print('Verbos: ', len(brascubas_arr_verb))

brascubas_arr_noun = [{token.pos_: token.text} for token in brascubas if token.pos_ == 'NOUN']
brascubas_arr_noun = [brascubas_arr_noun[key].values() for key, value in enumerate(brascubas_arr_noun)]
print('Substantivos: ', len(brascubas_arr_noun))

1. Quantos substantivos e verbos foram identificados?
Verbos:  87
Substantivos:  145


##### 2. Separe todos os verbos em uma lista e aplique a Lemmatization sobre eles obtendo outra lista. Nesta nova lista remova as duplicatas e conte quantos verbos únicos há.

In [106]:
def get_token_list(array: list) -> list:
  token_list = []
  for token in array:
    token_list.append(*token)
  return token_list

In [102]:
def get_lemma(token_list: list, isset: bool) -> list:
  """
  Expects a list of tokens/strings
  Returns either a list with all lemmas (isset: False) or a list with unique lemmas (isset: True)
  """
  lemma_list = []
  for key in range(len(token_list)):
    for token in nlp_lg(str(token_list[key])):
      lemma_list.append(token.lemma_)
  if isset:
    return list(set(lemma_list))
  return lemma_list

In [108]:
verb_list = get_token_list(brascubas_arr_verb)

verb_lemma = get_lemma(verb_list, isset=True)

print(len(verb_lemma))

69
