# spaCy para análise de texto

O spaCy é Framework de Processamento de linguagem natural (NLP).

NLP = analisar linguagem humana através de um sistema de computador, tb chamado de linguística computacional.

Com spaCy podemos analisar as estruturas textuais, classes gramaticais, reconhecer entidades, analisar as relações entre os termos, etc.


O que vamos aprender hoje:

* o que é o spaCy;
* instalar, carregar modelos
* Criar um `Doc Container`
* Trabalhar com sentenças
* Entender o que é um `token` e seus atributos
* Aplicar reconhecimento de entidades.

## Instalando o spaCy

In [None]:
!pip install spacy

## Carregando modelos

In [1]:
import spacy


In [2]:
nlp = spacy.load('pt_core_news_lg')

### O que são esses modelos?

Ver a [documentação do spaCy](https://spacy.io/models/pt)

## Criar um `Doc Container`

In [3]:
# ler o texto
text = open('wlamyra.txt', 'r').read()

In [4]:
# processar o texto
doc = nlp(text)

## Trabalhar com sentenças

In [5]:
# ver as sentenças do texto
print([sent.text for sent in doc.sents])


['\nWlamyra Albuquerque\n\nQuem anda com porcos...', 'Ou negacionismo vende anúncio?', '\n30 de setembro de 2021\n\nQuem anda com porcos, farelo come.', 'Este é um velho dito popular ainda útil para quem lê na Folha textos que disparam paisagens negacionistas e ideias racistas e, ainda assim, têm espaço no jornal de maior circulação no país.', 'Não vou gastar um minuto deste dia ensolarado para debater a interpretação rasteira, rasa mesmo, que certo jornalista fez do escravismo e da agência de mulheres escravizadas no Brasil.', '\n\nÉ "texto-farelo".', 'Historiadoras estão acostumadas a sentar-se à mesa dos debates marcados por divergências bem articuladas e fundamentadas.', 'É banquete para nós que temos discordâncias fundadas em pesquisas científicas e em leituras honestas dos textos alheios.', '\n\nO artigo do colunista Leandro Narloch ("Luxo e riqueza das \'sinhás pretas\' precisam inspirar o movimento negro", 29/9) não passa de farelo à mesa para leitores que merecem algo melhor.'

In [6]:
doc.sents[0].text

TypeError: 'generator' object is not subscriptable

In [13]:
# transformar o objeto doc.sents em uma lista de strings
sents = list(doc.sents)

## Tokens

In [8]:
print (len(doc))
print (len(text))

846
4604


In [9]:
# imprimir os 10 primeiros tokens
for token in doc[:10]:
    print(token)



Wlamyra
Albuquerque



Quem
anda
com
porcos
...
Ou


In [10]:
# e se fizermos isso com a variável text?
for token in text[:10]:
    print (token)



W
l
a
m
y
r
a
 
A


### Atributos de um token

* .text
* .head
* .left_edge
* .right_edge
* .ent_type_
* .iob_
* .lemma_
* .morph
* .pos_
* .dep_
* .lang_


In [11]:
for token in doc[:10]:
    print(token.text)



Wlamyra
Albuquerque



Quem
anda
com
porcos
...
Ou


In [12]:
# vamos utilizar um token da terceira sentença 
sent5 = sents[4]
sent5

Não vou gastar um minuto deste dia ensolarado para debater a interpretação rasteira, rasa mesmo, que certo jornalista fez do escravismo e da agência de mulheres escravizadas no Brasil.

In [14]:
len(sent5)

32

In [15]:
token1 = sent5[30]
token1

Brasil

In [16]:
# head = "pai" sintático do token1
token1.head

escravizadas

In [17]:
# entity type do token1
token1.ent_type

385

In [18]:
token1.ent_type_

'LOC'

In [19]:
# Lemma =  base lematizada do token1 (reduzir ao radical)
token2 = sent5[28]
print(token2.text, token2.lemma_)

escravizadas escravizar


In [20]:
# Análise morfológica
print(token2.text, token2.morph)

escravizadas Gender=Fem|Number=Plur|VerbForm=Part


In [21]:
# Relação de dependência sintática
print(token1.text, token1.dep_)
print(token2.text, token2.dep_)

Brasil obl
escravizadas acl


In [22]:
# Classe gramatical = Part of Speech
print(token1.text, token1.pos_)
print(token2.text, token2.pos_)


Brasil PROPN
escravizadas VERB


### Visualizar as relações entre tokens

In [2]:
from spacy import displacy

In [24]:
displacy.render(sent5, style="dep", minify=True, options={'distance': 110, 'compact': True})

## Entidades (Named Entities Recognition)

In [25]:
# imprimir as entidades do texto
for ent in doc.ents:
    print(ent.text, ent.label_)

Wlamyra Albuquerque PER
Folha textos MISC
Brasil LOC
Historiadoras LOC
Leandro Narloch PER
Luxo MISC
Folha PER
Machado de Assis PER
Luiz Gama PER
Carolina de Jesus PER
Lima Barreto PER
Folha PER
likes ORG
José do Patrocínio PER
Luiz Gama PER
desinformam LOC
terra LOC
Américas LOC
Brasil LOC
Amazônia LOC
Covid PER
Brasil LOC


In [26]:
displacy.render(doc, style="ent")

In [27]:
# imprimiar apenas as entidades do tipo PERSON
for named_entity in doc.ents:
    if named_entity.label_ == "PER":
        print(named_entity)

Wlamyra Albuquerque
Leandro Narloch
Folha
Machado de Assis
Luiz Gama
Carolina de Jesus
Lima Barreto
Folha
José do Patrocínio
Luiz Gama
Covid


In [28]:
# imprimir apenas as entidades do tipo VERB e seu lemma
for token in doc:
    if token.pos_ == 'VERB':
        print(token, token.lemma_)

anda andar
vende vender
anda andar
come comer
dito dizer
lê ler
disparam disparar
têm ter
gastar gastar
ensolarado ensolarado
debater debater
rasa raso
fez fazer
escravizadas escravizar
sentar-se sentar-se
marcados marcar
articuladas articular
fundamentadas fundamentar
temos ter
fundadas fundar
precisam precisar
inspirar inspirar
passa passar
merecem merecer
Deixemos Deixemos
alcança alcançar
escravizadas escravizar
enxerga enxergar
embaçadas embaçar
peço pedir
informem-se informem-se
publicadas publicar
produzida produzir
abandonam abandonar
Basta Basta
corra correr
poderá poder
ler ler
dada dar
vale valer
perguntar perguntar
impresso impresso
abrir abrir
atiçar atiçar
vende vender
saber saber
abrir abrir
sustentam sustentar
enlutado enlutar
arriadas arriar
rende render
podia poder
sustentada sustentar
recusou recusar
sentar sentar
rendidos rendido
aderir aderir
questionar questionar
diziam dizer
defender defender
publicavam publicar
dizia dizer
sei saber
deve dever
haver haver
reivin

## Vamos ver como funciona em inglês?

In [3]:
corpus = open('pos_1900.txt', 'r').read()

In [None]:
!python -m spacy download en_core_web_sm

In [4]:
nlp_en = spacy.load('en_core_web_sm')

In [5]:
doc_en = nlp_en(corpus)

In [6]:
displacy.render(doc_en, style="ent")