# spaCy para análise de texto

O spaCy é Framework de Processamento de linguagem natural (NLP).

NLP = analisar linguagem humana através de um sistema de computador, tb chamado de linguística computacional.

Com spaCy podemos analisar as estruturas textuais, classes gramaticais, reconhecer entidades, analisar as relações entre os termos, etc.


O que vamos aprender hoje:

* o que é o spaCy;
* instalar, carregar modelos
* Criar um `Doc Container`
* Trabalhar com sentenças
* Entender o que é um `token` e seus atributos
* Aplicar reconhecimento de entidades.

## Instalando o spaCy

In [None]:
!pip install spacy

## Carregando modelos

In [1]:
import spacy


In [2]:
nlp = spacy.load('pt_core_news_lg')

In [3]:
type(nlp)

spacy.lang.pt.Portuguese

### O que são esses modelos?

Ver a [documentação do spaCy](https://spacy.io/models/pt)

## Criar um `Doc Container`

In [4]:
# ler o texto
text = open('quaresma.txt', 'r').read()

In [5]:
# processar o texto
doc = nlp(text)

## Trabalhar com sentenças

O spacY tem um método chamado `sents` que retorna as sentenças de um texto.

In [6]:
doc.sents

<generator at 0x70e4126158a0>

Para vermos essas sentenças, precisamos iterar sobre o objeto `doc` e imprimir o texto de cada sentença.

In [None]:
# ver as sentenças do texto através de um loop for

for sent in doc.sents:
    print(sent.text)

In [7]:
doc.sents[0].text

TypeError: 'generator' object is not subscriptable

In [8]:
# transformar o objeto doc.sents em uma lista de strings
sents = list(doc.sents)

In [9]:
sents[500].text

'Fora com um olhar luminoso e perscrutador que ela perguntara ao padrinho:\n\n- Então, padrinho, lê-se muito?\n\n- Muito, minha filha.'

## Tokens

Tokens são as unidades básicas de um texto. Podem ser palavras, pontuações, espaços, etc.

In [10]:
print (len(text))
print (len(doc))

393754
84920


In [11]:
# imprimir os 10 primeiros tokens
for token in doc[100:151]:
    print(token)

Renan
,
Marc-Auréle


PRIMEIRA
PARTE


I


A
Lição
de
Violão


Como
de
hábito
,
Policarpo
Quaresma
,
mais
conhecido
por
Major
Quaresma
,
bateu
em
casa
às


quatro
e
quinze
da
tarde
.
Havia
mais
de
vinte
anos
que
isso
acontecia
.
Saindo
do
Arsenal
de


In [12]:
# e se fizermos isso com a variável text?
for token in text[:10]:
    print (token)

1


M
I
N
I
S
T
É
R


### Atributos de um token

* .text
* .head
* .left_edge
* .right_edge
* .ent_type_
* .iob_
* .lemma_
* .morph
* .pos_
* .dep_
* .lang_


In [13]:
for token in doc[500:511]:
    print(token.text)

;
ultimamente
,
porém
,
mudara
um
pouco
;
e
isso


In [14]:
# vamos utilizar um token da terceira sentença 
sent_ex = sents[11]
sent_ex

A vizinhança já lhe conhecia os hábitos e tanto que, na casa do Capitão Cláudio, onde era costume
Jantar-se aí pelas quatro e meia, logo que o viam passar, a dona gritava à criada: “Alice, olha que
são horas; o Major Quaresma já passou.

In [15]:
len(sent_ex)

55

In [16]:
token1 = sent_ex[15]
token1

Cláudio

In [17]:
# head = "pai" sintático do token1
token1.head

Capitão

In [18]:
# entity type do token1
token1.ent_type

4317129024397789502

In [19]:
token1.ent_type_ 

'PER'

In [20]:
# Lemma =  base lematizada do token1 (reduzir ao radical)
token2 = sent_ex[36]
token2

gritava

In [21]:
print(token2.text, token2.lemma_)

gritava gritar


In [22]:
# Análise morfológica
print(token2.text, token2.morph)

gritava Mood=Ind|Number=Sing|Person=3|Tense=Imp|VerbForm=Fin


In [23]:
# Relação de dependência sintática
print(token1.text, token1.dep_)
print(token2.text, token2.dep_)

Cláudio flat:name
gritava conj


In [24]:
# Classe gramatical = Part of Speech
print(token1.text, token1.pos_)
print(token2.text, token2.pos_)


Cláudio PROPN
gritava VERB


### Visualizar as relações entre tokens

In [25]:
from spacy import displacy

In [26]:
displacy.render(sent_ex, style="dep", minify=True, options={'distance': 110, 'compact': True})

## Entidades (Named Entities Recognition)

In [27]:
# imprimir as entidades do texto
for ent in doc.ents:
    print(ent.text, ent.label_)

MINISTÉRIO DA CULTURA
 MISC
Fundação Biblioteca Nacional
Departamento Nacional do Livro
 ORG
João Luiz Ferreira
Engenheiro Civil
Le grand PER
idéal MISC
les qualités deviennent des défauts MISC
Renan PER
Marc-Auréle PER
Policarpo Quaresma PER
Major Quaresma PER
Arsenal de
Guerra LOC
São Januário LOC
Capitão Cláudio PER
Alice MISC
Major Quaresma PER
Major Quaresma PER
Doutor Segadas MISC
São Januário LOC
Major Quaresma PER
Major Policarpo Quaresma PER
Ricardo MISC
Policarpo PER
Lisboa LOC
Padre Caldas PER
Beckford PER
Adelaide LOC
Policarpo PER
Bento Teixeira PER
Gregório de Matos PER
Basílio da Gama PER
Santa Rita Durão LOC
José de Alencar PER
Macedo LOC
Gonçalves Dias PER
Gabriel Soares PER
Gândavo LOC
Rocha Pita PER
Frei
Vicente do Salvador LOC
Armitage LOC
Aires do Casal LOC
Pereira da Silva LOC
Handelmann LOC
Geschichte von
Brasilien PER
Melo Moraes LOC
Capistrano de Abreu PER
Southey PER
Varnhagen PER
Hans Staden PER
Jean de Léry PER
Saint-Hilaire PER
Martius PER
Príncipe de Neuwi

In [29]:
displacy.render(doc, style="ent")

In [28]:
# imprimiar apenas as entidades do tipo PERSON
for named_entity in doc.ents:
    if named_entity.label_ == "PER":
        print(named_entity)

João Luiz Ferreira
Engenheiro Civil
Le grand
Renan
Marc-Auréle
Policarpo Quaresma
Major Quaresma
Capitão Cláudio
Major Quaresma
Major Quaresma
Major Quaresma
Major Policarpo Quaresma
Policarpo
Padre Caldas
Beckford
Policarpo
Bento Teixeira
Gregório de Matos
Basílio da Gama
José de Alencar
Gonçalves Dias
Gabriel Soares
Rocha Pita
Geschichte von
Brasilien
Capistrano de Abreu
Southey
Varnhagen
Hans Staden
Jean de Léry
Saint-Hilaire
Martius
Príncipe de Neuwied
John Mawe
von Eschwege
Agassiz
Couto de Magalhães
Darwin
Freycinet
Cook
Bougainville
Magalhães
Magalhães
lia-os
Policarpo
Quaresma
Errava
Paulo Afonso
Gonçalves Dias
Andrade Neves
Febo
Arte
Azevedo
Senhor Azevedo
Azevedo
Ubirajara
Ingrato
Major Policarpo Quaresma
Quaresma
Rocha Pita
Rocha Pita da História da América
Portuguesa
Tardei
Acabava
Major Quaresma
Senhor Ricardo Coração dos Outros
Paganini
Ricardo
Ricardo Coração dos Outros
Tenente Marques
Castro
Ricardo
Ricardo Coração dos Outros
Ricardo
Decerto
Quaresma
Ricardo
Ricardo
Don

In [30]:
# imprimir apenas as entidades do tipo VERB e seu lemma
for token in doc:
    if token.pos_ == 'VERB':
        print(token, token.lemma_)

insupportable insupportable
fort fort
bateu bater
Havia Havia
acontecia acontecer
Saindo Saindo
bongava bongar
comprava comprar
gastava gastar
tomava tomar
pisar pisar
afastada afastar
determinado determinar
previsto prever
conhecia conhecer
Jantar-se Jantar-se
viam ver
passar passar
gritava gritar
olha olhar
passou passar
era ser
há haver
Vivendo viver
tendo ter
podia poder
levar levar
gozando gozar
abastado abastar
recebia receber
vivia vivir
julgavam julgar
tinha ter
tinha ter
merecera merecer
afamado afamar
podia poder
admitir admitir
tivesse ter
formado formar
mostrava mostrar
acontecia acontecer
abriam abrer
poder-se-iam poder-se-
ver ver
pejadas pejar
mudara mudar
provocava provocar
visitavam visitar
visto ver
entrar entrar
agasalhado agasalhar
intrigou intrigar
convidou convidar
levaram levar
perdido perder
palmilhar palmilhar
esticando esticar
passavam passar
aberta abrir
Sentado Sentado
tendo ter
empunhando empunhar
tocar tocar
ouvia ouver
vibravam vibrar
ferida ferido
aprend

## Vamos ver como funciona em inglês?

In [3]:
corpus = open('pos_1900.txt', 'r').read()

In [None]:
!python -m spacy download en_core_web_sm

In [4]:
nlp_en = spacy.load('en_core_web_sm')

In [5]:
doc_en = nlp_en(corpus)

In [None]:
displacy.render(doc_en, style="ent")