<a href="https://colab.research.google.com/github/diogoan/mineracaotextoupe/blob/master/Aula1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [0]:
import spacy
import os
os.system("python -m spacy download pt")

0

# Carregando o modelo

In [0]:
nlp = spacy.load('pt')

# Classe Token

In [0]:
doc = nlp("Eu estarei em Recife na próxima semana.")

In [0]:
for token in doc:
    print("{0}\t{1}\t{2}\t{3}\t{4}\t{5}\t{6}\t{7}".format(
        token.text,
        token.idx,
        token.lemma_,
        token.is_stop,
        token.is_punct,
        token.is_space,
        token.pos_,
        token.tag_
    ))

Eu	0	Eu	False	False	False	PRON	PERS|M|1S|NOM|@SUBJ>
estarei	3	estar	False	False	False	VERB	<mv>|V|PR|1S|IND|@FS-STA
em	11	em	True	False	False	ADP	PRP|@<ADVL
Recife	14	Recife	False	False	False	PROPN	PROP|M|S|@P<
na	21	o	True	False	False	DET	<arti>|ART|F|S|@>N
próxima	24	próximo	True	False	False	ADJ	ADJ|F|S|@>N
semana	32	semana	False	False	False	NOUN	<np-def>|N|F|S|@NPHR
.	38	.	False	True	False	PUNCT	PU|@PU


# Detecção de sentenças

In [0]:
doc = nlp("Eu estarei em Recife próxima semana. Será que levo roupa para frio?")

In [0]:
for sent in doc.sents:
    print(sent)

Eu estarei em Recife próxima semana.
Será que levo roupa para frio?


# Remoção de stopwords

In [0]:
new = [token.text.lower() for token in doc if not(token.is_stop or token.is_punct)]
print(new)

['eu', 'estarei', 'recife', 'semana', 'será', 'levo', 'roupa', 'frio']


# Lemmatization

In [0]:
lemmas = [token.lemma_.lower() for token in nlp(" ".join(new))]
print(lemmas)

['eu', 'estar', 'recife', 'semana', 'ser', 'levar', 'roupar', 'frio']


# POS Tagging

In [0]:
for token in doc:
    print(token.text,token.pos_)

Eu PRON
estarei VERB
em ADP
Recife PROPN
próxima ADJ
semana NOUN
. PUNCT
Será VERB
que PRON
levo VERB
roupa NOUN
para ADP
frio NOUN
? PUNCT


# NER

In [0]:
for ent in doc.ents:
    print(ent.text,ent.label_)

Recife LOC


In [0]:
doc2 = nlp("Geraldo Júlio é o prefeito de Recife.")

In [0]:
for ent in doc2.ents:
    print(ent.text,ent.label_)

Geraldo Júlio PER
Recife LOC


# Visualização

In [0]:
from spacy import displacy

In [0]:
displacy.render(doc, style='ent',jupyter=True)

In [0]:
displacy.render(doc2, style='ent',jupyter=True)

# Parsing de dependência

In [0]:
for token in doc:
    print("{0}/{1} <--{2}-- {3}/{4}".format(
        token.text, token.tag_, token.dep_, token.head.text, token.head.tag_))

Eu/PERS|M|1S|NOM|@SUBJ> <--nsubj-- estarei/<mv>|V|PR|1S|IND|@FS-STA
estarei/<mv>|V|PR|1S|IND|@FS-STA <--ROOT-- estarei/<mv>|V|PR|1S|IND|@FS-STA
em/PRP|@<ADVL <--case-- Recife/PROP|M|S|@P<
Recife/PROP|M|S|@P< <--det-- semana/<np-def>|N|F|S|@P<
próxima/ADJ|F|S|@>N <--amod-- semana/<np-def>|N|F|S|@P<
semana/<np-def>|N|F|S|@P< <--obl-- estarei/<mv>|V|PR|1S|IND|@FS-STA
./PU|@PU <--punct-- estarei/<mv>|V|PR|1S|IND|@FS-STA
Será/<mv>|V|FUT|3S|IND|@FS-QUE <--ROOT-- Será/<mv>|V|FUT|3S|IND|@FS-QUE
que/<rel>|INDP|F|S|@SUBJ> <--mark-- levo/<mv>|V|PR|3S|SUBJ|@FS-N<
levo/<mv>|V|PR|3S|SUBJ|@FS-N< <--ccomp-- Será/<mv>|V|FUT|3S|IND|@FS-QUE
roupa/<np-idf>|N|F|S|@<ACC <--amod-- levo/<mv>|V|PR|3S|SUBJ|@FS-N<
para/PRP|@<ADVL <--case-- frio/<np-idf>|N|M|P|@P<
frio/<np-idf>|N|M|P|@P< <--obl-- levo/<mv>|V|PR|3S|SUBJ|@FS-N<
?/PU|@PU <--punct-- Será/<mv>|V|FUT|3S|IND|@FS-QUE


In [0]:
displacy.render(doc, style='dep', jupyter=True, options={'distance': 90})

# Correferência


In [0]:
import os
os.system("pip install https://github.com/huggingface/neuralcoref-models/releases/download/en_coref_md-3.0.0/en_coref_md-3.0.0.tar.gz")

0

In [0]:
#import os
#os.system("pip install NeuralCoref")


In [0]:
import en_core_web_sm

nlp = en_core_web_sm.load()
doc = nlp(u'My sister has a dog. She loves him.')

doc._.has_coref
doc._.coref_clusters

AttributeError: ignored