In [1]:
# Execute o código a seguir caso a instalação do newspaper3k ainda não tenha sido executada
!pip install newspaper3k



In [2]:
from newspaper import Article

In [3]:
urls=['https://www.jota.info/casa-jota/casa-jota-ganhos-sociais-gerados-pelo-avanco-da-tecnologia-16112020',
     'https://economia.uol.com.br/noticias/estadao-conteudo/2020/11/06/reforma-tributaria-deve-vir-antes-de-autonomia-do-bc-na-camara-diz-maia.htm']


In [4]:
textos = [Article(url) for url in urls]

for texto in textos:
    texto.download()
    texto.parse()


In [5]:
# Execute o código a seguir caso o modelo não esteja instalado
# Se a execução for feita através do jupyter, o kernel do ambiente
# deve ser recarregado

#!python -m spacy download pt_core_news_lg
# ou
#!python -m spacy download pt_core_news_sm

In [6]:
import spacy
import itertools as itt
nlp = spacy.load("pt_core_news_lg")


In [7]:

doc_texto = nlp(textos[1].text)

documento = {'texto': doc_texto.text,
             'sentencas': list(doc_texto.sents),
             'nouns': list(itt.chain([n for n in doc_texto.noun_chunks]))
            }

In [8]:
documento['sentencas'][0].text

'Defendida por agentes do mercado financeiro e uma das bandeiras da equipe econômica do governo Jair Bolsonaro, o projeto de autonomia do Banco Central (BC) deve avançar na Câmara só após a reforma tributária andar, no que depender do presidente da Casa, Rodrigo Maia (DEM-RJ).'

In [16]:
print(doc_texto.text)

Defendida por agentes do mercado financeiro e uma das bandeiras da equipe econômica do governo Jair Bolsonaro, o projeto de autonomia do Banco Central (BC) deve avançar na Câmara só após a reforma tributária andar, no que depender do presidente da Casa, Rodrigo Maia (DEM-RJ). Para ele, o projeto sobre a instituição presidida por Roberto Campos Neto não é urgente no curto prazo.

"Aceito votar autonomia do Banco, aceito, é claro, votar os depósitos voluntários, mas aí temos que organizar melhor a pauta até o fim do ano. É só o governo ter boa vontade na reforma tributária", disse Maia, ao participar de evento organizado pelo Itaú. "A reforma tributária tem importância muito maior que autonomia do Banco Central", comentou.

O projeto de autonomia do BC foi aprovado na terça-feira, 3, pelo Senado e agora precisa do aval dos deputados para virar lei. O texto mantém o controle dos preços como objetivo central, mas inclui ainda duas novas metas acessórias, sem prejuízo à principal: suavizar 

In [10]:
#dir(doc_texto)
#dir(doc_texto.vocab.vectors)
doc_texto.vocab.vectors.values()

<generator at 0x7f7074311310>

In [11]:
# Avaliando as etiquetas de POS e dependency parsing

for word in documento['sentencas'][0]:
      print(word.text,  word.pos_, word.dep_)



Defendida VERB acl
por ADP case
agentes NOUN obl:agent
do DET case
mercado NOUN nmod
financeiro ADJ amod
e CCONJ cc
uma NUM conj
das DET case
bandeiras NOUN nmod
da DET case
equipe NOUN nmod
econômica ADJ amod
do DET case
governo NOUN nmod
Jair PROPN appos
Bolsonaro PROPN flat:name
, PUNCT punct
o DET det
projeto NOUN nsubj
de ADP case
autonomia NOUN nmod
do DET case
Banco PROPN nmod
Central PROPN flat:name
( PUNCT punct
BC PROPN appos
) PUNCT punct
deve VERB ROOT
avançar VERB xcomp
na DET case
Câmara NOUN obl
só ADV advmod
após ADP case
a DET det
reforma NOUN obl
tributária ADJ amod
andar VERB acl
, PUNCT punct
no ADP mark
que PRON fixed
depender VERB advcl
do DET case
presidente NOUN obj
da DET case
Casa NOUN nmod
, PUNCT punct
Rodrigo PROPN appos
Maia PROPN flat:name
( PUNCT punct
DEM-RJ PROPN parataxis
) PUNCT punct
. PUNCT punct


In [12]:
for i,sent in enumerate(doc_texto.sents):
    print(i,sent)

0 Defendida por agentes do mercado financeiro e uma das bandeiras da equipe econômica do governo Jair Bolsonaro, o projeto de autonomia do Banco Central (BC) deve avançar na Câmara só após a reforma tributária andar, no que depender do presidente da Casa, Rodrigo Maia (DEM-RJ).
1 Para ele, o projeto sobre a instituição presidida por Roberto Campos Neto não é urgente no curto prazo.


2 "
3 Aceito votar autonomia do Banco, aceito, é claro, votar os depósitos voluntários, mas aí temos que organizar melhor a pauta até o fim do ano.
4 É só o governo ter boa vontade na reforma tributária", disse Maia, ao participar de evento organizado pelo Itaú.
5 "
6 A reforma tributária tem importância muito maior que autonomia do Banco Central", comentou.


7 O projeto de autonomia do BC foi aprovado na terça-feira, 3, pelo Senado e agora precisa do aval dos deputados para virar lei.
8 O texto mantém o controle dos preços como objetivo central, mas inclui ainda duas novas metas acessórias, sem prejuízo 

In [13]:
# Visualizando árvore com Displacy
spacy.displacy.render(list(doc_texto.sents)[:2], style='dep', jupyter=True, options={'distance': 100, 'compact': True})

In [14]:
# Visualizando árvore com Displacy
spacy.displacy.render(list(doc_texto.sents), style='ent', jupyter=True, options={'distance': 100, 'compact': True})



In [15]:
from pathlib import Path

svg = spacy.displacy.render(list(doc_texto.sents)[:1], style='dep', jupyter=False, options={'distance': 100, 'compact': True})
file_name = "teste_plotagem_dep.svg"
output_path = Path("./images/" + file_name)
output_path.open("w", encoding="utf-8").write(svg)

38304