# Avaliação Sprint 3

## Import das bibliotecas necessárias

In [None]:
import pandas as pd
from bs4 import BeautifulSoup
from urllib.request import urlopen
from pymongo import MongoClient
import spacy


## Conexão com o banco de dados Mongo

In [None]:
client = MongoClient("localhost", 27017)
artigos_db = client["Artigos"]
artigos_sem_tratamento = artigos_db["Tratamento_1"] #Texto cru, retirando apenas as tags HTML

## Fazendo o scrapping dos artigos

In [None]:
urls = [
    "https://www1.folha.uol.com.br/banco-de-dados/2021/05/1921-transporte-de-cavalos-de-corrida-burla-proibicao-em-sao-paulo.shtml",
    "https://www1.folha.uol.com.br/banco-de-dados/2021/06/1921-apos-sucesso-nos-eua-pianista-guiomar-novaes-chega-a-sao-paulo.shtml",
    "https://www1.folha.uol.com.br/banco-de-dados/2021/05/1921-missao-italiana-vem-ao-brasil-buscar-ajuda-para-mutilados-na-guerra.shtml",
    "https://www1.folha.uol.com.br/banco-de-dados/2021/05/1971-franca-aprova-entrada-do-reino-unido-no-mercado-comum-europeu.shtml",
    "https://www1.folha.uol.com.br/banco-de-dados/2021/05/1921-empresa-de-campinas-vai-comecar-a-vender-carne-fresca-a-paulistanos.shtml",
    "https://www1.folha.uol.com.br/banco-de-dados/2021/05/1921-teatro-polytheama-em-ribeirao-preto-e-destruido-por-incendio.shtml",
    "https://www1.folha.uol.com.br/banco-de-dados/2021/04/1921-tracado-de-estrada-que-ligara-limeira-a-araras-e-estudado.shtml",
    "https://www1.folha.uol.com.br/banco-de-dados/2021/03/1971-guerra-civil-estoura-no-paquistao-oriental-que-deseja-independencia.shtml",
    "https://www1.folha.uol.com.br/banco-de-dados/2021/03/1921-estrada-vai-facilitar-ligacao-de-sao-paulo-com-triangulo-mineiro-e-goias.shtml",
    "https://www1.folha.uol.com.br/banco-de-dados/2021/02/1921-autoridade-do-reino-unido-reafirma-luta-contra-movimento-irlandes.shtml"
] # lista das urls dos artigos



In [None]:
artigos = []
for url in urls:
    response = urlopen(url)
    html = response.read().decode('utf8')

    soup = BeautifulSoup(html, 'html.parser')

    paragrafos_artigo = soup.find('div', {'class': 'c-news__body'}).findAll('p')
    # Retirando as tags html dos artigos
    # As tags html, são substituidas por uma string vazia
    paragrafos_artigo = [str(paragrafo).replace('<p>','') for paragrafo in paragrafos_artigo]
    paragrafos_artigo = [str(paragrafo).replace('</p>','') for paragrafo in paragrafos_artigo]

    artigos.append({'texto' : paragrafos_artigo })


In [None]:
# Análisando se o artigo foi salvo na lista como string
artigos[0]

## Salvando os artigos no MongoDB

In [None]:
for artigo in artigos:
    # Para cada artigo dentro da lista, adiciona no mongo
    artigos_sem_tratamento.insert_one({'Artigo': artigo})

## Tokenizando os artigos utilizando o spacy

In [32]:
nlp = spacy.load("pt_core_news_sm")

doc = nlp(str(artigos))
    
for palavra_token in doc: # transformando cada palavra dos artigos em token
    palavra_token = str(palavra_token).lower() # transformando as palavras dos artigos em minusculo
    print(palavra_token)

[
{
'
texto
'
:
[
'
está
sendo
burlada
a
proibição
de
transportar
animais
nas
estradas
que
convergem
a
são
paulo
.
'
,
'
dias
depois
do
aparecimento
da
peste
bovina
nos
arredores
da
capital
,
as
autoridades
sanitárias
tinham
lembrado
o
governo
da
necessidade
de
estabelecer
essa
proibição
.
'
,
'
apesar
da
medida
,
jornais
noticiaram
a
ida
e
vinda
de
cavalos
de
corrida
entre
a
capital
e
santos
.
a
fim
de
mascarar
a
manobra
,
os
animais
são
enviados
para
são
bernardo
e
de
lá
são
transportados
para
a
outra
cidade
.
'
,
'
isso
ocorre
como
se
a
transmissão
da
peste
não
fosse
possível
nas
patas
de
cavalos
ingleses
,
que
custam
caro
.
'
]
}
,
{
'
texto
'
:
[
'
a
pianista
guiomar
novaes
chegou
a
são
paulo
nesta
quinta-feira
(
2
)
.
ela
veio
em
um
trem
noturno
do
rio
de
janeiro
,
após
regressar
de
uma
viagem
triunfal
aos
estados
unidos
,
onde
foi
considerada
,
por
vários
críticos
,
a
maior
virtuose
do
mundo
.
'
,
'
guiomar
novaes
tinha
viajado
para
os
eua
em
dezembro
de
1920
para
realizar
uma
s