# Crawler Noticias



## Introdução

Estudo projeto de construção de um bot crawler para extrair e indexar noticias de sites.

É recomendavel baixar uma única vez o html do site para reduzir a necessidade de acessar o site várias vezes para cada processamento reduzindo tempo e custo computacionais para máquina local e servidor.

Usamos módulo _Requests_ para baixar o html da página a ser processada e com módulo _BeautifulSoup_ processamos o conteúdo html buscando por conteúdos especificos. Ao inspecionar o código HTML verificamos em quais blocos estão as principais noticias - em geral em tags como "section", "h1"/"h2"/"h3" e "a" - considerando o seletor css que especifica cada bloco de interesse afim de refinar a busca e garantir que serão extraindos os trechos relevantes.

Sites com boas práticas de HTML/CSS tendem a serem mais faceis de serem processados e indexados por mecanismos de buscas facilitando os usuários em encontrar seus conteúdos em pesquisas aumentando assim o engajamento em suas plataformas contribuindo para seu melhor desenvolvimento.

Neste presente momento o projeto está considerando três portais de notícias que são _BBC Brasil_, _CNN Brasil_ e _G1/Globo_. 

Créditos e direitos reservados às referentes plataformas mencionadas.

(Obs.: Conteúdo livre com fins informativos e de divulgação. )


## Módulos

Abaixo _import_ dos módulos que contém os recursos usados.

* BeautifulSoup
* Requests
* re (regular expression)
* crawlernewsg1 (acessa site e extrai lista de principais noticias na página principal do site)
* IPython.core.display -> display, HTML (renderiza conteúdos html )

In [1]:
from bs4 import BeautifulSoup
import requests
import re
from crawlernewsg1 import *
import random

# Render html content
from IPython.core.display import display, HTML

# Modelagem Portal G1



Capturando noticias do portal G1 da Globo
Funções básicas. Especifincando "selector css" classe 'bastian-page'  para tags div.

In [75]:
# Baixando html do portal de noticia para processamento e salvando em disco.
url = 'https://g1.globo.com'
attr = {'class': 'bastian-page'}
data = g1_(requests.get( url ).content, 'div', attr, debug=False)
dw = requests.get('https://g1.globo.com/').content
with open('/tmp/data', 'w') as fl:
    fl.write( dw.decode() )
    

In [3]:
type(data)

dict

In [6]:
data['dnews']

[{'title': 'Atos golpistas: STF forma maioria para tornar réus mais 250',
  'url': 'https://g1.globo.com/politica/noticia/2023/05/07/stf-forma-maioria-para-tornar-reus-250-acusados-pelos-atos-golpistas-de-8-de-janeiro.ghtml'},
 {'title': 'O que acontece quando um preso passa no Enem? Entenda',
  'url': 'https://g1.globo.com/educacao/noticia/2023/05/07/presos-aprovados-no-enem-podem-ter-remicao-de-pena-e-direito-de-ir-a-faculdade-quero-esquecer-o-passado-diz-jovem-que-passou-em-federal.ghtml'},
 {'title': 'Praia Clube bate o Minas e vence a Superliga feminina de vôlei',
  'url': 'https://ge.globo.com/volei/noticia/2023/05/07/praia-clube-se-impoe-bate-o-minas-e-e-bicampeao-da-superliga-feminina.ghtml'},
 {'title': "'Stranger Things' paralisa produção por conta da greve de roteiristas",
  'url': 'https://g1.globo.com/pop-arte/noticia/2023/05/07/stranger-things-paralisa-producao-por-conta-da-greve-de-roteiristas-de-hollywood.ghtml'},
 {'title': 'Polícia prende 23 suspeitos de aplicar golpe

In [9]:
# Replace field name 'titulo' for 'title' name.
#dw = [ { key.replace('titulo', 'title'):value for key, value in i.items() } for i in dw ]
#dw = [ { key.replace('url', 'href'):value for key, value in i.items() } for i in dw ]
#replKey = lambda listdc, old_key, new_key: [ ]
def replKey(listdc, old_key, new_key  ):
    dt = []
    
    
    for i in listdc:
        for keys, value in i.items():
            dt.append( { keys.replace('url', 'href'): value } ) 
            
    return dt

data = replKey(data['dnews'], 'url', 'href' )

print(data)

[{'title': 'Atos golpistas: STF forma maioria para tornar réus mais 250'}, {'href': 'https://g1.globo.com/politica/noticia/2023/05/07/stf-forma-maioria-para-tornar-reus-250-acusados-pelos-atos-golpistas-de-8-de-janeiro.ghtml'}, {'title': 'O que acontece quando um preso passa no Enem? Entenda'}, {'href': 'https://g1.globo.com/educacao/noticia/2023/05/07/presos-aprovados-no-enem-podem-ter-remicao-de-pena-e-direito-de-ir-a-faculdade-quero-esquecer-o-passado-diz-jovem-que-passou-em-federal.ghtml'}, {'title': 'Praia Clube bate o Minas e vence a Superliga feminina de vôlei'}, {'href': 'https://ge.globo.com/volei/noticia/2023/05/07/praia-clube-se-impoe-bate-o-minas-e-e-bicampeao-da-superliga-feminina.ghtml'}, {'title': "'Stranger Things' paralisa produção por conta da greve de roteiristas"}, {'href': 'https://g1.globo.com/pop-arte/noticia/2023/05/07/stranger-things-paralisa-producao-por-conta-da-greve-de-roteiristas-de-hollywood.ghtml'}, {'title': 'Polícia prende 23 suspeitos de aplicar golpe

In [10]:
class G1:
    def __init__(self, size_news=10, include_details = False):
        self.size_news = size_news
        self.include_details = include_detais
        self.url = 'https://g1.globo.com/'
        self.hdata = ''
        self.htag = 'div'
        self.attr={'class': '_b', 'id':''}
        self.dnews = []
        self.soup = ''
        
    def g1_():
        pass
        
        

In [11]:
dw, cwn = g1_( dw, 'div', attr)

In [12]:
print(dw[0]['url'])
news1 = requests.get( dw[0]['url'] ).content

#print(news1)
soup = BeautifulSoup(news1, 'html.parser')

# Extração do título da notícia.
cwn2 = soup.find_all( 'p', {'class': 'content-text__container'} )
cwn_title = soup.find_all( 'h1', {'class': 'content-head__title'} )
print("\n")

print( dw[0].keys() )
#print(f"\n <b>{dw[0]['titulo']}</b>\n\n Page: {dw[0]['url']}")
display(HTML( f"""\n <b>{dw[0]['title']}</b>\n\n<br><br> Page: <a href="{dw[0]['url']}"> G1/Globo """))




https://g1.globo.com/politica/noticia/2023/05/07/stf-forma-maioria-para-tornar-reus-250-acusados-pelos-atos-golpistas-de-8-de-janeiro.ghtml


dict_keys(['title', 'url'])


In [13]:
#soup1 = BeautifulSoup
dw



[{'title': 'Atos golpistas: STF forma maioria para tornar réus mais 250',
  'url': 'https://g1.globo.com/politica/noticia/2023/05/07/stf-forma-maioria-para-tornar-reus-250-acusados-pelos-atos-golpistas-de-8-de-janeiro.ghtml'},
 {'title': 'O que acontece quando um preso passa no Enem? Entenda',
  'url': 'https://g1.globo.com/educacao/noticia/2023/05/07/presos-aprovados-no-enem-podem-ter-remicao-de-pena-e-direito-de-ir-a-faculdade-quero-esquecer-o-passado-diz-jovem-que-passou-em-federal.ghtml'},
 {'title': 'Praia Clube bate o Minas e vence a Superliga feminina de vôlei',
  'url': 'https://ge.globo.com/volei/noticia/2023/05/07/praia-clube-se-impoe-bate-o-minas-e-e-bicampeao-da-superliga-feminina.ghtml'},
 {'title': "'Stranger Things' paralisa produção por conta da greve de roteiristas",
  'url': 'https://g1.globo.com/pop-arte/noticia/2023/05/07/stranger-things-paralisa-producao-por-conta-da-greve-de-roteiristas-de-hollywood.ghtml'},
 {'title': 'Polícia prende 23 suspeitos de aplicar golpe

Ao abrir link da noticia pesquisar pela tag *'p'* com atributos **class** com valor **"content-text__container** definir o tamanho para caso extrair só parte do corpo do texto.


Retornando uma lista dos itens encontrados (como visto acima no código) pegamos estes itens e os concatenamos exibintido o texto no corpo da noticia. (_Como visto abaixo_)

In [14]:
# Display news 
#news = '<h1 style="font-size: 28px; padding: 12px; text-align: center; margin: 0 auto;">Notícia Do Dia </h1><br>'
#news += ''.join([  str(i) for i in cwn ] )
#display( HTML( news ))


Cada "_evt" (_css selector_ class) class css em "bastian-page" refere-se a uma noticia na lista central de noticias.
Dentro de cada "_evt" haverá "bastian-feed-item" e neste o feed-post. 

**feed-post-body** _contêm_  ( 'feed-post-link', 'feed-post-body-title', 'feed-post-body-resumo')

**bastian-feed-item** _contem_ um feed-post-body referindo-se a cada item (noticia)


Para link da noticia (quando acessando a noticia)

**content-head__title** em tag 'h1' (Título da noticia)

**content-head__subtitle** em tag 'h2' (subtitulo/resumo da noticia)

**content-text__container** corpo do texto da noticia css-selector, tag 'p' (pegar só a primeira referente ao primeiro paragrafo da noticia)

In [15]:
#text_news = '\n '.join([i.text for i in cwn ])
#print(text_news)
#help( cwn[0] )
#dir(cwn[0])

#dir(cwn[0])
#print('bastian-feed-item', cwn[0].contents[0].select( ".bastian-feed-item") )

nw = cwn[0].contents[0].select('._evt')
print( nw[3].contents )
nw2 = cwn[0].contents[0].select('.bastian-feed-item')
print('Número de noticias %s'%len(nw2) )


#( nw2[0].select('.feed-post-body-title')[0].text, nw2[0].select('.feed-post-body-resumo' )[0].text , nw2[0].select('.feed-post-link')[0]['href'] )

#l = [ i.text for i in  [ j.select('.feed-post') for j in cwn[0].contents[0].select('.bastian-feed-item') ] ]
#l[0]
#nw2[1].select('.feed-post-body-title')[0].text
#nw2[1].select('.feed-post-body-resumo' )[0].text
#nw2[1].select('.feed-post-link')
nws = [  {'titulo': i.select('.feed-post-body-title'), 
'resumo': i.select('.feed-post-body-resumo' ) ,
'url': i.select('.feed-post-link') } for i in nw2 ]

#nws

url_key = 'url'
href_key = 'href'
template = f"""
< div style="padding: 2px; border: 1px solid gray; background: whitesmoke;"> 
{url} 
</div>
"""
print('> ',nws[0]['url'][0])
# '<h3 style="padding: 4px;">'+ k['titulo'][0].text + f'<a href="" style="padding: 2px;" >{k["url"][0]["href"]}' for k in nws  
#p = ''.join([ "<h3>" + k['titulo'][0].text + "</h3>" + "<br>" + [ str( k['resumo'][0].text ) if ( len(k['resumo']) !=  0 ) else "" ][0] + '<br>' + k['url'][0]['href'] for  k in nws ])
p = ' '.join( 
    [ 
       f'<h3 style="padding: 2px;"> {k["titulo"][0].text}</h3>' + f'<a href="{k[url_key][0][href_key]}" style="padding: 1px; margin: 0;" >Leia mais</a>' for k in nws  
       
    ]
)

#print( p )
display(( HTML( p )) )

#[ 1 if 2 > 3 else 0]

[<h2><a class="feed-post-link gui-color-primary gui-color-hover" elementtiming="text-ssr" href="https://g1.globo.com/educacao/noticia/2023/05/07/presos-aprovados-no-enem-podem-ter-remicao-de-pena-e-direito-de-ir-a-faculdade-quero-esquecer-o-passado-diz-jovem-que-passou-em-federal.ghtml">O que acontece quando um preso passa no Enem? Entenda</a></h2>]
Número de noticias 7
>  <a class="feed-post-link gui-color-primary gui-color-hover" elementtiming="text-ssr" href="https://g1.globo.com/politica/noticia/2023/05/07/stf-forma-maioria-para-tornar-reus-250-acusados-pelos-atos-golpistas-de-8-de-janeiro.ghtml">Atos golpistas: STF forma maioria para tornar réus mais 250</a>


In [16]:
news2 = '<h1 style="padding: 12px;">Notícias</h1>'
news2 += '<br><br>'.join( [ '<br>'.join( [ str( i['title'] ) , str( i[ 'url' ]  ) ] ) for i in dw ] )
display( HTML( news2 ))

In [17]:
#import pyespeak
import subprocess

In [18]:

nws_data = [
     requests.get( i['url'][0]['href'])  for i in nws 
]

In [19]:
print(f'Número de noticias capturadas: {len(nws_data)}' )


Número de noticias capturadas: 7


In [20]:
#BeautifulSoup(nws_data.content, 'html.parser').find()[0]
#BeautifulSoup(nws_data.content, 'html.parser').find()[0]
#BeautifulSoup(nws_data.content, 'html.parser').find()[0]
# g1_(i.content, 'h1', {'class': 'content-head__title'} )[0], g1_( i.content, 'h2', {'class': 'content-head__subtitle' } )[0], g1_(i.content, 'p', {'class':'content-text__container'})[0][0]  ] for i in nws_data 
nws_data_ = []
g1aux = None 

for i in nws_data[:3]:
    try:

        nws_data_.append( 
            [ 
                BeautifulSoup(i.content, 'html.parser').find('h1', class_='content-head__title' ).text,
                BeautifulSoup(i.content, 'html.parser').find('h2', class_='content-head__subtitle').text,
                BeautifulSoup(i.content, 'html.parser').find('p', class_='content-text__container').text
            ]
        )
    except:
        pass

#print(nws_data_)


In [21]:
nws_data_[0]

['Com 6 a 1, STF forma maioria para tornar réus 250 acusados pelos atos golpistas de 8 de janeiro',
 'Ministros analisam no plenário virtual da Corte terceiro conjunto de acusações da PGR; julgamento vai até segunda. Três dos 10 ministros ainda não apresentaram seus votos.',
 ' STF já transformou 300 acusados em réus em julgamentos anteriores. Ao Todo, PGR denunciou 1.390 pessoas. ']

In [22]:

s = 'Olá. Bem vindo e bem vinda ao nosso noticiário diário. Eu sou Ani Fátima Liu e apresentarei as principais noticias. \n'
s_interv = 'Agora vamos a nossa próxima notícia.'

#for i in nws_data_[0]:
#    s += i

for i in nws_data_[:3]:
    for j in i:
        s += j
    s += s_interv+'\n'

print(s)

Olá. Bem vindo e bem vinda ao nosso noticiário diário. Eu sou Ani Fátima Liu e apresentarei as principais noticias. 
Com 6 a 1, STF forma maioria para tornar réus 250 acusados pelos atos golpistas de 8 de janeiroMinistros analisam no plenário virtual da Corte terceiro conjunto de acusações da PGR; julgamento vai até segunda. Três dos 10 ministros ainda não apresentaram seus votos. STF já transformou 300 acusados em réus em julgamentos anteriores. Ao Todo, PGR denunciou 1.390 pessoas. Agora vamos a nossa próxima notícia.
Presos aprovados no Enem podem ter remição de pena e direito de ir à faculdade: ‘Quero esquecer o passado’, diz jovem que passou em federal Número de inscritos no Enem para Pessoas Privadas de Liberdade (PPL) aumentou mais de 30% de 2021 a 2022. G1 conversou com detentos — condenados por tráfico e por homicídio — que buscam a educação como caminho para serem reinseridos na sociedade.  Igor Jesus da Silva, de 26 anos, foi aprovado neste ano em engenharia agrícola e ambie

In [23]:
#pyespeak.speech(s, '120', 'noticia_dia_full.wav')


# CNN Crawler de Noticias do Portal

In [24]:
cnn_data = requests.get('https://www.cnnbrasil.com.br/')


In [25]:
cnn_soup = BeautifulSoup(cnn_data.content, 'html.parser')
cnn_nw_data = cnn_soup.find_all('section')
cnn_nw_data[0]

<section class="hot__content"> <div class="container splide__track"> <ul class="hot__list splide__list"> <li class="hot__list__itens splide__slide"> <a href="https://www.cnnbrasil.com.br/internacional/rei-charles-iii-e-coroado-em-cerimonia-na-abadia-de-westminster/" target="_self" title="REINO UNIDO Rei Charles III é coroado na Abadia de Westminster"><img class="tb" src="https://www.cnnbrasil.com.br/wp-content/uploads/sites/12/2023/05/GettyImages-1252754796.jpg?w=65&amp;h=37&amp;crop=1" title="REINO UNIDO Rei Charles III é coroado na Abadia de Westminster"/><div class="i_ch"><i class=""></i> <span class="ch">REINO UNIDO</span></div><span class="tp">Rei Charles III é coroado na Abadia de Westminster</span></a>  </li> <li class="hot__list__itens splide__slide"> <a href="https://www.cnnbrasil.com.br/internacional/bloqueio-russo-de-sistemas-de-foguetes-dos-eua-dificulta-esforcos-de-guerra-na-ucrania/" target="_self" title="UCRÂNIA Bloqueio russo de foguetes dos EUA dificulta esforços de gu

In [26]:
c = cnn_nw_data[0].find('a')
#dir(c)


In [27]:
c.attrs

{'href': 'https://www.cnnbrasil.com.br/internacional/rei-charles-iii-e-coroado-em-cerimonia-na-abadia-de-westminster/',
 'title': 'REINO UNIDO Rei Charles III é coroado na Abadia de Westminster',
 'target': '_self'}

In [28]:
cnn_list_news = []
aux = None 
for news in cnn_nw_data:
    aux = news.find('a')
    
    
    try :
        
        aux = aux.attrs
        cnn_list_news.extend( [ { 'title': aux['title'], 'href': aux['href'] } ] ) 

    except:
        pass

print(cnn_list_news)

[{'title': 'REINO UNIDO Rei Charles III é coroado na Abadia de Westminster', 'href': 'https://www.cnnbrasil.com.br/internacional/rei-charles-iii-e-coroado-em-cerimonia-na-abadia-de-westminster/'}, {'title': 'Maioria do STF aceita denúncia contra mais 250 acusados pelos atos criminosos de 8 de janeiro', 'href': 'https://www.cnnbrasil.com.br/politica/maioria-do-stf-aceita-denuncia-contra-mais-250-acusados-pelo-8-de-janeiro/'}, {'title': 'Morre Palmirinha, carismática apresentadora de programas culinários, aos 91 anos', 'href': 'https://www.cnnbrasil.com.br/entretenimento/palmirinha-onofre-morre-aos-91-anos/'}, {'title': 'Política', 'href': 'https://www.cnnbrasil.com.br/politica/'}, {'title': 'Pop', 'href': 'https://www.cnnbrasil.com.br/pop/'}, {'title': 'Economia', 'href': 'https://www.cnnbrasil.com.br/economia/'}, {'title': 'Internacional', 'href': 'https://www.cnnbrasil.com.br/internacional/'}, {'title': 'Viagem & Gastronomia', 'href': 'https://www.cnnbrasil.com.br/viagemegastronomia/'

In [29]:
cnn_list_news_ma = None
for i in cnn_list_news:
    
    try:
        print(f"\n{i['title']} \n{i['href']}\n\n" ) 
    except:
        pass 
    #keys = i.keys()
    #print(keys)   
    

    #print( f'\t\n\n{out}') 
    #out = '' 



REINO UNIDO Rei Charles III é coroado na Abadia de Westminster 
https://www.cnnbrasil.com.br/internacional/rei-charles-iii-e-coroado-em-cerimonia-na-abadia-de-westminster/



Maioria do STF aceita denúncia contra mais 250 acusados pelos atos criminosos de 8 de janeiro 
https://www.cnnbrasil.com.br/politica/maioria-do-stf-aceita-denuncia-contra-mais-250-acusados-pelo-8-de-janeiro/



Morre Palmirinha, carismática apresentadora de programas culinários, aos 91 anos 
https://www.cnnbrasil.com.br/entretenimento/palmirinha-onofre-morre-aos-91-anos/



Política 
https://www.cnnbrasil.com.br/politica/



Pop 
https://www.cnnbrasil.com.br/pop/



Economia 
https://www.cnnbrasil.com.br/economia/



Internacional 
https://www.cnnbrasil.com.br/internacional/



Viagem & Gastronomia 
https://www.cnnbrasil.com.br/viagemegastronomia/



Nacional 
https://www.cnnbrasil.com.br/nacional/



Saúde 
https://www.cnnbrasil.com.br/saude/



Esportes 
https://www.cnnbrasil.com.br/esportes/



CNN Plural 
htt

In [30]:
len(dw)

7

In [31]:
len(cnn_list_news)

14

# BBC Brasil 

Crawler das notícias do portal do site BBC Brasil.

In [32]:
url_bbc = 'https://www.bbc.com/portuguese'
url_bbc_base = 'https://www.bbc.com'

In [33]:
bbc_data = requests.get(url_bbc)
bbc_soup = BeautifulSoup(bbc_data.content, 'html.parser')
bbc_sections =  bbc_soup.find_all('section' , class_= 'bbc-iinl4t')

In [34]:
bbc_news_lists = []

``` python
url_bbc_base+bbc_sections[0].select('a')[0]['href']
```

Saída 'https://www.bbc.com/portuguese/brasil-63507138'

In [35]:
bbc_sections[0].select('a')[0].text

'Como ‘vazio legal’ impulsiona consumo e venda de cogumelos psicodélicos no Brasil'

In [36]:
for news in bbc_sections:
    bbc_news_lists.extend( [ { 'title': i.text, 'url': i['href'] } for i in news.select('a') ] )

In [37]:
bbc_news_lists = []
aux = None 

for section_news in bbc_sections:
    for news in section_news.select( 'a' ):
        if news['href'].find('topic') != -1:
            pass
        else :
            if news['href'].find('https') != -1:
                bbc_news_lists.extend( [ { 'title': news.text, 'href': news['href'] } ] )
            else:
                bbc_news_lists.extend( [ { 'title': news.text, 'href': url_bbc_base+news['href'] } ] )

In [38]:
print(f'Número de notícias: {len(bbc_news_lists)}')

Número de notícias: 76


In [39]:
random.choices(bbc_news_lists, k = 3)

[{'title': 'Parceiros comerciais da BBC Brasil',
  'href': 'https://www.bbc.com/portuguese/institutional-41672312'},
 {'title': 'Que História!: ouça as duas temporadas do podcast',
  'href': 'https://www.bbc.com/portuguese/podcasts/p07r3r3t'},
 {'title': 'Como foi a coroação de Charles 3º',
  'href': 'https://www.bbc.com/portuguese/articles/cje01158037o'}]

In [40]:
print(url_bbc_base+'/portuguese/topics/cz74k71p8ynt')

https://www.bbc.com/portuguese/topics/cz74k71p8ynt


In [41]:
with open('bbc_news.txt', 'w') as fl:
    for i in bbc_news_lists:
        fl.write(i['title'] +'\n' + i['href'] +'\n\n')
    fl.close()

# Portal Band

Busca de lista de notícias do portal Band.

In [42]:
url_band = 'https://www.band.uol.com.br/'

In [43]:
band_data = requests.get(url_band).content
soup_band = BeautifulSoup(band_data, 'html.parser')


In [44]:
news_band_section = soup_band.find_all('section')
print(f'Número: {len(news_band_section)}')

Número: 17


In [45]:
aux = []
list_ = None
for secs in news_band_section:
    list_ = secs.find_all('a', class_='link')
    for i in list_:
        
        try:
            aux.extend( [ { 'title': i.h3.text+'. '+ i.h2.text, 'href': i['href']} ] )
        except:
            aux.extend( [ { 'title': i.text, 'href': i['href'] } ] )
    #aux.extend([ { 'title': i}  for i in list_ ]  )
news_list_band = [] 
news_list_band.extend(random.choices(aux, k=4 ) )

In [46]:
n = soup_band.find_all('a')

In [47]:
import random

random.choices(news_list_band, k = 4)[0:]
for i in news_list_band:
    print(f"\n{i['title']}\n{i['href']}")



/bandnews-fm/noticias/rei-charles-pede-para-brasil-cuidar-da-amazonia-e-lula-cobra-ajuda-16600443


/bandnews-fm/noticias/raphael-veiga-elogia-diniz-e-ve-flu-como-um-dos-melhores-times-do-brasil-16600211

Dicas gastronômicas simples, do dia-a-dia, sem complicação, que todo mundo pode colocar em prática estão na coluna da chef, que é formada pela Thames Valley University e The Moisimann Academy, ambos em Londres, e pelo instituto La Cultura Alimentari, em Milão
https://receitas.band.uol.com.br/colunistas/carole-crema


/entretenimento/como-harry-perdeu-espaco-na-coroacao-do-pai-apos-abdicar-de-funcoes-reais-16600420


In [48]:
n[0]

<a _ngcontent-sc85="" aria-label="Band" class="logo logo--portal logo-name--Band logo--image center" href="/"><img _ngcontent-sc85="" alt="Band" class="logo-image" height="35" src="https://pubimg.band.uol.com.br/Files/logo-band-2022-v2.png?v2" width="101"/><!-- --><!-- --><!-- --></a>

# Montando Lista de Notícias

In [49]:
number_news = 6


In [50]:
import random

In [51]:
news_list = []

news_list.extend( [ {'title': random.choices( [ (news['title'], news['url']) for news in dw ] , k = 2 ), 'source': 'G1/Globo' } ] )

news_list.extend( [ {'title': random.choices( [ (news['title'], news['href']) for news in cnn_list_news ] , k = 2 ), 'source': 'CNN Brasil' } ] )

news_list.extend( [ {'title': random.choices( [ (news['title'], news['href']) for news in bbc_news_lists ] , k = 2 ), 'source': 'BBC Brasil' } ] )


In [52]:
for i in news_list:
    for j in i['title']:
        print(f"{j[0]}. \n{j[1]}\n")
    
    print(f"Fonte: {i['source']}\n\n")

O que acontece quando um preso passa no Enem? Entenda. 
https://g1.globo.com/educacao/noticia/2023/05/07/presos-aprovados-no-enem-podem-ter-remicao-de-pena-e-direito-de-ir-a-faculdade-quero-esquecer-o-passado-diz-jovem-que-passou-em-federal.ghtml

O que acontece quando um preso passa no Enem? Entenda. 
https://g1.globo.com/educacao/noticia/2023/05/07/presos-aprovados-no-enem-podem-ter-remicao-de-pena-e-direito-de-ir-a-faculdade-quero-esquecer-o-passado-diz-jovem-que-passou-em-federal.ghtml

Fonte: G1/Globo


Pop. 
https://www.cnnbrasil.com.br/pop/

Economia. 
https://www.cnnbrasil.com.br/economia/

Fonte: CNN Brasil


A tecnologia da Primeira Guerra Mundial que está ajudando a Ucrânia a enganar a Rússia. 
https://www.bbc.com/portuguese/articles/c168zd53616o

O que diz a lei sobre casos como casamento de prefeito de 65 anos com adolescente de 16. 
https://www.bbc.com/portuguese/articles/cn07gz0p422o

Fonte: BBC Brasil




## Salvando Todas Noticias (JSON)

### View news for test algorithm

In [53]:
# List news
news = None
portaisvar = [
    'dw', #Globo/G1
    'cnn_list_news', # CNN Brazil
    'bbc_news_list' # BBC Brazil
]

portais = { 'dw': 'Globo/G1', 'cnn_list_news': 'CNN Brasil', 'bbc_news_lists': 'BBC Brasil' }    

In [54]:
dw[0].keys(), cnn_list_news[0].keys(), bbc_news_lists[0].keys()

(dict_keys(['title', 'url']),
 dict_keys(['title', 'href']),
 dict_keys(['title', 'href']))

In [55]:
# Replace field name 'titulo' for 'title' name.
dw = [ { key.replace('titulo', 'title'):value for key, value in i.items() } for i in dw ]
dw = [ { key.replace('url', 'href'):value for key, value in i.items() } for i in dw ]
dw

[{'title': 'Atos golpistas: STF forma maioria para tornar réus mais 250',
  'href': 'https://g1.globo.com/politica/noticia/2023/05/07/stf-forma-maioria-para-tornar-reus-250-acusados-pelos-atos-golpistas-de-8-de-janeiro.ghtml'},
 {'title': 'O que acontece quando um preso passa no Enem? Entenda',
  'href': 'https://g1.globo.com/educacao/noticia/2023/05/07/presos-aprovados-no-enem-podem-ter-remicao-de-pena-e-direito-de-ir-a-faculdade-quero-esquecer-o-passado-diz-jovem-que-passou-em-federal.ghtml'},
 {'title': 'Praia Clube bate o Minas e vence a Superliga feminina de vôlei',
  'href': 'https://ge.globo.com/volei/noticia/2023/05/07/praia-clube-se-impoe-bate-o-minas-e-e-bicampeao-da-superliga-feminina.ghtml'},
 {'title': "'Stranger Things' paralisa produção por conta da greve de roteiristas",
  'href': 'https://g1.globo.com/pop-arte/noticia/2023/05/07/stranger-things-paralisa-producao-por-conta-da-greve-de-roteiristas-de-hollywood.ghtml'},
 {'title': 'Polícia prende 23 suspeitos de aplicar g

In [56]:
#[ { key.replace('title', 'titulo' ) } ]
newslist = dw + cnn_list_news + bbc_news_lists
#newslist

In [65]:
import os
count = 0
try:
    os.mkdir( 'newsdata' )
except FileExistsError:
    print("File exist")
    
webdata = ''
# Save data of link news in files to folder.
for news in newslist:
    try:
        #news['data'] = requests.get(news['href']).text
        foldername = f'newsdata'
        #os.mkdir( foldername )
        news['datafile'] = f'{foldername}/'+str( count )
        with open( foldername+f'/{str(count)}', 'a' ) as fl:
            webdata = requests.get( news['href'] ).text 
            fl.write( webdata )
            fl.close()
            
        count += 1
    except :
        print('not get page')
        continue
    

File exist


In [66]:
newslist[0]['datafile']

'newsdata/0'

In [67]:
p = requests.get( newslist[0]['href'] )
soup = BeautifulSoup( p.text, 'html.parser')
texto = soup.get_text()
print( texto )

 Com 6 a 1, STF forma maioria para tornar réus 250 acusados pelos atos golpistas de 8 de janeiro | Política | G1

                   Política                          








fique por dentro


          Imposto de Renda 
      

          Mega-Sena
      

          Coroação de rei Charles III
      

          Antecipação do 13º
      

          Alicia Keys no Brasil
      






Sessão plenária do STF — Foto: Nelson Jr./SCO/STF     Sessão plenária do STF — Foto: Nelson Jr./SCO/STF                O Supremo Tribunal Federal (STF) formou maioria de votos para tornar réus mais 250 acusados de participação nos atos golpistas de 8 de janeiro, quando foram depredadas as sedes do tribunal, do Palácio do Planalto e do Congresso Nacional.        Os ministros analisam no plenário virtual da Corte essa terceira leva de acusações da Procuradoria-Geral da República até segunda-feira (8). Na terça (9), começa a análise de mais 250 casos.       Até a manhã deste domingo (7), o placar era de 6 vot

In [68]:
d = ''
with open(foldername+'/0', 'r') as fl:
    d = fl.read()
    fl.close()


soup = BeautifulSoup(d, 'html.parser')
#souptext = soup.text
content = soup.find_all('div')
#dir(soup)

In [69]:
texto = ' '.join( [ i.get_text() for i in content ] )
texto = texto.replace('\n', ' ')
with open('texto', 'w' ) as fl:
    #fl.write( souptext )
    fl.write( texto )
    

In [70]:
print( texto )

Sessão plenária do STF — Foto: Nelson Jr./SCO/STF                           O Supremo Tribunal Federal (STF) formou maioria de votos para tornar réus mais 250 acusados de participação nos atos golpistas de 8 de janeiro, quando foram depredadas as sedes do tribunal, do Palácio do Planalto e do Congresso Nacional.      O Supremo Tribunal Federal (STF) formou maioria de votos para tornar réus mais 250 acusados de participação nos atos golpistas de 8 de janeiro, quando foram depredadas as sedes do tribunal, do Palácio do Planalto e do Congresso Nacional.       Os ministros analisam no plenário virtual da Corte essa terceira leva de acusações da Procuradoria-Geral da República até segunda-feira (8). Na terça (9), começa a análise de mais 250 casos.       Até a manhã deste domingo (7), o placar era de 6 votos a 1, e três ministros ainda precisavam apresentar seus votos no sistema eletrônico. O STF está com uma cadeira vaga desde a aposentadoria de Ricardo Lewandowski.             Relator do 

In [71]:
import json

with open('noticias.json', 'w') as fl:
    fl.write(json.dumps(newslist, ensure_ascii=False, indent=4))
    fl.close()

### Salva noticias

In [72]:
def savenews(newslist: list, filename: str) -> None:
    import json
    jsondata = None
    with open(filename, 'w') as fl:
        fl.write( json.dumps( newslist, encode='utf-8', indent=4 ) )
        fl.close()
    print('Saved...')
    

In [73]:
i = j = None

for i in news_list:
    for j in i['title']:
        print(f'{j[0]}.')
    print(f'Fonte: {i["source"] }\n\n ' )

O que acontece quando um preso passa no Enem? Entenda.
O que acontece quando um preso passa no Enem? Entenda.
Fonte: G1/Globo

 
Pop.
Economia.
Fonte: CNN Brasil

 
A tecnologia da Primeira Guerra Mundial que está ajudando a Ucrânia a enganar a Rússia.
O que diz a lei sobre casos como casamento de prefeito de 65 anos com adolescente de 16.
Fonte: BBC Brasil

 


In [74]:
i = j = None

print(f"Olá bem vindo ao Diário de Notícias Dimensão Alfa. Estas são as principais manchetes do dia.\n")
for i in news_list:
    print(f'Portal de Notícias {i["source"] }\n ' )
    for j in i['title']:
        print(f'{j[0]}.')
    print('\n\n')

Olá bem vindo ao Diário de Notícias Dimensão Alfa. Estas são as principais manchetes do dia.

Portal de Notícias G1/Globo
 
O que acontece quando um preso passa no Enem? Entenda.
O que acontece quando um preso passa no Enem? Entenda.



Portal de Notícias CNN Brasil
 
Pop.
Economia.



Portal de Notícias BBC Brasil
 
A tecnologia da Primeira Guerra Mundial que está ajudando a Ucrânia a enganar a Rússia.
O que diz a lei sobre casos como casamento de prefeito de 65 anos com adolescente de 16.





# Sobre

## Dimensão Alfa

Dimensão Alfa projetos e conteúdos de tecnologia.

## Info

O presente projeto tem sido usado com fins de divulgação e facilitação de acesso a noticias e conhecimento em comunhão com objetivo da plataforma/página Dimensão Alfa. 
Conteúdos de terceiros são de responsabilidades dos mesmos bem como seus direitos autorais.

O projeto encontra-se em desenvolvimento, inicialmente fôra batizado de Ani Fátima Liu, e estará passando por alterações estando de inicio disponibilizado em formato "_jupyter notebook_" podendo servir como _case_ de estudo para os que se interessam por "web scrap" (raspagem de dados).

Tecnologias foram usadas para gerar vídeo de noticias diária para página [Dimensão Alfa no facebook](https://www.facebook.com) e [Youtube](https://www.youtube.com/@dimensaoalfa); foi usada as seguintes tecnologias:

* [Editor de códigos VSCode](https://code.visualstudio.com/)
* [Python (linguagem de programação)](https://www.python.org/)
* [Ambiente JupyterLab](https://jupyter.org/)
* [Biblioteca "Requests"](https://requests.readthedocs.io/en/latest/)
* [Biblioteca "BeautifulSoup"](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)
* [Serviço de Sintese de Voz Microsoft/Azure](https://speech.microsoft.com)


Peço e agradeço a compreensão e apoio de todos. 

Para contribuições, dúvidas, sugestões visitem nossas páginas no [Facebook](https://www.facebook.com/).


## Sugestões de Conteúdo

Deixamos abaixo algumas sugestões de conteúdos e canais com recursos para estudos e pesquisa que podem ser uteis para quem se interessa por tecnologia, programação de computadores, matemática, ciências de dados e inteligência artificial.

* [Programação Dinâmica](https://www.youtube.com/c/Programa%C3%A7%C3%A3oDin%C3%A2mica)
* [Toda Matemática](https://www.youtube.com/c/GustavoViegascurso)
* [Matemática Universitária](https://www.youtube.com/c/Matem%C3%A1ticaUniversit%C3%A1riaProfRenan)
* [Reflexões Matemáticas](https://www.youtube.com/c/Reflex%C3%B5esMatem%C3%A1ticasDrDilbertoJ%C3%BAnior)
* [Programação Descomplicada](https://www.youtube.com/user/progdescomplicada)
* [Univesp](https://www.youtube.com/user/univesptv)
* [USP no Youtube](https://www.youtube.com/c/CanalUSP)
* [IME/USP](https://www.ime.usp.br/)
* [IMPA](https://www.youtube.com/c/impabr)



## Links

* [Dimensão Alfa](https://www.dimensaoalfa.com.br)
* [Facebook](https://www.facebook.com/dimensaoalfa)
* [Youtube](https://www.youtube.com/@dimensaoalfa)
* [WSRicardo](https://wsricardo.blogspot.com)