# Crawler Noticias



## Introdução

Estudo projeto de construção de um bot crawler para extrair e indexar noticias de sites.

É recomendavel baixar uma única vez o html do site para reduzir a necessidade de acessar o site várias vezes para cada processamento reduzindo tempo e custo computacionais para máquina local e servidor.

Usamos módulo _Requests_ para baixar o html da página a ser processada e com módulo _BeautifulSoup_ processamos o conteúdo html buscando por conteúdos especificos. Ao inspecionar o código HTML verificamos em quais blocos estão as principais noticias - em geral em tags como "section", "h1"/"h2"/"h3" e "a" - considerando o seletor css que especifica cada bloco de interesse afim de refinar a busca e garantir que serão extraindos os trechos relevantes.

Sites com boas práticas de HTML/CSS tendem a serem mais faceis de serem processados e indexados por mecanismos de buscas facilitando os usuários em encontrar seus conteúdos em pesquisas aumentando assim o engajamento em suas plataformas contribuindo para seu melhor desenvolvimento.

Neste presente momento o projeto está considerando três portais de notícias que são _BBC Brasil_, _CNN Brasil_ e _G1/Globo_. 

Créditos e direitos reservados às referentes plataformas mencionadas.

(Obs.: Conteúdo livre com fins informativos e de divulgação. )


## Módulos

Abaixo _import_ dos módulos que contém os recursos usados.

* BeautifulSoup
* Requests
* re (regular expression)
* crawlernewsg1 (acessa site e extrai lista de principais noticias na página principal do site)
* IPython.core.display -> display, HTML (renderiza conteúdos html )

In [29]:
from bs4 import BeautifulSoup
import requests
import re
from crawlernewsg1 import *
import random

# Render html content
from IPython.core.display import display, HTML

# Modelagem Portal G1



Capturando noticias do portal G1 da Globo
Funções básicas. Especifincando "selector css" classe 'bastian-page'  para tags div.

In [30]:
# Baixando html do portal de noticia para processamento e salvando em disco.
url = 'https://g1.globo.com'
attr = {'class': 'bastian-page'}
data = g1_(requests.get( url ).content, 'div', attr, debug=False)
dw = requests.get('https://g1.globo.com/').content
with open('/tmp/data', 'w') as fl:
    fl.write( dw.decode() )
    

In [31]:
type(data)

tuple

In [32]:
# Replace field name 'titulo' for 'title' name.
#dw = [ { key.replace('titulo', 'title'):value for key, value in i.items() } for i in dw ]
#dw = [ { key.replace('url', 'href'):value for key, value in i.items() } for i in dw ]
#replKey = lambda listdc, old_key, new_key: [ ]
def replKey(listdc, old_key, new_key  ):
    dt = []
    
    
    for i in listdc:
        for keys, value in i.items():
            dt.append( { keys.replace('url', 'href'): value } ) 
            
    return dt

data = replKey(data[0], 'url', 'href' )

print(data)

[{'title': 'CPI dos Atos Golpistas recebe pedidos para 48 quebras de sigilo e 244 depoimentos'}, {'href': 'https://g1.globo.com/politica/noticia/2023/05/27/em-48h-cpi-dos-atos-golpistas-recebeu-48-pedidos-de-quebras-de-sigilo.ghtml'}, {'title': 'Alunos de medicina do Fies cogitam largar curso por causa da alta de mensalidades'}, {'href': 'https://g1.globo.com/educacao/noticia/2023/05/27/alunos-de-medicina-do-fies-cogitam-largar-curso-por-causa-de-teto-do-financiamento-e-alta-de-mensalidades.ghtml'}, {'title': '2º turno da Turquia tem campanha de desinformação com vídeo falso'}, {'href': 'https://g1.globo.com/mundo/blog/sandra-cohen/post/2023/05/27/campanha-de-desinformacao-esquenta-o-segundo-turno-da-turquia.ghtml'}, {'title': 'Hurb dá novo calote e clientes são barrados em avião'}, {'href': 'https://g1.globo.com/economia/noticia/2023/05/27/passageiros-estimam-prejuizo-de-mais-de-r-10-mil-apos-serem-impedidos-de-embarcar-por-calote-do-hurb.ghtml'}, {'title': 'Sidney Magal tem quadro es

In [33]:
dw, cwn = g1_( dw, 'div', attr)

Ao abrir link da noticia pesquisar pela tag *'p'* com atributos **class** com valor **"content-text__container** definir o tamanho para caso extrair só parte do corpo do texto.


Retornando uma lista dos itens encontrados (como visto acima no código) pegamos estes itens e os concatenamos exibintido o texto no corpo da noticia. (_Como visto abaixo_)

Cada "_evt" (_css selector_ class) class css em "bastian-page" refere-se a uma noticia na lista central de noticias.
Dentro de cada "_evt" haverá "bastian-feed-item" e neste o feed-post. 

**feed-post-body** _contêm_  ( 'feed-post-link', 'feed-post-body-title', 'feed-post-body-resumo')

**bastian-feed-item** _contem_ um feed-post-body referindo-se a cada item (noticia)


Para link da noticia (quando acessando a noticia)

**content-head__title** em tag 'h1' (Título da noticia)

**content-head__subtitle** em tag 'h2' (subtitulo/resumo da noticia)

**content-text__container** corpo do texto da noticia css-selector, tag 'p' (pegar só a primeira referente ao primeiro paragrafo da noticia)

In [34]:
news2 = '<h1 style="padding: 12px;">Notícias</h1>'
news2 += '<br><br>'.join( [ '<br>'.join( [ str( i['title'] ) , str( i[ 'url' ]  ) ] ) for i in dw ] )
display( HTML( news2 ))

# CNN Crawler de Noticias do Portal

In [35]:
cnn_data = requests.get('https://www.cnnbrasil.com.br/')


In [36]:
cnn_soup = BeautifulSoup(cnn_data.content, 'html.parser')
cnn_nw_data = cnn_soup.find_all('section')
cnn_nw_data[0]

<section class="hot__content"> <div class="carousel"> <div class="carousel__screen infinite"> <ul class="carousel__track"> <li class="carousel__item"><div class="hot__list__itens"> <a href="https://www.cnnbrasil.com.br/entretenimento/virada-cultural-2023-confira-" target="_self" title="VIRADA CULTURAL 2023 Confira programação e horários das principais atrações"> <img class="tb" src="https://www.cnnbrasil.com.br/wp-content/uploads/sites/12/2022/05/CJP20220529020.jpg?w=65&amp;h=37&amp;crop=1" title="VIRADA CULTURAL 2023 Confira programação e horários das principais atrações"/> <div class="i_ch"> <i></i> <span class="ch"> VIRADA CULTURAL 2023 </span> </div> <span class="tp"> Confira programação e horários das principais atrações </span> </a></div></li><li class="carousel__item"><div class="hot__list__itens"> <a href="https://www.cnnbrasil.com.br/politica/lula-se-reune-com-marina-e-sonia-guajajara-apos-derrotas-impostas-pelo-congresso-na-area-ambiental/" target="_self" title="MINISTÉRIOS L

In [37]:
c = cnn_nw_data[0].find('a')
#dir(c)


In [38]:
c.attrs

{'href': 'https://www.cnnbrasil.com.br/entretenimento/virada-cultural-2023-confira-',
 'title': 'VIRADA CULTURAL 2023 Confira programação e horários das principais atrações',
 'target': '_self'}

In [39]:
cnn_list_news = []
aux = None 
for news in cnn_nw_data:
    aux = news.find('a')
    
    
    try :
        
        aux = aux.attrs
        cnn_list_news.extend( [ { 'title': aux['title'], 'href': aux['href'] } ] ) 

    except:
        pass

print(cnn_list_news)

[{'title': 'VIRADA CULTURAL 2023 Confira programação e horários das principais atrações', 'href': 'https://www.cnnbrasil.com.br/entretenimento/virada-cultural-2023-confira-'}, {'title': 'Derrotas do governo no Congresso refletem dificuldade de Lula em formar coalizão', 'href': 'https://www.cnnbrasil.com.br/politica/derrotas-do-governo-no-congresso-refletem-dificuldade-de-lula-em-formar-coalizao-dizem-especialistas/'}, {'title': 'General da Ucrânia sugere que contraofensiva ucraniana pode estar próxima', 'href': 'https://www.cnnbrasil.com.br/internacional/chefe-das-forcas-armadas-da-ucrania-sugere-que-contraofensiva-pode-estar-proxima/'}, {'title': 'Política', 'href': 'https://www.cnnbrasil.com.br/politica/'}, {'title': 'Pop', 'href': 'https://www.cnnbrasil.com.br/pop/'}, {'title': 'Economia', 'href': 'https://www.cnnbrasil.com.br/economia/'}, {'title': 'Internacional', 'href': 'https://www.cnnbrasil.com.br/internacional/'}, {'title': 'Viagem & Gastronomia', 'href': 'https://www.cnnbras

In [40]:
cnn_list_news_ma = None
for i in cnn_list_news:
    
    try:
        print(f"\n{i['title']} \n{i['href']}\n\n" ) 
    except:
        pass 
    #keys = i.keys()
    #print(keys)   
    

    #print( f'\t\n\n{out}') 
    #out = '' 



VIRADA CULTURAL 2023 Confira programação e horários das principais atrações 
https://www.cnnbrasil.com.br/entretenimento/virada-cultural-2023-confira-



Derrotas do governo no Congresso refletem dificuldade de Lula em formar coalizão 
https://www.cnnbrasil.com.br/politica/derrotas-do-governo-no-congresso-refletem-dificuldade-de-lula-em-formar-coalizao-dizem-especialistas/



General da Ucrânia sugere que contraofensiva ucraniana pode estar próxima 
https://www.cnnbrasil.com.br/internacional/chefe-das-forcas-armadas-da-ucrania-sugere-que-contraofensiva-pode-estar-proxima/



Política 
https://www.cnnbrasil.com.br/politica/



Pop 
https://www.cnnbrasil.com.br/pop/



Economia 
https://www.cnnbrasil.com.br/economia/



Internacional 
https://www.cnnbrasil.com.br/internacional/



Viagem & Gastronomia 
https://www.cnnbrasil.com.br/viagemegastronomia/



Nacional 
https://www.cnnbrasil.com.br/nacional/



Saúde 
https://www.cnnbrasil.com.br/saude/



Esportes 
https://www.cnnbrasil.com.b

In [41]:
len(dw)

8

In [42]:
len(cnn_list_news)

14

# BBC Brasil 

Crawler das notícias do portal do site BBC Brasil.

In [43]:
url_bbc = 'https://www.bbc.com/portuguese'
url_bbc_base = 'https://www.bbc.com'

In [44]:
bbc_data = requests.get(url_bbc)
bbc_soup = BeautifulSoup(bbc_data.content, 'html.parser')
bbc_sections =  bbc_soup.find_all('section' , class_= 'bbc-iinl4t')

In [45]:
bbc_news_lists = []

``` python
url_bbc_base+bbc_sections[0].select('a')[0]['href']
```

Saída 'https://www.bbc.com/portuguese/brasil-63507138'

In [46]:
bbc_sections[0].select('a')[0].text

'O que está por trás do aumento de casos de HIV entre idosos brasileiros'

In [47]:
for news in bbc_sections:
    bbc_news_lists.extend( [ { 'title': i.text, 'url': i['href'] } for i in news.select('a') ] )

In [48]:
bbc_news_lists = []
aux = None 

for section_news in bbc_sections:
    for news in section_news.select( 'a' ):
        if news['href'].find('topic') != -1:
            pass
        else :
            if news['href'].find('https') != -1:
                bbc_news_lists.extend( [ { 'title': news.text, 'href': news['href'] } ] )
            else:
                bbc_news_lists.extend( [ { 'title': news.text, 'href': url_bbc_base+news['href'] } ] )

In [49]:
print(f'Número de notícias: {len(bbc_news_lists)}')

Número de notícias: 54


In [50]:
random.choices(bbc_news_lists, k = 3)

[{'title': '5 negócios do Google e de outros gigantes que prometiam muito e fracassaram',
  'href': 'https://www.bbc.com/portuguese/articles/crgmg5r9d8ro'},
 {'title': 'Homem paraplégico volta a andar após receber implantes no cérebro em técnica pioneira',
  'href': 'https://www.bbc.com/portuguese/articles/c720p0z8xyno'},
 {'title': 'Vídeo, O meio milhão de crianças sem comida e educação no maior campo de refugiados do mundo, Duration 2,30',
  'href': 'https://www.bbc.com/portuguese/internacional-65645115'}]

In [51]:
print(url_bbc_base+'/portuguese/topics/cz74k71p8ynt')

https://www.bbc.com/portuguese/topics/cz74k71p8ynt


In [52]:
with open('bbc_news.txt', 'w') as fl:
    for i in bbc_news_lists:
        fl.write(i['title'] +'\n' + i['href'] +'\n\n')
    fl.close()

# Portal Band

Busca de lista de notícias do portal Band.

In [53]:
import requests
from bs4 import BeautifulSoup

In [54]:
url_band = 'https://www.band.uol.com.br/'

In [55]:
band_data = requests.get(url_band).content
soup_band = BeautifulSoup(band_data, 'html.parser')


#### Band list sections 

In [56]:
news_band_section = soup_band.find_all('section')

In [57]:
print(news_band_section[0])
print(f'Número: {len(news_band_section)}')

<section _ngcontent-sc38="" class="menu__section"><span _ngcontent-sc38="">Menu</span><!-- --><!-- --></section>
Número: 17


#### Band home main

![bandcapt.png](bandcapt.png)

1. tag main class -> home
2. Tag section com class=hardnews
3. tag div's conteúdos com para classes hardnews__highlight e cards

In [58]:
import re
# Tag 'main' e class=[home container]. (variável band_main_home)
band_main_home = soup_band.find_all('main', class_='home')
# -----------------------
#dir(band_main_home[0] )
#print(str( band_main_home ) )
soup_band2 = BeautifulSoup( str( band_main_home ) , 'html.parser')

bmainhardnews = soup_band2.find_all('section', 'hardnews')
soup_blocknews = BeautifulSoup( str( bmainhardnews[0] ), 'html.parser' )
bn1 = soup_blocknews.find_all( 'div', class_='hardnews__highlight' )

soup_links_news = BeautifulSoup(str( bn1 ), 'html.parser') 
bn1_link_news = soup_links_news.find_all( 'a'  )#, class_= [ 'link image','related', 'link']  ) 
bn2 = soup_blocknews.find_all( 'div', class_='cards' )

soup2bn2 = BeautifulSoup( str( bn2[0] ), 'html.parser' ) 
bn2_cards_links = soup2bn2.find_all( 'a' )

# Tag: div Class -> hardnews__highlight and card. Duas seções/blocos de noticias.
#print('\n> bn1 ', bn1[0] )
#print('\n> bn2 ', bn2[0] )
print('\n bn1_link_news ', len(bn1_link_news ))
print('\n bn1_link_news ', bn1_link_news[1] )
print('\n'+30*'-')
print('\n bn2_cards_links (size)', len(bn2_cards_links) )
print('\ bn2_cards_links ', bn2_cards_links[-1] ) #Pegando o último elemento da lista e exibindo.



 bn1_link_news  5

 bn1_link_news  <a _ngcontent-sc11="" href="https://www.band.uol.com.br/esportes/automobilismo/formula-1">Veja a tabela e o calendário completo do Mundial de pilotos</a>

------------------------------

 bn2_cards_links (size) 15
\ bn2_cards_links  <a _ngcontent-sc10="" href="https://www.band.uol.com.br/economia/noticias/juliana-rosa-programa-de-carro-mais-barato-privilegiara-os-menos-poluentes-16605408" title="Juliana Rosa: programa de carro mais barato privilegiará menos poluentes"><h2 _ngcontent-sc10="" class="title">Juliana Rosa: programa de carro mais barato privilegiará menos poluentes</h2></a>


In [59]:
#print(dir(bn1_link_news[0] ) )
#bn1_link_news[0]['href']

# Lista de links de notícias no bloco {tag: div, class_: 'hardnews__highlight' } do HTML.
for i in bn1_link_news:
    print('\n> ', i.text +'\n | '+i['href'])


>  F1 NA BANDAO VIVO: Assista à classificação do GP de Mônaco de Fórmula 1
 | https://www.band.uol.com.br/esportes/automobilismo/formula-1/ao-vivo/formula-1-gp-de-monaco-classificacao

>  Veja a tabela e o calendário completo do Mundial de pilotos
 | https://www.band.uol.com.br/esportes/automobilismo/formula-1

>  Gente como a gente? Em Mônaco, pilotos têm vida comum à vista de moradores
 | https://www.band.uol.com.br/esportes/automobilismo/formula-1/noticias/gp-de-monaco-pilotos-f1-moradores-vida-16604981

>  Blog Grid: A importância de Mônaco para a F1, em uma partida de pôquer com David Coulthard
 | https://www.band.uol.com.br/esportes/automobilismo/blog-grid/formula-1/a-importancia-de-monaco-para-a-f1-em-uma-partida-de-poquer-com-david-coulthard

>  Exclusivo: Na liderança da F3, Bortoleto admite "conversas" com equipes da F2
 | https://www.band.uol.com.br/esportes/automobilismo/blog-grid/formula-2/na-lideranca-da-f3-bortoleto-admite-conversas-com-equipes-da-formula-2


In [60]:
for i in bn2_cards_links:
    print('\n> ', i['title'] +'\n | '+i['href'])


>  Borussia Dortmund x Mainz: siga o jogo que pode definir campeão alemão
 | https://www.band.uol.com.br/esportes/futebol/placar/ao-vivo/borussia-dortmund-x-mainz-05-202056

>  Borussia Dortmund x Mainz: siga o jogo que pode definir campeão alemão
 | https://www.band.uol.com.br/esportes/futebol/placar/ao-vivo/borussia-dortmund-x-mainz-05-202056

>  Borussia Dortmund x Mainz: siga o jogo que pode definir campeão alemão
 | https://www.band.uol.com.br/esportes/futebol/placar/ao-vivo/borussia-dortmund-x-mainz-05-202056

>  Bayern enfrenta Colônia em outra partida decisiva; acompanhe 
 | https://www.band.uol.com.br/esportes/futebol/placar/ao-vivo/colonia-x-bayern-202122

>  Neto: Corinthians vai trazer 5 jogadores na janela; assista
 | https://www.band.uol.com.br/esportes/os-donos-da-bola/noticias/corinthians-vai-contratar-5-jogadores-craque-neto-16605247

>  Neto: Corinthians vai trazer 5 jogadores na janela; assista
 | https://www.band.uol.com.br/esportes/os-donos-da-bola/noticias/corint

#### Função "trackBandNews" (Obtendo notícias do portal da Band)

In [61]:
# Type list of dictionary
ListDict = list[ dict ]

def trackBandNews(data: str) -> ListDict:
    """
    data: str [dados] text html
    return list of news with fields 'Title of news' and 'url' for news.
    l = [
    {'title': 'string', 'href': link},
    ...
    ]
    
    """
    # Lista de notícias
    result = []
    
    # Obtendo conteúdo html
    #band_data = requests.get(url_band).content
    soup_band = BeautifulSoup(data, 'html.parser')
    
    # Primeiro acesso tag main (bloco principal que contêm conteúdos como as noticias principais e seus links.
    # Tag 'main' e class=[home container]. (variável band_main_home)
    band_main_home = soup_band.find_all('main', class_='home')
    
    # Capturando html do bloco maior em main que contêm as noticias.
    soup_band2 = BeautifulSoup( str( band_main_home ) , 'html.parser')
    
    # Este block ( tag:section, class:hardnews) filho da tag main contem dois blocos de noticias a serem tratados insoladamente.
    bmainhardnews = soup_band2.find_all('section', 'hardnews')
    soup_blocknews = BeautifulSoup( str( bmainhardnews[0] ), 'html.parser' )
    bn1 = soup_blocknews.find_all( 'div', class_='hardnews__highlight' )

    
    soup_links_news = BeautifulSoup(str( bn1 ), 'html.parser') 
    bn1_link_news = soup_links_news.find_all( 'a'  )#, class_= [ 'link image','related', 'link']  ) 
    bn2 = soup_blocknews.find_all( 'div', class_='cards' )

    soup2bn2 = BeautifulSoup( str( bn2[0] ), 'html.parser' ) 
    bn2_cards_links = soup2bn2.find_all( 'a' )

    # Tag: div Class -> hardnews__highlight and card. Duas seções/blocos de noticias.
    #print('\n> bn1 ', bn1[0] )
    #print('\n> bn2 ', bn2[0] )
    #print('\n bn1_link_news ', len(bn1_link_news ))
    #print('\n bn1_link_news ', bn1_link_news[1] )
    #print('\n'+30*'-')
    #print('\n bn2_cards_links (size)', len(bn2_cards_links) )
    #print('\ bn2_cards_links ', bn2_cards_links[-1] ) #Pegando o último elemento da lista e exibindo.
    
    # Lista de links de notícias no bloco {tag: div, class_: 'hardnews__highlight' } do HTML.
    for i in bn1_link_news:
        result.append( { 'title': i.text, 'href': i['href'] } )
        #print('\n> ', i.text +'\n | '+i['href'])
        
    for i in bn2_cards_links:
        result.append( { 'title' : i['title'], 'href':  i['href'] } )
        #print('\n> ', i['title'] +'\n | '+i['href'])
    
    return result

In [62]:
band_news = trackBandNews( band_data )

#### Percorrer listas de elementos em 'news_band_section'

In [63]:
aux = []
list_ = None
for secs in news_band_section:
    list_ = secs.find_all('a', class_='link')
    for i in list_:
        
        try:
            aux.extend( [ { 'title': i.h3.text+'. '+ i.h2.text, 'href': i['href']} ] )
        except:
            aux.extend( [ { 'title': i.text, 'href': i['href'] } ] )
    #aux.extend([ { 'title': i}  for i in list_ ]  )
news_list_band = [] 
news_list_band.extend(random.choices(aux, k=4 ) )

In [64]:
n = soup_band.find_all('a')

In [65]:
import random

random.choices(news_list_band, k = 4)[0:]
for i in news_list_band:
    print(f"\n{i['title']}\n{i['href']}")



https://www.band.uol.com.br/esportes/automobilismo/formula-1/noticias/carlos-sainz-batida-segundo-treino-livre-gp-monaco-video-16605221


/bandnews-fm/rio-de-janeiro/noticias/passista-que-teve-o-braco-amputado-vai-desfilar-pela-grande-rio-no-carnaval-2024-16605340

Esporte
/esportes/como-era-o-borussia-dortmund-campeao-alemao-de-2011-12-veja-o-time-16605367

Tsunoda diz que escolheria entre jogador e chef de cozinha
https://www.band.uol.com.br/esportes/automobilismo/blog-grid/formula-1/e-se-nao-fosse-piloto-de-f1-tsunoda-diz-que-escolheria-entre-futebol-e-comida


In [66]:
n[0]

<a _ngcontent-sc33="" aria-label="Band" class="logo logo--portal logo-name--Band logo--image center" href="/"><img _ngcontent-sc33="" alt="Band" class="logo-image" height="35" src="https://pubimg.band.uol.com.br/Files/logo-band-2022-v2.png?v2" width="101"/><!-- --><!-- --><!-- --></a>

In [67]:
#print(dir(n[0]))
n[0]

<a _ngcontent-sc33="" aria-label="Band" class="logo logo--portal logo-name--Band logo--image center" href="/"><img _ngcontent-sc33="" alt="Band" class="logo-image" height="35" src="https://pubimg.band.uol.com.br/Files/logo-band-2022-v2.png?v2" width="101"/><!-- --><!-- --><!-- --></a>

In [68]:
# Lista de links possivelmente de notícias no site da Band.
for i in n:
    try:
        print(i['href'])
    except:
        print("no link")

/
no link
https://bandplay.com/home
https://www.band.uol.com.br/noticias
https://www.band.uol.com.br/esportes
https://www.band.uol.com.br/entretenimento
https://receitas.band.uol.com.br/
https://www.band.uol.com.br/programacao
https://www.band.uol.com.br/band-shop
no link
no link
https://www.band.uol.com.br/ao-vivo
https://bandplay.com/home
https://www.band.uol.com.br/band-shop
https://www.band.uol.com.br/videos
https://www.band.uol.com.br/podcasts
https://www.band.uol.com.br/newsletters
https://www.band.uol.com.br/programacao
https://www.band.uol.com.br/show-da-fe
https://twitter.com/portaldaband
https://www.facebook.com/Band.com.br
https://www.youtube.com/c/BandBr/
https://www.instagram.com/bandtv/
https://www.band.uol.com.br/band-shop
no link
no link
https://www.band.uol.com.br/esportes/automobilismo/formula-1
https://www.band.uol.com.br/tudo-sobre/jeff-machado
https://www.band.uol.com.br/esportes/futebol/jogos-de-hoje
https://www.band.uol.com.br/tudo-sobre/virada-cultural-sp
https:

# Montando Lista de Notícias

In [69]:
number_news = 6


In [70]:
import random

In [71]:
news_list = []

news_list.extend( [ {'title': random.choices( [ (news['title'], news['url']) for news in dw ] , k = 2 ), 'source': 'G1/Globo' } ] )

news_list.extend( [ {'title': random.choices( [ (news['title'], news['href']) for news in cnn_list_news ] , k = 2 ), 'source': 'CNN Brasil' } ] )

news_list.extend( [ {'title': random.choices( [ (news['title'], news['href']) for news in bbc_news_lists ] , k = 2 ), 'source': 'BBC Brasil' } ] )

news_list.extend( [ { 'title':  random.choices( [ ( news['title'], news['href'] ) for news in band_news  ] , k= 2 ), 'source': 'Band' } ] )


In [72]:
for i in news_list:
    for j in i['title']:
        print(f"{j[0]}. \n{j[1]}\n")
    
    print(f"Fonte: {i['source']}\n\n")

2º turno da Turquia tem campanha de desinformação com vídeo falso. 
https://g1.globo.com/mundo/blog/sandra-cohen/post/2023/05/27/campanha-de-desinformacao-esquenta-o-segundo-turno-da-turquia.ghtml

Sidney Magal tem quadro estável, mas sem previsão de alta. 
https://g1.globo.com/sp/sao-paulo/noticia/2023/05/27/sidney-magal-tem-quadro-estavel-mas-sem-previsao-de-alta.ghtml

Fonte: G1/Globo


General da Ucrânia sugere que contraofensiva ucraniana pode estar próxima. 
https://www.cnnbrasil.com.br/internacional/chefe-das-forcas-armadas-da-ucrania-sugere-que-contraofensiva-pode-estar-proxima/

Viagem & Gastronomia. 
https://www.cnnbrasil.com.br/viagemegastronomia/

Fonte: CNN Brasil


Os cientistas que se espantaram com a própria descoberta. 
https://www.bbc.com/portuguese/articles/c51ppklppyko

Como inteligência artificial ajudou a criar antibiótico contra superbactéria mortal. 
https://www.bbc.com/portuguese/articles/cl4z4n30mddo

Fonte: BBC Brasil


Exclusivo: Na liderança da F3, Bortolet

## Salvando Todas Noticias (JSON)

### View news for test algorithm

In [73]:
# List news
news = None
portaisvar = [
    'dw', #Globo/G1
    'cnn_list_news', # CNN Brazil
    'bbc_news_list' # BBC Brazil
]

portais = { 'dw': 'Globo/G1', 'cnn_list_news': 'CNN Brasil', 'bbc_news_lists': 'BBC Brasil' }    

In [74]:
dw[0].keys(), cnn_list_news[0].keys(), bbc_news_lists[0].keys()

(dict_keys(['title', 'url']),
 dict_keys(['title', 'href']),
 dict_keys(['title', 'href']))

In [75]:
# Replace field name 'titulo' for 'title' name.
dw = [ { key.replace('titulo', 'title'):value for key, value in i.items() } for i in dw ]
dw = [ { key.replace('url', 'href'):value for key, value in i.items() } for i in dw ]
dw

[{'title': 'CPI dos Atos Golpistas recebe pedidos para 48 quebras de sigilo e 244 depoimentos',
  'href': 'https://g1.globo.com/politica/noticia/2023/05/27/em-48h-cpi-dos-atos-golpistas-recebeu-48-pedidos-de-quebras-de-sigilo.ghtml'},
 {'title': 'Alunos de medicina do Fies cogitam largar curso por causa da alta de mensalidades',
  'href': 'https://g1.globo.com/educacao/noticia/2023/05/27/alunos-de-medicina-do-fies-cogitam-largar-curso-por-causa-de-teto-do-financiamento-e-alta-de-mensalidades.ghtml'},
 {'title': '2º turno da Turquia tem campanha de desinformação com vídeo falso',
  'href': 'https://g1.globo.com/mundo/blog/sandra-cohen/post/2023/05/27/campanha-de-desinformacao-esquenta-o-segundo-turno-da-turquia.ghtml'},
 {'title': 'Hurb dá novo calote e clientes são barrados em avião',
  'href': 'https://g1.globo.com/economia/noticia/2023/05/27/passageiros-estimam-prejuizo-de-mais-de-r-10-mil-apos-serem-impedidos-de-embarcar-por-calote-do-hurb.ghtml'},
 {'title': 'Sidney Magal tem quadr

In [76]:
#[ { key.replace('title', 'titulo' ) } ]
newslist = dw + cnn_list_news + bbc_news_lists
#newslist

In [77]:
import os
count = 0
try:
    os.mkdir( 'newsdata' )
except FileExistsError:
    print("File exist")
    
webdata = ''
# Save data of link news in files to folder.
for news in newslist:
    try:
        #news['data'] = requests.get(news['href']).text
        foldername = f'newsdata'
        #os.mkdir( foldername )
        news['datafile'] = f'{foldername}/'+str( count )
        with open( foldername+f'/{str(count)}', 'a' ) as fl:
            webdata = requests.get( news['href'] ).text 
            fl.write( webdata )
            fl.close()
            
        count += 1
    except :
        print('not get page')
        continue
    

File exist


In [78]:
newslist[0]['datafile']

'newsdata/0'

In [79]:
p = requests.get( newslist[0]['href'] )
soup = BeautifulSoup( p.text, 'html.parser')
texto = soup.get_text()
print( texto[0:150] )

 Em 48h, CPI dos Atos Golpistas recebeu 48 pedidos de quebras de sigilo | Política | G1
                   Política                         








f


In [80]:
d = ''
with open(foldername+'/0', 'r') as fl:
    d = fl.read()
    fl.close()


soup = BeautifulSoup(d, 'html.parser')
#souptext = soup.text
content = soup.find_all('div')
#dir(soup)

In [81]:
texto = ' '.join( [ i.get_text() for i in content ] )
texto = texto.replace('\n', ' ')
with open('texto', 'w' ) as fl:
    #fl.write( souptext )
    fl.write( texto )
    

In [82]:
print( texto[0:100] )

              Goiás                                   fique por dentro             Imposto de Renda 


In [83]:
import json

with open('noticias.json', 'w') as fl:
    fl.write(json.dumps(newslist, ensure_ascii=False, indent=4))
    fl.close()

### Salva noticias

In [84]:
def savenews(newslist: list, filename: str) -> None:
    import json
    jsondata = None
    with open(filename, 'w') as fl:
        fl.write( json.dumps( newslist, encode='utf-8', indent=4 ) )
        fl.close()
    print('Saved...')
    

In [85]:
i = j = None

for i in news_list:
    for j in i['title']:
        print(f'{j[0]}.')
    print(f'Fonte: {i["source"] }\n\n ' )

2º turno da Turquia tem campanha de desinformação com vídeo falso.
Sidney Magal tem quadro estável, mas sem previsão de alta.
Fonte: G1/Globo

 
General da Ucrânia sugere que contraofensiva ucraniana pode estar próxima.
Viagem & Gastronomia.
Fonte: CNN Brasil

 
Os cientistas que se espantaram com a própria descoberta.
Como inteligência artificial ajudou a criar antibiótico contra superbactéria mortal.
Fonte: BBC Brasil

 
Exclusivo: Na liderança da F3, Bortoleto admite "conversas" com equipes da F2.
Bayern enfrenta Colônia em outra partida decisiva; acompanhe .
Fonte: Band

 


In [86]:
i = j = None

print(f"Olá bem vindo ao Diário de Notícias Dimensão Alfa. Estas são as principais manchetes do dia.\n")
for i in news_list:
    print(f'Portal de Notícias {i["source"] }\n ' )
    for j in i['title']:
        print(f'{j[0]}.')

Olá bem vindo ao Diário de Notícias Dimensão Alfa. Estas são as principais manchetes do dia.

Portal de Notícias G1/Globo
 
2º turno da Turquia tem campanha de desinformação com vídeo falso.
Sidney Magal tem quadro estável, mas sem previsão de alta.
Portal de Notícias CNN Brasil
 
General da Ucrânia sugere que contraofensiva ucraniana pode estar próxima.
Viagem & Gastronomia.
Portal de Notícias BBC Brasil
 
Os cientistas que se espantaram com a própria descoberta.
Como inteligência artificial ajudou a criar antibiótico contra superbactéria mortal.
Portal de Notícias Band
 
Exclusivo: Na liderança da F3, Bortoleto admite "conversas" com equipes da F2.
Bayern enfrenta Colônia em outra partida decisiva; acompanhe .


# Sobre

## Dimensão Alfa

Dimensão Alfa projetos e conteúdos de tecnologia.

## Info

O presente projeto tem sido usado com fins de divulgação e facilitação de acesso a noticias e conhecimento em comunhão com objetivo da plataforma/página Dimensão Alfa. 
Conteúdos de terceiros são de responsabilidades dos mesmos bem como seus direitos autorais.

O projeto encontra-se em desenvolvimento, inicialmente fôra batizado de Ani Fátima Liu, e estará passando por alterações estando de inicio disponibilizado em formato "_jupyter notebook_" podendo servir como _case_ de estudo para os que se interessam por "web scrap" (raspagem de dados).

Tecnologias foram usadas para gerar vídeo de noticias diária para página [Youtube](https://www.youtube.com/@dimensaoalfa); foi usada as seguintes tecnologias:

* [Editor de códigos VSCode](https://code.visualstudio.com/)
* [Python (linguagem de programação)](https://www.python.org/)
* [Ambiente JupyterLab](https://jupyter.org/)
* [Biblioteca "Requests"](https://requests.readthedocs.io/en/latest/)
* [Biblioteca "BeautifulSoup"](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)
* [Serviço de Sintese de Voz Microsoft/Azure](https://speech.microsoft.com)


Peço e agradeço a compreensão e apoio de todos. 

Para contribuições, dúvidas, sugestões visitem meu blog [WSRicardo](https://wsricardo.blogspot.com).


## Sugestões de Conteúdo

Deixamos abaixo algumas sugestões de conteúdos e canais com recursos para estudos e pesquisa que podem ser uteis para quem se interessa por tecnologia, programação de computadores, matemática, ciências de dados e inteligência artificial.

* [Programação Dinâmica](https://www.youtube.com/c/Programa%C3%A7%C3%A3oDin%C3%A2mica)
* [Toda Matemática](https://www.youtube.com/c/GustavoViegascurso)
* [Matemática Universitária](https://www.youtube.com/c/Matem%C3%A1ticaUniversit%C3%A1riaProfRenan)
* [Reflexões Matemáticas](https://www.youtube.com/c/Reflex%C3%B5esMatem%C3%A1ticasDrDilbertoJ%C3%BAnior)
* [Programação Descomplicada](https://www.youtube.com/user/progdescomplicada)
* [Univesp](https://www.youtube.com/user/univesptv)
* [USP no Youtube](https://www.youtube.com/c/CanalUSP)
* [IME/USP](https://www.ime.usp.br/)
* [IMPA](https://www.youtube.com/c/impabr)



## Links

* [Dimensão Alfa](https://www.dimensaoalfa.com.br)
* [Facebook](https://www.facebook.com/dimensaoalfa)
* [Youtube](https://www.youtube.com/@dimensaoalfa)
* [WSRicardo](https://wsricardo.blogspot.com)