# C-More

## News

In [1]:
import feedparser

import requests
from bs4 import BeautifulSoup

import re

#### BBC News

A list of BBC RSS feeds can be found here: https://blog.feedspot.com/bbc_rss_feeds/ (or here https://www.bbc.co.uk/news/10628494).

In [2]:
# parsing RSS feed

d = feedparser.parse("http://feeds.bbci.co.uk/news/world/rss.xml")

Some common channel elements, available in `d.feed` (or `d["feed"]`) are:

- title
- link
- description
- publication date
- language

In [3]:
# RSS feed title

d["feed"]["title"]

'BBC News - World'

In [4]:
# RSS feed link

d["feed"]["link"]

'https://www.bbc.co.uk/news/'

In [5]:
# RSS feed description

d["feed"]["description"]

'BBC News - World'

In [6]:
# RSS feed update date

d["feed"]["updated"]

'Tue, 08 Nov 2022 12:30:24 GMT'

In [7]:
# RSS feed language

d["feed"]["language"]

'en-gb'

The items are available in `d.entries`.

In [8]:
len(d["entries"])

28

We have 27 items.

Some common item elements are:

- title
- link
- description
- publication date
- parsed publication date
- id

In [9]:
# title of first item

d["entries"][0]["title"]

'Iran International: TV channel says Iran threatened UK-based journalists'

In [10]:
# link of first item

d["entries"][0]["link"]

'https://www.bbc.co.uk/news/world-middle-east-63554305?at_medium=RSS&at_campaign=KARANGA'

In [11]:
# description/summary of first item

d["entries"][0]["description"]

'Two Iran International staff have been warned of a risk to their lives, a law enforcement source says.'

In [12]:
# publication date of first item

d["entries"][0]["published"]

'Tue, 08 Nov 2022 11:37:46 GMT'

In [13]:
# parsed publication date of first item

d["entries"][0]["published_parsed"]

time.struct_time(tm_year=2022, tm_mon=11, tm_mday=8, tm_hour=11, tm_min=37, tm_sec=46, tm_wday=1, tm_yday=312, tm_isdst=0)

In [14]:
# id of first item

d["entries"][0]["id"]

'https://www.bbc.co.uk/news/world-middle-east-63554305'

We can also sort these items by publication date.

In [20]:
sorted(d["entries"], key=lambda item: item['published_parsed'], reverse=True)

[{'title': 'COP27: Is climate change going to make diseases more likely in future?',
  'title_detail': {'type': 'text/plain',
   'language': None,
   'base': 'http://feeds.bbci.co.uk/news/world/rss.xml',
   'value': 'COP27: Is climate change going to make diseases more likely in future?'},
  'summary': 'Scientists say climate change is making over half of all infectious diseases worse, watch to see why.',
  'summary_detail': {'type': 'text/html',
   'language': None,
   'base': 'http://feeds.bbci.co.uk/news/world/rss.xml',
   'value': 'Scientists say climate change is making over half of all infectious diseases worse, watch to see why.'},
  'links': [{'rel': 'alternate',
    'type': 'text/html',
    'href': 'https://www.bbc.co.uk/news/science-environment-63556927?at_medium=RSS&at_campaign=KARANGA'}],
  'link': 'https://www.bbc.co.uk/news/science-environment-63556927?at_medium=RSS&at_campaign=KARANGA',
  'id': 'https://www.bbc.co.uk/news/science-environment-63556927',
  'guidislink': Fa

We can now get the html content of a given publication.

In [24]:
url = d["entries"][0]["link"]

r = requests.get(url)
html = r.text

In [25]:
soup = BeautifulSoup(html, 'html.parser')

In [35]:
# title

soup.title.text

'Iran International: TV channel says Iran threatened UK-based journalists - BBC News'

The available tags are:

In [124]:
tags = set()

for tag in soup.find_all():
    tags.add(tag.name)

In [125]:
tags

{'a',
 'article',
 'aside',
 'b',
 'body',
 'button',
 'circle',
 'div',
 'figcaption',
 'figure',
 'footer',
 'g',
 'h1',
 'h2',
 'head',
 'header',
 'html',
 'img',
 'li',
 'link',
 'main',
 'meta',
 'nav',
 'noscript',
 'ol',
 'p',
 'path',
 'picture',
 'script',
 'section',
 'source',
 'span',
 'style',
 'svg',
 'time',
 'title',
 'ul'}

We can use the article tag to have access to the article text only.

In [127]:
# article

soup.article.text



In [164]:
soup.article.find_all("p")

[<p class="ssrcss-1q0x1qg-Paragraph eq5iqo00"><b class="ssrcss-hmf8ql-BoldText e5tfeyi3">Two British-Iranian journalists for the UK-based Persian-language TV channel Iran International have been warned of a possible risk to their lives, a UK law enforcement source has confirmed.</b></p>,
 <p class="ssrcss-1q0x1qg-Paragraph eq5iqo00">Parent company Volant Media said the Metropolitan Police had notified the pair of a recent increase in "credible" threats from Iranian security forces. </p>,
 <p class="ssrcss-1q0x1qg-Paragraph eq5iqo00">It denounced the "escalation of a state-sponsored campaign to intimidate Iranian journalists working abroad".</p>,
 <p class="ssrcss-1q0x1qg-Paragraph eq5iqo00">Iranian authorities have not commented.</p>,
 <p class="ssrcss-1q0x1qg-Paragraph eq5iqo00">However, they announced sanctions against Iran International and BBC News Persian last month, accusing them of "incitement of riots" and "support of terrorism" over their coverage of the anti-government protes

The paragraphs of interest have a class attribute of `class="ssrcss-1q0x1qg-Paragraph eq5iqo00"`.

In [165]:
for x in soup.article.find_all("p", class_=re.compile("Paragraph")):
    print(x.text)

Two British-Iranian journalists for the UK-based Persian-language TV channel Iran International have been warned of a possible risk to their lives, a UK law enforcement source has confirmed.
Parent company Volant Media said the Metropolitan Police had notified the pair of a recent increase in "credible" threats from Iranian security forces. 
It denounced the "escalation of a state-sponsored campaign to intimidate Iranian journalists working abroad".
Iranian authorities have not commented.
However, they announced sanctions against Iran International and BBC News Persian last month, accusing them of "incitement of riots" and "support of terrorism" over their coverage of the anti-government protests that have engulfed the country over the past two months.
The two UK-based channels are already banned from Iran, but a press freedom watchdog says they are among the main sources of news and information in a country where independent media and journalists are constantly persecuted. 
This video

Defining the class to look for, we get only the article text itself.

We can now look for a particular expression like "Iran".

In [185]:
soup.article.find_all("p", class_=re.compile("Paragraph"), text=re.compile("\\bIran\\b"))

[<p class="ssrcss-1q0x1qg-Paragraph eq5iqo00"><b class="ssrcss-hmf8ql-BoldText e5tfeyi3">Two British-Iranian journalists for the UK-based Persian-language TV channel Iran International have been warned of a possible risk to their lives, a UK law enforcement source has confirmed.</b></p>,
 <p class="ssrcss-1q0x1qg-Paragraph eq5iqo00">However, they announced sanctions against Iran International and BBC News Persian last month, accusing them of "incitement of riots" and "support of terrorism" over their coverage of the anti-government protests that have engulfed the country over the past two months.</p>,
 <p class="ssrcss-1q0x1qg-Paragraph eq5iqo00">The two UK-based channels are already banned from Iran, but a press freedom watchdog says they are among the main sources of news and information in a country where independent media and journalists are constantly persecuted. </p>,
 <p class="ssrcss-1q0x1qg-Paragraph eq5iqo00">How Iran state TV tries to control the story of the protests</p>,
 

However, we this method we do not retrieve the paragraphs where there are inline links.

In [183]:
soup.article.find_all(text=re.compile("\\bIran\\b"))

['Iran International: TV channel says Iran threatened UK-based journalists',
 '2022 Iran protests',
 'Iran International',
 'Two British-Iranian journalists for the UK-based Persian-language TV channel Iran International have been warned of a possible risk to their lives, a UK law enforcement source has confirmed.',
 'However, they announced sanctions against Iran International and BBC News Persian last month, accusing them of "incitement of riots" and "support of terrorism" over their coverage of the anti-government protests that have engulfed the country over the past two months.',
 'The two UK-based channels are already banned from Iran, but a press freedom watchdog says they are among the main sources of news and information in a country where independent media and journalists are constantly persecuted. ',
 'How Iran state TV tries to control the story of the protests',
 ", which it attributed to Iran's Islamic Revolution Guard Corps (IRGC), a powerful military force with close tie

Besides the additional hits at the beginning and end, we could not retrieve the following passages:

In [179]:
soup.article.find_all(text=re.compile("\\bIran\\b"))[7]

", which it attributed to Iran's Islamic Revolution Guard Corps (IRGC), a powerful military force with close ties to the Supreme Leader, Ayatollah Ali Khamenei. "

In [181]:
soup.article.find_all(text=re.compile("\\bIran\\b"))[10]

'US prosecutors also announced last year that four Iranian intelligence officials had been charged with plotting to kidnap a New York-based journalist critical of Iran'

#### TSF

A list of TSF RSS feeds can be found here: https://www.tsf.pt/apps-rss.html .

In [2]:
d = feedparser.parse("http://feeds.tsf.pt/TSF-Mundo")

These are the main channel elements:

In [3]:
d["feed"]["title"] # este título está errado...

'TSF - Desporto - RSS'

In [4]:
d["feed"]["updated"]

'Wed, 09 Nov 2022 17:53:53 Z'

As for some of the common item elements:

In [15]:
len(d["entries"])

20

In [16]:
d["entries"][0]["link"]

'https://www.tsf.pt/mundo/vladimir-putin-nao-vai-a-cimeira-do-g20-15334579.html'

In [17]:
d["entries"][0]["title"]

'Vladimir Putin não vai à cimeira do G20'

In [18]:
d["entries"][0]["description"]

'Putin foi convidado pessoalmente pelo Presidente da Indonésia, Joko Widodo, durante uma viagem à Rússia em junho passado.'

In [19]:
d["entries"][0]["published"]

'Wed, 09 Nov 2022 17:05:00 Z'

In [20]:
# most recent

sorted(d["entries"], key=lambda item: item['published_parsed'], reverse=True)[0]["updated"]

'2022-11-09T17:05:00Z'

In [21]:
# oldest

sorted(d["entries"], key=lambda item: item['published_parsed'], reverse=True)[19]["updated"]

'2022-11-09T07:11:00Z'

We can now get the text content of the first item.

In [22]:
url = d["entries"][0]["link"]

r = requests.get(url)
html = r.text

In [23]:
soup = BeautifulSoup(html, 'html.parser')

In [24]:
# title

soup.title.text

'Vladimir Putin não vai à cimeira do G20'

In [25]:
paragraphs = []

for x in soup.find_all("p"):
    paragraphs.append(x.text.strip())

print(" ".join(paragraphs))

Putin foi convidado pessoalmente pelo Presidente da Indonésia, Joko Widodo, durante uma viagem à Rússia em junho passado. O Presidente russo, Vladimir Putin © Aleksandr Rjumin/EPA O Presidente russo, Vladimir Putin, já decidiu que não vai estar na cimeira do G20 que vai realizar-se este mês na Indonésia. O Presidente do país, Joko Widodo, tinha colocado reticências à presença do Presidente russo e Zelensky também afirmou que não iria á cimeira se Putin lá estivesse, mesmo participando à distância, por videoconferência. Rússia garante que intercalares não alteram relação com os EUA, seja qual for o resultado Sean Penn regressa à Ucrânia e empresta Óscar a Zelensky "A maioria deve-se a rotinas de estabilização." Quatro milhões de ucranianos sem energia após apagões Putin foi convidado pessoalmente pelo Presidente da Indonésia, Joko Widodo, durante uma viagem à Rússia em junho passado, quando o chefe de Estado indonésio também viajou para a Ucrânia numa tentativa mal sucedida de mediar o 

We have access to the content, but we should find a way to remove the last two paragraphs.

We can now create some function to generalize this approach.

In [30]:
# get channel info - title and last update

def channel_info(rss_feed):
    
    d = feedparser.parse(rss_feed)
    
    title = d["feed"]["title"]
    update = d["feed"]["updated"]
    
    print(f"The {title} feed was last updated on {update}.")

In [31]:
channel_info("http://feeds.tsf.pt/TSF-Mundo")

The TSF - Desporto - RSS feed was last updated on Wed, 09 Nov 2022 17:53:53 Z.


In [32]:
# get item info - link, title, description and publication date

def item_info(rss_feed, item_number):
    
    d = feedparser.parse(rss_feed)
    
    link = d["entries"][item_number]["link"]
    title = d["entries"][item_number]["title"]
    description = d["entries"][item_number]["description"]
    date = d["entries"][item_number]["published"]
    
    print(f"Link: {link} \n\nTitle: {title} \n\nDescription: {description} \n\nPublication Date: {date}.")

In [33]:
item_info("http://feeds.tsf.pt/TSF-Mundo", 0)

Link: https://www.tsf.pt/mundo/vladimir-putin-nao-vai-a-cimeira-do-g20-15334579.html 

Title: Vladimir Putin não vai à cimeira do G20 

Description: Putin foi convidado pessoalmente pelo Presidente da Indonésia, Joko Widodo, durante uma viagem à Rússia em junho passado. 

Publication Date: Wed, 09 Nov 2022 17:05:00 Z.


In [34]:
item_info("http://feeds.tsf.pt/TSF-Mundo", 1)

Link: https://www.tsf.pt/mundo/lula-da-silva-vem-mesmo-a-portugal-ainda-este-mes-15334464.html 

Title: Lula da Silva vem mesmo a Portugal ainda este mês 

Description: Chega ao país no dia 18, confirmou a TSF, depois de participar na conferência das Nações Unidas sobre Alterações Climáticas. Pode encontrar-se com Marcelo e Costa. 

Publication Date: Wed, 09 Nov 2022 16:45:00 Z.


In [35]:
# get full text

def get_text(rss_feed, item_number):
    
    d = feedparser.parse(rss_feed)
    
    url = d["entries"][item_number]["link"]

    r = requests.get(url)
    html = r.text
    
    soup = BeautifulSoup(html, 'html.parser')
    
    title = soup.title.text
    
    paragraphs = []
    for x in soup.find_all("p"):
        paragraphs.append(x.text.strip())

    text = " ".join(paragraphs)
    
    print(f"Link: {url} \n\nTitle: {title} \n\nText: {text}")

In [36]:
get_text("http://feeds.tsf.pt/TSF-Mundo", 0)

Link: https://www.tsf.pt/mundo/vladimir-putin-nao-vai-a-cimeira-do-g20-15334579.html 

Title: Vladimir Putin não vai à cimeira do G20 

Text: Putin foi convidado pessoalmente pelo Presidente da Indonésia, Joko Widodo, durante uma viagem à Rússia em junho passado. O Presidente russo, Vladimir Putin © Aleksandr Rjumin/EPA O Presidente russo, Vladimir Putin, já decidiu que não vai estar na cimeira do G20 que vai realizar-se este mês na Indonésia. O Presidente do país, Joko Widodo, tinha colocado reticências à presença do Presidente russo e Zelensky também afirmou que não iria á cimeira se Putin lá estivesse, mesmo participando à distância, por videoconferência. Rússia garante que intercalares não alteram relação com os EUA, seja qual for o resultado Sean Penn regressa à Ucrânia e empresta Óscar a Zelensky "A maioria deve-se a rotinas de estabilização." Quatro milhões de ucranianos sem energia após apagões Putin foi convidado pessoalmente pelo Presidente da Indonésia, Joko Widodo, durante 

In [37]:
get_text("http://feeds.tsf.pt/TSF-Mundo", 1)

Link: https://www.tsf.pt/mundo/lula-da-silva-vem-mesmo-a-portugal-ainda-este-mes-15334464.html 

Title: Lula da Silva vem mesmo a Portugal ainda este mês 

Text: Chega ao país no dia 18, confirmou a TSF, depois de participar na conferência das Nações Unidas sobre Alterações Climáticas. Pode encontrar-se com Marcelo e Costa. Lula da Silva © Nelson Almeida/AFP (arquivo) O recém-eleito Presidente do Brasil, Lula da Silva, vai mesmo passar por Portugal ainda em novembro, confirmou à TSF a equipa do líder brasileiro. Lula da Silva em Portugal? São Bento admite possibilidade de encontro Escondidas na lama há 2300 anos. Itália revela descoberta de 24 estátuas de bronze "Todos temos muitas saudades do Brasil." Costa espera reaproximação com eleição de Lula O Presidente eleito aterra no dia 18, depois da participação na 27.ª Conferência das Nações Unidas sobre Alterações Climáticas (COP27). Esta terça-feira, São Bento já tinha confirmado à TSF uma possibilidade de encontro entre Lula da Silva e

In this case, we should only remove the last paragraph.

In [42]:
get_text("http://feeds.tsf.pt/TSF-Mundo", 3)

Link: https://www.tsf.pt/mundo/morreu-a-cantora-brasileira-gal-costa-15333936.html 

Title: Morreu a cantora brasileira Gal Costa 

Text: Artista é um dos ícones da música popular brasileira. A cantora brasileira Gal Costa morreu, esta quarta-feira, aos 77 anos, avança o jornal Folha de São Paulo, citando o assessor da artista. As causas da morte ainda são desconhecidas. "Já com saudade", Marcelo evoca Gal Costa e "meio século de canções" A artista, ícone da música popular brasileira, fazia parte do cartaz do festival Primavera Sound, que aconteceu em São Paulo, no Brasil, no fim de semana passado. No entanto, o concerto foi cancelado poucas horas antes porque, segundo a sua equipa, ainda não estava totalmente recuperada da retirada de um nódulo da fossa nasal direita e teria de ficar fora dos palcos até ao final de novembro, por recomendação médica. Na agenda, a cantora brasileira tinha também dois concertos em Portugal, marcados para novembro em Lisboa e Porto, que haviam sido adiado

Once again, we shoul only remove the last paragraph.

In [43]:
get_text("http://feeds.tsf.pt/TSF-Mundo", 4)

Link: https://www.tsf.pt/mundo/desequilibrios-macroeconomicos-bruxelas-quer-governos-a-definir-proprias-estrategias-de-ajustamento-15333736.html 

Title: Desequilíbrios macroeconómicos. Bruxelas quer governos a definir próprias estratégias de ajustamento 

Text: Novas regras do Pacto de Estabilidade e Crescimento deverão flexibilizar prazos de redução dos rácios da dívida. Paolo Gentiloni © Olivier Hoslet/EPA A Comissão Europeia apresentou esta quarta-feira uma comunicação com um plano para a revisão das regras da governação económica na união europeia. Bruxelas defende novas regras para o pacto de estabilidade e crescimento. Entre as medidas que poderão vir a ser desenvolvidas, já em 2024, está a possibilidade de um Estado-Membro individualmente poder derrapar o défice, sem ser penalizado, desde que as circunstâncias "absolutamente excecionais" o justifiquem. A outra medida poderá passar por dar mais tempo para a redução dos rácios da dívida pública. "O que importa, para a sustentabil

In this case, there's no paragraph to remove.

#### Público

In [44]:
channel_info("https://feeds.feedburner.com/PublicoRSS")

The PÚBLICO feed was last updated on Wed, 09 Nov 2022 18:15:23 GMT.


In [45]:
item_info("https://feeds.feedburner.com/PublicoRSS", 0)

Link: https://www.publico.pt/2022/11/09/sociedade/noticia/directores-querem-ouvidos-recrutamento-professores-2027101 

Title: Directores querem ser ouvidos sobre o recrutamento de professores 

Description: Ministro quer directores com mais poder de contratação, mas ainda não os contactou. 

Publication Date: Wed, 09 Nov 2022 18:14:51 GMT.


In [46]:
get_text("https://feeds.feedburner.com/PublicoRSS", 0)

Link: https://www.publico.pt/2022/11/09/sociedade/noticia/directores-querem-ouvidos-recrutamento-professores-2027101 

Title: Directores querem ser ouvidos sobre o recrutamento de professores | Educação | PÚBLICO 

Text: Ministro quer directores com mais poder de contratação, mas ainda não os contactou. Os directores são os protagonistas das propostas do ministro João Costa com vista à alteração do modelo de recrutamento de professores, mas até agora as duas associações de dirigentes escolares existentes não foram contactadas pelo Ministério da Educação: nem para as informar do teor das propostas, nem para as ouvir sobre as mudanças já avançadas aos sindicatos de professores.  Leia os artigos que quiser, até ao fim, sem publicidade Faça parte da comunidade mais bem informada do país Seja o primeiro a comentar. Escolha um dos seguintes tópicos para criar um grupo no Fórum Público. Ao criar um novo grupo de discussão, tornar-se-à administrador e será responsável pela moderação desse grup

We've reached the limit of free daily articles and we have only access to a small part of the text.

Besides that, we get text that we are not interested in regarding info about the paid subscription. Inspecting the source code of the page, we see that we can use the `class_="story__body"` to get only the info we want.

In [49]:
d = feedparser.parse("https://feeds.feedburner.com/PublicoRSS")
    
url = d["entries"][0]["link"]

r = requests.get(url)
html = r.text
    
soup = BeautifulSoup(html, 'html.parser')

#soup.body.text

for x in soup.article.find_all(class_="story__body"):
    print(x.text)


Os directores são os protagonistas das propostas do ministro João Costa com vista à alteração do modelo de recrutamento de professores, mas até agora as duas associações de dirigentes escolares existentes não foram contactadas pelo Ministério da Educação: nem para as informar do teor das propostas, nem para as ouvir sobre as mudanças já avançadas aos sindicatos de professores.



We can then change the get_text function to take this into consideration:

In [110]:
# get full text with tag and class info

def get_text(rss_feed, item_number, tag_name=None, class_name=None):
    
    d = feedparser.parse(rss_feed)
    
    url = d["entries"][item_number]["link"]

    r = requests.get(url)
    html = r.text
    
    soup = BeautifulSoup(html, 'html.parser')
    
    title = soup.title.text
    
    if class_name == None:
    
        paragraphs = []
        for x in soup.find_all(name=tag_name):
            paragraphs.append(x.text.strip())
            
    else:
        
        paragraphs = []
        for x in soup.find_all(name=tag_name, class_=class_name):
            paragraphs.append(x.text.strip())

    text = " ".join(paragraphs)
    
    print(f"Link: {url} \n\nTitle: {title} \n\nText: {text}")

In [92]:
get_text("https://feeds.feedburner.com/PublicoRSS", 0, tag_name="p")

Link: https://www.publico.pt/2022/11/10/culturaipsilon/noticia/pichiavo-inauguram-exposicao-underdogs-inclui-obra-criada-vhils-2027165 

Title: PichiAvo inauguram exposição na Underdogs que inclui obra criada com Vhils | Artes | PÚBLICO 

Text: Os leitores são a força e a vida dos jornais. Contamos com o seu apoio, assine. Os leitores são a força e a vida do PÚBLICO. Obrigado pelo seu apoio. Dupla de artistas espanhóis que cruza graffiti com arte clássica greco-romana está de regresso à galeria lisboeta com Used to Be. A dupla de artistas espanhóis PichiAvo, cujo trabalho resulta de uma mistura de graffiti com arte clássica, inaugura na sexta-feira em Lisboa a exposição Used to Be, que inclui uma peça criada em colaboração com o português Vhils. Nesta sua segunda mostra na galeria Underdogs, “a dupla constituída pelos artistas espanhóis Pichi e Avo volta a tecer uma reflexão assente no encontro entre as linguagens do graffiti contemporâneo e da arte clássica greco-romana”, através de u

This is the same result we had before.

In [111]:
get_text("https://feeds.feedburner.com/PublicoRSS", 0, class_name="story__body")

Link: https://www.publico.pt/2022/11/10/culturaipsilon/noticia/pichiavo-inauguram-exposicao-underdogs-inclui-obra-criada-vhils-2027165 

Title: PichiAvo inauguram exposição na Underdogs que inclui obra criada com Vhils | Artes | PÚBLICO 

Text: A dupla de artistas espanhóis PichiAvo, cujo trabalho resulta de uma mistura de graffiti com arte clássica, inaugura na sexta-feira em Lisboa a exposição Used to Be, que inclui uma peça criada em colaboração com o português Vhils.Nesta sua segunda mostra na galeria Underdogs, “a dupla constituída pelos artistas espanhóis Pichi e Avo volta a tecer uma reflexão assente no encontro entre as linguagens do graffiti contemporâneo e da arte clássica greco-romana”, através de um conjunto de obras “criadas especialmente para a exposição”, entre as quais “uma peça única criada em colaboração” com Alexandre Farto (Vhils).“Através de um corpo de trabalho inteiramente novo, a exposição sintetiza e materializa questões ligadas ao uso do espaço público, a efem

Like this, we get the text we are interested in, but also info about a figure.

We can use the tag `"figure"` to identify this info and remove it afterwards.

In [112]:
get_text("https://feeds.feedburner.com/PublicoRSS", 0, tag_name="figure")

Link: https://www.publico.pt/2022/11/10/culturaipsilon/noticia/pichiavo-inauguram-exposicao-underdogs-inclui-obra-criada-vhils-2027165 

Title: PichiAvo inauguram exposição na Underdogs que inclui obra criada com Vhils | Artes | PÚBLICO 

Text: Foto




Colossal Head of a Youth Diaspasis
DR Foto




Untitled (Mars and Cupid Diaspasis)
DR


One additional problem we would have to solve is that some sentences have no blank space between them (see: https://stackoverflow.com/questions/44263446/python-regex-to-add-space-after-dot-or-comma).

#### O Jornal Económico

In [118]:
get_text("https://jornaleconomico.pt/feed", 0, tag_name="p")

Link: https://jornaleconomico.pt/noticias/salario-medio-cai-47-em-termos-reais-959055 

Title: Salário médio cai 4,7% em termos reais – O Jornal Económico 

Text:  Os salários continuam a não conseguir acompanhar a inflação. De acordo com os dados divulgados esta quinta-feira pelo Instituto Nacional de Estatística, no terceiro trimestre, a remuneração média caiu 4,7% em termos reais. Em atualização     Apoio ao assinante: 217 655 300 assinaturas@jornaleconomico.pt 


In [122]:
get_text("https://jornaleconomico.pt/feed", 1, tag_name="p")

Link: https://jornaleconomico.pt/noticias/euribor-inverte-tendencia-das-ultimas-sessoes-e-cai-a-tres-seis-e-12-meses-959053 

Title: Euribor inverte tendência das últimas sessões e cai a três, seis e 12 meses – O Jornal Económico 

Text:  A taxa Euribor a seis meses, a mais utilizada em Portugal nos créditos à habitação e que entrou em terreno positivo em 06 de junho, desceu hoje, para 2,319%, menos 0,014 pontos e depois de ter subido em seis sessões consecutivas e em 09 de novembro para 2,333%, um novo máximo desde janeiro de 2009. A média da Euribor a seis meses subiu de 1,596% em setembro para 1,997% em outubro. A Euribor a seis meses esteve negativa durante seis anos e sete meses (entre 06 de novembro de 2015 e 03 de junho de 2022). No mesmo sentido, no prazo de 12 meses, a Euribor baixou hoje, ao ser fixada em 2,886%, menos 0,012 pontos, contra 2,874% em 09 de novembro, um novo máximo desde janeiro de 2009, e também depois de seis sessões consecutivas a subir. Após ter disparado e

In this case, we should always remove the last paragraph.

In [160]:
# get full text with tag and class info

def get_text(rss_feed, item_number, tag_name=None, class_name=None):
    
    d = feedparser.parse(rss_feed)
    
    url = d["entries"][item_number]["link"]

    r = requests.get(url)
    html = r.text
    
    soup = BeautifulSoup(html, 'html.parser')
    
    title = soup.title.text
    
    if class_name == None:
    
        paragraphs = []
        for x in soup.find_all(name=tag_name):
            paragraphs.append(x.text.strip())
            
        paragraphs = [element for element in paragraphs if element] # to remove empty strings
            
    else:
        
        paragraphs = []
        for x in soup.find_all(name=tag_name, class_=class_name):
            paragraphs.append(x.text.strip())
            
        paragraphs = [element for element in paragraphs if element] # to remove empty strings
            
    """if paragraphs[-1].startswith("Apoio ao assinante:"):       
            
        text = " ".join(paragraphs[0:-1])
        
    else:
    
        text = " ".join(paragraphs)"""
    
    text = " ".join(paragraphs)
    
    print(f"Link: {url} \n\nTitle: {title} \n\nText: {text}")

In [161]:
get_text("https://jornaleconomico.pt/feed", 0, tag_name="p")

Link: https://jornaleconomico.pt/noticias/custos-da-construcao-registaram-aumento-homologo-de-134-em-setembro-959054 

Title: Custos da construção registaram aumento homólogo de 13,4% em setembro – O Jornal Económico 

Text: Os custos da construção em habitação nova registaram um crescimento homólogo de 13,4% em setembro, de acordo com os dados do Índice de Custos de Construção de Habitação Nova (ICCHN), divulgado pelo Instituto Nacional de Estatística (INE) esta quinta-feira, 10 de novembro. Em relação ao mês anterior verificou-se uma ligeira subida de 0,9 pontos percentuais (p.p.). Olhando para os preços dos materiais, no mês em análise verificou-se um aumento de 18,6%, crescendo 2,1 p.p. face ao mês anterior enquanto o custo da mão de obra aumentou 6,1% (6,8% em agosto). Por sua vez, o custo dos materiais contribuíram com 10,8 p.p. para a formação da taxa de variação homóloga do ICCHN, face aos 9,7 p.p. de agosto. Já a componente mão de obra registou uma descida de com 2,76 p.p. (2,

In [162]:
# get full text with tag and class info and remove last paragraph given a certain condition

def get_text(rss_feed, item_number, tag_name=None, class_name=None):
    
    d = feedparser.parse(rss_feed)
    
    url = d["entries"][item_number]["link"]

    r = requests.get(url)
    html = r.text
    
    soup = BeautifulSoup(html, 'html.parser')
    
    title = soup.title.text
    
    if class_name == None:
    
        paragraphs = []
        for x in soup.find_all(name=tag_name):
            paragraphs.append(x.text.strip())
            
        paragraphs = [element for element in paragraphs if element] # to remove empty strings
            
    else:
        
        paragraphs = []
        for x in soup.find_all(name=tag_name, class_=class_name):
            paragraphs.append(x.text.strip())
            
        paragraphs = [element for element in paragraphs if element] # to remove empty strings
            
    # to remove last paragraph from "O Jornal Económico"
    if paragraphs[-1].startswith("Apoio ao assinante:"):       
            
        text = " ".join(paragraphs[0:-1])
        
    else:
    
        text = " ".join(paragraphs)
    
    #text = " ".join(paragraphs)
    
    print(f"Link: {url} \n\nTitle: {title} \n\nText: {text}")

In [163]:
get_text("https://jornaleconomico.pt/feed", 0, tag_name="p")

Link: https://jornaleconomico.pt/noticias/custos-da-construcao-registaram-aumento-homologo-de-134-em-setembro-959054 

Title: Custos da construção registaram aumento homólogo de 13,4% em setembro – O Jornal Económico 

Text: Os custos da construção em habitação nova registaram um crescimento homólogo de 13,4% em setembro, de acordo com os dados do Índice de Custos de Construção de Habitação Nova (ICCHN), divulgado pelo Instituto Nacional de Estatística (INE) esta quinta-feira, 10 de novembro. Em relação ao mês anterior verificou-se uma ligeira subida de 0,9 pontos percentuais (p.p.). Olhando para os preços dos materiais, no mês em análise verificou-se um aumento de 18,6%, crescendo 2,1 p.p. face ao mês anterior enquanto o custo da mão de obra aumentou 6,1% (6,8% em agosto). Por sua vez, o custo dos materiais contribuíram com 10,8 p.p. para a formação da taxa de variação homóloga do ICCHN, face aos 9,7 p.p. de agosto. Já a componente mão de obra registou uma descida de com 2,76 p.p. (2,