<a href="https://colab.research.google.com/github/Bayrem-ben/colab.github.io/blob/main/Scrapping.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#RSS

In [None]:
!pip install feedparser
!pip install requests-html

In [2]:
import feedparser

import pandas as pd
from requests_html import HTML
from requests_html import HTMLSession


def get_source(url):
    """Return the source code for the provided URL. 

    Args: 
        url (string): URL of the page to scrape.

    Returns:
        response (object): HTTP response object from requests_html. 
    """

    try:
        session = HTMLSession()
        response = session.get(url)
        return response

    except requests.exceptions.RequestException as e:
        print(e)


def get_feed(url):
    """Return a Pandas dataframe containing the RSS feed contents.

    Args: 
        url (string): URL of the RSS feed to read.

    Returns:
        df (dataframe): Pandas dataframe containing the RSS feed contents.
    """
    
    response = get_source(url)
    
    df = pd.DataFrame(columns = ['title', 'pubDate', 'guid', 'description'])

    with response as r:
        items = r.html.find("item", first=False)

        for item in items:        

            title = item.find('title', first=True).text
            pubDate = item.find('pubDate', first=True).text
            guid = item.find('guid', first=True).text
            description = item.find('description', first=True).text

            row = {'title': title, 'pubDate': pubDate, 'guid': guid, 'description': description}
            df = df.append(row, ignore_index=True)

    return df

url = "https://www.mosaiquefm.net/fr/rss"
df = get_feed(url)
df.head()

Unnamed: 0,title,pubDate,guid,description
0,Nabeul : Fermeture de 15 espaces anarchiques p...,"Mon, 21 Feb 2022 09:04:00 GMT",https://www.mosaiquefm.net/fr/actualite-region...,"Le délégué régional des affaires de la femme, ..."
1,Covid-19: Le taux de couverture en troisième d...,"Mon, 21 Feb 2022 08:20:00 GMT",https://www.mosaiquefm.net/fr/actualite-nation...,"Le docteur Amine Slim, membre du comite scient..."
2,Les agents municipaux en grève,"Mon, 21 Feb 2022 08:19:00 GMT",https://www.mosaiquefm.net/fr/actualite-nation...,"Les agents municipaux ont entamé, ce lundi 21 ..."
3,17 décès et 920 nouveaux cas de Coronavirus,"Mon, 21 Feb 2022 08:11:00 GMT",https://www.mosaiquefm.net/fr/actualite-nation...,17 décès et 920 nouveaux cas de coronavirus on...
4,Le crash d’un F-5 iranien fait trois morts,"Mon, 21 Feb 2022 07:41:00 GMT",https://www.mosaiquefm.net/fr/actualites-inter...,Un avion de combat de l'armée iranienne s'est ...


# read multi page

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import re

catg_name = 'Economie'
cat = 5

for i in range(1000):
page = requests.get('https://www.mosaiquefm.net/fr/actualites/actualite-economie-tunisie/'+cat+'/'+i) # Getting page HTML through request
#page = requests.get('https://www.mosaiquefm.net/fr/actualite-economie-tunisie/1013507/emprunt-national-obligataire-le-decret-publie')
soup = BeautifulSoup(page.content, 'html.parser') # Parsing content using beautifulsoup
soup

In [94]:
list_t =[]
for a in soup.findAll('div', attrs={'class':'col-xl-3 col-md-4 col-6 item'}):

  url_link = re.search("(?P<url>https?://[^\s]+)", str(a) ).group("url")
  
  list_t.append(url_link)

list_t  
#text = ' '.join(list_t[:-2])

['https://www.mosaiquefm.net/fr/actualite-economie-tunisie/1018049/le-champ-de-nawara-fournira-50-des-besoins-en-gaz-de-la-tunisie">',
 'https://www.mosaiquefm.net/fr/actualite-economie-tunisie/1017953/tunisie-usa-35-millions-de-dollars-au-profit-des-pme-tunisiennes">',
 'https://www.mosaiquefm.net/fr/actualite-economie-tunisie/1017014/la-banque-mondiale-versera-bientot-des-financements-a-la-tunisie">',
 'https://www.mosaiquefm.net/fr/actualite-economie-tunisie/1015310/le-gouvernement-devoile-un-plan-de-reforme-pour-la-periode-2022-2024">',
 'https://www.mosaiquefm.net/fr/actualite-economie-tunisie/1014965/tunisie-fmi-reprise-des-negociations-le-14-fevrier">',
 'https://www.mosaiquefm.net/fr/actualite-economie-tunisie/1014761/rabhi-pas-de-suppression-des-subventions-sur-les-produits-de-base">',
 'https://www.mosaiquefm.net/fr/actualite-economie-tunisie/1013507/emprunt-national-obligataire-le-decret-publie">',
 'https://www.mosaiquefm.net/fr/actualite-economie-tunisie/1013243/baisse-de-

In [83]:
list_t 

[<div class="d-flex item" data-vr-contentbox="Position 1" data-vr-contentbox-url="https://www.mosaiquefm.net/fr/actualite-national-tunisie/1019000/la-tunisie-produit-ses-propres-vaccins-anti-covid">
 <div class="time">12:31</div>
 <div class="desc">
 <div class="cat"><a href="/fr/actualites/actualite-national-tunisie/1" title="National">National</a></div>
 <h3><a href="/fr/actualite-national-tunisie/1019000/la-tunisie-produit-ses-propres-vaccins-anti-covid" title="La Tunisie produit ses propres vaccins anti-covid">La Tunisie produit ses propres vaccins anti-covid ...</a></h3>
 </div>
 </div>,
 <div class="d-flex item" data-vr-contentbox="Position 2" data-vr-contentbox-url="https://www.mosaiquefm.net/fr/actualites-internationales/1018991/kuwait-airways-va-acheter-31-nouveaux-appareils-airbus">
 <div class="time">12:30</div>
 <div class="desc">
 <div class="cat"><a href="/fr/actualites/actualites-internationales/3" title="International">International</a></div>
 <h3><a href="/fr/actualite

#Web Scrapping

In [None]:
!pip install bs4

In [None]:
!pip3 install beautifulsoup4
!pip3 install selenium

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

catg_name = 'Economie'

#page = requests.get('https://www.mosaiquefm.net/fr/actualites/actualite-economie-tunisie/5/1') # Getting page HTML through request
page = requests.get('https://www.mosaiquefm.net/fr/actualite-economie-tunisie/1013507/emprunt-national-obligataire-le-decret-publie')
soup = BeautifulSoup(page.content, 'html.parser') # Parsing content using beautifulsoup

products=[]
for a in soup.findAll('p'):
  products.append(a.text)
  
text = ' '.join(products[:-2])


df = pd.DataFrame({catg_name: text})
df

# ###