# Web Scraping with BeautifulSoup4 🕷️

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/NouamaneTazi/hackai-challenges/blob/main/new_notebooks/data_scraping_bs4_goudma.ipynb)


with Beautiful Soup we can:

* Parsing: It takes messy HTML or XML code and transforms it into a structured, easily searchable format.
* Navigation: You can easily move through the parsed document, finding specific elements like tags, attributes, and text.
* Searching: Beautiful Soup provides tools to find elements based on their tags, attributes, or content.
* Extraction: Once you've located the data you want, Beautiful Soup helps you extract it cleanly.

* install beautifulsoup with pip

In [1]:
# install beautiful soup
!pip install beautifulsoup4 -q

* to scrap any web page we will need also **requests** to send any type of http (get,post,put,delete) request to our target.

In [2]:
from bs4 import BeautifulSoup
import requests #with requests we can to any http request (get,post,put,delete)

* in our tutorial we will try to **scrap 6 post news** from https://www.goud.ma, as in the images below ...

<img src="https://postimage.me/images/2025/05/21/image64bb8496ae7ee101.png"/>

* Before beginning our scraping first of all we need to analyze the HTML of our targeted website to extract which HTML object we will target.

* as in the image below we will target the article object with the `´card´` class, then inside of it we will extract the href link to the content of the article, and we will repeat the same things with other articles.

<img src="https://postimage.me/images/2025/05/21/image33fb9e13a118e192.png"/>

* to do what explained above, we need to follow the next steps:
1. send a GET request to our target website.
2. parse the response with bs4.
3. extract the target HTML object we want using its HTML tag (name) in our case `article` and its class `card` or id.

In [3]:
# 1.1 send get request
target="https://www.goud.ma/topics/%d8%a7%d9%84%d8%b1%d8%a6%d9%8a%d8%b3%d9%8a%d8%a9/"
page=requests.get(target,headers={"User-Agent": "XY"})
if page.reason=="OK":
  print("[INFO] Request is Valide")
else:
  print("[INFO] Request is not Valide")

[INFO] Request is Valide


In [4]:
# 1.2 extract html from the page
page_html=page.text
print(page_html[:50])

<!doctype html>
<html class="no-js" dir="rtl" lang


In [5]:
# 2. parse html with bs4
page_soup=BeautifulSoup(page_html,"html")

In [6]:
# 3. find article html object
articles=page_soup.find_all(name="article",class_="card")[:6] # 6 articles
articles

[<article class="card" id="post-958127">
 <header class="card-img-top">
 <img alt="الناطق باسم الحكومة الموريتانية تجاهل إدانة البوليساريو كونها سبب ديال غلق نقطة “لبريگة” وها شنو قال على مقتل موريتانيين فالمنطقة العازلة" class="gd-img img-fluid wp-post-image" decoding="async" height="365" loading="lazy" sizes="(max-width: 600px) 100vw, 600px" src="https://sf.goud.ma/wp-content/uploads/2025/06/IMG_6395-600x365.jpeg" srcset="https://sf.goud.ma/wp-content/uploads/2025/06/IMG_6395-600x365.jpeg 600w, https://sf.goud.ma/wp-content/uploads/2025/06/IMG_6395-832x506.jpeg 832w, https://sf.goud.ma/wp-content/uploads/2025/06/IMG_6395-768x467.jpeg 768w, https://sf.goud.ma/wp-content/uploads/2025/06/IMG_6395.jpeg 991w" width="600"/> </header>
 <div class="card-body">
 <h2 class="card-title"><a class="stretched-link" href="https://www.goud.ma/%d8%a7%d9%84%d9%86%d8%a7%d8%b7%d9%82-%d8%a8%d8%a7%d8%b3%d9%85-%d8%a7%d9%84%d8%ad%d9%83%d9%88%d9%85%d8%a9-%d8%a7%d9%84%d9%85%d9%88%d8%b1%d9%8a%d8%aa%d8%a7%d9%86

<img src="https://postimage.me/images/2025/05/21/image3d03e7083eac66fd.png"/>

* after finishing the first step, now we will move to extract the content of each article as in the image below.
* to do this we need to extract the html object `a` with class `stretched-link` class from the articles above.
* then extract `href` link

In [7]:
articles_links=[
    article.find("a",class_="stretched-link"). # 1
    get("href") # 2
    for article in articles]
articles_links

['https://www.goud.ma/%d8%a7%d9%84%d9%86%d8%a7%d8%b7%d9%82-%d8%a8%d8%a7%d8%b3%d9%85-%d8%a7%d9%84%d8%ad%d9%83%d9%88%d9%85%d8%a9-%d8%a7%d9%84%d9%85%d9%88%d8%b1%d9%8a%d8%aa%d8%a7%d9%86%d9%8a%d8%a9-%d8%aa%d8%ac%d8%a7%d9%87-958127/',
 'https://www.goud.ma/%d8%a7%d9%84%d9%83%d8%a7%d8%aa%d8%a8-%d8%a7%d9%84%d8%b9%d8%a7%d9%85-%d8%a7%d9%84%d8%b3%d8%a7%d8%a8%d9%82-%d9%84%d9%84%d9%88%d8%af%d8%a7%d8%af-%d8%b1%d8%af-%d8%b9%d9%84%d9%89-%d8%a8%d9%84%d8%a7%d8%ba-958141/',
 'https://www.goud.ma/%d8%b9%d9%88%d8%af%d8%a9-%d8%ba%d9%8a%d8%a7%d8%ab-%d9%84%d9%84%d9%85%d9%83%d8%aa%d8%a8-%d8%a7%d9%84%d8%b3%d9%8a%d8%a7%d8%b3%d9%8a-%d9%84%d9%84%d8%a3%d8%ad%d8%b1%d8%a7%d8%b1-%d9%82%d9%8a%d8%a7%d8%af-958122/',
 'https://www.goud.ma/%d8%a7%d9%84%d9%85%d8%ba%d8%b1%d8%a8-%d8%a7%d9%84%d8%aa%d8%b7%d9%88%d8%a7%d9%86%d9%8a-%d9%83%d8%a7%d8%b9%d9%8a%d9%8a%d9%86-%d8%ad%d9%8a%d8%ab-%d8%a7%d9%84%d9%87%d8%ac%d9%87%d9%88%d8%ac-%d9%85%d8%b4-958123/',
 'https://www.goud.ma/%d8%a7%d9%84%d9%85%d8%ad%d8%a7%d9%85%d9%8a%d8%a9-%d8%a7%d9

* After extracting each article link, now we will try to **extract helpful data from the article**, like `title`, `image`, and `content`.
* we will follow the same steps as before.

=> let's do it with one article link

In [8]:
# step 1
link=articles_links[0]
page0_html=requests.get(link,headers={"User-Agent": "XY"}).text
page0_soup=BeautifulSoup(page0_html,"html")

In [9]:
# step2
page0_img=page0_soup.find("img",class_="img-fluid wp-post-image").get("src")
page0_title=page0_soup.find("h1",class_="entry-title").text
page0_content=page0_soup.find("div",class_="post-content").text.strip()

In [10]:
print(f"img src:\n{page0_img}")
print(f"title:\n{page0_title}")
print(f"content:\n{page0_content}")

img src:
https://sf.goud.ma/wp-content/uploads/2025/06/IMG_6395-832x506.jpeg
title:
الناطق باسم الحكومة الموريتانية تجاهل إدانة البوليساريو كونها سبب ديال غلق نقطة “لبريگة” وها شنو قال على مقتل موريتانيين فالمنطقة العازلة
content:
الوالي الزاز -كود- العيون////
[email protected]
علق وزير الثقافة والفنون والاتصالات والعلاقات مع البرلمان، الناطق باسم الحكومة الموريتانية، الحسين ولد مدو، على مسألة غلق موريتانيا لمعبر “لبريگة”،  وقضية مقتل مدنيين موريتانيين نتيجة لقصف مسيرة “درون” مغربية خلال حلوله ضيفا على برنامج “حوار” الذي تبثه قناة “فرانس24″ بالعربية.
وتفادى الحسين ولد مدو التعليق بشكل مباشر وواضح على سؤال إغلاق النقطة الحدودية مع الجزائر، وما إذا كان ذلك ذلك بغرض إغلاق الباب قي وجه عناصر جبهة البوليساريو، متغاضيا عن ذكر جبهة البوليساريو، قائلا: ” أن تعزيز البُعد الأمني بالنسبة للمناطق الحدودية هو جزء من السياسة الموريتانية”، في إحالة على الغلق.
وأضاف الناطق باسم الحكومة الموريتانية دون التطرق لأسباب الغلق المرتبطة بجبهة البوليساريو التي تحيل على إدانة عناصرها: “فتحت العديد من المنافذ م

In [11]:
# if you want to save images in your local
imgcontent=requests.get(page0_img).content
with open("image.jpg","wb") as i:
  i.write(imgcontent)

In [12]:
# repeat the same with other 6 articles
from tqdm import tqdm
data={"titles":[],"content":[],"images":[]}
for link in tqdm(articles_links):
  # step 1
  pagei_html=requests.get(link,headers={"User-Agent": "XY"}).text
  pagei_soup=BeautifulSoup(pagei_html,"html")
  # step2
  pagei_img=pagei_soup.find("img",class_="img-fluid wp-post-image").get("src")
  pagei_title=pagei_soup.find("h1",class_="entry-title").text
  pagei_content=pagei_soup.find("div",class_="post-content").text.strip()
  # save
  data["titles"].append(pagei_title)
  data["content"].append(pagei_content)
  data["images"].append(pagei_img)

100%|██████████| 6/6 [00:00<00:00,  6.88it/s]


In [13]:
import pandas as pd
df=pd.DataFrame(data)
df

Unnamed: 0,titles,content,images
0,الناطق باسم الحكومة الموريتانية تجاهل إدانة ال...,الوالي الزاز -كود- العيون////\n[email protecte...,https://sf.goud.ma/wp-content/uploads/2025/06/...
1,الكاتب العام السابق للوداد رد على بلاغ تطوان ض...,كود سبور//\nانتقد الكاتب العام السابق للوداد ا...,https://sf.goud.ma/wp-content/uploads/2025/06/...
2,عودة غياث للمكتب السياسي للأحرار.. قيادي إكس ب...,كود الرباط //\nعلمت “كود” من مصادر موثوقة أن م...,https://sf.goud.ma/wp-content/uploads/2025/06/...
3,المغرب التطواني كاعيين حيث الهجهوج مشى ميريكان...,كود سبور//\nكاعيين المغرب التطواني على لاعب ال...,https://sf.goud.ma/wp-content/uploads/2025/06/...
4,المحامية الحقوقية براهمة لـ”كود”: دورية رئاسة ...,سعيد الشاوي – كود ///\nصيفط هشام بلاوي، الوكيل...,https://sf.goud.ma/wp-content/uploads/2025/06/...
5,كانو غادي يتهربو ويتباعو داخل المغرب.. بوليس س...,كود – كازا ///\nقال موقع راديو وتلفزيون سبتة، ...,https://sf.goud.ma/wp-content/uploads/2025/06/...


* The step of scraping is finished ... ✅

## Push scraped dataset to HuggingFace
* Now we will push our scrapped dataset to huggingface 🤗 as the last step

In [14]:
! pip install datasets -q # install datasets by hf

In [None]:
from datasets import Dataset
HF_WRITE_TOKEN="" # your hf write token
HF_DATASET_REPO="atlasia/good25" # username/datasetname
ds=Dataset.from_pandas(df)
ds.push_to_hub(HF_DATASET_REPO,token=HF_WRITE_TOKEN)