**Web scraping**

Web scraping involves extracting information from web pages using Python. It can save time and automate data collection.

**How web scraping works**

* HTTP Request

  Send a GET request to a website to retrieve its page content.

* Web Page Retrieval

  The server responds with the HTML code of the requested page.

* HTML Parsing

  Use BeautifulSoup to convert HTML into a structured, navigable format.

* Data Extraction

  Find and extract specific data using HTML tags and attributes.

* Data Transformation

  Clean or format the extracted data for further use.

* Storage

  Save the data to files like CSV, JSON, or databases.

* Automation

  Use scripts to repeat scraping automatically and regularly.





---

**Required tools**
To perform web scraping in Python, i need:


- `requests`: To send HTTP requests and get the page content
- `BeautifulSoup`: To parse and extract data from HTML

In [1]:
# Install them using
!pip install requests
!pip install beautifulsoup4



In [1]:
# Import Libraries
import requests
from bs4 import BeautifulSoup

In [2]:
# Fetch the Web Page

# URL of the page to scrape
url = 'https://www.aljazeera.net/'

# Send HTTP GET request
response = requests.get(url)

# Get the HTML content
html_content = response.text

# Print first 500 characters of HTML
print(html_content[:500])


<!doctype html><html lang="ar" dir="rtl" class="theme-aja"><head><meta charset="utf-8"/><meta name="viewport" content="width=device-width,initial-scale=1,shrink-to-fit=no"/><meta http-equiv="content-type" content="text/html; charset=UTF-8"/><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"><link rel="shortcut icon" href="/favicon_aja.ico"><title data-rh="true">الجزيرة نت: آخر أخبار اليوم حول العالم</title><meta data-rh="true" name="description" content="الأخبار والتحليلات من الشرق ال


In [3]:
# Parse HTML with BeautifulSoup
soup = BeautifulSoup(html_content, 'html.parser')

In [4]:
print(soup.title)
print(soup.title.text)

print(soup.h1)
print(soup.h1.text)

<title data-rh="true">الجزيرة نت: آخر أخبار اليوم حول العالم</title>
الجزيرة نت: آخر أخبار اليوم حول العالم
<h1>للجزيرة</h1>
للجزيرة


In [5]:
# Find All Links (Anchor Tags <a>)
links = soup.find_all('a')

# Print the text of each link
for link in links:
  print(link.text)

اذهب إلى المحتوى المميّز
اذهب إلى تغذية المحتوى
انتقل إلى الأكثر قراءة
رابط إلى الصفحة الرئيسية للجزيرة
play البث الحي 
أخبار
حرب إسرائيل وإيران
سوريا الجديدة
طوفان الأقصى
الأزمة السودانية
حرب أوكرانيا
أفريقيا
أبعاد
رياضة
مقالات
بيئة
اقتصاد
ثقافة
فيديو
سفر
صحة
سياسة
تكنولوجيا
مدونات
الموسوعة
تراث
فن
علوم
أسلوب حياة
معمّقة
القدس
أسرة
منوعات
حريات
إذاعة
بالصور
play البث الحي 
الآن
إيران
سوريا
فلسطين
السودان
أوكرانيا

الحرب على غزة.. عشرات الشهداء بقصف إسرائيلي على مطعم ومعارك محتدمة بخان يونس
الاحتلال يقتحم قرى بنابلس وجنين
مسؤول أميركي: ترامب يرغب في إنهاء الحرب بغزة
تركيا تلاحق صحفيين رسما صورة للنبي محمد صلى الله عليه وسلم
تركيا تلاحق صحفيين رسما صورة للنبي محمد صلى الله عليه وسلم
مقالاتمقالات, 
كيف تخبرنا حرب إيران وإسرائيل بقرب انتهاء المشروع الصهيوني؟
عياد أبلال
مقالاتمقالات, 
كيف تخبرنا حرب إيران وإسرائيل بقرب انتهاء المشروع الصهيوني؟
عياد أبلال
فلومينسيني يهزم إنتر ويبلغ ربع نهائي كأس العالم للأندية
ترامب يوقع أمرا تنفيذيا لإنهاء العقوبات على سوريا
لوموند: بعد سيندور الهند تجد نف

In [6]:
# Custom Data Extraction Example
# I can extract elements by tag, class, ID, or text

all_p = soup.find_all('p')
print(f"Total paragraphs found: {len(all_p)}")

for i,p in enumerate(all_p[:5]):
  print(f'\nParagraph {i+1}:\n{p.text.strip()}')


Total paragraphs found: 22

Paragraph 1:
أمر المدعي العام في إسطنبول الاثنين، بتوقيف صحفييْن في إحدى المجلات الساخرة الكبرى في تركيا بسبب نشر رسم كاريكاتوري يصور النبي محمد صلى الله عليه، حسبما ذكرت وسائل إعلام محلية.

Paragraph 2:
أمر المدعي العام في إسطنبول الاثنين، بتوقيف صحفييْن في إحدى المجلات الساخرة الكبرى في تركيا بسبب نشر رسم كاريكاتوري يصور النبي محمد صلى الله عليه، حسبما ذكرت وسائل إعلام محلية.

Paragraph 3:
بينما تزداد الضغوط الدولية لإنهاء الحرب على قطاع غزة، تبرز ملامح صفقة غير تقليدية تتداخل فيها الحسابات السياسية مع الملفات القضائية، حيث يطرح ترامب، خيار العفو عن نتنياهو كأداة ضغط لينهي الحرب.

Paragraph 4:
على مستوى الناتو، تتحدث تقارير صحفية منذ نحو عام عن مشاورات بشأن التأسيس لجدار مراقبة مكون من طائرات بدون طيار يمتد من النرويج إلى بولندا.

Paragraph 5:
تحولت مدينة أكجوجت، في نظر الكثيرين، إلى نموذج حي على فشل التنمية في موريتانيا، فهي تملك ثروات معدنية ضخمة، لكنها تفتقر إلى أبسط الخدمات الأساسية كالطاقة والماء والتعليم والرعاية الصحية.


In [10]:
divs = soup.find_all('div',class_='article-trending__content')
for div in divs[:2]: # limit output
   print(div.text[:300])

كيف تخبرنا حرب إيران وإسرائيل بقرب انتهاء المشروع الصهيوني؟
فزع أميركا من انهيار وشيك


In [12]:
# Print all trends
for i, div in enumerate(divs):
    print(f"Trending #{i+1}: {div.text.strip()}")

Trending #1: كيف تخبرنا حرب إيران وإسرائيل بقرب انتهاء المشروع الصهيوني؟
Trending #2: فزع أميركا من انهيار وشيك
Trending #3: الرؤساء الثلاثة يرمون بطوق النجاة لنتنياهو
Trending #4: دوران الأرض "يتسارع" والأسباب غير واضحة إلى الآن
Trending #5: تركيا تلاحق صحفيين رسما صورة للنبي محمد صلى الله عليه وسلم
Trending #6: لوموند: بعد سيندور الهند تجد نفسها معزولة على الساحة الدولية
Trending #7: الحرب على غزة مباشر.. عشرات الشهداء بقصف إسرائيلي على مطعم ومعارك محتدمة بخان يونس
Trending #8: هل يدفع شبح إسرائيل لتسريع التحالف بين إيران وباكستان؟
Trending #9: أغرب شروط للتأشيرة تفرضها بعض دول العالم
Trending #10: حماس: قدمنا رؤية لإبرام صفقة شاملة ونتنياهو يريد استثمار حرب إيران


In [13]:
# Store them in a list
trending_articles = [div.text.strip() for div in divs]
print(trending_articles)

['كيف تخبرنا حرب إيران وإسرائيل بقرب انتهاء المشروع الصهيوني؟', 'فزع أميركا من انهيار وشيك', 'الرؤساء الثلاثة يرمون بطوق النجاة لنتنياهو', 'دوران الأرض "يتسارع" والأسباب غير واضحة إلى الآن', 'تركيا تلاحق صحفيين رسما صورة للنبي محمد صلى الله عليه وسلم', 'لوموند: بعد سيندور الهند تجد نفسها معزولة على الساحة الدولية', 'الحرب على غزة مباشر.. عشرات الشهداء بقصف إسرائيلي على مطعم ومعارك محتدمة بخان يونس', 'هل يدفع شبح إسرائيل لتسريع التحالف بين إيران وباكستان؟', 'أغرب شروط للتأشيرة تفرضها بعض دول العالم', 'حماس: قدمنا رؤية لإبرام صفقة شاملة ونتنياهو يريد استثمار حرب إيران']


In [14]:
# OR Store them in a CSV file
import pandas as pd
df = pd.DataFrame({'Trending News': trending_articles})
df.to_csv('aljazeera_trending.csv',index=False)
print('Saved to aljazeera_trending.csv ✅')

Saved to aljazeera_trending.csv ✅


In [17]:
# Extract Tables using: pandas.read_html
import pandas as pd

# Automatically find and extract tables from the page
tables = pd.read_html(url)

# Show how many tables were found
print(f'Total tables found: {len(tables)}')

# Display the first table
tables[0].head()


ValueError: No tables found

Note:

pandas.read_html() only works when the page contains proper <table> tags in the HTML. The current page does not have any HTML tables, so the function raises an error

---





In [21]:
url = 'https://en.wikipedia.org/wiki/List_of_countries_by_population_(United_Nations)'

import pandas as pd
tables = pd.read_html(url)

print(f'Total tables found: {len(tables)}')
tables[0].head()


Total tables found: 2


Unnamed: 0,Country or territory,Population (1 July 2022),Population (1 July 2023),Change (%),UN continental region[1],UN statistical subregion[1]
0,World,8021407192,8091734930,+0.88%,–,–
1,India,1425423212,1438069596,+0.89%,Asia,Southern Asia
2,China[a],1425179569,1422584933,−0.18%,Asia,Eastern Asia
3,United States,341534046,343477335,+0.57%,Americas,North America
4,Indonesia,278830529,281190067,+0.85%,Asia,Southeast Asia


 Works as expected — the page has HTML table tags readable by pandas.read_html