In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import os
import re
from urllib.parse import urljoin


In [3]:
url = "https://www.cab.jo/ar/for-me-ar"
base_url = "https://www.cab.jo"
headers = {"User-Agent": "Mozilla/5.0"}


In [5]:
folder_name = "Cairo_amman_Bank_Images"
os.makedirs(folder_name, exist_ok=True)

response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, "html.parser")


In [7]:
data = []

# وظيفة لمساعدة التقاط الصور من الخلفية CSS
def extract_background_image(div_tag):
    style = div_tag.get("style", "")
    match = re.search(r'background-image:\s*url\(["\']?(.*?)["\']?\)', style)
    if match:
        return urljoin(base_url, match.group(1))
    return ""

# استخراج الصور من السلايدر
slides = soup.select(".elementor-slides-wrapper .swiper-slide")
for slide in slides:
    a_tag = slide.find("a", class_="swiper-slide-inner")
    if a_tag and a_tag.get("href"):
        article_link = urljoin(base_url, a_tag["href"])
        bg_div = slide.find("div", class_="swiper-slide-bg")
        if bg_div:
            image_url = extract_background_image(bg_div)
            if image_url:
                image_name = image_url.split("/")[-1].split("?")[0]
                img_path = os.path.join(folder_name, image_name)

                try:
                    img_resp = requests.get(image_url)
                    img_resp.raise_for_status()
                    with open(img_path, "wb") as f:
                        f.write(img_resp.content)
                    print(f"✔️ تم تحميل الصورة: {image_name}")

                    data.append({
                        "Bank_Name": "Capital Bank",
                        "Image_Name": image_name,
                        "Image_Link": image_url,
                        "Article_Link": article_link
                    })
                except Exception as e:
                    print(f"❌ خطأ تحميل الصورة: {image_url}, السبب: {e}")

# استخراج الصور العادية مع روابطها
image_links = soup.select(".elementor-widget-image a[href] img")
for img_tag in image_links:
    parent_a = img_tag.find_parent("a")
    if parent_a and parent_a.get("href"):
        article_link = urljoin(base_url, parent_a["href"])
        img_src = img_tag.get("src", "")
        if img_src:
            image_url = urljoin(base_url, img_src)
            image_name = image_url.split("/")[-1].split("?")[0]
            img_path = os.path.join(folder_name, image_name)

            try:
                img_resp = requests.get(image_url)
                img_resp.raise_for_status()
                with open(img_path, "wb") as f:
                    f.write(img_resp.content)
                print(f"✔️ تم تحميل الصورة: {image_name}")

                data.append({
                    "Bank_Name": "Capital Bank",
                    "Image_Name": image_name,
                    "Image_Link": image_url,
                    "Article_Link": article_link
                })
            except Exception as e:
                print(f"❌ خطأ تحميل الصورة: {image_url}, السبب: {e}")


✔️ تم تحميل الصورة: sig-Logos-3.png
✔️ تم تحميل الصورة: linc-logo2.png
✔️ تم تحميل الصورة: by-cab.png
✔️ تم تحميل الصورة: online-banking.png
✔️ تم تحميل الصورة: DIC-Logo-1.png
✔️ تم تحميل الصورة: sig-Logos-3.png
✔️ تم تحميل الصورة: linc-logo2.png
✔️ تم تحميل الصورة: online-banking.png
✔️ تم تحميل الصورة: DIC-Logo-1.png
✔️ تم تحميل الصورة: SIG-logo.png
✔️ تم تحميل الصورة: LINC-logo-updated-1.png
✔️ تم تحميل الصورة: online-banking.png
✔️ تم تحميل الصورة: DIC-Logo-1.png
✔️ تم تحميل الصورة: CAB-logo-small.png
✔️ تم تحميل الصورة: SIG-logo.png
✔️ تم تحميل الصورة: LINC-logo-updated-1.png
✔️ تم تحميل الصورة: online-banking.png
✔️ تم تحميل الصورة: DIC-Logo-1.png
✔️ تم تحميل الصورة: cropped-cab-Logos-2.png
✔️ تم تحميل الصورة: sig-Logos-3.png
✔️ تم تحميل الصورة: linc-logo2.png
✔️ تم تحميل الصورة: online-banking.png
✔️ تم تحميل الصورة: CAB-Discount-platform-logos.png
✔️ تم تحميل الصورة: online-banking.png
✔️ تم تحميل الصورة: DIC-Logo-1.png
✔️ تم تحميل الصورة: sig-Logos-3.png
✔️ تم تحميل الصورة: li

In [9]:
df = pd.DataFrame(data)
df

Unnamed: 0,Bank_Name,Image_Name,Image_Link,Article_Link
0,Capital Bank,sig-Logos-3.png,https://www.cab.jo/wp-content/uploads/2021/11/...,https://www.signaturecairoammanbank.jo/
1,Capital Bank,linc-logo2.png,https://www.cab.jo/wp-content/uploads/2021/11/...,https://www.linc.jo/
2,Capital Bank,by-cab.png,https://www.cab.jo/wp-content/uploads/2021/11/...,https://www.linc.jo/
3,Capital Bank,online-banking.png,https://www.cab.jo/wp-content/uploads/2021/11/...,https://ibanking.cab.jo/Authentication/index
4,Capital Bank,DIC-Logo-1.png,https://www.cab.jo/wp-content/uploads/2021/11/...,https://www.dic.gov.jo/Default/En
5,Capital Bank,sig-Logos-3.png,https://www.cab.jo/wp-content/uploads/2021/11/...,https://www.signaturecairoammanbank.jo/
6,Capital Bank,linc-logo2.png,https://www.cab.jo/wp-content/uploads/2021/11/...,https://www.linc.jo/
7,Capital Bank,online-banking.png,https://www.cab.jo/wp-content/uploads/2021/11/...,https://ibanking.cab.jo/Authentication/index
8,Capital Bank,DIC-Logo-1.png,https://www.cab.jo/wp-content/uploads/2021/11/...,https://www.dic.gov.jo/Default/En
9,Capital Bank,SIG-logo.png,https://www.cab.jo/wp-content/uploads/2021/11/...,https://www.signaturecairoammanbank.jo/
