Download_pdfs

In [None]:
import os
import requests
from tqdm import tqdm  #pip install tqdm


base_download_folder = "../data/"
chunk_size = 1024 * 1024  # حجم كل شريحة: 1 ميجابايت

# ملفات الروابط التي سيتم تحميلها
link_files = ["../data/gstc_pdf_links_2020.txt", "../data/gstc_pdf_links_2021.txt"]

def get_unique_filename(path):
    """لو الملف موجود، يرجّع اسم جديد بترقيم زي (1), (2), ..."""
    if not os.path.exists(path):
        return path
    base, ext = os.path.splitext(path)
    i = 1
    while True:
        new_path = f"{base}({i}){ext}"
        if not os.path.exists(new_path):
            return new_path
        i += 1

# نلف على كل ملف روابط
for input_file in link_files:
    print(f"\n📄 جاري قراءة الروابط من: {input_file}")

    # استخراج السنة من اسم الملف (مثلاً: "2020" من "gstc_pdf_links_2020.txt")
    year = ''.join(filter(str.isdigit, input_file))
    year_folder = os.path.join(base_download_folder, year)
    os.makedirs(year_folder, exist_ok=True)

    # قراءة الروابط مع الفلترة
    with open(input_file, "r", encoding="utf-8") as f:
        all_links = [line.strip() for line in f if line.strip()]
        links = [link for link in all_links if "E-service-guideline" not in link]

    print(f"📥 عدد الملفات المطلوب تحميلها من {input_file}: {len(links)} (بعد الفلترة)")

    for idx, url in enumerate(links, 1):
        raw_name = url.split("/")[-1]
        filename = os.path.join(year_folder, raw_name)
        filename = get_unique_filename(filename)

        try:
            print(f"\n⬇️ ({idx}/{len(links)}) من {input_file} - جاري تحميل: {filename}")
            with requests.get(url, stream=True, timeout=30) as response:
                response.raise_for_status()

                total_size = int(response.headers.get('content-length', 0))
                with open(filename, "wb") as f, tqdm(
                    total=total_size,
                    unit='B',
                    unit_scale=True,
                    desc=os.path.basename(filename),
                    ncols=80
                ) as pbar:
                    for chunk in response.iter_content(chunk_size=chunk_size):
                        if chunk:
                            f.write(chunk)
                            pbar.update(len(chunk))

        except Exception as e:
            print(f"❌ خطأ أثناء تحميل {url}: {e}")

print("\n✅✅✅ تم تحميل جميع الملفات من جميع الملفات النصية بنجاح.")



📄 جاري قراءة الروابط من: ../data/gstc_pdf_links_2020.txt
📥 عدد الملفات المطلوب تحميلها من ../data/gstc_pdf_links_2020.txt: 12 (بعد الفلترة)

⬇️ (1/12) من ../data/gstc_pdf_links_2020.txt - جاري تحميل: ../data/2020\ISZR-2020.pdf


ISZR-2020.pdf: 100%|██████████████████████████| 140k/140k [00:00<00:00, 396kB/s]



⬇️ (2/12) من ../data/gstc_pdf_links_2020.txt - جاري تحميل: ../data/2020\ISZR-2020-31.pdf


ISZR-2020-31.pdf: 100%|███████████████████████| 140k/140k [00:00<00:00, 507kB/s]



⬇️ (3/12) من ../data/gstc_pdf_links_2020.txt - جاري تحميل: ../data/2020\ISZR-2020-36.pdf


ISZR-2020-36.pdf: 100%|███████████████████████| 142k/142k [00:00<00:00, 485kB/s]



⬇️ (4/12) من ../data/gstc_pdf_links_2020.txt - جاري تحميل: ../data/2020\ISZR-2020-37.pdf


ISZR-2020-37.pdf: 100%|███████████████████████| 140k/140k [00:00<00:00, 508kB/s]



⬇️ (5/12) من ../data/gstc_pdf_links_2020.txt - جاري تحميل: ../data/2020\ISZR-2020-39.pdf


ISZR-2020-39.pdf: 100%|███████████████████████| 143k/143k [00:00<00:00, 533kB/s]



⬇️ (6/12) من ../data/gstc_pdf_links_2020.txt - جاري تحميل: ../data/2020\ISZR-2020-40.pdf


ISZR-2020-40.pdf: 100%|███████████████████████| 143k/143k [00:00<00:00, 509kB/s]



⬇️ (7/12) من ../data/gstc_pdf_links_2020.txt - جاري تحميل: ../data/2020\ISZR-2020-41.pdf


ISZR-2020-41.pdf: 100%|███████████████████████| 141k/141k [00:00<00:00, 557kB/s]



⬇️ (8/12) من ../data/gstc_pdf_links_2020.txt - جاري تحميل: ../data/2020\ISZR-2020-42.pdf


ISZR-2020-42.pdf: 100%|███████████████████████| 152k/152k [00:00<00:00, 621kB/s]



⬇️ (9/12) من ../data/gstc_pdf_links_2020.txt - جاري تحميل: ../data/2020\ISZR-2020-43.pdf


ISZR-2020-43.pdf: 100%|███████████████████████| 145k/145k [00:00<00:00, 474kB/s]



⬇️ (10/12) من ../data/gstc_pdf_links_2020.txt - جاري تحميل: ../data/2020\ISZR-2020-44.pdf


ISZR-2020-44.pdf: 100%|███████████████████████| 145k/145k [00:00<00:00, 353kB/s]



⬇️ (11/12) من ../data/gstc_pdf_links_2020.txt - جاري تحميل: ../data/2020\ISZR-2020-48.pdf


ISZR-2020-48.pdf: 100%|███████████████████████| 148k/148k [00:00<00:00, 363kB/s]



⬇️ (12/12) من ../data/gstc_pdf_links_2020.txt - جاري تحميل: ../data/2020\ISZR-2020-53.pdf


ISZR-2020-53.pdf: 100%|███████████████████████| 157k/157k [00:00<00:00, 555kB/s]



📄 جاري قراءة الروابط من: ../data/gstc_pdf_links_2021.txt
📥 عدد الملفات المطلوب تحميلها من ../data/gstc_pdf_links_2021.txt: 12 (بعد الفلترة)

⬇️ (1/12) من ../data/gstc_pdf_links_2021.txt - جاري تحميل: ../data/2021\VD-2021-313.pdf


VD-2021-313.pdf: 100%|████████████████████████| 262k/262k [00:00<00:00, 472kB/s]



⬇️ (2/12) من ../data/gstc_pdf_links_2021.txt - جاري تحميل: ../data/2021\ITR-2021-269.pdf


ITR-2021-269.pdf: 100%|███████████████████████| 323k/323k [00:00<00:00, 328kB/s]



⬇️ (3/12) من ../data/gstc_pdf_links_2021.txt - جاري تحميل: ../data/2021\ITR-2021-270.pdf


ITR-2021-270.pdf: 100%|███████████████████████| 322k/322k [00:00<00:00, 559kB/s]



⬇️ (4/12) من ../data/gstc_pdf_links_2021.txt - جاري تحميل: ../data/2021\ITR-2021-271.pdf


ITR-2021-271.pdf: 100%|███████████████████████| 322k/322k [00:00<00:00, 389kB/s]



⬇️ (5/12) من ../data/gstc_pdf_links_2021.txt - جاري تحميل: ../data/2021\ITR-2021-298.pdf


ITR-2021-298.pdf: 100%|███████████████████████| 340k/340k [00:00<00:00, 598kB/s]



⬇️ (6/12) من ../data/gstc_pdf_links_2021.txt - جاري تحميل: ../data/2021\ITR-2021-299.pdf


ITR-2021-299.pdf: 100%|███████████████████████| 339k/339k [00:01<00:00, 276kB/s]



⬇️ (7/12) من ../data/gstc_pdf_links_2021.txt - جاري تحميل: ../data/2021\ITR-2021-300.pdf


ITR-2021-300.pdf: 100%|███████████████████████| 340k/340k [00:00<00:00, 641kB/s]



⬇️ (8/12) من ../data/gstc_pdf_links_2021.txt - جاري تحميل: ../data/2021\VR-2021-143.pdf


VR-2021-143.pdf: 100%|████████████████████████| 234k/234k [00:00<00:00, 537kB/s]



⬇️ (9/12) من ../data/gstc_pdf_links_2021.txt - جاري تحميل: ../data/2021\VSR-2021-292.pdf


VSR-2021-292.pdf: 100%|███████████████████████| 327k/327k [00:00<00:00, 686kB/s]



⬇️ (10/12) من ../data/gstc_pdf_links_2021.txt - جاري تحميل: ../data/2021\VTR-2021-243.pdf


VTR-2021-243.pdf: 100%|███████████████████████| 363k/363k [00:00<00:00, 588kB/s]



⬇️ (11/12) من ../data/gstc_pdf_links_2021.txt - جاري تحميل: ../data/2021\VTR-2021-331.pdf


VTR-2021-331.pdf: 100%|███████████████████████| 515k/515k [00:00<00:00, 619kB/s]



⬇️ (12/12) من ../data/gstc_pdf_links_2021.txt - جاري تحميل: ../data/2021\IFR-2021-126.pdf


IFR-2021-126.pdf: 100%|███████████████████████| 181k/181k [00:00<00:00, 319kB/s]


✅✅✅ تم تحميل جميع الملفات من جميع الملفات النصية بنجاح.



