In [5]:
import os
import time
import re
import requests
from urllib.parse import urljoin, urlparse
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service

# === CONFIGURATION ===
BASE_URL        = "https://www.mql5.com"
START_URL       = f"{BASE_URL}/en/code/mt5/indicators"
# Il y a 137 pages d'indicateurs
PAGES_TO_SCRAPE = 137
DOWNLOAD_ROOT   = "mql5_indicators_mt5"
PAGE_DELAY      = 2       # secondes d’attente après chargement de chaque page
REQ_TIMEOUT     = 30      # timeout pour requests.get

# === UTILITAIRES ===
def safe_mkdir(path):
    if not os.path.isdir(path):
        os.makedirs(path, exist_ok=True)

def download_file(url, dest_folder):
    safe_mkdir(dest_folder)
    filename = os.path.basename(urlparse(url).path)
    dest_path = os.path.join(dest_folder, filename)
    print(f"[↓] {filename} ← {url}")
    try:
        r = requests.get(url, stream=True, timeout=REQ_TIMEOUT)
        r.raise_for_status()
        with open(dest_path, "wb") as f:
            for chunk in r.iter_content(1024):
                f.write(chunk)
        print(f"[✔] Téléchargé: {filename}")
    except Exception as e:
        print(f"[✘] Erreur download {filename}: {e}")

# === SETUP SELENIUM HEADLESS ===
chrome_opts = Options()
chrome_opts.add_argument("--headless")
chrome_opts.add_argument("--disable-gpu")
chrome_opts.add_argument("--no-sandbox")
driver = webdriver.Chrome(service=Service(), options=chrome_opts)

# === CRÉER LE DOSSIER RACINE ===
safe_mkdir(DOWNLOAD_ROOT)

# === SCRAPING PAGES ===
for idx in range(1, PAGES_TO_SCRAPE + 1):
    page_url = START_URL if idx == 1 else f"{START_URL}/page{idx}"
    print(f"\n=== Scraping page {idx}/{PAGES_TO_SCRAPE}: {page_url}")
    driver.get(page_url)
    time.sleep(PAGE_DELAY)

    soup = BeautifulSoup(driver.page_source, "html.parser")
    tiles = soup.select(".codebase-list__content .code-tile .title > a")
    print(f"-- {len(tiles)} indicateurs trouvés")

    for a in tiles:
        href = a.get("href")
        list_title = a.text.strip()
        indicator_url = urljoin(BASE_URL, href)
        print(f"\n→ Indicateur: {indicator_url}")
        driver.get(indicator_url)
        time.sleep(PAGE_DELAY)
        esoup = BeautifulSoup(driver.page_source, "html.parser")

        # Nom de l’indicateur: priorité au <h1>, sinon titre depuis la liste
        h1 = esoup.select_one("h1")
        if h1 and h1.text.strip():
            name_raw = h1.text.strip()
        else:
            name_raw = list_title or href.split('/')[-1]
            print(f"   [ℹ] Pas de <h1> trouvé, utilisation du titre listé: '{name_raw}'")
        name = re.sub(r"[\\/:*?\"<>|]", "_", name_raw)
        folder = os.path.join(DOWNLOAD_ROOT, name)
        safe_mkdir(folder)
        print(f"   ▶ Dossier: {folder}")

        # Télécharger le code : ZIP ou .mq5/.mq4
        zip_link = esoup.find("a", string=re.compile(r"Download as ZIP", re.I))
        if zip_link and zip_link.get("href"):
            download_file(urljoin(BASE_URL, zip_link["href"]), folder)
        else:
            code_link = esoup.find("a", href=re.compile(r"\.mq[45]$"))
            if code_link:
                download_file(urljoin(BASE_URL, code_link["href"]), folder)
            else:
                print("   [!] Aucun code trouvé (.mq5/.mq4 ou ZIP).")

        # Télécharger les images de présentation
        images = esoup.select(".codebase-detail img")
        print(f"   ▶ {len(images)} images détectées")
        for img in images:
            src = img.get("src") or img.get("data-src")
            if not src or not re.search(r"\.(png|jpe?g|gif)$", src, re.I):
                continue
            download_file(urljoin(BASE_URL, src), folder)

# === FIN ===
driver.quit()
print("\n=== FIN DU SCRAPING INDICATEURS ===")



=== Scraping page 1/137: https://www.mql5.com/en/code/mt5/indicators
-- 40 indicateurs trouvés

→ Indicateur: https://www.mql5.com/en/code/56228
   ▶ Dossier: mql5_indicators_mt5\Price Time Scale - indicator for MetaTrader 5
[↓] pricetimescale.mq5 ← https://www.mql5.com/en/code/download/56228/pricetimescale.mq5
[✔] Téléchargé: pricetimescale.mq5
   ▶ 0 images détectées

→ Indicateur: https://www.mql5.com/en/code/56281
   ▶ Dossier: mql5_indicators_mt5\Candle size - indicator for MetaTrader 5
[↓] candle_size.mq5 ← https://www.mql5.com/en/code/download/56281/candle_size.mq5
[✔] Téléchargé: candle_size.mq5
   ▶ 0 images détectées

→ Indicateur: https://www.mql5.com/en/code/56382
   [ℹ] Pas de <h1> trouvé, utilisation du titre listé: 'MACD coloured histogram'
   ▶ Dossier: mql5_indicators_mt5\MACD coloured histogram
   [!] Aucun code trouvé (.mq5/.mq4 ou ZIP).
   ▶ 0 images détectées

→ Indicateur: https://www.mql5.com/en/code/56432
   ▶ Dossier: mql5_indicators_mt5\Candle Counter - indic

   [ℹ] Pas de <h1> trouvé, utilisation du titre listé: 'SignalAI - Indicator'
   ▶ Dossier: mql5_indicators_mt5\SignalAI - Indicator
   [!] Aucun code trouvé (.mq5/.mq4 ou ZIP).
   ▶ 0 images détectées

→ Indicateur: https://www.mql5.com/en/code/58636
   [ℹ] Pas de <h1> trouvé, utilisation du titre listé: 'Custom MA Cross with RSI Indicator for MT5'
   ▶ Dossier: mql5_indicators_mt5\Custom MA Cross with RSI Indicator for MT5
   [!] Aucun code trouvé (.mq5/.mq4 ou ZIP).
   ▶ 0 images détectées

→ Indicateur: https://www.mql5.com/en/code/58650
   [ℹ] Pas de <h1> trouvé, utilisation du titre listé: 'CTJM Candle Timer'
   ▶ Dossier: mql5_indicators_mt5\CTJM Candle Timer
   [!] Aucun code trouvé (.mq5/.mq4 ou ZIP).
   ▶ 0 images détectées

→ Indicateur: https://www.mql5.com/en/code/58562
   [ℹ] Pas de <h1> trouvé, utilisation du titre listé: 'Volume MA with candle color tracking'
   ▶ Dossier: mql5_indicators_mt5\Volume MA with candle color tracking
   [!] Aucun code trouvé (.mq5/.mq4 ou ZI

   [ℹ] Pas de <h1> trouvé, utilisation du titre listé: 'Daily Vertical Lines'
   ▶ Dossier: mql5_indicators_mt5\Daily Vertical Lines
   [!] Aucun code trouvé (.mq5/.mq4 ou ZIP).
   ▶ 0 images détectées

→ Indicateur: https://www.mql5.com/en/code/56619
   [ℹ] Pas de <h1> trouvé, utilisation du titre listé: 'Fibonacci ZigZag'
   ▶ Dossier: mql5_indicators_mt5\Fibonacci ZigZag
   [!] Aucun code trouvé (.mq5/.mq4 ou ZIP).
   ▶ 0 images détectées

→ Indicateur: https://www.mql5.com/en/code/56616
   [ℹ] Pas de <h1> trouvé, utilisation du titre listé: 'Autoscaling Zigzag'
   ▶ Dossier: mql5_indicators_mt5\Autoscaling Zigzag
   [!] Aucun code trouvé (.mq5/.mq4 ou ZIP).
   ▶ 0 images détectées

→ Indicateur: https://www.mql5.com/en/code/56559
   [ℹ] Pas de <h1> trouvé, utilisation du titre listé: 'Time To Close v1.01 - MT5'
   ▶ Dossier: mql5_indicators_mt5\Time To Close v1.01 - MT5
   [!] Aucun code trouvé (.mq5/.mq4 ou ZIP).
   ▶ 0 images détectées

→ Indicateur: https://www.mql5.com/en/code/

KeyboardInterrupt: 