In [76]:
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin, urlparse
import time
import re # re = biblioth√®que de gestion des expressions r√©guli√®res (regular expressions = Regex) en Python
# scanne un texte (ex : full_path) √† la recherche de motifs sp√©cifiques
# fonctions : 
# re.search() : recherche un motif dans une cha√Æne de caract√®res et renvoie un objet de correspondance si trouv√©, sinon None
# re.match() : v√©rifie si le d√©but d'une cha√Æne de caract√®res correspond √† un motif donn√©
# re.findall() : trouve toutes les occurrences d'un motif dans une cha√Æne de caract√®res et les renvoie sous forme de liste
    # ex : print(len(re.findall(r'\bch\b', texte))) affiche le nombre de fois que le mot "ch" appara√Æt dans le texte
# re.sub() ...
# re.compile() ...
# re.split() ...
from collections import deque


In [77]:
# --- CONFIGURATION DES FILTRES ---

# Utilisation des expressions r√©guli√®res (regex) pour filtrer les URLs non d√©sir√©es

# Filtres pour d√©tecter les pages commerciales inutiles
# "r" = regex = raw string = cha√Æne brute, interpr√®te les backslashes litt√©ralement
FILTRES_COMMERCIAUX = [
    r'/products?/',        # ? = dernier caract√®re pas obligatoire donc /products/ ou /product/
    r'/shop/',             # /shop/categorie
    r'/store/',            # /store/item
    r'/item\d+',           # \d+ : "d" √©quivaut √† [0-9] et "+" les prend par paquet tant qu'ils se suivent, ex : item\12345
                           # \w √©quivaut √† [a-z, A-Z, 0-9 et _] (lettres, chiffres, underscore) 
    r'/cart',              # /cart (panier)
    r'/checkout',          # /checkout (paiement)
    r'/account',           # /account (compte utilisateur)
    r'\?.*(id=|sku=|price=)'] # \? permet de garder le ? comme quand on √©crit un texte entre "" 
                           #Les param√®tres d'URL commerciaux commencent par ?
                           #Le .* permet de dire "n'importe quoi entre les deux"
                           #et on cherche id= ou sku= ou price= car | signifie "ou"

# Filtres pour d√©tecter les pages techniques inutiles
FILTRES_INNUTILES = [
    r'/search',            # \search (r√©sultats de recherche)
    r'/login',             # \login (connexion)
    r'/register',          # \register (inscription)
    r'/password',          # \password (mot de passe oubli√©)
    r'#',                  # √©vite les doublons d'url contenant plusieurs chapitres par exemple
    r'\.(pdf|jpg|png|zip)$'] # supprime les fichiers non HTML
                           # \. force √† chercher le caract√®re "." et veut dire "n'importe quoi" 
                           # | signifie "ou" 
                           # $ signifie "√† la fin de l'URL"

In [78]:

def useful_url(url):
# normaliser les liens pour pouvoir utiliser les regex dessus et ainsi trier 
# retourne True si l'URL semble √™tre du contenu utile, False sinon
    
    parsed = urlparse(url) # urlparse est une fonction qui d√©compose l'URL en parties (chemin + param√®tres)
    path = parsed.path.lower() # chemin de l'URL en minuscules
    query = parsed.query.lower() # param√®tres de l'URL en minuscules
    full_path = path + "?" + query 
    # exemple : https://www.example.com/products/item?id=456&ref=google
    # path = /products/item
    # query = id=456&ref=google (ce qui vient apr√®s le "?")

    # 1. V√©rifie si c'est un produit :
    for filtre in FILTRES_COMMERCIAUX:
        if re.search(filtre, full_path): # cherche la correspondance avec un filtre commercial dans le nouvel url "full_path"
        # pour re voir dans les imports
            return False
            
    # 2. V√©rifie si c'est une page technique inutile : 
    for filtre in FILTRES_INNUTILES:
        if re.search(filtre, full_path): # cherche la correspondance avec un filtre inutile dans le nouvel url "full_path"
            return False
            
    return True

In [None]:
def crawl_by_levels(start_url, max_levels=3):
# crawl le site niveau par niveau (BFS)
# max_levels=3 signifie : Accueil (0) -> Liens accueil (1) -> Liens de niveau 1 (2)

    domain = urlparse(start_url).netloc
    print(f"üöÄ D√©marrage du crawl sur : {domain}")
    print(f"üéØ Objectif : {max_levels} niveaux max")

    visited = set() #    # Set pour stocker les URLs d√©j√† vues (√©vite les boucles infinies)
    texts = [] #    # Liste qui contiendra les r√©sultats finaux (url, texte, niveau)
    
    # File d'attente pour le niveau actuel (commence avec l'URL de d√©part)
    current_level_queue = deque([start_url]) # # File d'attente (Queue) initiale contenant juste l'URL de d√©part
    # deque est optimis√© pour ajouter/retirer des √©l√©ments rapidement
    
    for level in range(max_levels):
        print(f"\n{'='*60}")
        print(f"üìç NIVEAU {level} : {len(current_level_queue)} pages √† explorer")
        print(f"{'='*60}")
        
        # Si la file est vide, on arr√™te tout (plus rien √† explorer)
        if not current_level_queue:
            print("üõë Plus aucun lien √† explorer √† ce niveau.")
            break
            
        # Pr√©paration de la file pour le PROCHAIN niveau
        # Nouvelle file vide pour stocker les enfants des pages actuelles
        next_level_queue = deque()
        links_found_at_this_level = 0
        
        # On vide la file du niveau actuel
        # Tant qu'il reste des pages dans la file du niveau courant...
        while current_level_queue:
            # On prend la premi√®re URL de la file (FIFO: First In, First Out)
            url = current_level_queue.popleft()
            # S√©curit√© anti-boucle : si on l'a d√©j√† vue, on passe    
            if url in visited:
                continue
            
            try:
                # Petite pause pour ne pas DDOS le site
                time.sleep(0.5)
                
                print(f"  Example ({len(visited)} total): {url}")
            
                # T√©l√©chargement de la page (timeout 10s pour ne pas bloquer)    
                response = requests.get(url, timeout=10)
                # Si erreur (404, 500, etc.), on ignore et on passe √† la suivante
                if response.status_code != 200:
                    print(f"    ‚ö†Ô∏è Status {response.status_code} - Ignor√©")
                    continue
                
                # Analyse du HTML avec BeautifulSoup
                soup = BeautifulSoup(response.text, "html.parser")
                
                # Extraction du texte
                text_content = soup.get_text(separator=" ").strip()

                # Stockage du r√©sultat
                texts.append({
                    "url": url, 
                    "text": text_content[:200] + "...", # On stocke les 200 premiers caract√®res (test)
                    "level": level})
                
                # Marquer comme visit√© pour ne plus jamais la refaire
                visited.add(url)
                
                # Recherche des liens pour le niveau suivant
                # On ne cherche des liens que si on n'est pas au dernier niveau demand√©
                if level < max_levels - 1:
                    # Trouve toutes les balises <a href="...">
                    page_links = soup.find_all("a", href=True)
                    for a in page_links:
                        # Convertit lien relatif (/blog) en absolu (https://site.com/blog)
                        link = urljoin(url, a["href"])
                        parsed_link = urlparse(link)
                        
                        # Conditions strictes pour ajouter √† la suite
                        if ("""parsed_link.netloc == domain and""" # reste sur le m√™me domaine
                            link not in visited and                # pas d√©j√† visit√©
                            link not in current_level_queue and    # pas dans la file actuelle
                            link not in next_level_queue and       # pas d√©j√† pr√©vu pour la suite
                            not parsed_link.fragment and           # pas d'ancre (#)
                            useful_url(link)):                     # appelle fonction filtres pour tri
                            
                            # Ajoute √† la file du PROCHAIN niveau
                            next_level_queue.append(link)
                            links_found_at_this_level += 1

            except Exception as e:#en cas de crash, affiche l'erreur et on continue
                print(f"    ‚ùå Erreur sur {url}: {e}")
                continue

        print(f"\n‚úÖ FIN NIVEAU {level}")
        print(f"üìä Liens trouv√©s pour le niveau {level+1} : {links_found_at_this_level}")
        
        # La file du prochain niveau devient la file courante pour le tour de boucle suivant

        current_level_queue = next_level_queue

    print(f"\nüéâ CRAWL TERMIN√â : {len(texts)} pages r√©cup√©r√©es au total.")
    return texts

In [80]:
# --- EX√âCUTION ---
if __name__ == "__main__":
    start_url = "https://www.mindbodygreen.com"
    
    # Lance le crawl (3 niveaux recommand√©s pour test : 0, 1, 2)
    data = crawl_by_levels(start_url, max_levels=3)
    
    # Affichage des r√©sultats
    print("\n--- 5 Premiers r√©sultats ---")
    for d in data:
        print(f"[Niveau {d['level']}] {d['url']}")

üöÄ D√©marrage du crawl sur : www.mindbodygreen.com
üéØ Objectif : 3 niveaux max

üìç NIVEAU 0 : 1 pages √† explorer
  Example (0 total): https://www.mindbodygreen.com

‚úÖ FIN NIVEAU 0
üìä Liens trouv√©s pour le niveau 1 : 38

üìç NIVEAU 1 : 38 pages √† explorer
  Example (1 total): https://www.mindbodygreen.com/accessibility
  Example (2 total): https://www.mindbodygreen.com/
  Example (3 total): https://www.mindbodygreen.com/newsletters
  Example (4 total): https://www.mindbodygreen.com/health
  Example (5 total): https://www.mindbodygreen.com/food
  Example (6 total): https://www.mindbodygreen.com/movement
  Example (7 total): https://www.mindbodygreen.com/beauty
  Example (8 total): https://www.mindbodygreen.com/articles/more-energy-with-less-caffeine-add-creatine
  Example (9 total): https://www.mindbodygreen.com/partner/california-walnuts
  Example (10 total): https://www.mindbodygreen.com/articles/want-to-elevate-your-holiday-entertaining-add-california-walnuts
  Example (

In [7]:
import requests

url = "https://www.mindbodygreen.com"

# Headers pour ressembler √† un vrai navigateur (Chrome sur Windows)
HEADERS = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/143.0.0.0 Safari/537.36 Edg/143.0.0.0",
    "Accept-Language": "en-US,en;q=0.5",
    "Referer": "https://www.google.com/"
}

print(f"Tentative de connexion √† {url}...")
try:
    # On met un timeout court (5s) pour ne pas attendre pour rien
    r = requests.get(url, headers=HEADERS, timeout=5)
    print(f"‚úÖ Succ√®s ! Status code: {r.status_code}")
    print(f"Taille de la page: {len(r.text)} caract√®res")
except Exception as e:
    print(f"‚ùå √âchec : {e}")


Tentative de connexion √† https://www.mindbodygreen.com...
‚úÖ Succ√®s ! Status code: 200
Taille de la page: 794778 caract√®res


In [None]:
import re
texte = "J'ai 123@ +ch ch-ats et.j'ai 456ch_iens!"

print(re.findall(r'\d+|[a-zA-Z]+', texte))  # garde les nombres et les mots (lettres uniquement)
print(re.findall(r'\b[a-zA-Z]+(?:-[a-zA-Z]+)*\b', texte.lower())) # parfait 
print(re.findall(r'\d+\w+', texte))         # garde les nombres (et les lettres + "_" qui s'y collent)
print(re.findall(r'\S+', texte))            # ignore juste les espaces
print(re.findall(r'\s+', texte))            # garde juste les espaces
print(re.findall(r'\W+', texte))            # ignore l'alphanum√©rique : garde juste les caract√®res sp√©ciaux
print(re.findall(r'\w+', texte))            # garde l'alphanum√©rique : ignore les caract√®res sp√©ciaux
print(re.findall(r'\D+', texte))            # ignore juste les nombres
print(re.findall(r'\d+', texte))            # garde juste les nombres
print(re.findall(r'ch\w*', texte))          # trouve les mots commen√ßant par "ch"
print(re.findall(r'\b\w+\b', texte))        # trouve tous les mots (s√©par√©s par des espaces ou ponctuations)
print(len(re.findall(r'\bch\b', texte)))    # compte l'occurrence du mot "ch" dans le texte

['J', 'ai', '123', 'ch', 'ch', 'ats', 'et', 'j', 'ai', '456', 'ch', 'iens']
['j', 'ai', 'ch', 'ch-ats', 'et', 'j', 'ai']
['123', '456ch_iens']
["J'ai", '123@', '+ch', 'ch-ats', "et.j'ai", '456ch_iens!']
[' ', ' ', ' ', ' ', ' ']
["'", ' ', '@ +', ' ', '-', ' ', '.', "'", ' ', '!']
['J', 'ai', '123', 'ch', 'ch', 'ats', 'et', 'j', 'ai', '456ch_iens']
["J'ai ", "@ +ch ch-ats et.j'ai ", 'ch_iens!']
['123', '456']
['ch', 'ch', 'ch_iens']
2
