In [41]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
import pandas as pd
import time
from datetime import datetime
import re

In [42]:
def setup_driver():
    """
    Configure et initialise le driver Selenium
    """
    chrome_options = Options()
    # Commenter la ligne suivante pour voir le navigateur (utile pour debug)
    # chrome_options.add_argument('--headless')  
    chrome_options.add_argument('--no-sandbox')
    chrome_options.add_argument('--disable-dev-shm-usage')
    chrome_options.add_argument('--disable-blink-features=AutomationControlled')
    chrome_options.add_argument('--user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36')
    chrome_options.add_argument('--window-size=1920,1080')
    chrome_options.add_argument('--disable-gpu')
    
    # Options pour √©viter la d√©tection
    chrome_options.add_experimental_option("excludeSwitches", ["enable-automation"])
    chrome_options.add_experimental_option('useAutomationExtension', False)
    
    service = Service(ChromeDriverManager().install())
    driver = webdriver.Chrome(service=service, options=chrome_options)
    
    # Masquer l'indicateur webdriver
    driver.execute_script("Object.defineProperty(navigator, 'webdriver', {get: () => undefined})")
    
    return driver

In [43]:
def wait_for_element(driver, by, value, timeout=10):
    """
    Attend qu'un √©l√©ment soit pr√©sent sur la page
    """
    try:
        element = WebDriverWait(driver, timeout).until(
            EC.presence_of_element_located((by, value))
        )
        return element
    except:
        return None

In [44]:
def extract_text_safe(driver, selector, by=By.CSS_SELECTOR):
    """
    Extrait le texte d'un √©l√©ment de mani√®re s√©curis√©e
    """
    try:
        element = driver.find_element(by, selector)
        return element.text.strip() if element else 'N/A'
    except:
        return 'N/A'

In [None]:
def extract_car_specs_automobile_tn(driver, specs_url):
    """
    Extrait les sp√©cifications techniques d'une voiture depuis la fiche technique
    """
    try:
        print(f"    üìã Extraction fiche technique...")
        driver.get(specs_url)
        time.sleep(3)
        
        specs_data = {}
        
        # Liste des caract√©ristiques √† extraire
        target_specs = [
            'Disponibilit√©',
            'Carrosserie',
            'Garantie',
            'Nombre de places',
            'Nombre de portes',
            'Nombre de cylindres',
            'Energie',
            'Puissance fiscale',
            'Couple',
            'Bo√Æte',
            'Nombre de rapports',
            'Consommation urbaine',
            'Consommation extra-urbaine'
        ]
        
        # Extraire toutes les tables de sp√©cifications
        tables = driver.find_elements(By.CSS_SELECTOR, 'table')
        
        spec_count = 0
        for table in tables:
            try:
                rows = table.find_elements(By.TAG_NAME, 'tr')
                for row in rows:
                    try:
                        th = row.find_element(By.TAG_NAME, 'th')
                        td = row.find_element(By.TAG_NAME, 'td')
                        
                        key = th.text.strip()
                        value = td.text.strip()
                        
                        # Extraire uniquement les caract√©ristiques cibl√©es
                        if key in target_specs and value:
                            specs_data[key] = value
                            spec_count += 1
                            print(f"      ‚úì {key}: {value}")
                    except:
                        continue
            except:
                continue
        
        print(f"    ‚úì {spec_count} sp√©cifications extraites")
        return specs_data
        
    except Exception as e:
        print(f"    ‚ùå Erreur extraction specs: {e}")
        return {}

In [50]:
def extract_version_details_automobile_tn(driver, model_url):
    """
    Extrait les d√©tails de toutes les versions d'un mod√®le
    """
    try:
        print(f"  üìÑ Chargement du mod√®le...")
        driver.get(model_url)
        time.sleep(3)
        
        versions_data = []
        
        # Extraire le nom du mod√®le
        try:
            model_name_elem = driver.find_element(By.CSS_SELECTOR, 'h1, .bloc-title h3')
            model_name = model_name_elem.text.strip()
        except:
            # Extraire depuis l'URL
            model_name = model_url.split('/')[-1].replace('-', ' ').title()
        
        print(f"  üöó Mod√®le: {model_name}")
        
        # V√©rifier si on est directement sur une fiche technique (pas de tableau de versions)
        version_rows = driver.find_elements(By.CSS_SELECTOR, 'table.versions tbody tr')
        
        if not version_rows or len(version_rows) == 0:
            print(f"  ‚ÑπÔ∏è Pas de tableau de versions - extraction directe de la fiche technique")
            
            # Extraire directement les donn√©es depuis la page actuelle
            car_data = {}
            car_data['Mod√®le'] = model_name
            car_data['Version'] = 'Version unique'
            
            # Extraire le prix si pr√©sent
            try:
                price_elem = driver.find_element(By.CSS_SELECTOR, '.price, .prix, span[class*="price"]')
                car_data['Prix'] = price_elem.text.strip()
                print(f"    üí∞ Prix: {car_data['Prix']}")
            except:
                car_data['Prix'] = 'N/A'
                print(f"    ‚ö†Ô∏è Prix non disponible")
            
            car_data['Promo'] = 'Non'
            
            # Extraire les sp√©cifications depuis la page actuelle
            specs_data = extract_car_specs_automobile_tn(driver, model_url)
            car_data.update(specs_data)
            car_data['URL'] = model_url
            
            versions_data.append(car_data)
            print(f"    ‚úÖ Fiche technique extraite")
            
        else:
            # Tableau de versions pr√©sent - extraction normale
            print(f"  üìä {len(version_rows)} version(s) trouv√©e(s)")
            print(f"  ‚ÑπÔ∏è Extraction de la premi√®re version uniquement")
            
            # Extraire seulement la premi√®re version
            for idx, row in enumerate(version_rows[:1], 1):
                try:
                    car_data = {}
                    car_data['Mod√®le'] = model_name
                    specs_url = model_url  # Initialiser avec l'URL du mod√®le par d√©faut
                    
                    # Extraire le nom de la version
                    version_link = row.find_element(By.CSS_SELECTOR, 'td.version a')
                    version_name = version_link.text.strip()
                    car_data['Version'] = version_name
                    
                    print(f"    [{idx}] {version_name}")
                    
                    # Extraire le prix
                    try:
                        price_elem = row.find_element(By.CSS_SELECTOR, 'td.price')
                        price_text = price_elem.text.strip()
                        car_data['Prix'] = price_text
                        print(f"      üí∞ Prix: {price_text}")
                    except Exception as e:
                        car_data['Prix'] = 'N/A'
                        print(f"      ‚ö†Ô∏è Prix non trouv√©: {e}")
                    
                    # V√©rifier si promo
                    try:
                        promo_badge = row.find_element(By.CSS_SELECTOR, 'span.badge.promo')
                        car_data['Promo'] = 'Oui'
                        
                        # Extraire ancien prix si disponible
                        try:
                            old_price = row.find_element(By.CSS_SELECTOR, 'i.text-muted s')
                            car_data['Ancien Prix'] = old_price.text.strip()
                            print(f"      üè∑Ô∏è Promo - Ancien prix: {car_data['Ancien Prix']}")
                        except:
                            pass
                    except:
                        car_data['Promo'] = 'Non'
                    
                    # Extraire le lien vers la fiche technique
                    try:
                        specs_link_elem = row.find_element(By.CSS_SELECTOR, 'td.specs a')
                        specs_url = specs_link_elem.get_attribute('href')
                        
                        if specs_url:
                            # Extraire les sp√©cifications
                            specs_data = extract_car_specs_automobile_tn(driver, specs_url)
                            car_data.update(specs_data)
                            
                            # Retourner √† la page du mod√®le
                            driver.get(model_url)
                            time.sleep(2)
                        else:
                            print(f"      ‚ö†Ô∏è Lien fiche technique vide")
                        
                    except Exception as e:
                        print(f"      ‚ö†Ô∏è Pas de fiche technique disponible: {e}")
                    
                    # URL de la version
                    car_data['URL'] = specs_url
                    
                    versions_data.append(car_data)
                    print(f"      ‚úÖ Version extraite")
                    
                except Exception as e:
                    print(f"      ‚ùå Erreur version {idx}: {e}")
                    import traceback
                    traceback.print_exc()
                    continue
        
        print(f"\n  ‚úÖ Total: {len(versions_data)} version(s) extraite(s) pour ce mod√®le")
        return versions_data
        
    except Exception as e:
        print(f"  ‚ùå Erreur g√©n√©rale: {e}")
        import traceback
        traceback.print_exc()
        return []

In [51]:
def get_car_model_links_automobile_tn(driver, search_url, start_page=1, max_pages=1, max_cars=None):
    """
    R√©cup√®re les liens vers les pages de mod√®les depuis la page de recherche avec pagination
    start_page: page de d√©part (par d√©faut 1)
    max_pages: nombre de pages √† scraper
    max_cars: nombre maximum de mod√®les √† r√©cup√©rer (None = tous)
    """
    all_model_links = []
    
    try:
        end_page = start_page + max_pages - 1
        print(f"üîç R√©cup√©ration des liens depuis les pages {start_page} √† {end_page}...")
        if max_cars:
            print(f"   Limite: {max_cars} mod√®les maximum")
        
        for page_num in range(start_page, end_page + 1):
            # V√©rifier si on a atteint la limite
            if max_cars and len(all_model_links) >= max_cars:
                print(f"\n‚úÖ Limite de {max_cars} mod√®les atteinte")
                break
            
            # Construire l'URL de la page
            if page_num == 1:
                page_url = search_url
            else:
                page_url = f"{search_url}?page={page_num}"
            
            print(f"\nüìÑ Page {page_num}: {page_url}")
            
            try:
                driver.get(page_url)
                time.sleep(4)
                
                # Scroll pour charger tous les √©l√©ments
                driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
                time.sleep(2)
                
                # Trouver tous les articles avec data-key
                articles = driver.find_elements(By.CSS_SELECTOR, 'div.articles span[data-key]')
                print(f"  üìä {len(articles)} mod√®le(s) trouv√©(s) sur cette page")
                
                page_links = []
                for article in articles:
                    # V√©rifier si on a atteint la limite
                    if max_cars and len(all_model_links) >= max_cars:
                        break
                        
                    try:
                        link_elem = article.find_element(By.CSS_SELECTOR, 'a[href*="/fr/neuf/"]')
                        href = link_elem.get_attribute('href')
                        
                        if href and href not in all_model_links:
                            all_model_links.append(href)
                            page_links.append(href)
                            
                            # Extraire le nom du mod√®le pour affichage
                            try:
                                model_title = link_elem.find_element(By.TAG_NAME, 'h2')
                                print(f"    ‚úì {model_title.text.strip()}")
                            except:
                                print(f"    ‚úì Lien trouv√©")
                                
                    except:
                        continue
                
                print(f"  ‚úì {len(page_links)} nouveau(x) mod√®le(s) sur cette page")
                print(f"  üìä Total actuel: {len(all_model_links)} mod√®les")
                
            except Exception as e:
                print(f"  ‚ùå Erreur sur la page {page_num}: {e}")
                continue
        
        print(f"\n‚úÖ Total: {len(all_model_links)} mod√®le(s) √† traiter")
        return all_model_links
        
    except Exception as e:
        print(f"‚ùå Erreur g√©n√©rale: {e}")
        import traceback
        traceback.print_exc()
        return all_model_links

In [52]:
def scrape_automobile_tn_selenium(start_page=1, max_pages=1, max_cars=None):
    """
    Fonction principale pour scraper automobile.tn
    start_page: page de d√©part (par d√©faut 1)
    max_pages: nombre de pages √† scraper
    max_cars: nombre maximum de mod√®les √† scraper (None = tous)
    """
    print(f"{'='*60}")
    print(f"üöÄ SCRAPING AUTOMOBILE.TN - {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
    print(f"{'='*60}")
    print(f"Pages: {start_page} √† {start_page + max_pages - 1}")
    if max_cars:
        print(f"Limite: {max_cars} mod√®le(s)")
    print()
    
    driver = None
    all_cars_data = []
    
    try:
        # Initialiser le driver
        print("üîß Configuration du WebDriver...")
        driver = setup_driver()
        print("‚úì WebDriver configur√©\n")
        
        search_url = "https://www.automobile.tn/fr/neuf/recherche/s="
        
        # R√©cup√©rer les liens des mod√®les
        model_links = get_car_model_links_automobile_tn(driver, search_url, start_page, max_pages, max_cars)
        
        if not model_links:
            print("‚ùå Aucun mod√®le trouv√©")
            return pd.DataFrame()
        
        # Traiter chaque mod√®le
        for i, model_url in enumerate(model_links, 1):
            print(f"\n{'='*60}")
            print(f"[{i}/{len(model_links)}] TRAITEMENT: {model_url}")
            print(f"{'='*60}")
            
            versions = extract_version_details_automobile_tn(driver, model_url)
            
            if versions:
                all_cars_data.extend(versions)
                print(f"\n  ‚úÖ {len(versions)} version(s) ajout√©e(s)")
            else:
                print(f"\n  ‚ùå Aucune version extraite")
            
            # Pause entre les mod√®les
            if i < len(model_links):
                print(f"\n  ‚è∏Ô∏è Pause de 3 secondes...")
                time.sleep(3)
        
    except Exception as e:
        print(f"\n‚ùå Erreur g√©n√©rale: {e}")
        import traceback
        traceback.print_exc()
    
    finally:
        # Fermer le driver
        if driver:
            driver.quit()
            print("\nüîí WebDriver ferm√©")
    
    # Cr√©er le DataFrame
    if all_cars_data:
        df = pd.DataFrame(all_cars_data)
        print(f"\n{'='*60}")
        print(f"‚úÖ SCRAPING TERMIN√â!")
        print(f"{'='*60}")
        print(f"Total: {len(all_cars_data)} voiture(s) extraite(s)")
        print(f"Colonnes: {len(df.columns)}")
        return df
    else:
        print("\n‚ùå Aucune donn√©e extraite")
        return pd.DataFrame()

In [53]:
# Scraper plusieurs pages pour obtenir 40 mod√®les
df_voitures = scrape_automobile_tn_selenium(start_page=1, max_pages=5, max_cars=40)

üöÄ SCRAPING AUTOMOBILE.TN - 2025-11-28 14:28:47
Pages: 1 √† 5
Limite: 40 mod√®le(s)

üîß Configuration du WebDriver...
‚úì WebDriver configur√©

üîç R√©cup√©ration des liens depuis les pages 1 √† 5...
   Limite: 40 mod√®les maximum

üìÑ Page 1: https://www.automobile.tn/fr/neuf/recherche/s=
‚úì WebDriver configur√©

üîç R√©cup√©ration des liens depuis les pages 1 √† 5...
   Limite: 40 mod√®les maximum

üìÑ Page 1: https://www.automobile.tn/fr/neuf/recherche/s=
  üìä 24 mod√®le(s) trouv√©(s) sur cette page
    ‚úì SKODA FABIA
    ‚úì SKODA KUSHAQ
    ‚úì SKODA SCALA
    ‚úì SKODA KAMIQ
    ‚úì SKODA OCTAVIA
    ‚úì SKODA SUPERB
    ‚úì AVANTIER AVANTIER C
    ‚úì SUZUKI CELERIO POPULAIRE
    ‚úì RENAULT KWID POPULAIRE
  üìä 24 mod√®le(s) trouv√©(s) sur cette page
    ‚úì SKODA FABIA
    ‚úì SKODA KUSHAQ
    ‚úì SKODA SCALA
    ‚úì SKODA KAMIQ
    ‚úì SKODA OCTAVIA
    ‚úì SKODA SUPERB
    ‚úì AVANTIER AVANTIER C
    ‚úì SUZUKI CELERIO POPULAIRE
    ‚úì RENAULT KWID POPULAIRE
  

In [54]:
# Afficher les r√©sultats
if not df_voitures.empty:
    print("\n" + "="*100)
    print("R√âSULTATS DU SCRAPING")
    print("="*100)
    display(df_voitures)
    
    print("\n" + "="*100)
    print("INFORMATIONS SUR LE DATASET")
    print("="*100)
    print(f"Nombre de voitures: {len(df_voitures)}")
    print(f"Nombre de colonnes: {len(df_voitures.columns)}")
    print(f"\nColonnes extraites:")
    for col in df_voitures.columns:
        print(f"  ‚Ä¢ {col}")
else:
    print("\n‚ùå Aucune donn√©e √† afficher")


R√âSULTATS DU SCRAPING


Unnamed: 0,Mod√®le,Version,Prix,Promo,Ancien Prix,DISPONIBILIT√â,CARROSSERIE,GARANTIE,NOMBRE DE PLACES,NOMBRE DE PORTES,...,KIT S√âCURIT√â,SYST√àME DE DESCENTE EN C√îTE,ORDINATEUR DE BORD,COFFRE √Ä BAGAGES,TEMPS DE RECHARGE RAPIDE (DC),CONTR√îLE DE PRESSION DES PNEUS,ANTIBROUILLARDS,AUTONOMIE √âLECTRIQUE (NEDC),R√âGULATEUR DE VITESSE,TAPIS DE SOL
0,SKODA FABIA,1.0 L MPI Essence,66 980 DT,Oui,68.980 DT,Disponible,Citadine,3 ans,5,5,...,,,,,,,,,,
1,SKODA KUSHAQ,1.0 TSI Ambition,78 980 DT,Non,,Sur arrivage,SUV,3 ans,5,5,...,,,,,,,,,,
2,SKODA SCALA,1.0 L TSI Essence DSG,86 980 DT,Oui,91.980 DT,Sur arrivage,Compacte,3 ans,5,5,...,,,,,,,,,,
3,SKODA KAMIQ,1.0 L TSI Essence DSG,89 980 DT,Oui,94.980 DT,Sur arrivage,SUV,3 ans,5,5,...,,,,,,,,,,
4,SKODA OCTAVIA,1.4 TSI Essence BVA,114 980 DT,Oui,124.980 DT,Disponible,Berline,3 ans,5,4,...,,,,,,,,,,
5,SKODA SUPERB,1.5 TSI Essence DSG,155 980 DT,Non,,En pr√©-commande,Berline,3 ans,5,5,...,,,,,,,,,,
6,AVANTIER AVANTIER C\n14 KWH,Version unique,√† partir de 32 800 DT,Non,,En pr√©-commande,Utilitaire,5 ans ou 100000 km | Batterie garantie 8 ans o...,2,3,...,,,,,,,,,,
7,SUZUKI CELERIO POPULAIRE\n1.0 L GL,Version unique,√† partir de 32 190 DT,Non,,Disponible | Sous r√©serve d'acceptation du dos...,Citadine,3 ans,5,5,...,,,,,,,,,,
8,RENAULT KWID POPULAIRE\n1.0 L,Version unique,,Non,,Sous r√©serve d'acceptation du dossier par le m...,SUV,2 ans,5,5,...,,,,,,,,,,
9,KIA PICANTO POPULAIRE\n1.0 L,Version unique,√† partir de 28 935 DT,Non,,Disponible | Sous r√©serve d'acceptation du dos...,Citadine,5 ans,5,5,...,,,,,,,,,,



INFORMATIONS SUR LE DATASET
Nombre de voitures: 40
Nombre de colonnes: 93

Colonnes extraites:
  ‚Ä¢ Mod√®le
  ‚Ä¢ Version
  ‚Ä¢ Prix
  ‚Ä¢ Promo
  ‚Ä¢ Ancien Prix
  ‚Ä¢ DISPONIBILIT√â
  ‚Ä¢ CARROSSERIE
  ‚Ä¢ GARANTIE
  ‚Ä¢ NOMBRE DE PLACES
  ‚Ä¢ NOMBRE DE PORTES
  ‚Ä¢ NOMBRE DE CYLINDRES
  ‚Ä¢ ENERGIE
  ‚Ä¢ PUISSANCE FISCALE
  ‚Ä¢ PUISSANCE (CH.DIN)
  ‚Ä¢ COUPLE
  ‚Ä¢ CYLINDR√âE
  ‚Ä¢ BO√éTE
  ‚Ä¢ NOMBRE DE RAPPORTS
  ‚Ä¢ TRANSMISSION
  ‚Ä¢ LONGUEUR
  ‚Ä¢ LARGEUR
  ‚Ä¢ HAUTEUR
  ‚Ä¢ VOLUME DU COFFRE
  ‚Ä¢ 0-100 KM/H
  ‚Ä¢ VITESSE MAXI
  ‚Ä¢ CONSOMMATION URBAINE
  ‚Ä¢ CONSOMMATION EXTRA-URBAINE
  ‚Ä¢ CONSOMMATION MIXTE
  ‚Ä¢ EMISSIONS DE CO2
  ‚Ä¢ AIRBAGS
  ‚Ä¢ ANTI-PATINAGE
  ‚Ä¢ BARRE STABILISATRICE
  ‚Ä¢ CALANDRE
  ‚Ä¢ EL√âMENTS EXT√âRIEURS COULEUR CARROSSERIE
  ‚Ä¢ FEUX √Ä LED
  ‚Ä¢ JANTES
  ‚Ä¢ PHARES
  ‚Ä¢ AUTORADIO
  ‚Ä¢ CONNECTIVIT√â
  ‚Ä¢ ECRAN CENTRAL
  ‚Ä¢ ACCOUDOIRS
  ‚Ä¢ APPUIS T√äTES ARRI√àRES
  ‚Ä¢ KIT RANGEMENT
  ‚Ä¢ POMMEAU DE LEVIER DE VITESSE
  ‚Ä¢ SELLERIE
  ‚Ä¢ SI

In [55]:
# Afficher les d√©tails de la premi√®re voiture
if not df_voitures.empty:
    print("\n" + "="*100)
    print("D√âTAILS DE LA PREMI√àRE VOITURE")
    print("="*100)
    for col, value in df_voitures.iloc[7].items():
        print(f"{col:30s}: {value}")


D√âTAILS DE LA PREMI√àRE VOITURE
Mod√®le                        : SUZUKI CELERIO POPULAIRE
1.0 L GL
Version                       : Version unique
Prix                          : √† partir de 32 190 DT
Promo                         : Non
Ancien Prix                   : nan
DISPONIBILIT√â                 : Disponible | Sous r√©serve d'acceptation du dossier par le minist√®re du commerce
CARROSSERIE                   : Citadine
GARANTIE                      : 3 ans
NOMBRE DE PLACES              : 5
NOMBRE DE PORTES              : 5
NOMBRE DE CYLINDRES           : 3
ENERGIE                       : Essence
PUISSANCE FISCALE             : 4 CV
PUISSANCE (CH.DIN)            : 68 CH
COUPLE                        : 90 nm 3500 tr/min
CYLINDR√âE                     : 998 CM¬≥
BO√éTE                         : Manuelle
NOMBRE DE RAPPORTS            : 5
TRANSMISSION                  : Traction
LONGUEUR                      : 3695 mm
LARGEUR                       : 1655 mm
HAUTEUR                  

### Sauvegarde des donn√©es

In [56]:
# Sauvegarder les donn√©es en CSV et Excel
if not df_voitures.empty:
    timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')
    
    # CSV
    csv_filename = f"automobile_tn_{timestamp}.csv"
    df_voitures.to_csv(csv_filename, index=False, encoding='utf-8-sig')
    print(f"\nüíæ Donn√©es sauvegard√©es dans: {csv_filename}")
    
    # Excel
    try:
        excel_filename = f"automobile_tn_{timestamp}.xlsx"
        df_voitures.to_excel(excel_filename, index=False, engine='openpyxl')
        print(f"üíæ Donn√©es sauvegard√©es dans: {excel_filename}")
    except:
        print("‚ö†Ô∏è Installation d'openpyxl n√©cessaire pour Excel")
else:
    print("\n‚ùå Aucune donn√©e √† sauvegarder")


üíæ Donn√©es sauvegard√©es dans: automobile_tn_20251128_145956.csv
üíæ Donn√©es sauvegard√©es dans: automobile_tn_20251128_145956.xlsx
