In [None]:
from selenium import webdriver
from bs4 import BeautifulSoup
import time
import csv
import os
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

base_url = 'https://www.avito.ma/fr/maroc/v%C3%A9hicules'
path = r'C:\Users\HP830G5\Downloads\chromedriver-win64\chromedriver-win64\chromedriver.exe'
csv_file = r"C:\Users\HP830G5\Music\cars_price_prediction\data\scrapped\avito_cars_scrapping.csv"

def avito_scraper():
    service = Service(executable_path=path)
    driver = webdriver.Chrome(service=service)

    labels = ["Date Pub", "Année-Modèle", "Boite de vitesses", "Type de carburant",
              "Kilométrage", "Marque", "Modèle", "Nombre de portes",
              "Origine", "Première main", "Puissance fiscale", "État", "Prix"]

    file_exists = os.path.exists(csv_file)
    # Mode "a" pour ajouter à la fin du fichier
    with open(csv_file, "a", newline='', encoding="utf-8-sig") as f:
        writer = csv.DictWriter(f, fieldnames=labels)
        if not file_exists:  # écrire l'en-tête si le fichier n'existe pas
            writer.writeheader()

        for page in range(1, 50):
            print(f"Scraping page {page}...")
            url = f"{base_url}?o={page}"
            driver.get(url)
            time.sleep(4)

            html = driver.page_source
            soup = BeautifulSoup(html, 'lxml')

            all_links = soup.find_all('a', href=True)
            links = [link for link in all_links if '/voitures_d_occasion/' in link['href']]

            if not links:
                print("Aucune annonce trouvée. Fin du scraping.")
                break

            print(f"{len(links)} annonces trouvées")

            urls, prix_list, date_pub = [], [], []

            for link in links:
                href = link.get('href')
                full_url = href if href.startswith("https") else "https://www.avito.ma" + href
                urls.append(full_url)

                prix_tag = link.find('span', string=lambda x: x and 'DH' in x)
                if not prix_tag:
                    parent = link.find_parent()
                    if parent:
                        prix_tag = parent.find('span', string=lambda x: x and 'DH' in x)
                prix_list.append(prix_tag.text.strip() if prix_tag else "Prix non disponible")

                date_tag = link.find('p', class_=lambda x: x and 'sc-1x0vz2r' in x)
                if not date_tag:
                    parent = link.find_parent()
                    if parent:
                        date_tag = parent.find('p', class_=lambda x: x and 'sc-1x0vz2r' in x)
                date_pub.append(date_tag.text.strip() if date_tag else "Date inconnue")

            data = []

            for i, car_url in enumerate(urls):
                print(f"  Voiture {i+1}/{len(urls)}")
                driver.get(car_url)
                time.sleep(3)

                try:
                    bouton = WebDriverWait(driver, 3).until(
                        EC.presence_of_element_located((By.XPATH, "//button[@aria-label='Voir plus']"))
                    )
                    driver.execute_script("arguments[0].scrollIntoView(true);", bouton)
                    driver.execute_script("arguments[0].click();", bouton)
                    time.sleep(2)
                except:
                    pass

                html_link = driver.page_source
                soup = BeautifulSoup(html_link, 'lxml')

                blocs = soup.find_all('div', class_=lambda x: x and ('sc-cd1c365e-2' in str(x)))

                infos = {label: "" for label in labels}
                infos["Date Pub"] = date_pub[i] if i < len(date_pub) else ""
                infos["Prix"] = prix_list[i] if i < len(prix_list) else ""

                for bloc in blocs:
                    spans = bloc.find_all('span')
                    if len(spans) >= 2:
                        valeur = spans[0].get_text(strip=True)
                        label = spans[1].get_text(strip=True)
                        if label in infos:
                            infos[label] = valeur

                data.append(infos)
                print(f"    {infos.get('Marque', 'N/A')} - {infos['Prix']}")

            for voiture in data:
                writer.writerow(voiture)

            f.flush()
            print(f"Page {page} terminée — {len(data)} voitures ajoutées.\n")
            time.sleep(2)

    driver.quit()
    print(f"Scraping terminé. Fichier : {csv_file}")
    print("Les nouvelles voitures ont été ajoutées à la fin du fichier existant.")

if __name__ == "__main__":
    avito_scraper()


Scraping page 1...
25 annonces trouvées
  Voiture 1/25
    Volkswagen - DH
  Voiture 2/25
    Mercedes-Benz - DH
  Voiture 3/25
    Volkswagen - DH
  Voiture 4/25
    Porsche - DH
  Voiture 5/25
    Volvo - DH
  Voiture 6/25
    Mercedes-Benz - DH
  Voiture 7/25
    Dacia - DH
  Voiture 8/25
    Audi - DH
  Voiture 9/25
    Renault - DH
  Voiture 10/25
    Foton - DH
  Voiture 11/25
    Fiat - DH
  Voiture 12/25
    Mercedes-Benz - DH
  Voiture 13/25


In [None]:
#8
#254468951141.2152
#53884888659.18
#-184250224061.4572