In [9]:
import requests
from bs4 import BeautifulSoup
import time
import json
from urllib.parse import urljoin
import os

# Scrape car listings from Avito.ma

In [35]:
BASE_URL = "https://www.avito.ma"
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}

def get_car_links(pages=5):
    """Récupère les liens des annonces avec la pagination spécifique d'Avito"""
    car_links = []
    
    for page in range(0, pages ):
        # Construction spéciale des URLs selon la page
        if page == 1:
            url = f"{BASE_URL}/fr/maroc/voiture"
        else:
            url = f"{BASE_URL}/fr/maroc/voiture?o={page}"
        
        try:
            response = requests.get(url, headers=HEADERS)
            response.raise_for_status() #check for errors
            soup = BeautifulSoup(response.text, 'html.parser')
            
            # Sélecteur précis avec vérification des liens de voitures
            listings = soup.select('a.sc-1jge648-0[href*="/fr/"][href*="voitures"]')
            
            for link in listings:
                full_url = urljoin(BASE_URL, link['href'])
                if full_url not in car_links:
                    car_links.append(full_url)
            
            print(f"✅ Page {page + 1} traitée - {len(listings)} nouvelles annonces")
            time.sleep(3)  # Délai pour éviter le blocage
            
        except Exception as e:
            print(f"❌ Erreur page {page}: {str(e)}")
            continue
    
    print(f"\nTotal des annonces uniques trouvées : {len(car_links)}")
    return car_links

# Exemple d'utilisation
if __name__ == "__main__":
    car_links = get_car_links(pages=1)  # Récupère les 3 premières pages

✅ Page 1 traitée - 35 nouvelles annonces

Total des annonces uniques trouvées : 35


# Extracting detailed information from individual car listing pages on Avito.ma

In [26]:
def scrape_car_details(url):
    """Scrape les détails d'une annonce avec les nouvelles classes"""
    try:
        response = requests.get(url, headers=HEADERS)
        response.raise_for_status()
        soup = BeautifulSoup(response.text, 'html.parser')
        specs = soup.find_all('span', class_="sc-1x0vz2r-0 fjZBup")  # Classe partagée

        # On suppose ici que les données sont toujours dans le même ordre
        annee = specs[0].get_text(strip=True) if len(specs) > 0 else 'NULL'
        carburant = specs[1].get_text(strip=True) if len(specs) > 1 else 'NULL'
        boite = specs[2].get_text(strip=True) if len(specs) > 2 else 'NULL'
        marque = specs[3].get_text(strip=True) if len(specs) > 3 else 'NULL'

        
        # Extraction des données avec les nouveaux sélecteurs
        details = {
            'titre': soup.find('h1', class_="sc-1veij0r-5 eSKrMN").get_text(strip=True) if soup.find('h1',class_="sc-1veij0r-5 eSKrMN") else 'NULL',
            'prix': soup.find('p', class_="sc-1x0vz2r-0 lnEFFR sc-1veij0r-10 jdRkSM").get_text(strip=True) if soup.find('p', class_="sc-1x0vz2r-0 lnEFFR sc-1veij0r-10 jdRkSM") else 'NULL',
            'ville': soup.find('span', class_="sc-1x0vz2r-0 iKguVF").get_text(strip=True) if soup.find('span', class_="sc-1x0vz2r-0 iKguVF") else 'NULL',
            # 'annee': soup.find('span', class_="sc-1x0vz2r-0 fjZBup").find_next('span').get_text(strip=True) if soup.find('span', class_="sc-1x0vz2r-0 fjZBup") else 'NULL',
            # 'carburant': soup.find('span', class_="sc-1x0vz2r-0 fjZBup").find_next('span').get_text(strip=True) if soup.find('span', class_="sc-1x0vz2r-0 fjZBup") else 'NULL',
            # 'boite': soup.find('span', class_="sc-1x0vz2r-0 fjZBup").find_next('span').get_text(strip=True) if soup.find('span', class_="sc-1x0vz2r-0 fjZBup") else 'NULL',
            # 'marque':soup.find('span', class_="sc-1x0vz2r-0 fjZBup").find_next('span').get_text(strip=True) if soup.find('span', class_="sc-1x0vz2r-0 fjZBup") else 'NULL',
            'annee': annee,
            'carburant': carburant,
            'boite': boite,
            'marque': marque
            # 'url': url
        }
        
        # Nettoyage des données
        details = {k: v for k, v in details.items() if v is not None}
        return details
    
    except Exception as e:
        print(f"❌ Erreur sur {url[:50]}...: {str(e)}")
        return None
print("lol")

lol


#  Main scraping process. 

In [38]:
# Exécution du script
if __name__ == "__main__":
    print("🔍 Début du scraping Avito.ma...")
    
    # 1. Récupération des liens
    print("🔄 Collecte des liens d'annonces...")
    car_links = get_car_links(pages=20)
    
    # 2. Scraping des détails
    print(f"\n🚗 Début du scraping des {len(car_links)} annonces...")
    results = []
    
    for i, link in enumerate(car_links, 1):
        print(f"⏳ Traitement {i}/{len(car_links)}: {link[:60]}...")
        car_data = scrape_car_details(link)
        if car_data:
            results.append(car_data)
        time.sleep(4)  # Délai important pour éviter le blocage
    
    # 3. Sauvegarde des résultats
    with open('avito_voitures_20242.json', 'w', encoding='utf-8') as f:
        json.dump(results, f, ensure_ascii=False, indent=2)
    
    print(f"\n✅ Scraping terminé! {len(results)} annonces sauvegardées.")

🔍 Début du scraping Avito.ma...
🔄 Collecte des liens d'annonces...
✅ Page 1 traitée - 34 nouvelles annonces
✅ Page 2 traitée - 34 nouvelles annonces
✅ Page 3 traitée - 35 nouvelles annonces
✅ Page 4 traitée - 33 nouvelles annonces
✅ Page 5 traitée - 34 nouvelles annonces
✅ Page 6 traitée - 30 nouvelles annonces
✅ Page 7 traitée - 32 nouvelles annonces
✅ Page 8 traitée - 32 nouvelles annonces
✅ Page 9 traitée - 34 nouvelles annonces
✅ Page 10 traitée - 34 nouvelles annonces
✅ Page 11 traitée - 31 nouvelles annonces
✅ Page 12 traitée - 32 nouvelles annonces
✅ Page 13 traitée - 33 nouvelles annonces
✅ Page 14 traitée - 32 nouvelles annonces
✅ Page 15 traitée - 32 nouvelles annonces
✅ Page 16 traitée - 35 nouvelles annonces
✅ Page 17 traitée - 30 nouvelles annonces
✅ Page 18 traitée - 32 nouvelles annonces
✅ Page 19 traitée - 34 nouvelles annonces
✅ Page 20 traitée - 33 nouvelles annonces

Total des annonces uniques trouvées : 603

🚗 Début du scraping des 603 annonces...
⏳ Traitement 1/603

# Charger les données depuis le fichier JSON : overwrite the excel file

In [39]:
with open('avito_voitures_20242.json', 'r', encoding='utf-8') as f:
    data = json.load(f)

# Convertir en DataFrame
df = pd.DataFrame(data)

# Enregistrer en Excel
df.to_excel('voitures_avito.xlsx', index=False, engine='openpyxl')

print("Fichier Excel créé avec succès!")

Fichier Excel créé avec succès!
