In [2]:
import requests
from bs4 import BeautifulSoup
import time
import json
from urllib.parse import urljoin

In [60]:
BASE_URL = "https://www.avito.ma"
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}

def get_car_links(pages=3):
    """Récupère les liens des annonces avec la pagination spécifique d'Avito"""
    car_links = []
    
    for page in range(1, pages + 1):
        # Construction spéciale des URLs selon la page
        if page == 1:
            url = f"{BASE_URL}/fr/maroc/voiture"
        else:
            url = f"{BASE_URL}/fr/maroc/voiture?o={page}"
        
        try:
            response = requests.get(url, headers=HEADERS)
            response.raise_for_status()
            soup = BeautifulSoup(response.text, 'html.parser')
            
            # Sélecteur précis avec vérification des liens de voitures
            listings = soup.select('a.sc-1jge648-0[href*="/fr/"][href*="voitures"]')
            
            for link in listings:
                full_url = urljoin(BASE_URL, link['href'])
                if full_url not in car_links:
                    car_links.append(full_url)
            
            print(f"✅ Page {page} traitée - {len(listings)} nouvelles annonces")
            time.sleep(3)  # Délai pour éviter le blocage
            
        except Exception as e:
            print(f"❌ Erreur page {page}: {str(e)}")
            continue
    
    print(f"\nTotal des annonces uniques trouvées : {len(car_links)}")
    return car_links

# Exemple d'utilisation
if __name__ == "__main__":
    car_links = get_car_links(pages=1)  # Récupère les 3 premières pages

✅ Page 1 traitée - 33 nouvelles annonces

Total des annonces uniques trouvées : 33


In [62]:
def scrape_car_details(url):
    """Scrape les détails d'une annonce avec les nouvelles classes"""
    try:
        response = requests.get(url, headers=HEADERS)
        response.raise_for_status()
        soup = BeautifulSoup(response.text, 'html.parser')
        specs = soup.find_all('span', class_="sc-1x0vz2r-0 fjZBup")  # Classe partagée
        # Extraction des données avec les nouveaux sélecteurs
        details = {
            'titre': soup.find('h1', class_="sc-1veij0r-5 eSKrMN").get_text(strip=True) if soup.find('h1',class_="sc-1veij0r-5 eSKrMN") else 'NULL',
            'prix': soup.find('p', class_="sc-1x0vz2r-0 lnEFFR sc-1veij0r-10 jdRkSM").get_text(strip=True) if soup.find('p', class_="sc-1x0vz2r-0 lnEFFR sc-1veij0r-10 jdRkSM") else 'NULL',
            'ville': soup.find('span', class_="sc-1x0vz2r-0 iKguVF").get_text(strip=True) if soup.find('span', class_="sc-1x0vz2r-0 iKguVF") else 'NULL',
            'annee': soup.find('span', class_="sc-1x0vz2r-0 fjZBup").find_next('span').get_text(strip=True) if soup.find('span', class_="sc-1x0vz2r-0 fjZBup") else 'NULL',
            #'carburant': soup.find('span', class_="sc-1x0vz2r-0 fjZBup").find_next('span').get_text(strip=True) if soup.find('span', class_="sc-1x0vz2r-0 fjZBup") else 'NULL',
            #'boite': soup.find('span', class_="sc-1x0vz2r-0 fjZBup").find_next('span').get_text(strip=True) if soup.find('span', class_="sc-1x0vz2r-0 fjZBup") else 'NULL',
            #'marque':soup.find('span', class_="sc-1x0vz2r-0 fjZBup").find_next('span').get_text(strip=True) if soup.find('span', class_="sc-1x0vz2r-0 fjZBup") else 'NULL',
            # 'url': url
        }
        
        # Nettoyage des données
        details = {k: v for k, v in details.items() if v is not None}
        return details
    
    except Exception as e:
        print(f"❌ Erreur sur {url[:50]}...: {str(e)}")
        return None


In [64]:
# Exécution du script
if __name__ == "__main__":
    print("🔍 Début du scraping Avito.ma...")
    
    # 1. Récupération des liens
    print("🔄 Collecte des liens d'annonces...")
    car_links = get_car_links(pages=2)
    
    # 2. Scraping des détails
    print(f"\n🚗 Début du scraping des {len(car_links)} annonces...")
    results = []
    
    for i, link in enumerate(car_links, 1):
        print(f"⏳ Traitement {i}/{len(car_links)}: {link[:60]}...")
        car_data = scrape_car_details(link)
        if car_data:
            results.append(car_data)
        time.sleep(4)  # Délai important pour éviter le blocage
    
    # 3. Sauvegarde des résultats
    with open('avito_voitures_20242.json', 'w', encoding='utf-8') as f:
        json.dump(results, f, ensure_ascii=False, indent=2)
    
    print(f"\n✅ Scraping terminé! {len(results)} annonces sauvegardées.")

🔍 Début du scraping Avito.ma...
🔄 Collecte des liens d'annonces...
✅ Page 1 traitée - 33 nouvelles annonces
✅ Page 2 traitée - 34 nouvelles annonces

Total des annonces uniques trouvées : 63

🚗 Début du scraping des 63 annonces...
⏳ Traitement 1/63: https://www.avito.ma/fr/aïn_diab/voitures_de_location/Dacia_...
⏳ Traitement 2/63: https://www.avito.ma/fr/hay_mohammadi/voitures_d'occasion/sk...
⏳ Traitement 3/63: https://www.avito.ma/fr/mdiq/voitures_de_location/Location_v...
⏳ Traitement 4/63: https://www.avito.ma/fr/casablanca_finance_city/voitures_de_...
⏳ Traitement 5/63: https://www.avito.ma/fr/bournazil/voitures_d'occasion/hyunda...
⏳ Traitement 6/63: https://www.avito.ma/fr/zerhounia/voitures_d'occasion/RANGE_...
⏳ Traitement 7/63: https://www.avito.ma/fr/hay_essaâda/voitures_d'occasion/Volk...
⏳ Traitement 8/63: https://www.avito.ma/fr/riviera/voitures_d'occasion/Audi_Q8_...
⏳ Traitement 9/63: https://www.avito.ma/fr/aïn_chock/voitures_d'occasion/kia_pi...
⏳ Traitement 10/63: ht

In [48]:
import pandas as pd
import json

# Charger les données depuis le fichier JSON
with open('avito_voitures2.json', 'r', encoding='utf-8') as f:
    data = json.load(f)

# Convertir en DataFrame
df = pd.DataFrame(data)

# Enregistrer en Excel
df.to_excel('voitures_avito.xlsx', index=False, engine='openpyxl')

print("Fichier Excel créé avec succès!")

FileNotFoundError: [Errno 2] No such file or directory: 'avito_voitures2.json'