In [2]:
import requests
from bs4 import BeautifulSoup
import time
import json
from urllib.parse import urljoin

In [60]:
BASE_URL = "https://www.avito.ma"
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}

def get_car_links(pages=3):
    """R√©cup√®re les liens des annonces avec la pagination sp√©cifique d'Avito"""
    car_links = []
    
    for page in range(1, pages + 1):
        # Construction sp√©ciale des URLs selon la page
        if page == 1:
            url = f"{BASE_URL}/fr/maroc/voiture"
        else:
            url = f"{BASE_URL}/fr/maroc/voiture?o={page}"
        
        try:
            response = requests.get(url, headers=HEADERS)
            response.raise_for_status()
            soup = BeautifulSoup(response.text, 'html.parser')
            
            # S√©lecteur pr√©cis avec v√©rification des liens de voitures
            listings = soup.select('a.sc-1jge648-0[href*="/fr/"][href*="voitures"]')
            
            for link in listings:
                full_url = urljoin(BASE_URL, link['href'])
                if full_url not in car_links:
                    car_links.append(full_url)
            
            print(f"‚úÖ Page {page} trait√©e - {len(listings)} nouvelles annonces")
            time.sleep(3)  # D√©lai pour √©viter le blocage
            
        except Exception as e:
            print(f"‚ùå Erreur page {page}: {str(e)}")
            continue
    
    print(f"\nTotal des annonces uniques trouv√©es : {len(car_links)}")
    return car_links

# Exemple d'utilisation
if __name__ == "__main__":
    car_links = get_car_links(pages=1)  # R√©cup√®re les 3 premi√®res pages

‚úÖ Page 1 trait√©e - 33 nouvelles annonces

Total des annonces uniques trouv√©es : 33


In [62]:
def scrape_car_details(url):
    """Scrape les d√©tails d'une annonce avec les nouvelles classes"""
    try:
        response = requests.get(url, headers=HEADERS)
        response.raise_for_status()
        soup = BeautifulSoup(response.text, 'html.parser')
        specs = soup.find_all('span', class_="sc-1x0vz2r-0 fjZBup")  # Classe partag√©e
        # Extraction des donn√©es avec les nouveaux s√©lecteurs
        details = {
            'titre': soup.find('h1', class_="sc-1veij0r-5 eSKrMN").get_text(strip=True) if soup.find('h1',class_="sc-1veij0r-5 eSKrMN") else 'NULL',
            'prix': soup.find('p', class_="sc-1x0vz2r-0 lnEFFR sc-1veij0r-10 jdRkSM").get_text(strip=True) if soup.find('p', class_="sc-1x0vz2r-0 lnEFFR sc-1veij0r-10 jdRkSM") else 'NULL',
            'ville': soup.find('span', class_="sc-1x0vz2r-0 iKguVF").get_text(strip=True) if soup.find('span', class_="sc-1x0vz2r-0 iKguVF") else 'NULL',
            'annee': soup.find('span', class_="sc-1x0vz2r-0 fjZBup").find_next('span').get_text(strip=True) if soup.find('span', class_="sc-1x0vz2r-0 fjZBup") else 'NULL',
            #'carburant': soup.find('span', class_="sc-1x0vz2r-0 fjZBup").find_next('span').get_text(strip=True) if soup.find('span', class_="sc-1x0vz2r-0 fjZBup") else 'NULL',
            #'boite': soup.find('span', class_="sc-1x0vz2r-0 fjZBup").find_next('span').get_text(strip=True) if soup.find('span', class_="sc-1x0vz2r-0 fjZBup") else 'NULL',
            #'marque':soup.find('span', class_="sc-1x0vz2r-0 fjZBup").find_next('span').get_text(strip=True) if soup.find('span', class_="sc-1x0vz2r-0 fjZBup") else 'NULL',
            # 'url': url
        }
        
        # Nettoyage des donn√©es
        details = {k: v for k, v in details.items() if v is not None}
        return details
    
    except Exception as e:
        print(f"‚ùå Erreur sur {url[:50]}...: {str(e)}")
        return None


In [64]:
# Ex√©cution du script
if __name__ == "__main__":
    print("üîç D√©but du scraping Avito.ma...")
    
    # 1. R√©cup√©ration des liens
    print("üîÑ Collecte des liens d'annonces...")
    car_links = get_car_links(pages=2)
    
    # 2. Scraping des d√©tails
    print(f"\nüöó D√©but du scraping des {len(car_links)} annonces...")
    results = []
    
    for i, link in enumerate(car_links, 1):
        print(f"‚è≥ Traitement {i}/{len(car_links)}: {link[:60]}...")
        car_data = scrape_car_details(link)
        if car_data:
            results.append(car_data)
        time.sleep(4)  # D√©lai important pour √©viter le blocage
    
    # 3. Sauvegarde des r√©sultats
    with open('avito_voitures_20242.json', 'w', encoding='utf-8') as f:
        json.dump(results, f, ensure_ascii=False, indent=2)
    
    print(f"\n‚úÖ Scraping termin√©! {len(results)} annonces sauvegard√©es.")

üîç D√©but du scraping Avito.ma...
üîÑ Collecte des liens d'annonces...
‚úÖ Page 1 trait√©e - 33 nouvelles annonces
‚úÖ Page 2 trait√©e - 34 nouvelles annonces

Total des annonces uniques trouv√©es : 63

üöó D√©but du scraping des 63 annonces...
‚è≥ Traitement 1/63: https://www.avito.ma/fr/a√Øn_diab/voitures_de_location/Dacia_...
‚è≥ Traitement 2/63: https://www.avito.ma/fr/hay_mohammadi/voitures_d'occasion/sk...
‚è≥ Traitement 3/63: https://www.avito.ma/fr/mdiq/voitures_de_location/Location_v...
‚è≥ Traitement 4/63: https://www.avito.ma/fr/casablanca_finance_city/voitures_de_...
‚è≥ Traitement 5/63: https://www.avito.ma/fr/bournazil/voitures_d'occasion/hyunda...
‚è≥ Traitement 6/63: https://www.avito.ma/fr/zerhounia/voitures_d'occasion/RANGE_...
‚è≥ Traitement 7/63: https://www.avito.ma/fr/hay_essa√¢da/voitures_d'occasion/Volk...
‚è≥ Traitement 8/63: https://www.avito.ma/fr/riviera/voitures_d'occasion/Audi_Q8_...
‚è≥ Traitement 9/63: https://www.avito.ma/fr/a√Øn_chock/voitures_d'oc

In [48]:
import pandas as pd
import json

# Charger les donn√©es depuis le fichier JSON
with open('avito_voitures2.json', 'r', encoding='utf-8') as f:
    data = json.load(f)

# Convertir en DataFrame
df = pd.DataFrame(data)

# Enregistrer en Excel
df.to_excel('voitures_avito.xlsx', index=False, engine='openpyxl')

print("Fichier Excel cr√©√© avec succ√®s!")

FileNotFoundError: [Errno 2] No such file or directory: 'avito_voitures2.json'