# 🧪 Scraping Test - Pipeline de scraping (étape 1)

Ce notebook a pour objectif de tester le pipeline de scraping sur un échantillon de produits depuis eBay.

🎯 **Objectif** :
- Identifier les balises HTML utiles
- Tester la récupération des informations (titre, prix, lien)
- Éviter la surcharge mémoire, disque et processeur
- Valider la faisabilité du scraping

🔄 **Pipeline de scraping (résumé)** :
1. Définir les sites à scraper
2. Inspecter la structure HTML des pages
3. Identifier les sélecteurs (balises CSS/HTML)
4. Automatiser avec `requests` et `BeautifulSoup`
5. Limiter à quelques résultats (`limit=5`)
6. Ne pas stocker localement pour ce test


In [3]:
produits = [
    {
        "nom": "Shop on eBay",
        "prix": "$20.00",
        "lien": "https://ebay.com/itm/123456?itmmeta=012DEW30YG0MEEKND7NH&hash=item123546:g:acwAA9KNiJowH:sc:ShippingMethodStandard!95008!US!-1&itmprp=enc%3AbgepL1tlUHjMGCVfSTGJh%2BzsVKeJ3CQk7NizDI4BZeppuFnmyS6Ijyp8lh%2FnEw%2BWqO7uTV1Q6izE1R0T54aV8j71F4xlWfVcGft4%2FiOQhtqVXA1rW6M1atPARQRmhqUxtEPJKhKtSFgI%2Bvwlzb0GwVCtkp%3ABlBMUObkmabpYw"
    },
    {
        "nom": "Shop on eBay",
        "prix": "$20.00",
        "lien": "https://ebay.com/itm/123456?itmmeta=012DEW30YG0MEEKND7NH&hash=item123546:g:acwAA9KNiJowH:sc:ShippingMethodStandard!95008!US!-1&itmprp=enc%3AbgepL1tlUHjMGCVfSTGJh%2BzsVKeJ3CQk7NizDI4BZeppuFnmyS6Ijyp8lh%2FnEw%2BWqO7uTV1Q6izE1R0T54aV8j71F4xlWfVcGft4%2FiOQhtqVXA1rW6M1atPARQRmhqUxtEPJKhKtSFgI%2Bvwlzb0GwVCtkp%3ABlBMUObkmabpYw"
    },
    {
        "nom": "Dell Latitude 5420 Laptop 14\" Windows 11 Intel Core i5 4.4GHz 8GB RAM 128GB SSD",
        "prix": "$211.40",
        "lien": "https://www.ebay.com/itm/254582474636?_skw=laptop&hash=item3b464c478c:g:fjgAAOSw7XdoIwd3&itmprp=enc%3AAQAKAAAA4FkggFvd1GGDu0w3yXCmi1d2u%2BTJbpfFCtqBvCGWMvOfwGYUdBf0vbUDSuT%2Fx8QFbAMnvQmv%2F7HMTEIGzlTCdopAOhr6L1M4SLJvONao1rOuwVwVeXNjCByEnnMi%2B6OQqL%2FLbLIzPbuYYsVJxp%2FIVXlxR5%2BvtH%2B5Cfcq%2FqJpz03p15a4ApdxzMl%2BHYp71PK79HHNVHWmBdrTjgdNhwXdJsjtLRCokupbffSjUkuqfY5NI4VPEAC%2BLOnmlX%2BBEiEPZMfUZHtMrpIurlGI93lf8hAugfRr7yz1ochwj1JCkYme%7Ctkp%3ABFBMsrSo099l"
    },
    # Tu peux continuer de la même façon...
]

# Exemple d'affichage propre :
for produit in produits:
    print(f"Nom : {produit['nom']}")
    print(f"Prix : {produit['prix']}")
    print(f"Lien : {produit['lien']}")
    print("-" * 50)


Nom : Shop on eBay
Prix : $20.00
Lien : https://ebay.com/itm/123456?itmmeta=012DEW30YG0MEEKND7NH&hash=item123546:g:acwAA9KNiJowH:sc:ShippingMethodStandard!95008!US!-1&itmprp=enc%3AbgepL1tlUHjMGCVfSTGJh%2BzsVKeJ3CQk7NizDI4BZeppuFnmyS6Ijyp8lh%2FnEw%2BWqO7uTV1Q6izE1R0T54aV8j71F4xlWfVcGft4%2FiOQhtqVXA1rW6M1atPARQRmhqUxtEPJKhKtSFgI%2Bvwlzb0GwVCtkp%3ABlBMUObkmabpYw
--------------------------------------------------
Nom : Shop on eBay
Prix : $20.00
Lien : https://ebay.com/itm/123456?itmmeta=012DEW30YG0MEEKND7NH&hash=item123546:g:acwAA9KNiJowH:sc:ShippingMethodStandard!95008!US!-1&itmprp=enc%3AbgepL1tlUHjMGCVfSTGJh%2BzsVKeJ3CQk7NizDI4BZeppuFnmyS6Ijyp8lh%2FnEw%2BWqO7uTV1Q6izE1R0T54aV8j71F4xlWfVcGft4%2FiOQhtqVXA1rW6M1atPARQRmhqUxtEPJKhKtSFgI%2Bvwlzb0GwVCtkp%3ABlBMUObkmabpYw
--------------------------------------------------
Nom : Dell Latitude 5420 Laptop 14" Windows 11 Intel Core i5 4.4GHz 8GB RAM 128GB SSD
Prix : $211.40
Lien : https://www.ebay.com/itm/254582474636?_skw=laptop&hash=item3b464c4

In [4]:
# Import des bibliothèques nécessaires
import requests
from bs4 import BeautifulSoup

# URL de la recherche eBay
url = "https://www.ebay.com/sch/i.html?_nkw=laptop"
headers = {"User-Agent": "Mozilla/5.0"}

# Envoi de la requête HTTP
response = requests.get(url, headers=headers)

# Analyse du contenu HTML avec BeautifulSoup
soup = BeautifulSoup(response.content, "html.parser")

# Extraction de 5 éléments (limitation volontaire)
items = soup.find_all("li", class_="s-item", limit=5)

# Affichage des informations extraites
for item in items:
    # Essai 1 : balise <h3> avec la classe connue
    title = item.find("h3", class_="s-item__title")
    
    # Essai 2 : si <h3> existe mais vide ou contient "New Listing"
    if title and ("New Listing" in title.text or not title.text.strip()):
        title = item.find("div", class_="s-item__title")
    
    # Essai 3 : fallback générique si toujours rien
    if not title or not title.text.strip():
        title = item.find(["h3", "div", "span"])
    
    price = item.find("span", class_="s-item__price")
    link = item.find("a", class_="s-item__link")

    print("Nom :", title.text.strip() if title and title.text.strip() else "Non trouvé")
    print("Prix :", price.text.strip() if price else "Non trouvé")
    print("Lien :", link['href'] if link else "Non trouvé")
    print("-" * 50)


Nom : Shop on eBayOpens in a new window or tabBrand New$20.00or Best OfferSponsored
Prix : $20.00
Lien : https://ebay.com/itm/123456?itmmeta=012DEW30YG0MEEKND7NH&hash=item123546:g:acwAA9KNiJowH:sc:ShippingMethodStandard!95008!US!-1&itmprp=enc%3AbgepL1tlUHjMGCVfSTGJh%2BzsVKeJ3CQk7NizDI4BZeppuFnmyS6Ijyp8lh%2FnEw%2BWqO7uTV1Q6izE1R0T54aV8j71F4xlWfVcGft4%2FiOQhtqVXA1rW6M1atPARQRmhqUxtEPJKhKtSFgI%2Bvwlzb0GwVCtkp%3ABlBMUObkmabpYw
--------------------------------------------------
Nom : Shop on eBayOpens in a new window or tabBrand New$20.00or Best OfferSponsored
Prix : $20.00
Lien : https://ebay.com/itm/123456?itmmeta=012DEW30YG0MEEKND7NH&hash=item123546:g:acwAA9KNiJowH:sc:ShippingMethodStandard!95008!US!-1&itmprp=enc%3AbgepL1tlUHjMGCVfSTGJh%2BzsVKeJ3CQk7NizDI4BZeppuFnmyS6Ijyp8lh%2FnEw%2BWqO7uTV1Q6izE1R0T54aV8j71F4xlWfVcGft4%2FiOQhtqVXA1rW6M1atPARQRmhqUxtEPJKhKtSFgI%2Bvwlzb0GwVCtkp%3ABlBMUObkmabpYw
--------------------------------------------------
Nom : Dell Latitude 5420 Laptop 14" Windows 