In [1]:
import requests
from bs4 import BeautifulSoup

In [6]:
import pandas as pd

In [67]:

# Fonction pour scraper les produits d'une catégorie donnée (homme ou femme)
def scrape_shoes_category(url, gender, max_pages, max_items=None):
    all_products = []
    
    for page in range(1, max_pages + 1):  # Boucler sur chaque page
        # Modifier l'URL pour inclure le numéro de page
        page_url = f"{url}&page={page}"
        response = requests.get(page_url)
        
        if response.status_code != 200:
            print(f"Erreur de connexion à {page_url}")
            continue
        
        # Parser la page
        soup = BeautifulSoup(response.text, 'html.parser')

        # Trouver tous les éléments contenant les produits
        product_containers = soup.find_all('li', class_='musheji_name')  # Utilisation de la classe spécifique
        
        for container in product_containers:
            # Récupérer le nom du produit à partir de l'attribut 'title' de la balise <a>
            name = container.find('a')['title']  # Le nom du produit
            # Récupérer le prix à partir de la classe 'productSpecialPrice'
            price_tag = container.find_next('span', class_='productSpecialPrice')
            if price_tag:
                price = price_tag.text.strip()  # Nettoyer le prix
            else:
                price = "N/A"  # Si le prix n'est pas disponible

            all_products.append({'name': name, 'price': price, 'gender': gender})
    
    return all_products

# URL des pages de chaussures pour hommes et femmes
women_url = 'https://shopping.louboutin2024.com/index.php?main_page=index&cPath=2'
men_url = 'https://shopping.louboutin2024.com/index.php?main_page=index&cPath=155'
bebes_url = 'https://shopping.louboutin2024.com/index.php?main_page=index&cPath=232'
filles_url = 'https://shopping.louboutin2024.com/index.php?main_page=index&cPath=236'
cadeaux_homme_url = 'https://shopping.louboutin2024.com/index.php?main_page=index&cPath=175'
cadeaux_femme_url = 'https://shopping.louboutin2024.com/index.php?main_page=index&cPath=55'

# Scraper les données pour chaque catégorie
women_shoes = scrape_shoes_category(women_url, 'Femme', max_pages=16)
men_shoes = scrape_shoes_category(men_url, 'Homme', max_pages=7)
bebes_shoes = scrape_shoes_category(bebes_url, 'Bébé', max_pages=2)  
filles_shoes = scrape_shoes_category(filles_url, 'Fille', max_pages=2)  
cadeaux_homme = scrape_shoes_category(cadeaux_homme_url, 'Cadeau Homme', max_pages=3, max_items=47)
cadeaux_femme = scrape_shoes_category(cadeaux_femme_url, 'Cadeau Femme', max_pages=2, max_items=15)


In [68]:
all_products = women_shoes + men_shoes + bebes_shoes + filles_shoes + cadeaux_homme + cadeaux_femme

# Créer un DataFrame Pandas avec les données
df = pd.DataFrame(all_products)


In [73]:
# Séparer les colonnes en 'collection', 'product_name', et 'sexe'
df[['collection', 'product_name']] = df['name'].str.split(' - ', expand=True, n=1)  # Diviser une première fois en deux parties
df['sexe'] = df['name'].str.rsplit(' - ', n=1).str[-1]  # Récupérer le dernier élément après le dernier tiret


In [59]:
df.isnull().sum()

name             0
price            0
gender           0
collection       0
product_name     1
type            14
dtype: int64

In [71]:
df.describe()

Unnamed: 0,name,price,gender,collection,product_name,sexe
count,488,488,488,488,487,488
unique,476,8,6,233,264,30
top,Lou Babe Ballerines - Crêpe satin - Loubi - Bébés,€55.00,Femme,Lou Babe Ballerines,Cuir de veau - Noir - Femme,Femme
freq,2,101,252,12,26,259


In [61]:
# Nettoyer les prix (enlever le symbole € et convertir en float)
df['price'] = df['price'].replace('€', '', regex=True)
df['price'] = df['price'].replace(',', '.', regex=True)

# Convertir les prix en float, les erreurs seront transformées en NaN
df['price'] = pd.to_numeric(df['price'], errors='coerce')

In [62]:
# Calcul du prix moyen
average_price = df['price'].mean()

# Afficher le prix moyen
print(f"Prix moyen des produits : {average_price:.2f} €")

Prix moyen des produits : 55.63 €


In [63]:
# Calcul du nombre de produits par genre
product_count_by_gender = df['gender'].value_counts()
print(f"Nombre de produits par genre :\n{product_count_by_gender}")

Nombre de produits par genre :
gender
Femme           252
Homme           101
Cadeau Homme     48
Cadeau Femme     32
Fille            31
Bébé             24
Name: count, dtype: int64


In [75]:
print(df['product_name'].unique())


['Cuir nappa - Bianco - Femme' 'Cuir de veau - Noir - Femme'
 'Cuir de veau - Leche - Femme' 'Cuir de veau - Cuoio - Femme'
 'Tissu imprimé Malha - Loubi - Femme'
 'Tissu imprimé Malha - Bleu - Femme' 'Cuir nappa - Noir - Femme'
 'Cuir nappa irisé - Platine - Femme' 'Cuir de veau verni - Noir - Femme'
 'Cuir de veau verni - Leche - Femme' 'Cuir specchio - Argent - Femme'
 'Cuir de veau et veau velours - Noir - Femme'
 'Veau velours et strass - Noir - Femme' 'Veau velours - Noir - Femme'
 'Cuir nappa - Jacaranda - Femme' 'Cuir de veau verni - Bianco - Femme'
 'Cuir de veau verni - Blush - Femme'
 'Cuir de veau verni irisé - Tennessee - Femme'
 'Cuir de veau verni irisé - Rodeo - Femme' 'Cuir nappa - Nude 1 - Femme'
 'Cuir nappa - Nude 5 - Femme' 'Cuir nappa - Nude 8 - Femme'
 'Cuir de veau pailleté - Argent - Femme'
 'Cuir de veau imprimé alligator - Noir - Femme'
 'Cuir de veau imprimé alligator - Acajou - Femme'
 'Cuir de veau embossé alligator - Bleu - Femme'
 'Cuir de veau verni sou