# Scraping des informations par parfum

## Objectif
Le scraping par parfum vise à extraire des informations détaillées sur chaque parfum à partir des pages disponibles sur le site Fragrantica. Ces données incluent des informations sur la composition olfactive, les accords principaux, les notes des utilisateurs, et d'autres détails pertinents pour l'analyse ou la recommandation de parfums.

---

## Données scrappées
Lors du scraping de chaque page de parfum, les informations suivantes sont collectées :

1. **Nom du parfum (`Perfume`)** :
   - Le nom complet du parfum tel qu'il apparaît sur la page.

2. **Marque (`Brand`)** :
   - La marque ou le créateur du parfum (exemple : Louis Vuitton, Chanel).

3. **Description (`Description`)** :
   - Une description textuelle du parfum fournie sur la page. Elle peut inclure des détails sur l'inspiration, le créateur, ou les contextes d'utilisation.

4. **Notes olfactives (`Top Notes`, `Middle Notes`, `Base Notes`)** :
   - **Notes de tête** : Les premières senteurs perçues après application.
   - **Notes de cœur** : Les arômes intermédiaires qui forment le corps principal du parfum.
   - **Notes de fond** : Les senteurs durables qui restent après évaporation des autres notes.

5. **Accords principaux (`Main Accords`)** :
   - Une liste des accords dominants du parfum, souvent affichés sous forme de diagramme ou de liste (exemple : floral, boisé, épicé).

6. **Évaluation (`Rating`)** :
   - La note moyenne attribuée au parfum par les utilisateurs du site (exemple : 4.5/5).

7. **Nombre de votes (`Rating Count`)** :
   - Le nombre total de votes ayant contribué à l'évaluation moyenne.

---

## Étapes du processus de scraping

1. **Accès à la page du parfum** :
   - Le lien du parfum est extrait d'une base de données ou d'un fichier contenant les URL.

2. **Gestion des cookies** :
   - Le message de consentement pour les cookies est géré automatiquement pour permettre la navigation sans interruption.

3. **Simulation de comportement humain** :
   - Des pauses aléatoires et des défilements de page sont effectués pour éviter les blocages par le site.

4. **Extraction des informations** :
   - Les données sont extraites à l'aide de sélecteurs XPath pour capturer les éléments HTML correspondants.

5. **Sauvegarde des données** :
   - Les informations collectées sont enregistrées dans un fichier Excel pour analyse ou utilisation ultérieure.

---

## ⚠️ Attention : mesures anti-scraping de Fragrantica

Fragrantica utilise des systèmes comme **Cloudflare CAPTCHA** et des méthodes avancées pour bloquer le scraping. Voici les précautions à prendre pour éviter que votre IP ne soit bannie :

1. **Relancer le driver pour chaque lien** :
   - Évitez de réutiliser le même driver Selenium pour plusieurs requêtes consécutives.

2. **Limiter le nombre de requêtes** :
   - Respectez une limite stricte de **50 requêtes toutes les 30 minutes**.

3. **Simuler un comportement humain** :
   - Incluez des pauses aléatoires, des défilements de page et une navigation naturelle pour réduire le risque de détection.

4. **Configurer le driver Selenium** :
   - Utilisez un `user-agent` réaliste et activez le mode **headless** pour minimiser les signaux suspects.

⚠️ **Non-respect de ces précautions** peut entraîner un **bannissement de votre IP**.

---

## Sortie des données
- Les données scrappées sont sauvegardées dans un fichier Excel (exemple : `test_louis_vuitton_perfume_data.xlsx`) sous la forme d'un tableau structuré avec les colonnes suivantes :
  - `URL` : Lien vers la page du parfum.
  - `Perfume` : Nom du parfum.
  - `Brand` : Marque.
  - `Description` : Description textuelle.
  - `Top Notes` : Notes de tête.
  - `Middle Notes` : Notes de cœur.
  - `Base Notes` : Notes de fond.
  - `Rating` : Évaluation moyenne.
  - `Rating Count` : Nombre de votes.
  - `Main Accords` : Accords principaux.

---

## Exemple de données scrappées

| URL                                                         | Perfume        | Brand          | Description                      | Top Notes         | Middle Notes    | Base Notes     | Rating | Rating Count | Main Accords            |
|-------------------------------------------------------------|----------------|----------------|----------------------------------|-------------------|-----------------|----------------|--------|--------------|-------------------------|
| https://www.fragrantica.com/perfume/Louis-Vuitton/Attrape-Reves-48151.html | Attrape-Rêves | Louis Vuitton  | Floral, musqué, idéal pour la soirée. | Bergamote         | Rose            | Patchouli      | 4.5    | 250          | Floral, Épicé, Fruité   |
| https://www.fragrantica.com/perfume/Louis-Vuitton/Heures-d-Absence-59022.html | Heures d'Absence | Louis Vuitton  | Inspiré par un voyage en Méditerranée. | Néroli           | Jasmin          | Ambre          | 4.2    | 180          | Floral, Doux, Boisé     |

---

## Utilisation
- Les données peuvent être utilisées pour des recommandations, des analyses de tendances olfactives, ou des visualisations liées aux préférences des utilisateurs en matière de parfums.


In [1]:
# Importation des modules nécessaires
from scraper_full import scrape_complete_perfume_data
import pandas as pd
import os

# Définition des fichiers d'entrée et de sortie
input_file = "test_louis_vuitton_links.xlsx"
limited_file = "limited_test_louis_vuitton_links.xlsx"
output_file = "test_louis_vuitton_perfume_data.xlsx"

# Vérification et limitation à 5 liens
if os.path.exists(input_file):
    print(f"Fichier d'entrée trouvé : {input_file}")
    
    # Charger les liens et limiter à 5
    all_links = pd.read_excel(input_file)
    limited_links = all_links.iloc[:5]  # Prendre uniquement les 5 premiers liens
    limited_links.to_excel(limited_file, index=False)
    print(f"Fichier limité à 5 liens créé : {limited_file}")
else:
    print(f"Erreur : fichier {input_file} introuvable.")
    limited_links = None

# Lancement du scraping
if limited_links is not None:
    print("=== Début du test : Scraping des parfums Louis Vuitton ===")
    try:
        scrape_complete_perfume_data(limited_file, output_file, max_links_per_hour=5, pause_duration=1)
        print(f"Test terminé : données sauvegardées dans '{output_file}'.")
    except Exception as e:
        print(f"Une erreur s'est produite : {e}")
else:
    print("Aucun fichier valide disponible pour le scraping.")



Fichier d'entrée trouvé : test_louis_vuitton_links.xlsx
Fichier limité à 5 liens créé : limited_test_louis_vuitton_links.xlsx
=== Début du test : Scraping des parfums Louis Vuitton ===
Traitement du lien 1/5 : https://www.fragrantica.com/perfume/Obvious/Une-Pistache-84607.html#cc2398777
Consentement aux cookies accepté.
Pause simulant un comportement humain : 1.08 secondes
Traitement du lien 2/5 : https://www.fragrantica.com/perfume/Louis-Vuitton/Fleur-du-Desert-73006.html
Consentement aux cookies accepté.
Pause simulant un comportement humain : 0.67 secondes
Traitement du lien 3/5 : https://www.fragrantica.com/perfume/Louis-Vuitton/Meteore-62251.html
Consentement aux cookies accepté.
Pause simulant un comportement humain : 0.80 secondes
Traitement du lien 4/5 : https://www.fragrantica.com/perfume/Versace/Yellow-Diamond-13064.html#cc2398764
Consentement aux cookies accepté.
Pause simulant un comportement humain : 1.10 secondes
Traitement du lien 5/5 : https://www.fragrantica.com/perfum

## Note sur les parfums récupérés

Il est tout à fait normal de ne pas retrouver **uniquement** des parfums Louis Vuitton dans le fichier, car la structure de Fragrantica inclut également des parfums d'autres marques sur les mêmes pages. 

Cela peut être constaté dans le fichier **capture_louis_vuitton**. 

Cependant, cela **ne pose aucun problème**, car l'objectif principal était de récupérer un maximum de parfums. Les éventuels **doublons** ou **données non pertinentes** seront éliminés lors de l'étape de **NETTOYAGE DES DONNÉES (DATACLEANING)**.
