# Scrapping le site web 

In [27]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time


In [28]:
import requests
from bs4 import BeautifulSoup

In [29]:
driver = webdriver.Chrome()

driver.get('https://www.cuisinez-pour-bebe.fr/recette-bebe/')

wait = WebDriverWait(driver, 200)  # 10 secondes d'attente
wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'post-content')))

last_height = driver.execute_script("return document.body.scrollHeight")

while True:
    # Faire d√©filer jusqu'√† la fin de la page
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

    # Attendre le chargement de la nouvelle partie de la page
    time.sleep(5)  # Attendez quelques secondes pour que les nouveaux √©l√©ments se chargent

    # Calculer la nouvelle hauteur de d√©filement et comparer avec la derni√®re hauteur de d√©filement
    new_height = driver.execute_script("return document.body.scrollHeight")
    if new_height == last_height:
        break
    last_height = new_height

# Maintenant que la page est enti√®rement charg√©e, r√©cup√©rez les liens
post_content = driver.find_element(By.CLASS_NAME, 'post-content')
hits_container = post_content.find_element(By.ID, 'hits')
links = [a.get_attribute('href') for a in hits_container.find_elements(By.TAG_NAME, 'a')]

print(links)

driver.quit()


['https://www.cuisinez-pour-bebe.fr/ma-premiere-puree-de-carotte/', 'https://www.cuisinez-pour-bebe.fr/ma-premiere-puree-de-courgette/', 'https://www.cuisinez-pour-bebe.fr/pancakes-a-la-banane-sans-oeufs/', 'https://www.cuisinez-pour-bebe.fr/muffins-pomme-amandes/', 'https://www.cuisinez-pour-bebe.fr/ma-premiere-puree-de-betterave/', 'https://www.cuisinez-pour-bebe.fr/ma-premiere-puree-de-courge-butternut/', 'https://www.cuisinez-pour-bebe.fr/rostis-pommes-de-terre-courgettes/', 'https://www.cuisinez-pour-bebe.fr/cookies-moelleux-carottes-petits-pois/', 'https://www.cuisinez-pour-bebe.fr/pancakes-a-la-betterave-et-sarrasin/', 'https://www.cuisinez-pour-bebe.fr/creme-de-mais-bebe/', 'https://www.cuisinez-pour-bebe.fr/duo-de-petits-pois-et-carottes-au-jambon/', 'https://www.cuisinez-pour-bebe.fr/parmentier-de-panais-au-canard-2/', 'https://www.cuisinez-pour-bebe.fr/puree-fine-de-lentilles-corail-potimarron-et-noisettes/', 'https://www.cuisinez-pour-bebe.fr/taboule-parfume/', 'https://www

In [30]:
len(links)

137

In [33]:
def scrape_recipe_details(recipe_url,fin_links):
    response = requests.get(recipe_url)
    if response.status_code == 200:
        soup = BeautifulSoup(response.content, 'html.parser')
        

        # V√©rification de la classe 'ihc-locker-wrap'
        if soup.find('div', class_='ihc-locker-wrap'):
            # Retourne une valeur sp√©cifique ou passe simplement
            print("Locked content, skipping...")
            return -1

        else:

            # ingredient
            ingredients_elements = soup.find_all('li', class_='wprm-recipe-ingredient')
            ingredients = [ingredient.get_text().strip() for ingredient in ingredients_elements]

            # image
            image_container = soup.find('div', class_='wprm-recipe-image')
            image_element = image_container.find('img') if image_container else None
            image_url = image_element['src'] if image_element and 'src' in image_element.attrs else None

            # age
            age_element = soup.find('div', class_='post-categories').find('a')
            recommended_age = age_element.get_text().strip() if age_element else None

            # materiel
            materiel_element = soup.find_all('li', class_='wprm-recipe-equipment-item')
            materiels = [materiel.get_text().strip() for materiel in materiel_element]

            # tag
            tag_elements = soup.find('div', class_='post-tags').find_all('a')
            tags = [tag.get_text().strip() for tag in tag_elements]

            # titre
            title_element = soup.find('h1', class_='post-title')
            title = title_element.get_text().strip() if title_element else None

            # preparation
            indication_element = soup.find('div', class_= 'wprm-recipe-instruction-group')
            indication = indication_element.get_text().strip() if indication_element else None

            fin_links.append(recipe_url)

            return ingredients, image_url, recommended_age, materiels, tags, title, indication, fin_links
        
    else:
        
        return None, None, None, None, None, None, None, None

In [34]:
import json

In [35]:
fin_links=[]
recettes = []

for link in links:
    result = scrape_recipe_details(link,fin_links)
    if(result!=-1):
        ingredients, image_url, recommended_age, materiel, tags, title, indication, fin_links = result
        if ingredients and title:
            print(f"Recette pour : {title}")
            print(f"Age recommande: {recommended_age}")
            print(f"Image URL: {image_url}")
            print(f"Materiel: {materiel}")
            print(f"Ingredients pour {link} : {ingredients}")
            print(f"Tags: {tags}")
            print(f"Indication: {indication}\n")
            recette = {
                "titre": title,
                "age_recommande": recommended_age,
                "url_image": image_url,
                "materiel": materiel,
                "ingredients": ingredients,
                "tags": tags,
                "indication" : indication, 
                "lien": link
            }
            recettes.append(recette)
            
    else:
        print(f"Impossible de r√©cup√©rer les d√©tails pour {link}")

# √âcriture dans un fichier JSON
with open('recettes.json', 'w',encoding='utf-8') as json_file:
    json.dump(recettes, json_file, ensure_ascii=False, indent=4)

print("Fichier JSON des recettes cr√©√© avec succ√®s.")

Recette pour : Ma premi√®re pur√©e de carotte
Age recommande: d√®s 4 mois
Image URL: https://cdn.cuisinez-pour-bebe.fr/wp-content/uploads/2019/09/premiere-puree-carotte-bebe-diversification-4-mois.jpg
Materiel: ['‚ñ¢ cuit-vapeur (ou panier vapeur)', '‚ñ¢ mixeur']
Ingredients pour https://www.cuisinez-pour-bebe.fr/ma-premiere-puree-de-carotte/ : ['‚ñ¢ 200 g carotte(s) (bio)', "‚ñ¢ eau (convenant √† l'alimentation du nourrisson)"]
Tags: ['premiers repas', 'sans gluten', 'sans oeuf', 'sans PLV', 'vegan', 'v√©g√©tarien', 'automne', '√©t√©', 'hiver', 'printemps', 'plat du midi', 'plat du soir', 'Recettes contre la diarrh√©e / gastro ü§Æ']
Indication: Laver et √©plucher les carottes. Couper en fines rondelles.Cuire les rondelles de carottes √† la vapeur, pendant 25 minutes environ.¬†V√©rifier la cuisson avec la pointe d'un couteau, elles doivent √™tre tendres.Mixer les carottes en pur√©e homog√®ne, puis ajouter progressivement de l'eau et mixer jusqu'√† obtention d'une pur√©e bien lisse.

R

In [36]:
len(fin_links)

135

In [20]:
fin_links

['https://www.cuisinez-pour-bebe.fr/ma-premiere-puree-de-carotte/',
 'https://www.cuisinez-pour-bebe.fr/ma-premiere-puree-de-courgette/',
 'https://www.cuisinez-pour-bebe.fr/pancakes-a-la-banane-sans-oeufs/',
 'https://www.cuisinez-pour-bebe.fr/muffins-pomme-amandes/',
 'https://www.cuisinez-pour-bebe.fr/ma-premiere-puree-de-betterave/',
 'https://www.cuisinez-pour-bebe.fr/ma-premiere-puree-de-courge-butternut/',
 'https://www.cuisinez-pour-bebe.fr/rostis-pommes-de-terre-courgettes/',
 'https://www.cuisinez-pour-bebe.fr/cookies-moelleux-carottes-petits-pois/',
 'https://www.cuisinez-pour-bebe.fr/pancakes-a-la-betterave-et-sarrasin/',
 'https://www.cuisinez-pour-bebe.fr/creme-de-mais-bebe/',
 'https://www.cuisinez-pour-bebe.fr/duo-de-petits-pois-et-carottes-au-jambon/',
 'https://www.cuisinez-pour-bebe.fr/parmentier-de-panais-au-canard-2/',
 'https://www.cuisinez-pour-bebe.fr/puree-fine-de-lentilles-corail-potimarron-et-noisettes/',
 'https://www.cuisinez-pour-bebe.fr/taboule-parfume/',

In [21]:
import numpy as np

In [22]:
fin_links_unique = np.unique(fin_links)

In [23]:
len(fin_links_unique)

135

In [24]:
len(links)

137