## Webscraping - Marmiton

In [1]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.firefox.options import Options
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
import time
import pandas as pd
import gc

In [2]:
# Configurer le WebDriver pour Firefox
options = Options()
options.add_argument('--headless')
options.add_argument('--disable-gpu')
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
driver = webdriver.Firefox(options=options)

In [None]:
# URL de la page à scraper
url = "https://www.marmiton.org/recettes/recette_couscous-royal_535913.aspx"
driver.get(url)

In [None]:
# XPath du bouton à cliquer
xpath_button = '//*[@id="didomi-notice-agree-button"]'  # Remplacez par l'XPath correct

# Attendre que le bouton soit cliquable
button = WebDriverWait(driver, 10).until(
    EC.element_to_be_clickable((By.XPATH, xpath_button))
)

# Cliquer sur le bouton
button.click()

# Continuer avec le reste de votre script
print("Bouton cliqué avec succès.")


In [None]:
titre_recette = driver.find_element(By.XPATH, '/html/body/div[7]/div[2]/div[1]/div[2]/div[1]/h1').text.strip()
print(titre_recette)

In [None]:
temps_total = driver.find_element(By.XPATH, '/html/body/div[7]/div[2]/div[1]/div[8]/div[2]/div[1]/div').text.strip()
print(temps_total)

In [None]:
temps_preparation = driver.find_element(By.XPATH, '/html/body/div[7]/div[2]/div[1]/div[9]/div[2]/div[2]/div[1]/div').text.strip()
print(temps_preparation)

In [None]:
temps_cuisson = driver.find_element(By.XPATH, '/html/body/div[7]/div[2]/div[1]/div[9]/div[2]/div[2]/div[3]/div').text.strip()
print(temps_cuisson)

In [None]:
difficulty = driver.find_element(By.XPATH, '/html/body/div[7]/div[2]/div[1]/div[4]/div[2]/span').text.strip()
print(difficulty)

In [None]:
nb_personne = driver.find_element(By.XPATH, '/html/body/div[7]/div[2]/div[1]/div[6]/div[2]/div[1]/div[1]/div/div[2]/input').get_attribute('value')
print(nb_personne)

In [None]:
# Extraire ingredients
liste_ingredients = []
elements  = driver.find_elements(By.XPATH, '/html/body/div[7]/div[2]/div[1]/div[5]/div[2]/div[2]')
for element in elements:
    for card in driver.find_elements(By.XPATH, '//*[contains(@class, "card-ingredient-title")]'):
        liste_ingredients.append(card.text.strip().replace('\n', ' '))

In [None]:
liste_ingredients

In [None]:
liste_etapes = []
etapes = driver.find_elements(By.XPATH, '/html/body/div[7]/div[2]/div[1]/div[9]/div')
for etape in etapes:
    for s in driver.find_elements(By.XPATH, '//*[contains(@class, "recipe-step-list__container")]'):
        liste_etapes.append(s.text.strip().replace('\n', ' '))

In [None]:
liste_etapes

In [None]:
# Creation des listes vierges
liste_titre = []
liste_temps_total = []
liste_temps_preparation = []
liste_temps_cuisson = []
liste_difficulty = []
liste_nb = []
liste_ingredients = []
liste_etapes = []

# Recuperations des informations
titre_recette = driver.find_element(By.XPATH, '/html/body/div[7]/div[2]/div[1]/div[2]/div[1]/h1').text.strip()
temps_total = driver.find_element(By.XPATH, '/html/body/div[7]/div[2]/div[1]/div[8]/div[2]/div[1]/div').text.strip()
temps_preparation = driver.find_element(By.XPATH, '/html/body/div[7]/div[2]/div[1]/div[9]/div[2]/div[2]/div[1]/div').text.strip()
temps_cuisson = driver.find_element(By.XPATH, '/html/body/div[7]/div[2]/div[1]/div[9]/div[2]/div[2]/div[3]/div').text.strip()
difficulty = driver.find_element(By.XPATH, '/html/body/div[7]/div[2]/div[1]/div[4]/div[2]/span').text.strip()
nb_personne = driver.find_element(By.XPATH, '/html/body/div[7]/div[2]/div[1]/div[6]/div[2]/div[1]/div[1]/div/div[2]/input').get_attribute('value')

liste_titre.append(titre_recette)
liste_temps_total.append(temps_total)
liste_temps_preparation.append(temps_preparation)
liste_temps_cuisson.append(temps_cuisson)
liste_difficulty.append(difficulty)
liste_nb.append(nb_personne)

liste_ingredients_temp = []
elements  = driver.find_elements(By.XPATH, '/html/body/div[7]/div[2]/div[1]/div[5]/div[2]/div[2]')
for element in elements:
    for card in driver.find_elements(By.XPATH, '//*[contains(@class, "card-ingredient-title")]'):
        liste_ingredients_temp.append(card.text.strip().replace('\n', ' '))
liste_ingredients.append(liste_ingredients_temp)

liste_etapes_temp = []
etapes = driver.find_elements(By.XPATH, '/html/body/div[7]/div[2]/div[1]/div[9]/div')
for etape in etapes:
    for s in driver.find_elements(By.XPATH, '//*[contains(@class, "recipe-step-list__container")]'):
        liste_etapes_temp.append(s.text.strip().replace('\n', ' '))
liste_etapes.append(liste_etapes_temp)

In [None]:
print(f"Longueur de liste_titre: {len(liste_titre)}")
print(f"Longueur de liste_temps_total: {len(liste_temps_total)}")
print(f"Longueur de liste_temps_preparation: {len(liste_temps_preparation)}")
print(f"Longueur de liste_temps_cuisson: {len(liste_temps_cuisson)}")
print(f"Longueur de liste_difficulty: {len(liste_difficulty)}")
print(f"Longueur de liste_nb: {len(liste_nb)}")
print(f"Longueur de liste_ingredients_temp: {len(liste_ingredients)}")
print(f"Longueur de liste_etapes: {len(liste_etapes)}")


In [None]:
dataset_recette = pd.DataFrame({
    'Titre': liste_titre,
    'Temps_total': liste_temps_total,
    'Temps_preparation': liste_temps_preparation,
    'Temps_cuisson': liste_temps_cuisson,
    'Difficulté': liste_difficulty,
    'Nombre_de_personnes': liste_nb,
    'Ingredients': liste_ingredients,
    'Etapes': liste_etapes
})

### Recuperer une liste de liens pointant vers les recettes

In [None]:
URL_ROOT = "https://www.marmiton.org/recettes/index/categorie/plat-principal"

with open("liens-recettes-v1.csv", "a", encoding='utf-8') as f:
    for i in range(1, 570):
        time.sleep(1)
        URL_PAGE_PATH = f"{URL_ROOT}/{i}"
        driver.get(URL_PAGE_PATH)
        # Rechercher les éléments avec la classe 'mrtn-card__title' uniquement à l'intérieur de 'recette'
        titre_elements = driver.find_elements(By.XPATH, './/*[contains(@class, "mrtn-card__title")]/a')
        for titre_element in titre_elements:
            f.write(f"{titre_element.text.strip()};{titre_element.get_attribute('href')}\n")

### Charger le dataset

In [2]:
dataset = pd.read_csv("liens-recettes-v1.csv", sep=";", encoding='utf-8')
dataset

Unnamed: 0,Recette,Liens_recette
0,Cuisse de dinde façon couscous de chez Karpeth,https://www.marmiton.org/recettes/recette_cuis...
1,Blanquette de veau facile au Cookeo,https://www.marmiton.org/recettes/recette_blan...
2,Terrine de foie gras au Sauternes,https://www.marmiton.org/recettes/recette_terr...
3,Couscous Royal,https://www.marmiton.org/recettes/recette_cous...
4,"Quiche jambon, fromage, tomate, olives",https://www.marmiton.org/recettes/recette_quic...
...,...,...
17065,"Wok de poulet, courgettes et vermicelles de ri...",https://www.marmiton.org/recettes/recette_wok-...
17066,Wok poivron et dinde,https://www.marmiton.org/recettes/recette_wok-...
17067,Wok tomaté aux dés de poulet,https://www.marmiton.org/recettes/recette_wok-...
17068,Wrap pizza au chorizo,https://www.marmiton.org/recettes/recette_wrap...


In [None]:
dataset.info()

### Recuperer les recettes et les mettres dans le dataset

In [None]:
liste_titre = []
liste_temps_total = []
liste_temps_preparation = []
liste_temps_cuisson = []
liste_difficulty = []
liste_nb = []
liste_ingredients = []
liste_etapes = []
liste_cout = []

df = pd.DataFrame(columns=['Titre', 'Temps Total', 'Temps Préparation', 'Temps Cuisson', 'Difficulté', 'Nombre de personnes', 'Coût', 'Ingrédients', 'Étapes', 'Liens_recette'])
counter = 0

for lien in dataset['Liens_recette']:
    print(lien)
    driver.get(lien)
    
    '''WebDriverWait(driver, 10).until(
        lambda d: d.execute_script('return document.readyState') == 'complete'
    )
'''
    # Recuperations des informations
    titre_recette = driver.find_element(By.CSS_SELECTOR, '.main-title > h1:nth-child(1)').text.strip()
    temps_total = driver.find_element(By.CSS_SELECTOR, '.time__total > div:nth-child(2)').text.strip()
    temps_preparation = driver.find_element(By.CSS_SELECTOR, '.time__details > div:nth-child(1) > div:nth-child(2)').text.strip()
    temps_cuisson = driver.find_element(By.CSS_SELECTOR, '.time__details > div:nth-child(3) > div:nth-child(2)').text.strip()
    difficulty = driver.find_element(By.CSS_SELECTOR, 'div.recipe-primary__item:nth-child(3) > span:nth-child(2)').text.strip()
    nb_personne = driver.find_element(By.CSS_SELECTOR, '.recipe-ingredients__qt-counter__value').get_attribute('value')
    cout = driver.find_element(By.CSS_SELECTOR, 'div.recipe-primary__item:nth-child(5) > span:nth-child(2)').text.strip()

    liste_ingredients = []
    elements  = driver.find_elements(By.XPATH, '/html/body/div[7]/div[2]/div[1]/div[5]/div[2]/div[2]')
    for element in elements:
        for card in driver.find_elements(By.XPATH, '//*[contains(@class, "card-ingredient-title")]'):
            liste_ingredients.append(card.text.strip().replace('\n', ' '))

    liste_etapes = []
    etapes = driver.find_elements(By.XPATH, '/html/body/div[7]/div[2]/div[1]/div[9]/div')
    for etape in etapes:
        for s in driver.find_elements(By.XPATH, '//*[contains(@class, "recipe-step-list__container")]'):
            liste_etapes.append(s.text.strip().replace('\n', ' '))

    # Créer un dictionnaire pour la nouvelle ligne
    nouvelle_ligne = {
        'Titre': titre_recette,
        'Temps Total': temps_total,
        'Temps Préparation': temps_preparation,
        'Temps Cuisson': temps_cuisson,
        'Difficulté': difficulty,
        'Nombre de personnes': nb_personne,
        'Coût': cout,
        'Ingrédients': liste_ingredients,
        'Étapes': liste_etapes,
        'Liens_recette': lien
    }

    # Ajouter la nouvelle ligne au DataFrame
    df = pd.concat([df, pd.DataFrame([nouvelle_ligne])], ignore_index=True)

    # Incrémenter le compteur
    counter += 1
    print(counter)

    # Redémarrer le navigateur périodiquement
    if counter % 75 == 0:
        driver.quit()
        driver = webdriver.Firefox(options=options)
        url = "https://www.marmiton.org/recettes/recette_couscous-royal_535913.aspx"
        driver.get(url)
        # XPath du bouton à cliquer
        xpath_button = '//*[@id="didomi-notice-agree-button"]'
        # Attendre que le bouton soit cliquable
        button = WebDriverWait(driver, 10).until(
            EC.element_to_be_clickable((By.XPATH, xpath_button))
        )
        # Cliquer sur le bouton
        button.click()
        gc.collect()
        
    del titre_recette
    del temps_total
    del temps_preparation
    del temps_cuisson
    del nb_personne
    del cout
    del liste_ingredients
    del liste_etapes
    gc.collect()
    

In [None]:
df

### Tester avec request et bs4

In [None]:
import requests
from bs4 import BeautifulSoup
from lxml import etree

In [None]:
liste_titre = []
liste_temps_total = []
liste_temps_preparation = []
liste_temps_cuisson = []
liste_difficulty = []
liste_nb = []
liste_ingredients = []
liste_etapes = []
liste_cout = []

df = pd.DataFrame(columns=['Titre', 'Temps Total', 'Temps Préparation', 'Temps Cuisson', 'Difficulté', 'Coût', 'Ingrédients', 'Étapes', 'Liens_recette'])

for lien in dataset['Liens_recette']:
    print(lien)
    
    # Recuperer le contenu de la page
    response = requests.get(lien)
    response.raise_for_status()  # Vérifier si la requête a réussi

    # Parser le contenu HTML avec BeautifulSoup
    soup = BeautifulSoup(response.content, 'html.parser')
    
    # Recuperations des informations
    # Récupérer les informations avec des CSS selectors
    titre_recette = soup.select_one('.main-title > h1:nth-child(1)').text.strip()
    temps_total = soup.select_one('.time__total > div:nth-child(2)').text.strip()
    temps_preparation = soup.select_one('.time__details > div:nth-child(1) > div:nth-child(2)').text.strip()
    temps_cuisson = soup.select_one('.time__details > div:nth-child(3) > div:nth-child(2)').text.strip()
    difficulty = soup.select_one('div.recipe-primary__item:nth-child(3) > span:nth-child(2)').text.strip()
    cout = soup.select_one('div.recipe-primary__item:nth-child(5) > span:nth-child(2)').text.strip()

    # Récupérer les ingrédients
    liste_ingredients_temp = []
    for card in soup.select('.card-ingredient-title'):
        liste_ingredients_temp.append(card.text.strip().replace('\n', ' '))

    # Récupérer les étapes
    liste_etapes_temp = []
    for step in soup.select('.recipe-step-list__container'):
        liste_etapes_temp.append(step.text.strip().replace('\n', ' '))\
        
    # Récupération des ingrédients avec BeautifulSoup
    liste_ingredients = []
    elements = soup.select('div.recipe-ingredients__list div.card-ingredient-title')  # Sélecteur CSS
    for card in elements:
        liste_ingredients.append(card.text.strip().replace('\n', ' '))

    # Récupération des étapes avec BeautifulSoup
    liste_etapes = []
    etapes = soup.select('div.recipe-step-list__container')  # Sélecteur CSS
    for step in etapes:
        liste_etapes.append(step.text.strip().replace('\n', ' '))


    # Créer un dictionnaire pour la nouvelle ligne
    nouvelle_ligne = {
        'Titre': titre_recette,
        'Temps Total': temps_total,
        'Temps Préparation': temps_preparation,
        'Temps Cuisson': temps_cuisson,
        'Difficulté': difficulty,
        'Coût': cout,
        'Ingrédients': liste_ingredients,
        'Étapes': liste_etapes,
        'Liens_recette': lien
    }

    # Ajouter la nouvelle ligne au DataFrame
    df = pd.concat([df, pd.DataFrame([nouvelle_ligne])], ignore_index=True)
    

### Test avec Pyppeeter

In [None]:
!pip install pyppeteer

In [None]:
import nest_asyncio
import pandas as pd
from pyppeteer import launch
import csv

# Appliquer le patch nest_asyncio
nest_asyncio.apply()

df = pd.DataFrame(columns=['Titre', 'Temps Total', 'Temps Préparation', 'Temps Cuisson', 'Difficulté', 'Coût', 'Ingrédients', 'Étapes', 'Liens_recette', 'Ustensiles'])

browser = await launch(executablePath='C:\\chrome\\chrome.exe', headless=False, args=['--no-sandbox', '--disable-dev-shm-usage'])
page = await browser.newPage()

with open("recettes-marmiton.csv", mode='a', newline='', encoding='utf-8') as fichier_csv:
    for idx, lien in enumerate(dataset['Liens_recette']):
        print(f"{idx}:{lien}")

        await page.goto(lien)

        # Récupérer les informations avec des CSS selectors
        titre_recette = await page.querySelectorEval('.main-title > h1:nth-child(1)', 'node => node.textContent.trim()')
        temps_total = await page.querySelectorEval('.time__total > div:nth-child(2)', 'node => node.textContent.trim()')
        temps_preparation = await page.querySelectorEval('.time__details > div:nth-child(1) > div:nth-child(2)', 'node => node.textContent.trim()')
        temps_cuisson = await page.querySelectorEval('.time__details > div:nth-child(3) > div:nth-child(2)', 'node => node.textContent.trim()')
        difficulty = await page.querySelectorEval('div.recipe-primary__item:nth-child(3) > span:nth-child(2)', 'node => node.textContent.trim()')
        cout = await page.querySelectorEval('div.recipe-primary__item:nth-child(5) > span:nth-child(2)', 'node => node.textContent.trim()')
        nb_personne = await page.querySelectorEval('.recipe-ingredients__qt-counter__value', 'node => node.getAttribute("value")')

        # Récupérer les ingrédients
        liste_ingredients_temp = []
        ingredients = await page.querySelectorAll('.card-ingredient-title')
        for ingredient in ingredients:
            ingredient_text = await (await ingredient.getProperty('textContent')).jsonValue()
            # Nettoyer les espaces superflus
            ingredient_text = ' '.join(ingredient_text.replace('\n', ' ').strip().split())
            liste_ingredients_temp.append(ingredient_text)

        # Récupérer les étapes
        liste_etapes_temp = []
        steps = await page.querySelectorAll('.recipe-step-list__container')
        for step in steps:
            step_text = await (await step.getProperty('textContent')).jsonValue()
            # Nettoyer les espaces superflus
            step_text = ' '.join(step_text.replace('\n', ' ').strip().split())
            liste_etapes_temp.append(step_text)

        # Récupérer les ustensiles
        liste_ustensiles_temp = []
        steps = await page.querySelectorAll('.mrtn-recette_utensils-items .card-utensil')
        for step in steps:
            step_text = await (await step.getProperty('textContent')).jsonValue()
            # Nettoyer les espaces superflus
            step_text = ' '.join(step_text.replace('\n', ' ').strip().split())
            liste_ustensiles_temp.append(step_text)

        print(liste_ingredients_temp)
        print(liste_etapes_temp)
        print(liste_ustensiles_temp)

        # Créer un dictionnaire pour la nouvelle ligne
        nouvelle_ligne = {
            'Titre': titre_recette,
            'Temps Total': temps_total,
            'Temps Préparation': temps_preparation,
            'Temps Cuisson': temps_cuisson,
            'Difficulté': difficulty,
            'Coût': cout,
            'Ingrédients': liste_ingredients_temp,
            'Étapes': liste_etapes_temp,
            'Liens_recette': lien,
            'Ustensiles': liste_ustensiles_temp
        }

        writer = csv.DictWriter(fichier_csv, fieldnames=nouvelle_ligne.keys(), delimiter=";")
        writer.writerow(nouvelle_ligne)

0:https://www.marmiton.org/recettes/recette_cuisse-de-dinde-facon-couscous-de-chez-karpeth_41363.aspx
['2 courgettes , diamètre 4 ou 5 cm', '3 carottes', '1 boîte moyenne de pois chiches', 'beurre', "1 cuisse de dinde d'un peu plus d'1 kg (et non un cochon d'Inde)", '6 échalotes (ou 2 gros oignons)', '1 bulbe de fenouil', '12 dattes', '200 g de semoule moyenne', "huile d'olive", 'sel', '3 cuillères à soupe de persil ciselé lyophilisé ou frais', 'tabasco', '2 cuillères à soupe de piment doux ou paprika en poudre', '2 cuillères à soupe de quatre-épices (cannelle, muscade, girofle, poivre)', '2 cubes de bouillon de volaille', "1 cuillère à café d' ail en semoule ou 2 gousses d’ail hachées", '2 cuillères à café de laurier en poudre (ou 2 feuilles)']
['Étape 1 1 casserole pour préparer la semoule (ou 1 bol si on la prépare au micro-ondes). J’vous raconte ça car en ce moment, je n’ai qu’un seul « feu » d’utilisable, alors cela fait partie du cahier des charges pour le choix des repas : pas d

NetworkError: Protocol error Runtime.callFunctionOn: Target closed.

In [18]:
df.to_csv("recettes_marmiton.csv", sep=";", encoding='utf-8', index=False)

In [19]:
data = pd.read_csv("recettes_marmiton.csv", sep=";", encoding='utf-8')
data['Ingrédients'][0]

'[\'2                                                                                                                                                       courgettes                                     , diamètre 4 ou 5 cm\', \'3                                                                                                                                                       carottes\', \'1                                         boîte moyenne                                                                          de                                     pois chiches\', \'beurre\', "1                                                                                                                                                       cuisse de dinde                                     d\'un peu plus d\'1 kg (et non un cochon d\'Inde)", \'6                                                                                                                                                     