In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# Base URL của trang công thức
base_url = "https://nutritionfacts.org/recipes/"
response = requests.get(base_url)
soup = BeautifulSoup(response.content, 'html.parser')

# Lấy các link công thức
recipe_links = soup.select("a.wpupg-type-wprm_recipe")
recipe_urls = [link.get('href') for link in recipe_links]

# Khởi tạo dictionary để lưu dữ liệu công thức
data = {
    "Recipe Name": [],
    "Servings": [],
    "Instruction Group": [],
    "Step": [],
    "Instructions": []
}

# Duyệt qua từng công thức để thu thập dữ liệu
for recipe_url in recipe_urls:
    response = requests.get(recipe_url)
    soup = BeautifulSoup(response.content, 'html.parser')

    # Lấy tên công thức
    recipe_name = soup.select_one("h1").get_text(strip=True)

    # Lấy thông tin servings
    serving_tag = soup.find('span', class_='wprm-recipe-servings')
    servings = serving_tag.get_text(strip=True) if serving_tag else 'N/A'

    # Lấy các nhóm hướng dẫn, có thể có thẻ h4 hoặc không
    instruction_groups = soup.find_all('div', class_='wprm-recipe-instruction-group')

    for group in instruction_groups:
        # Kiểm tra nếu có thẻ h4 thì lấy tên nhóm
        h4_tag = group.find('h4')
        instruction_group = h4_tag.get_text(strip=True) if h4_tag else ""

        # Duyệt qua từng bước hướng dẫn trong nhóm
        instruction_steps = group.find_all('li', class_='wprm-recipe-instruction')

        for idx, step in enumerate(instruction_steps, 1):  # Đếm step bắt đầu từ 1
            step_text = step.get_text(strip=True)

            # Lưu dữ liệu vào bảng
            data["Recipe Name"].append(recipe_name)
            data["Servings"].append(servings)
            data["Instruction Group"].append(instruction_group)
            data["Step"].append(f'Step {idx}')
            data["Instructions"].append(step_text)

    print(f"Thu thập xong hướng dẫn cho công thức: {recipe_name}")

# Tạo DataFrame từ dictionary
df = pd.DataFrame(data)

# Lưu dữ liệu vào file CSV
df.to_excel("recipes_instructions_grouped.xlsx", index=False)

print("Xuất dữ liệu ra file CSV thành công: recipes_instructions_grouped.csv")

Thu thập xong hướng dẫn cho công thức: Kale Pesto Basil Wraps
Thu thập xong hướng dẫn cho công thức: Southwest Kale Salad with Cumin-Tomato Dressing
Thu thập xong hướng dẫn cho công thức: Chickpea Chili
Thu thập xong hướng dẫn cho công thức: Jicama Mango Salad
Thu thập xong hướng dẫn cho công thức: Quinoa and Vegetable Stew
Thu thập xong hướng dẫn cho công thức: Ultimate Sauce
Thu thập xong hướng dẫn cho công thức: Cauliflower Bisque
Thu thập xong hướng dẫn cho công thức: Cinnamon Roll Oatmeal
Thu thập xong hướng dẫn cho công thức: Rainbow Root Veggie Stew
Thu thập xong hướng dẫn cho công thức: Lentil–Quinoa Tacos
Thu thập xong hướng dẫn cho công thức: Sweet Potato Mac N' Cheese
Thu thập xong hướng dẫn cho công thức: Sweet and Smoky Dressing
Thu thập xong hướng dẫn cho công thức: Plant-Based Zucchini Lasagna
Thu thập xong hướng dẫn cho công thức: Chocolate–Cherry Nice Cream
Thu thập xong hướng dẫn cho công thức: Peach and Papaya Salad
Thu thập xong hướng dẫn cho công thức: Sensational 