In [7]:
file1 = pd.read_excel('ingredients_flavor_nutrition_full.xlsx')
file2 = pd.read_excel('recipes_instructions_grouped.xlsx')

import spacy
import pandas as pd
from fuzzywuzzy import fuzz

# Load spaCy model
nlp = spacy.load('en_core_web_sm')

# Hàm để khớp các từ khóa dựa trên fuzzy matching
def fuzzy_match(ingredient, instruction_text):
    ingredient_lower = ingredient.lower()
    instruction_lower = instruction_text.lower()
    
    # So sánh mức độ giống nhau giữa tên thành phần và hướng dẫn
    similarity = fuzz.partial_ratio(ingredient_lower, instruction_lower)
    
    # Nếu mức độ giống nhau > 80 (có thể điều chỉnh ngưỡng), thì coi là khớp
    return similarity > 80

# Hàm sử dụng spaCy và fuzzy matching để phân tích hướng dẫn và khớp thành phần
def analyze_instructions_with_fuzzy_nlp(ingredients, instructions):
    mapped_results = []
    
    # Xử lý từng dòng trong phần hướng dẫn
    for _, instruction_row in instructions.iterrows():
        instruction_text = instruction_row['Instructions']
        recipe_name = instruction_row['Recipe Name']
        
        # Duyệt qua các thành phần và cố gắng khớp chúng với phần hướng dẫn
        for _, ingredient_row in ingredients.iterrows():
            ingredient_name = ingredient_row['Ingredient Name']
            ingredient_recipe = ingredient_row['Recipe Name']
            
            # Kiểm tra cùng công thức
            if recipe_name != ingredient_recipe:
                continue
            
            # Khớp tên thành phần với phần hướng dẫn sử dụng fuzzy matching
            if fuzzy_match(ingredient_name, instruction_text):
                mapped_results.append({
                    'Recipe Name': recipe_name,
                    'Ingredient Name': ingredient_row['Ingredient Name'],
                    'Step': instruction_row['Step'],
                    'Instructions': instruction_row['Instructions']
                })
    
    return pd.DataFrame(mapped_results)

# Áp dụng hàm này cho tập dữ liệu của bạn
ingredient_nlp_mapping = analyze_instructions_with_fuzzy_nlp(file1, file2)

# Hiển thị kết quả
print(ingredient_nlp_mapping)


ingredient_nlp_mapping.to_excel('demo.xlsx')


                    Recipe Name                       Ingredient Name    Step  \
0        Kale Pesto Basil Wraps    (100g) chopped kale, stems removed  Step 1   
1        Kale Pesto Basil Wraps              (50g) fresh basil leaves  Step 1   
2        Kale Pesto Basil Wraps  jalapeños (about 28g), seeds removed  Step 1   
3        Kale Pesto Basil Wraps               (170g) chopped zucchini  Step 1   
4        Kale Pesto Basil Wraps               celery ribs (about 80g)  Step 1   
...                         ...                                   ...     ...   
3548  Roasted Vegetable Lasagna                          onion powder  Step 5   
3549  Roasted Vegetable Lasagna                     red pepper flakes  Step 5   
3550  Roasted Vegetable Lasagna                   ground black pepper  Step 5   
3551  Roasted Vegetable Lasagna     jarred or homemade marinara sauce  Step 5   
3552  Roasted Vegetable Lasagna                            Nutty Parm  Step 5   

                           