In [None]:
pip install scikit-learn

In [5]:
import pandas as pd 
import numpy as np
import sklearn

In [6]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

In [7]:
nota_levenshtein_path = 'nota_levenshtein.csv'
receitas_levenshtein_path = 'receitas_levenshtein.csv'

nota_levenshtein_df = pd.read_csv(nota_levenshtein_path)
receitas_levenshtein_df = pd.read_csv(receitas_levenshtein_path)

In [9]:
# Extract ingredients from both dataframes
nota_ingredients = nota_levenshtein_df['Mapped Ingredient'].tolist()
receitas_ingredients = receitas_levenshtein_df['Ingredientes']

# Convert ingredients to a single string for TF-IDF processing
nota_ingredients_str = " ".join(nota_ingredients)
receitas_ingredients_str = receitas_ingredients.apply(lambda x: " ".join(eval(x)))

# Create the TF-IDF vectorizer
tfidf_vectorizer = TfidfVectorizer()

# Fit and transform the ingredients data
tfidf_matrix = tfidf_vectorizer.fit_transform([nota_ingredients_str] + receitas_ingredients_str.tolist())

# Calculate cosine similarity between the "nota_levenshtein" ingredients and each recipe
cosine_similarities = cosine_similarity(tfidf_matrix[0:1], tfidf_matrix[1:]).flatten()

# Find the recipe with the highest similarity score
best_match_index = cosine_similarities.argmax()
best_match_recipe = receitas_levenshtein_df.iloc[best_match_index]

best_match_recipe[['Receita', 'Porções', 'Ingredientes']]

Receita                               Cozido de Legumes com Carne
Porções                                                        10
Ingredientes    {'tiras cenoura refogada', 'abóbora moranga cu...
Name: 1512, dtype: object

In [11]:

nota_ingredients

['queijo mussarela fatiado',
 'banana nanica cortada',
 'carne peito frango moída',
 'coxão mole cubos médios',
 'coxão mole cubos médios',
 'água mais água demolho',
 'banana nanica cortada',
 'canela pó u',
 'cerca g carne moída u',
 'óleo soja fuba forma',
 'massa rolinho primavera',
 'café bicarbonato sódio',
 'xicara coco seco acucar u',
 'berinjela pequena cubos',
 'abobrinhas italianas grandes cada',
 'mandioca fresca descascada',
 'sal chimichurri',
 'açúcar confeiteiro peneirado',
 'goiabada cortada cubos',
 'papel manteiga',
 'papel manteiga',
 'batata cortada cubos',
 'leite coco creme leite',
 'espinafre congelado',
 'atum sólido natural light',
 'garrafas leite coco',
 'açúcar confeiteiro peneirado',
 'sal pimenta reino moída',
 'milho pipoca comum',
 'alga nori desidratada',
 'azeitona preta graúda',
 'abóbora moranga cubos médios',
 'fraldinha carne moída',
 'páprica doce defumada',
 'chimichurri alho pó',
 'chimichurri alho pó',
 'páprica doce defumada',
 'espigas milho

In [22]:

# Ensure both lists have the same length by padding with empty strings
max_len = max(len(nota_ingredients), len(best_recipe_ingredients))
nota_ingredients += [''] * (max_len - len(nota_ingredients))
best_recipe_ingredients += [''] * (max_len - len(best_recipe_ingredients))

# Create a DataFrame to display the results side by side
df_comparison = pd.DataFrame({
    'Ingredient from nota_levenshtein': nota_ingredients,
    'Ingredient from Recipe': best_recipe_ingredients
})

# Display the recipe name and the comparison table
print(f"Recipe: {best_match_recipe['Receita']}")
print(df_comparison)

Recipe: Cozido de Legumes com Carne
         Ingredient from nota_levenshtein             Ingredient from Recipe
0                queijo mussarela fatiado                batata cubos médios
1                   banana nanica cortada                   creme leite soja
2                carne peito frango moída  linguiça calabresa defumada moída
3                 coxão mole cubos médios               vagem pedaços médios
4                 coxão mole cubos médios         caldo legume água fervente
5                  água mais água demolho           batata doce cubos médios
6                   banana nanica cortada                batatas descascadas
7                             canela pó u                 acém cubos grandes
8                   cerca g carne moída u       abóbora moranga cubos médios
9                    óleo soja fuba forma           dekimchipicado finamente
10                massa rolinho primavera             tiras cenoura refogada
11                 café bicarbonato sódi