In [1]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

In [3]:
df = pd.read_csv("recipes.csv",sep=",",encoding="utf-8")

In [4]:
df.head()

Unnamed: 0,title,ingredients
0,Banana Pancakes,"banana, flour, milk, egg"
1,Chocolate Cake,"flour, sugar, cocoa powder, egg, milk, butter"
2,Vanilla Muffins,"flour, sugar, vanilla, egg, milk, butter"
3,Omelette,"egg, milk, salt, pepper"
4,French Toast,"bread, egg, milk, cinnamon, sugar"


In [5]:
df["ingredients"] = df["ingredients"].str.lower()
df["ingredients"] = df["ingredients"].str.replace('[^\w\s]', '', regex=True)

In [8]:
df.tail()

Unnamed: 0,title,ingredients
45,Mushroom Risotto,rice mushroom onion parmesan
46,Zucchini Fritters,zucchini egg flour cheese
47,Cheesecake,cream cheese sugar egg biscuit
48,Baked Potato,potato cheese butter sour cream
49,Shrimp Pasta,pasta shrimp garlic cream


In [9]:
tfidf = TfidfVectorizer()
tfidf_matrix = tfidf.fit_transform(df['ingredients'])
print("TF-IDF Matrix Shape:", tfidf_matrix.shape)

TF-IDF Matrix Shape: (50, 69)


In [11]:
print(tfidf_matrix)

  (0, 24)	0.41455924614199613
  (0, 34)	0.4293007930024125
  (0, 26)	0.531992873753793
  (0, 2)	0.6006871422303466
  (1, 12)	0.29909741763690273
  (1, 49)	0.43338551659573527
  (1, 19)	0.518111873779411
  (1, 60)	0.3486591594120596
  (1, 24)	0.29909741763690273
  (1, 34)	0.30973319198992166
  (1, 26)	0.38382377482057844
  (2, 65)	0.5749078035667051
  (2, 12)	0.3318847687696796
  (2, 60)	0.38687951709893115
  (2, 24)	0.3318847687696796
  (2, 34)	0.34368644709818774
  (2, 26)	0.4258989120035666
  (3, 46)	0.5657660208236224
  (3, 53)	0.5657660208236224
  (3, 24)	0.4166833412605853
  (3, 34)	0.4315004200214913
  (4, 18)	0.5520304569934306
  (4, 8)	0.4441091539400065
  (4, 60)	0.4441091539400065
  (4, 24)	0.3809792386247897
  :	:
  (44, 62)	0.402381813835243
  (44, 4)	0.49101670167914163
  (44, 46)	0.5463476340970082
  (45, 35)	0.6036785793196606
  (45, 51)	0.4731791575059791
  (45, 42)	0.5459316652310388
  (45, 40)	0.3370938662607094
  (46, 68)	0.6641875145565367
  (46, 14)	0.4119936812765

In [15]:
tfidf.get_feature_names_out()

array(['apple', 'avocado', 'banana', 'bean', 'beef', 'bell', 'berry',
       'biscuit', 'bread', 'breadcrumb', 'broccoli', 'bulgur', 'butter',
       'carrot', 'cheese', 'chicken', 'chickpeas', 'chili', 'cinnamon',
       'cocoa', 'cream', 'croutons', 'cucumber', 'curry', 'egg', 'feta',
       'flour', 'garlic', 'granola', 'grapes', 'honey', 'lemon',
       'lettuce', 'mayo', 'milk', 'mushroom', 'mustard', 'oats', 'oil',
       'olive', 'onion', 'orange', 'parmesan', 'parsley', 'pasta',
       'peanut', 'pepper', 'pita', 'potato', 'powder', 'pumpkin', 'rice',
       'salmon', 'salt', 'sauce', 'shrimp', 'sour', 'soy', 'spaghetti',
       'strawberry', 'sugar', 'tahini', 'tomato', 'tortilla', 'tuna',
       'vanilla', 'water', 'yogurt', 'zucchini'], dtype=object)

In [16]:
cosine_sim = cosine_similarity(tfidf_matrix)
print("Cosine similarity matrix shape:", cosine_sim.shape)

Cosine similarity matrix shape: (50, 50)


In [47]:
for i in range(49):
    print(f"Tarif 0 ile Tarif {i} arasındaki benzerlik: {cosine_sim[0][i]:.3f}")

Tarif 0 ile Tarif 0 arasındaki benzerlik: 1.000
Tarif 0 ile Tarif 1 arasındaki benzerlik: 0.461
Tarif 0 ile Tarif 2 arasındaki benzerlik: 0.512
Tarif 0 ile Tarif 3 arasındaki benzerlik: 0.358
Tarif 0 ile Tarif 4 arasındaki benzerlik: 0.327
Tarif 0 ile Tarif 5 arasındaki benzerlik: 0.000
Tarif 0 ile Tarif 6 arasındaki benzerlik: 0.000
Tarif 0 ile Tarif 7 arasındaki benzerlik: 0.268
Tarif 0 ile Tarif 8 arasındaki benzerlik: 0.181
Tarif 0 ile Tarif 9 arasındaki benzerlik: 0.000
Tarif 0 ile Tarif 10 arasındaki benzerlik: 0.000
Tarif 0 ile Tarif 11 arasındaki benzerlik: 0.000
Tarif 0 ile Tarif 12 arasındaki benzerlik: 0.000
Tarif 0 ile Tarif 13 arasındaki benzerlik: 0.144
Tarif 0 ile Tarif 14 arasındaki benzerlik: 0.000
Tarif 0 ile Tarif 15 arasındaki benzerlik: 0.000
Tarif 0 ile Tarif 16 arasındaki benzerlik: 0.000
Tarif 0 ile Tarif 17 arasındaki benzerlik: 0.000
Tarif 0 ile Tarif 18 arasındaki benzerlik: 0.176
Tarif 0 ile Tarif 19 arasındaki benzerlik: 0.000
Tarif 0 ile Tarif 20 arasındak