### Imports

In [1]:
import sqlite3
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os

from sklearn.feature_extraction.text import CountVectorizer
 
from sklearn.feature_extraction.text import TfidfVectorizer
 
from sklearn.metrics.pairwise import cosine_similarity

%matplotlib inline

### Loading our Data

Eine Verbindung zur Datenbank wird hergestellt und es wird ein Dataframe aus der Datenbank abgeleitet.

In [2]:
path = os.path.realpath('../Data')
con = sqlite3.connect(path+"/RecipeDB.db")
#cur = con.cursor();

sql = "SELECT * FROM Recipe ;"
df = pd.read_sql(sql,con)
df.index = df['recID']
df = df.drop(['recID'],axis = 1)

## A glance of the Data

Im folgenden werden grobe Analysemethoden angewendet um ein besseres Verständnis über die Daten generieren zu können

In [3]:
df.head()

Unnamed: 0_level_0,recName,recHeadline,recDisc,recDifficulty,recServingSize,recLink,recRating,recRatingCount,recSteps,recTime
recID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
53f45a29ff604dac328b456e,Pikante Paprika-Bratwurst Pfanne,auf Petersilien-Couscous,Dieses Gericht zaubert Dir nicht nur optisch A...,2,0,https://ddw4dkk7s1lkt.cloudfront.net/card/53f4...,3.1,765,6,35
5469feafff604d2c8b8b4569,Gnocchi-Paprika-Mozzarella Auflauf,verfeinert mit frischem Basilikum,"Tu Dir was Gutes! Unser Soul Food hilft Dir, s...",1,600,https://ddw4dkk7s1lkt.cloudfront.net/card/gnoc...,2.8,1012,6,30
54c91e3e6ced6e5f178b4571,Steak mit gebratenen Topinambur-Kartoffelecken,Rosmarin und Lauchcremesoße,"Topinambur kann man roh oder gegart essen, und...",2,0,https://ddw4dkk7s1lkt.cloudfront.net/card/54c9...,3.3,1186,7,40
54c91e716ced6e39178b456c,Hähnchenoberkeule auf Ofengemüse,verfeinert mit Sesam und Erdnusssoße,Kohlenhydratarm und proteinreich! Vor allem Pr...,2,0,https://ddw4dkk7s1lkt.cloudfront.net/card/54c9...,3.3,1194,7,30
54c91ed56ced6e5f178b4572,Valentinstagsquiche,"mit zweifarbigen Karotten, Zucchini und Rucola...",Der Valentinstag! Für viele wohl eine Erfindun...,3,0,https://ddw4dkk7s1lkt.cloudfront.net/card/54c9...,2.6,1407,8,30


Nachdem ersichtlich war, dass der Name, die Headline und die Beschreibung für zukünftiges Arbeiten eine bedeutende Rolle spielen könnten, wird ein Dataframe erstellt, welches nur die RezeptID und einen String, bestehend aus diesen drei Attributen, enthält.

In [5]:
df2 = df.assign(recString = df.recName.astype(str) + " " + df.recHeadline.astype(str) + " " +  df.recDisc.astype(str))
df2 = df2[["recString"]]
df2

Unnamed: 0_level_0,recString
recID,Unnamed: 1_level_1
53f45a29ff604dac328b456e,Pikante Paprika-Bratwurst Pfanne auf Petersili...
5469feafff604d2c8b8b4569,Gnocchi-Paprika-Mozzarella Auflauf verfeinert ...
54c91e3e6ced6e5f178b4571,Steak mit gebratenen Topinambur-Kartoffelecken...
54c91e716ced6e39178b456c,Hähnchenoberkeule auf Ofengemüse verfeinert mi...
54c91ed56ced6e5f178b4572,"Valentinstagsquiche mit zweifarbigen Karotten,..."
...,...
5c30b8a7c445fa33f45d3002,"Mildes gelbes Curry mit Limette, Kichererbsen ..."
5c30bb90c445fa36747c59b2,Hello Mole! Feuriges Chili con Carne mit gebac...
5c30c098e3f33962d2048221,3-Gänge-Valentinstags Menü mit Auberginen-Carp...
5c30c1bbc445fa3bc376fc02,"Cremiges Schweinegeschnetzeltes mit Paprika, C..."


In [6]:
print(df2.iloc[0]["recString"])

Pikante Paprika-Bratwurst Pfanne auf Petersilien-Couscous Dieses Gericht zaubert Dir nicht nur optisch Abwechslung auf Deinen Teller, sondern überzeugt auch auf geschmacklicher Ebene voll und ganz! Die Bratwurst sorgt für eine pikant-würzige Note, Paprika und Petersilie bringen Frische und Farbe in das Gericht. Lass es Dir schmecken!


In [7]:
df.shape

(1897, 10)

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1897 entries, 53f45a29ff604dac328b456e to 5c30c44ec445fa3dbb5a80b2
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   recName         1897 non-null   object 
 1   recHeadline     1897 non-null   object 
 2   recDisc         1897 non-null   object 
 3   recDifficulty   1897 non-null   int64  
 4   recServingSize  1897 non-null   int64  
 5   recLink         1897 non-null   object 
 6   recRating       1897 non-null   float64
 7   recRatingCount  1897 non-null   int64  
 8   recSteps        1897 non-null   int64  
 9   recTime         1897 non-null   int64  
dtypes: float64(1), int64(5), object(4)
memory usage: 163.0+ KB


In [9]:
df.describe()

Unnamed: 0,recDifficulty,recServingSize,recRating,recRatingCount,recSteps,recTime
count,1897.0,1897.0,1897.0,1897.0,1897.0,1897.0
mean,1.672114,351.470743,3.024829,491.638904,5.946231,38.483922
std,0.621373,331.467402,0.868404,488.070676,1.031803,16.209106
min,0.0,0.0,0.0,0.0,1.0,10.0
25%,1.0,0.0,3.1,80.0,6.0,30.0
50%,2.0,450.0,3.3,351.0,6.0,30.0
75%,2.0,650.0,3.4,742.0,6.0,40.0
max,3.0,1500.0,3.8,3049.0,10.0,180.0


Einige Verbesserungen zu den Strings der Daten, da multiple leerzeichen oder ähnliches vorkommt. Dies hilft auch dabei, duplikate besser ausfindig zu machen.

In [13]:
test_df = df2

#func to normalize text
def process_text(text):
    #replace muliple spaces with one
    test = ''.join(text.split())
    #lowercase
    text = text.lower()
    return text

test_df['recString'] = test_df.apply(lambda x: process_text(x.recString),axis= 1)

tf_idf = TfidfVectorizer()
t_matrix = tf_idf.fit_transform(test_df['recString'])

In [14]:
print(t_matrix)

  (0, 5776)	0.06740373136612401
  (0, 1698)	0.057490913101850755
  (0, 4035)	0.06866168924941524
  (0, 1190)	0.06283010613672314
  (0, 3293)	0.06057803526875432
  (0, 1785)	0.15617131534658524
  (0, 2052)	0.12428345188763232
  (0, 904)	0.13575810158605048
  (0, 5023)	0.17303928049590012
  (0, 4742)	0.13682299494652206
  (0, 7546)	0.13472532050431393
  (0, 5073)	0.17746495166891982
  (0, 1418)	0.07846593028199017
  (0, 2175)	0.07043152334186649
  (0, 6157)	0.12210418840362008
  (0, 1272)	0.051145534734789236
  (0, 2188)	0.09824589028449551
  (0, 6814)	0.10488730864425878
  (0, 7139)	0.1710239162424008
  (0, 1374)	0.26905804816703355
  (0, 2524)	0.26905804816703355
  (0, 340)	0.07807448246937693
  (0, 7862)	0.20240807487654203
  (0, 6129)	0.13180163378864673
  (0, 6564)	0.11149661900008886
  :	:
  (1896, 6068)	0.049958254173768056
  (1896, 1234)	0.08025980137189388
  (1896, 6077)	0.09248466776143963
  (1896, 2329)	0.0810830497643409
  (1896, 7418)	0.040749206328640236
  (1896, 6033)	0.05

In [16]:
csm = cosine_similarity(t_matrix,t_matrix)
csm


array([[1.        , 0.05064999, 0.06558585, ..., 0.02977284, 0.06001188,
        0.03436752],
       [0.05064999, 1.        , 0.02035793, ..., 0.03224958, 0.02916769,
        0.06602383],
       [0.06558585, 0.02035793, 1.        , ..., 0.04216951, 0.02522387,
        0.063693  ],
       ...,
       [0.02977284, 0.03224958, 0.04216951, ..., 1.        , 0.0347608 ,
        0.02095068],
       [0.06001188, 0.02916769, 0.02522387, ..., 0.0347608 , 1.        ,
        0.07400313],
       [0.03436752, 0.06602383, 0.063693  , ..., 0.02095068, 0.07400313,
        1.        ]])