# Data Preparation

In [15]:
import pandas as pd
import re
import random
import numpy as np
from sklearn.model_selection import train_test_split

In [2]:
df = pd.read_table("./data/bg-recipes.tsv")
df.drop("Unnamed: 0", axis=1, inplace=True)

In [3]:
df

Unnamed: 0,title,rating,complexity,products,description
0,Зимна салата,10,2,1 ч.ч. сварен боб[EOL]2-3 бр. кисели краставич...,"Бобът се намачква с вилица, а сварените картоф..."
1,Гриловани зеленчуци,10,2,патладжани[EOL]тиквички[EOL]моркови[EOL]пресни...,Вида и количеството на зеленчуците са по желан...
2,Салата с печени чушки и варени яйца,10,1,"6-7 бр. печени чушки[EOL]400 г кисело мляко, п...",Отделят се белтъците и жълтъците на сварените ...
3,Чесново-орехова разядка,10,2,1 ч.ч. изчистени орехови ядки[EOL]2-3 бр. суха...,"Смилат се орехите, сухара се счуква на ситно. ..."
4,Салата за минутка,10,2,150 г сирене[EOL]2 бр. сварени яйца[EOL]150 г ...,Сиренето се настъргва и се изсипва върху чиния...
...,...,...,...,...,...
37207,Освежаващо през лятото,1,1,150 г ягоди[EOL]150 г боровинки[EOL]100 г къпи...,"Нужна ви е формичка за лед, във всяко квадратч..."
37208,Дресинг *Каролина*,1,1,1/2 ч. л горчица на прах[EOL]15 мл. (1 с. л. )...,Всички продукти се разбъркват в купичка. Получ...
37209,Харлакан фиде,1,2,200 г брашно[EOL]2 бр. яйца[EOL]кисело мляко[E...,"От брашното, яйцата и малко мляко се замесва т..."
37210,Конячени сливи,1,2,250 мл бренди или коняк[EOL]сушени сини сливи,"Почистените от костилките сливи се насипват, б..."


Our data consists of the title of the dish, rating from the website, products with the quantities, and the description of how to make it.

In [4]:
txt = df["products"][0]
txt

'1 ч.ч. сварен боб[EOL]2-3 бр. кисели краставички[EOL]1/2 бр. кисела зелка[EOL]2-3 бр. картофи[EOL]3-4 с.л. олио[EOL]2-3 с.л. оцет[EOL]1-2 глави лук'

In [5]:
# Remove [EOL] and other non-alphabetic characters

def clean_txt(txt):
    text_with_commas = re.sub(r'\[EOL\]', ', ', txt)
    cleaned_text = re.sub(r'ч\.л\.|\d|[-./]|ч\.ч\.|бр\.|с\.л\.|\bг\b|\bкг\b|\bмл\b|\bч л\b|\b( с л )\b', ' ', text_with_commas)
    # Replace multiple spaces with a single space
    cleaned_text = re.sub(r'\s+', ' ', cleaned_text).strip()

    return cleaned_text

We have to clean the text a bit with removing all the [EOL], and all product quantities like (soup spoon, cup, kg, ml and etc.)

In [6]:
random.seed(10)

randomlist = []
for i in range(0,50):
    n = random.randint(1,df.shape[0])
    randomlist.append(n)
    picked_txt = df["products"][n]
    print(picked_txt)
    print(clean_txt(picked_txt))
    print("\n")
    print("--------------------------------------")

2-3 бр. патладжани[EOL]1-2 скилидки чесън[EOL]оцет, зехтин или олио и сол[EOL]1 връзка магданоз
патладжани, скилидки чесън, оцет, зехтин или олио и сол, връзка магданоз


--------------------------------------
400 г мас[EOL]1 ч.ч. пудра захар[EOL]2 бр. яйца[EOL]есенция по желание[EOL]5 ч.ч. брашно[EOL]мармалад[EOL]течен шоколад[EOL]смлени орехи
мас, пудра захар, яйца, есенция по желание, брашно, мармалад, течен шоколад, смлени орехи


--------------------------------------
5 бр. яйца[EOL]100 г захар[EOL]80 г брашно[EOL]60 г масло[EOL]За пюрето:
яйца, захар, брашно, масло, За пюрето:


--------------------------------------
2 бр. свежи, червени, къдрави салати[EOL]4-5 бр. сварени картофи[EOL]1/4 стрък праз[EOL]3 с.л. зехтин[EOL]1-2 с.л. балсамиков оцет[EOL]щипка сол[EOL]3-4 стръка копър
свежи, червени, къдрави салати, сварени картофи, стрък праз, зехтин, балсамиков оцет, щипка сол, стръка копър


--------------------------------------
500 г кайма[EOL]500 г бамя[EOL]2 ч.ч. нарязани на фи

Now we have a better ingredients column consisting only of them and separated by a comma.

In [7]:
df["cleaned_products"] = df["products"].map(clean_txt)
df

Unnamed: 0,title,rating,complexity,products,description,cleaned_products
0,Зимна салата,10,2,1 ч.ч. сварен боб[EOL]2-3 бр. кисели краставич...,"Бобът се намачква с вилица, а сварените картоф...","сварен боб, кисели краставички, кисела зелка, ..."
1,Гриловани зеленчуци,10,2,патладжани[EOL]тиквички[EOL]моркови[EOL]пресни...,Вида и количеството на зеленчуците са по желан...,"патладжани, тиквички, моркови, пресни чушки, с..."
2,Салата с печени чушки и варени яйца,10,1,"6-7 бр. печени чушки[EOL]400 г кисело мляко, п...",Отделят се белтъците и жълтъците на сварените ...,"печени чушки, кисело мляко, по гъсто, сирене, ..."
3,Чесново-орехова разядка,10,2,1 ч.ч. изчистени орехови ядки[EOL]2-3 бр. суха...,"Смилат се орехите, сухара се счуква на ситно. ...","изчистени орехови ядки, сухари ( галета), голя..."
4,Салата за минутка,10,2,150 г сирене[EOL]2 бр. сварени яйца[EOL]150 г ...,Сиренето се настъргва и се изсипва върху чиния...,"сирене, сварени яйца, сухари Кубети със сирене..."
...,...,...,...,...,...,...
37207,Освежаващо през лятото,1,1,150 г ягоди[EOL]150 г боровинки[EOL]100 г къпи...,"Нужна ви е формичка за лед, във всяко квадратч...","ягоди, боровинки, къпини, вода"
37208,Дресинг *Каролина*,1,1,1/2 ч. л горчица на прах[EOL]15 мл. (1 с. л. )...,Всички продукти се разбъркват в купичка. Получ...,"ч л горчица на прах, ( с л ) мед, ( с л ) слън..."
37209,Харлакан фиде,1,2,200 г брашно[EOL]2 бр. яйца[EOL]кисело мляко[E...,"От брашното, яйцата и малко мляко се замесва т...","брашно, яйца, кисело мляко, спанак, доматено пюре"
37210,Конячени сливи,1,2,250 мл бренди или коняк[EOL]сушени сини сливи,"Почистените от костилките сливи се насипват, б...","бренди или коняк, сушени сини сливи"


In [8]:
text_df1 = pd.DataFrame()
text_df2 = pd.DataFrame()

For fine-tunning the model we need to follow the LLAMA standard provided by Meta itself. The trianing data should consist of the following text structure:

[INST] Instruction that we are going to give [/INST] The answer we are expecting from the model to be given.

In [9]:

text_df1["promped_text"] = "<s>[INST] Искам да сготвя нещо хубаво. Имам налични следните продукти: " + df["cleaned_products"] + " [/INST]" + " Може да приготвиш " + df["title"] + ": " + df["description"]

My model input will look like that:
    [INST] I want to cook somehting nice. I have the follwoing products: product1, product2, peoduct3 [/INST] You can cook `Title of dish: Dish description.`

In [10]:
text_df1.promped_text[0]

'<s>[INST] Искам да сготвя нещо хубаво. Имам налични следните продукти: сварен боб, кисели краставички, кисела зелка, картофи, олио, оцет, глави лук [/INST] Може да приготвиш Зимна салата: Бобът се намачква с вилица, а сварените картофи, краставичките и зелката се нарязват на ситно, лукът се нарязва на филийки. Всичко се разбърква много добре и се овкусява.'

[INST] I want to cook something nice. I have the following products available: boiled beans, pickles, sauerkraut, potatoes, oil, vinegar, onions [/INST] You can prepare a winter salad: Mash the beans with a fork, and finely chop the boiled potatoes, cucumbers and cabbage, onion is cut into slices. Everything is mixed very well and seasoned.

In [11]:

text_df2["promped_text"] = "<s>[INST] Гладен съм. Какво мога да си сготвя със: " + df["cleaned_products"] + " [/INST]" + " Начин на приготвяне на " + df["title"] + ": " + df["description"]

I created also another sentence starter: I'm hungry. What can I cook with:

I duplicate the data in a way to achieve a better understanding of the language and expectation of new ways to provide a command.

In [12]:
result_df = pd.concat([text_df1, text_df2], ignore_index=True)

In [13]:
result_df

Unnamed: 0,promped_text
0,<s>[INST] Искам да сготвя нещо хубаво. Имам на...
1,<s>[INST] Искам да сготвя нещо хубаво. Имам на...
2,<s>[INST] Искам да сготвя нещо хубаво. Имам на...
3,<s>[INST] Искам да сготвя нещо хубаво. Имам на...
4,<s>[INST] Искам да сготвя нещо хубаво. Имам на...
...,...
74419,<s>[INST] Гладен съм. Какво мога да си сготвя ...
74420,<s>[INST] Гладен съм. Какво мога да си сготвя ...
74421,<s>[INST] Гладен съм. Какво мога да си сготвя ...
74422,<s>[INST] Гладен съм. Какво мога да си сготвя ...


In [16]:
train_data, test_data = train_test_split(result_df, shuffle=True, train_size=0.85)

In [17]:
train_data.to_csv("./data/train_data.csv", index=False)
test_data.to_csv("./data/test_data.csv", index=False)