In [115]:
import pandas as pd
import numpy as np

In [116]:
data = pd.read_json("cocktail_dataset.json")
data.set_index('id', inplace=True)
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 134 entries, 11000 to 11993
Data columns (total 10 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   name          134 non-null    object
 1   category      134 non-null    object
 2   glass         134 non-null    object
 3   tags          35 non-null     object
 4   instructions  134 non-null    object
 5   imageUrl      134 non-null    object
 6   alcoholic     134 non-null    int64 
 7   createdAt     134 non-null    object
 8   updatedAt     134 non-null    object
 9   ingredients   134 non-null    object
dtypes: int64(1), object(9)
memory usage: 11.5+ KB



Preprocessing

In [117]:
print(len(data))
print(data.describe())

134
       alcoholic
count      134.0
mean         1.0
std          0.0
min          1.0
25%          1.0
50%          1.0
75%          1.0
max          1.0


wszystkie drinki okazują się być z alkoholem

In [118]:
# puste wartości
print(data.isnull().sum())

name             0
category         0
glass            0
tags            99
instructions     0
imageUrl         0
alcoholic        0
createdAt        0
updatedAt        0
ingredients      0
dtype: int64


usuwam iamgeUrl oraz daty, ponieważ nie wnoszą nic i wszystkie dotyczą jednego dnia

In [119]:
data = data.drop(columns=["imageUrl", "createdAt", "updatedAt"])

In [120]:
# wszystkie tagi
tags = set()
for tags_list in data['tags']:
    if type(tags_list) == list:
        for tag in tags_list:
            tags.add(tag)
print(sorted(tags))

['Alcoholic', 'Asia', 'Beach', 'Breakfast', 'Brunch', 'Chilli', 'Christmas', 'Citrus', 'Classic', 'Cold', 'ContemporaryClassic', 'Dairy', 'DinnerParty', 'Expensive', 'Fruity', 'Hangover', 'IBA', 'Mild', 'NewEra', 'Nutty', 'Savory', 'Sour', 'Strong', 'StrongFlavor', 'Summer', 'USA', 'Vegan', 'Vegetarian']


Po zweryfikowaniu tagów takich jak IBA okazuja się, że są one puste, ponieważ nie należą do zbioru oficjalnych koktajli IBA,
po weryfikacji z oficjalnym zbiorem, utworzę kolumne IBA z wartościami 0/1

In [121]:
# oficjalne IBA
with open("official_IBA.txt", "r", encoding="utf-8") as file:
    official_IBA = file.read().splitlines()

i = 0
# weryfikuję czy tagi IBA sie zgadzają 
for _, row in data.iterrows():
    if type(row["tags"]) == list:
        if row["tags"].count("IBA") > 0:
            if row["name"] not in official_IBA:
                pass
        elif row["name"] in official_IBA:
            print(row["name"], row["tags"])
            

print(i)

0


Teraz jest pewność, że drinki bez tagów, są drinakmi niezatwierdzonymi przez IBA.

Pojawiło się kilka drinków, które nie pasowały, pomimo bycia w tagach IBA, po weryfikacji, okazało się, że zostały usunięte. Na przykład Godfather, usunięty w 2020 roku.

In [122]:
# tworzę nową kolumnę z wartościami 0 i 1 dla tagów IBA
data["IBA"] = 0
for i, row in data.iterrows():
    if row["name"] in official_IBA:
        data.at[i, "IBA"] = 1

Dodaję każdemu wierszowi tag Alcoholic

In [123]:
for i, row in data.iterrows():
    if type(row["tags"]) == list:
        if "Alcoholic" not in row["tags"]:
            row["tags"].append("Alcoholic")
    else:
        row["tags"] = ["Alcoholic"]

In [124]:
set(data.category)

{'Cocktail', 'Ordinary Drink', 'Punch / Party Drink'}

Są 3 kategorie drinków, więc zastosuję one-hot encoding

In [125]:
data = pd.get_dummies(data, columns=['category'])

dummy_columns = [col for col in data.columns if col.startswith('category_')]
data[dummy_columns] = data[dummy_columns].astype(int)

In [126]:
data.columns

Index(['name', 'glass', 'tags', 'instructions', 'alcoholic', 'ingredients',
       'IBA', 'category_Cocktail', 'category_Ordinary Drink',
       'category_Punch / Party Drink'],
      dtype='object')

In [127]:
data.head()

Unnamed: 0_level_0,name,glass,tags,instructions,alcoholic,ingredients,IBA,category_Cocktail,category_Ordinary Drink,category_Punch / Party Drink
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
11000,Mojito,Highball glass,"[IBA, ContemporaryClassic, Alcoholic, USA, Asi...",Muddle mint leaves with sugar and lime juice. ...,1,"[{'id': 170, 'name': 'Soda water', 'descriptio...",1,1,0,0
11001,Old Fashioned,Old-fashioned glass,"[IBA, Classic, Alcoholic, Expensive, Savory]",Place sugar cube in old fashioned glass and sa...,1,"[{'id': 513, 'name': 'Water', 'description': '...",1,1,0,0
11002,Long Island Tea,Highball glass,"[Strong, Asia, StrongFlavor, Brunch, Vegetaria...",Combine all ingredients (except cola) and pour...,1,"[{'id': 305, 'name': 'Light Rum', 'description...",0,0,1,0
11003,Negroni,Old-fashioned glass,"[IBA, Classic, Alcoholic]","Stir into glass over ice, garnish and serve.",1,"[{'id': 482, 'name': 'Sweet Vermouth', 'descri...",1,0,1,0
11004,Whiskey Sour,Old-fashioned glass,"[IBA, Classic, Alcoholic, ContemporaryClassic]","Shake with ice. Strain into chilled glass, gar...",1,"[{'id': 409, 'name': 'Powdered Sugar', 'descri...",1,0,1,0
