## Bước 1: Vector hóa tên món ăn (Food Name Vectorization)

In [26]:
import pandas as pd

# Đọc dữ liệu từ file CSV
data = pd.read_csv('process_test.csv', encoding="euc-kr")

In [27]:
# Chuyển cột 'Date' thành kiểu datetime
data['Date'] = pd.to_datetime(data['Date'])

# Tạo thêm các cột như 'Weekday', 'Month', 'Year'
data['Weekday'] = data['Date'].dt.weekday
data['Month'] = data['Date'].dt.month
data['Year'] = data['Date'].dt.year


In [28]:
# Ví dụ: Chuyển đổi cột thời tiết thành kiểu số và thêm vào DataFrame
data['Avg_Temp'] = pd.to_numeric(data['Avg_Temp'], errors='coerce')
data['Max_Temp'] = pd.to_numeric(data['Max_Temp'], errors='coerce')
data['Min_Temp'] = pd.to_numeric(data['Min_Temp'], errors='coerce')
data['Temp_Range'] = data['Max_Temp'] - data['Min_Temp']


In [29]:
# Biến đổi thông tin về ngày nghỉ và ngày lễ
data['Is_Holiday'] = data['Holiday'].apply(lambda x: 1 if x != 0 else 0)
data['Is_Special_Day'] = data['special_day'].apply(lambda x: 1 if x != 0 else 0)


In [22]:
# Khởi tạo OneHotEncoder và vector hóa các cột món ăn:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder

# Khởi tạo OneHotEncoder
encoder = OneHotEncoder(sparse_output=False)

# Hàm tạo DataFrame với tên cột đúng
def encode_column(data, column_name):
    encoded_data = encoder.fit_transform(data[[column_name]])
    column_names = encoder.categories_[0]  # Lấy các tên cột từ các category
    return pd.DataFrame(encoded_data, columns=column_names)

# Vector hóa các cột món ăn và tạo DataFrame cho mỗi cột
lunch_rice_encoded_df = encode_column(data, 'Lunch_Rice')
lunch_soup_encoded_df = encode_column(data, 'Lunch_Soup')
lunch_main_dish_encoded_df = encode_column(data, 'Lunch_Main_Dish')
lunch_side_dish_1_encoded_df = encode_column(data, 'Lunch_Side_Dish_1')
lunch_side_dish_2_encoded_df = encode_column(data, 'Lunch_Side_Dish_2')
lunch_drink_encoded_df = encode_column(data, 'Lunch_Drink')
lunch_kimchi_encoded_df = encode_column(data, 'Lunch_Kimchi')
lunch_side_dish_3_encoded_df = encode_column(data, 'Lunch_side_Dish_3')

dinner_rice_encoded_df = encode_column(data, 'Dinner_Rice')
dinner_soup_encoded_df = encode_column(data, 'Dinner_Soup')
dinner_main_dish_encoded_df = encode_column(data, 'Dinner_Main_Dish')
dinner_side_dish_1_encoded_df = encode_column(data, 'Dinner_Side_Dish_1')
dinner_side_dish_2_encoded_df = encode_column(data, 'Dinner_Side_Dish_2')
dinner_side_dish_3_encoded_df = encode_column(data, 'Dinner_Side_Dish_3')
dinner_drink_encoded_df = encode_column(data, 'Dinner_Drink')
dinner_kimchi_encoded_df = encode_column(data, 'Dinner_Kimchi')

# Gộp tất cả các DataFrame đã mã hóa vào một DataFrame duy nhất
encoded_data = pd.concat([lunch_rice_encoded_df, lunch_soup_encoded_df, lunch_main_dish_encoded_df,
                          lunch_side_dish_1_encoded_df, lunch_side_dish_2_encoded_df, lunch_drink_encoded_df,
                          lunch_kimchi_encoded_df, lunch_side_dish_3_encoded_df, dinner_rice_encoded_df,
                          dinner_soup_encoded_df, dinner_main_dish_encoded_df, dinner_side_dish_1_encoded_df,
                          dinner_side_dish_2_encoded_df, dinner_side_dish_3_encoded_df, dinner_drink_encoded_df,
                          dinner_kimchi_encoded_df], axis=1)

# Kiểm tra kết quả
print(encoded_data.head())

encoded_data.to_csv('encoded_2016_2021.csv', index=False)

   (New)바지락비빔밥  (New)뿌리채소영양밥&달래양념장  <초복특식>  건강비빔밥*약고추장  계란채소볶음밥  고기듬뿍카레라이스  \
0          0.0                 0.0     0.0         0.0      0.0        0.0   
1          0.0                 0.0     0.0         0.0      0.0        0.0   
2          0.0                 0.0     0.0         0.0      0.0        0.0   
3          0.0                 0.0     0.0         0.0      0.0        0.0   
4          0.0                 0.0     0.0         0.0      0.0        0.0   

   곤드레밥  곤드레밥*간장양념  곤드레밥*강된장  곤드레밥*양념장  ...  얼갈이열무겉절이  열무김치  오이소박이  통배추겉절이  \
0   0.0        0.0       0.0       0.0  ...       0.0   0.0    0.0     0.0   
1   0.0        0.0       0.0       0.0  ...       0.0   0.0    0.0     0.0   
2   0.0        0.0       0.0       0.0  ...       0.0   0.0    0.0     0.0   
3   0.0        0.0       0.0       0.0  ...       0.0   0.0    0.0     0.0   
4   0.0        0.0       0.0       0.0  ...       0.0   0.0    0.0     0.0   

   포기김치  포기김치/마늘바게트  포기김치/무피클  포기김치/열무김치볶음  해파리냉채  NaN  
0   1

In [30]:
# # Điền giá trị 'None' cho các ô trống trong cột 'Lunch_Side_Dish_3'
# data['Lunch_Side_Dish_3'] = data['Lunch_Side_Dish_3'].fillna('None')

# # Tiến hành mã hóa cột sau khi điền giá trị trống
# lunch_side_dish_3_encoded_df = encode_column(data, 'Lunch_Side_Dish_3')


In [31]:
# # Điền giá trị phổ biến nhất cho các ô trống trong cột 'Lunch_Side_Dish_3'
# most_common_value = data['Lunch_Side_Dish_3'].mode()[0]
# data['Lunch_Side_Dish_3'] = data['Lunch_Side_Dish_3'].fillna(most_common_value)

# # Tiến hành mã hóa cột
# lunch_side_dish_3_encoded_df = encode_column(data, 'Lunch_Side_Dish_3')


In [32]:
# # Loại bỏ các hàng có giá trị trống trong cột 'Lunch_Side_Dish_3'
# data = data.dropna(subset=['Lunch_Side_Dish_3'])

# # Tiến hành mã hóa cột
# lunch_side_dish_3_encoded_df = encode_column(data, 'Lunch_Side_Dish_3')


In [33]:
# # Khởi tạo một hàm để thêm tên cột đúng khi mã hóa
# def encode_column(data, column_name):
#     encoded_data = encoder.fit_transform(data[[column_name]])
#     column_names = encoder.categories_[0]  # Lấy các tên cột từ các category
#     return pd.DataFrame(encoded_data, columns=column_names)

# # Tạo các DataFrame mã hóa và giữ đúng thứ tự các cột
# lunch_rice_encoded_df = encode_column(data, 'Lunch_Rice')
# lunch_soup_encoded_df = encode_column(data, 'Lunch_Soup')
# lunch_main_dish_encoded_df = encode_column(data, 'Lunch_Main_Dish')
# lunch_side_dish_1_encoded_df = encode_column(data, 'Lunch_Side_Dish_1')
# lunch_side_dish_2_encoded_df = encode_column(data, 'Lunch_Side_Dish_2')
# lunch_drink_encoded_df = encode_column(data, 'Lunch_Drink')
# lunch_kimchi_encoded_df = encode_column(data, 'Lunch_Kimchi')
# lunch_side_dish_3_encoded_df = encode_column(data, 'Lunch_Side_Dish_3')

# dinner_rice_encoded_df = encode_column(data, 'Dinner_Rice')
# dinner_soup_encoded_df = encode_column(data, 'Dinner_Soup')
# dinner_main_dish_encoded_df = encode_column(data, 'Dinner_Main_Dish')
# dinner_side_dish_1_encoded_df = encode_column(data, 'Dinner_Side_Dish_1')
# dinner_side_dish_2_encoded_df = encode_column(data, 'Dinner_Side_Dish_2')
# dinner_side_dish_3_encoded_df = encode_column(data, 'Dinner_Side_Dish_3')
# dinner_drink_encoded_df = encode_column(data, 'Dinner_Drink')
# dinner_kimchi_encoded_df = encode_column(data, 'Dinner_Kimchi')

# # Gộp tất cả các DataFrame mã hóa lại
# encoded_data = pd.concat([
#     lunch_rice_encoded_df, lunch_soup_encoded_df, lunch_main_dish_encoded_df,
#     lunch_side_dish_1_encoded_df, lunch_side_dish_2_encoded_df, lunch_drink_encoded_df,
#     lunch_kimchi_encoded_df, lunch_side_dish_3_encoded_df, dinner_rice_encoded_df,
#     dinner_soup_encoded_df, dinner_main_dish_encoded_df, dinner_side_dish_1_encoded_df,
#     dinner_side_dish_2_encoded_df, dinner_side_dish_3_encoded_df, dinner_drink_encoded_df,
#     dinner_kimchi_encoded_df
# ], axis=1)

# # Kiểm tra lại kết quả
# print(encoded_data.head())
# encoded_data.to_csv('encoded_thu_2.csv', index=False)

   (New)바지락비빔밥  (New)뿌리채소영양밥&달래양념장  <초복특식>  건강비빔밥*약고추장  계란채소볶음밥  고기듬뿍카레라이스  \
0          0.0                 0.0     0.0         0.0      0.0        0.0   
1          0.0                 0.0     0.0         0.0      0.0        0.0   
2          0.0                 0.0     0.0         0.0      0.0        0.0   
3          0.0                 0.0     0.0         0.0      0.0        0.0   
4          0.0                 0.0     0.0         0.0      0.0        0.0   

   곤드레밥  곤드레밥*간장양념  곤드레밥*강된장  곤드레밥*양념장  ...  얼갈이열무겉절이  열무김치  오이소박이  통배추겉절이  \
0   0.0        0.0       0.0       0.0  ...       0.0   0.0    0.0     0.0   
1   0.0        0.0       0.0       0.0  ...       0.0   0.0    0.0     0.0   
2   0.0        0.0       0.0       0.0  ...       0.0   0.0    0.0     0.0   
3   0.0        0.0       0.0       0.0  ...       0.0   0.0    0.0     0.0   
4   0.0        0.0       0.0       0.0  ...       0.0   0.0    0.0     0.0   

   포기김치  포기김치/마늘바게트  포기김치/무피클  포기김치/열무김치볶음  해파리냉채  NaN  
0   1

In [35]:
# Thêm các cột đã mã hóa vào DataFrame gốc
data[['Lunch_Rice_Encoded_' + str(i) for i in range(lunch_rice_encoded.shape[1])]] = lunch_rice_encoded
data[['Lunch_Soup_Encoded_' + str(i) for i in range(lunch_soup_encoded.shape[1])]] = lunch_soup_encoded
data[['Lunch_Main_Dish_Encoded_' + str(i) for i in range(lunch_main_dish_encoded.shape[1])]] = lunch_main_dish_encoded
data[['Lunch_Side_Dish_1_Encoded_' + str(i) for i in range(lunch_side_dish_1_encoded.shape[1])]] = lunch_side_dish_1_encoded
data[['Lunch_Side_Dish_2_Encoded_' + str(i) for i in range(lunch_side_dish_2_encoded.shape[1])]] = lunch_side_dish_2_encoded
data[['Lunch_Drink_Encoded_' + str(i) for i in range(lunch_drink_encoded.shape[1])]] = lunch_drink_encoded
data[['Lunch_Kimchi_Encoded_' + str(i) for i in range(lunch_kimchi_encoded.shape[1])]] = lunch_kimchi_encoded
data[['Lunch_Side_Dish_3_Encoded_' + str(i) for i in range(lunch_side_dish_3_encoded.shape[1])]] = lunch_side_dish_3_encoded

data[['Dinner_Rice_Encoded_' + str(i) for i in range(dinner_rice_encoded.shape[1])]] = dinner_rice_encoded
data[['Dinner_Soup_Encoded_' + str(i) for i in range(dinner_soup_encoded.shape[1])]] = dinner_soup_encoded
data[['Dinner_Main_Dish_Encoded_' + str(i) for i in range(dinner_main_dish_encoded.shape[1])]] = dinner_main_dish_encoded
data[['Dinner_Side_Dish_1_Encoded_' + str(i) for i in range(dinner_side_dish_1_encoded.shape[1])]] = dinner_side_dish_1_encoded
data[['Dinner_Side_Dish_2_Encoded_' + str(i) for i in range(dinner_side_dish_2_encoded.shape[1])]] = dinner_side_dish_2_encoded
data[['Dinner_Side_Dish_3_Encoded_' + str(i) for i in range(dinner_side_dish_3_encoded.shape[1])]] = dinner_side_dish_3_encoded
data[['Dinner_Drink_Encoded_' + str(i) for i in range(dinner_drink_encoded.shape[1])]] = dinner_drink_encoded
data[['Dinner_Kimchi_Encoded_' + str(i) for i in range(dinner_kimchi_encoded.shape[1])]] = dinner_kimchi_encoded

# Lưu dữ liệu đã được mã hóa vào file CSV mới
data.to_csv('encoded_meal_data_2016_2021.csv', index=False)

# Kiểm tra kết quả
print(data.head())


        Date Day  Total_Emp  Actual_Emp  Leave_Emp  Trip_Emp  OT_Approved  \
0 2016-02-01   월       2601        2401         50       150          238   
1 2016-02-02   화       2601        2378         50       173          319   
2 2016-02-03   수       2601        2365         56       180          111   
3 2016-02-04   목       2601        2277        104       220          355   
4 2016-02-05   금       2601        2142        278       181           34   

   Remote_Emp                                         Lunch_Menu  \
0           0  쌀밥/잡곡밥 (쌀,현미흑미:국내산) 오징어찌개  쇠불고기 (쇠고기:호주산) 계란찜 ...   
1           0  쌀밥/잡곡밥 (쌀,현미흑미:국내산) 김치찌개  가자미튀김  모둠소세지구이  마늘쫑무...   
2           0  카레덮밥 (쌀,현미흑미:국내산) 팽이장국  치킨핑거 (닭고기:국내산) 쫄면야채무침 ...   
3           0  쌀밥/잡곡밥 (쌀,현미흑미:국내산) 쇠고기무국  주꾸미볶음  부추전  시금치나물  ...   
4           0  쌀밥/잡곡밥 (쌀,현미흑미:국내산) 떡국  돈육씨앗강정 (돼지고기:국내산) 우엉잡채...   

                                         Dinner_Menu  ...  \
0  쌀밥/잡곡밥 (쌀,현미흑미:국내산) 육개장  자반고등어구이  두부조림  건파래무침 ...  ...   
1  콩나물

In [21]:
data.to_csv('encoded_2016_2021.csv', index=False)

In [5]:
# Chuyển đổi cột Date thành dạng datetime
data['Date'] = pd.to_datetime(data['Date'])

# Thêm các cột ngày, tháng và năm
data['Day_of_Week'] = data['Date'].dt.dayofweek  # Ngày trong tuần (0: Monday, 6: Sunday)
data['Month'] = data['Date'].dt.month  # Tháng
data['Day_of_Month'] = data['Date'].dt.day  # Ngày trong tháng
data['Year'] = data['Date'].dt.year  # Năm

# Kiểm tra dữ liệu sau khi chuyển đổi
print(data[['Date', 'Day_of_Week', 'Month', 'Day_of_Month', 'Year']].head())


        Date  Day_of_Week  Month  Day_of_Month  Year
0 2016-02-01            0      2             1  2016
1 2016-02-02            1      2             2  2016
2 2016-02-03            2      2             3  2016
3 2016-02-04            3      2             4  2016
4 2016-02-05            4      2             5  2016


In [13]:
# Kiểm tra tất cả các tên cột trong DataFrame sau khi mã hóa
print(data.columns)


Index(['Date', 'Day', 'Total_Emp', 'Actual_Emp', 'Leave_Emp', 'Trip_Emp',
       'OT_Approved', 'Remote_Emp', 'Lunch_Menu', 'Dinner_Menu',
       ...
       'Dinner_Kimchi_Encoded_14', 'Dinner_Kimchi_Encoded_15',
       'Dinner_Kimchi_Encoded_16', 'Dinner_Kimchi_Encoded_17',
       'Dinner_Kimchi_Encoded_18', 'Dinner_Kimchi_Encoded_19',
       'Dinner_Kimchi_Encoded_20', 'Dinner_Kimchi_Encoded_21',
       'Dinner_Kimchi_Encoded_22', 'Dinner_Kimchi_Encoded_23'],
      dtype='object', length=3787)


In [16]:
# In ra tên các cột đã mã hóa
print(lunch_rice_encoded_df.columns)

Index(['(New)바지락비빔밥', '(New)뿌리채소영양밥&달래양념장', '<초복특식>', '건강비빔밥*약고추장', '계란채소볶음밥',
       '고기듬뿍카레라이스', '곤드레밥', '곤드레밥*간장양념', '곤드레밥*강된장', '곤드레밥*양념장', '김밥볶음밥',
       '김치볶음밥', '김치볶음밥/계란', '김치제육덮밥', '김치필라프', '나물비빔밥', '낙지볶음밥', '낙지비빔밥',
       '낙지비빔밥*계란후라이', '단호박영양밥', '단호박카레라이스', '닭살카레라이스', '돈육버섯고추장덮밥', '마파두부덮밥',
       '버섯영양밥', '베이컨김치볶음밥', '봄나물비빔밥', '봄새싹비빔밥', '불고기덮밥', '불고기비빔밥', '비빔밥',
       '비빔밥*약고추장', '산채비빔밥', '산채비빔밥*강된장', '삼계탕', '새우날치알볶음밥', '소고기콩나물밥*양념',
       '소불고기덮밥', '쌀밥/', '쌀밥/강낭콩밥/찰현미밥', '쌀밥/검정콩밥/찰현미밥', '쌀밥/귀리밥/찰현미밥',
       '쌀밥/기장밥/찰현미밥', '쌀밥/렌틸콩밥/찰현미밥', '쌀밥/병아리콩/찰현미밥', '쌀밥/병아리콩밥/찰현미밥',
       '쌀밥/보리밥/찰현미밥', '쌀밥/수수밥/찰현미밥', '쌀밥/옛날돈까스', '쌀밥/오곡밥', '쌀밥/완두콩밥/찰현미밥',
       '쌀밥/잡곡밥', '쌀밥/차조밥/찰현미밥', '쌀밥/찰보리밥/찰현미밥', '쌀밥/치자밥/찰현미밥', '쌀밥/팥밥/찰현미밥',
       '쌀밥/흑미밥/찰현미밥', '야채볶음밥*짜장소스', '연복풍덮밥', '열무보리비빔밥', '열무보리비빔밥/강된장', '열무비빔밥',
       '오곡밥', '오므라이스', '전주비빔밥', '전주비빔밥*약고추장', '짜장덮밥', '짜장밥', '참치회덮밥', '카레덮밥',
       '카레라이스', '콩나물밥', '콩나물밥*달래장', '콩나물밥*양념장', '파인애플볶음밥'],
      dtype='object')
