In [56]:
import numpy as np
import pandas as pd
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import LabelEncoder, MinMaxScaler

def process(config):
    train_df = pd.read_csv('./data/train.csv', encoding='utf-8')
    test_df = pd.read_csv('./data/test.csv', encoding='utf-8')
    sample = pd.read_csv('./data/sample_submission.csv', encoding='utf-8')

    TRAIN_LENGTH = 1205

    train_df['공휴일전후'] = 0
    test_df['공휴일전후'] = 0

    train_df['공휴일전후'][17] = 1
    train_df['공휴일전후'][3] = 1
    train_df['공휴일전후'][62] = 1
    train_df['공휴일전후'][131] = 1
    train_df['공휴일전후'][152] = 1
    train_df['공휴일전후'][226] = 1
    train_df['공휴일전후'][221] = 1
    train_df['공휴일전후'][224] = 1
    train_df['공휴일전후'][245] = 1
    train_df['공휴일전후'][310] = 1 # 2
    train_df['공휴일전후'][311] = 1
    train_df['공휴일전후'][309] = 1
    train_df['공휴일전후'][330] = 1
    train_df['공휴일전후'][379] = 1
    train_df['공휴일전후'][467] = 1
    train_df['공휴일전후'][470] = 1
    train_df['공휴일전후'][502] = 1
    train_df['공휴일전후'][565] = 1
    train_df['공휴일전후'][623] = 1
    train_df['공휴일전후'][651] = 1
    train_df['공휴일전후'][705] = 1
    train_df['공휴일전후'][709] = 1
    train_df['공휴일전후'][815] = 1
    train_df['공휴일전후'][864] = 1
    train_df['공휴일전후'][950] = 1
    train_df['공휴일전후'][951] = 1
    train_df['공휴일전후'][953] = 1
    train_df['공휴일전후'][954] = 1
    train_df['공휴일전후'][955] = 1
    train_df['공휴일전후'][971] = 1 #2
    train_df['공휴일전후'][1038] = 1
    train_df['공휴일전후'][1099] = 1
    train_df['공휴일전후'][1129] = 1
    train_df['공휴일전후'][1187] = 1

    test_df['공휴일전후'][10] = 1
    test_df['공휴일전후'][20] = 1

    if config.holiday_length:
        train_df['공휴일길이'] = 0
        test_df['공휴일길이'] = 0
        train_df['공휴일길이'][17] = 1  # 삼일절 전
        train_df['공휴일길이'][6] = 2  # 설 연휴 전
        train_df['공휴일길이'][47] = 1  # 총선 전
        train_df['공휴일길이'][62] = 4  # 어린이 날 전
        train_df['공휴일길이'][82] = 4  # 현충일 연휴 전(금요일)
        train_df['공휴일길이'][131] = 3  # 광복절 연휴 전(금요일)
        train_df['공휴일길이'][152] = 5  # 한가위 연휴 전
        train_df['공휴일길이'][162] = 3  # 개천절 연휴 전(금요일)
        train_df['공휴일길이'][226] = 2  # 연말
        train_df['공휴일길이'][221] = 2  # 크리스마스 전(금요일)
        train_df['공휴일길이'][245] = 4  # 설 연휴 전
        train_df['공휴일길이'][310] = 3  # 어린이 날 연휴 전(금요일)
        train_df['공휴일길이'][309] = 1  # 석가탄신일 전
        train_df['공휴일길이'][330] = 1  # 현충일 전
        train_df['공휴일길이'][379] = 1  # 광복절 전
        train_df['공휴일길이'][412] = 11  # 추석연휴 전
        train_df['공휴일길이'][466] = 3  # 성탄절 연휴 전(금요일)
        train_df['공휴일길이'][470] = 3  # 연말
        train_df['공휴일길이'][502] = 4  # 설 연휴 전
        train_df['공휴일길이'][510] = 3  # 삼일절 전
        train_df['공휴일길이'][565] = 1  # 석가탄신일 전
        train_df['공휴일길이'][575] = 1  # 현충일 전
        train_df['공휴일길이'][623] = 1  # 광복절 전
        train_df['공휴일길이'][650] = 2  # 추석 연휴 전
        train_df['공휴일길이'][651] = 16  # 한글날 전
        train_df['공휴일길이'][705] = 1  # 크리스마스 이브
        train_df['공휴일길이'][709] = 1  # 연말
        train_df['공휴일길이'][732] = 5  # 설연휴 전
        train_df['공휴일길이'][748] = 3  # 삼일절 연휴 전
        train_df['공휴일길이'][792] = 3  # 어린이날 연휴 전
        train_df['공휴일길이'][814] = 1  # 현충일 전
        train_df['공휴일길이'][863] = 1  # 광복절 전
        train_df['공휴일길이'][882] = 4  # 추석 연휴 전
        train_df['공휴일길이'][894] = 1  # 개천절 전
        train_df['공휴일길이'][897] = 1  # 한글날 전
        train_df['공휴일길이'][951] = 1  # 크리스마스 전
        train_df['공휴일길이'][955] = 1  # 연말
        train_df['공휴일길이'][971] = 4  # 설 연휴
        train_df['공휴일길이'][1027] = 1  # 국회의원선거 전
        train_df['공휴일길이'][1037] = 4  # 석가탄신일 연휴 전
        train_df['공휴일길이'][1038] = 1  # 어린이날 전
        train_df['공휴일길이'][1129] = 7  # 추석연휴 전
        train_df['공휴일길이'][1133] = 3  # 한글날 연휴 전
        train_df['공휴일길이'][1187] = 10  # 성탄절 연휴 전

        test_df['공휴일길이'][10] = 4  # 설연휴전
        test_df['공휴일길이'][20] = 3  # 삼일절 연휴 전

    df = pd.concat([train_df, test_df], axis=0).reset_index(drop=True)
    df = pd.get_dummies(df, columns=['공휴일전후'])

    y = train_df[['중식계', '석식계']]

    df['출근'] = df['본사정원수'] - (df['본사휴가자수'] + df['본사출장자수'] + df['현본사소속재택근무자수'])
    df['휴가비율'] = df['본사휴가자수'] / df['본사정원수']
    df['출장비율'] = df['본사출장자수'] / df['본사정원수']
    df['야근비율'] = df['본사시간외근무명령서승인건수'] / df['출근']
    df['재택비율'] = df['현본사소속재택근무자수'] / df['본사정원수']

    df.drop(columns=['본사정원수', '본사휴가자수', '본사출장자수', '현본사소속재택근무자수'], inplace=True)

    df['year'] = df.일자.apply(lambda x : int(x[:4]))
    df['month'] = df.일자.apply(lambda x : int(x[-5 :-3]))
    df['day'] = df.일자.apply(lambda x : int(x[-2 :]))
    df['week'] = df.day.apply(lambda x : x // 7)

    # weather =================================
    temp = pd.read_csv('./data/temp.csv', encoding='utf-8')
    df = pd.merge(df, temp, on='일자')
    # weather =================================

    # corona ===========================================
    # SRC: https://kdx.kr/data/view/25918
    corona = pd.read_csv('./data/corona/Covid19SidoInfState.csv')
    corona = corona.loc[corona.gubun == '경남']
    corona.stdDay = corona.stdDay.str.replace('년 ', '-')
    corona.stdDay = corona.stdDay.str.replace('월 ', '-')
    corona.stdDay = corona.stdDay.str.replace('일', '')
    corona.stdDay = corona.stdDay.str.replace('[ ][0-9]*시', '')
    df.일자 = pd.to_datetime(df.일자)
    corona.stdDay = pd.to_datetime(corona.stdDay)
    corona.rename(columns={'stdDay' : '일자',
                           'defCnt' : '확진자수',
                           'incDec' : '전일대비증감',
                           'deathCnt' : '사망자수'},
                  inplace=True)
    si = SimpleImputer(fill_value=0)
    for col in ['확진자수', '전일대비증감', '사망자수']:
        corona[col] = si.fit_transform(corona[col].values.reshape(-1, 1))
    df = pd.merge(df, corona[['일자', '확진자수', '전일대비증감', '사망자수']], on='일자', how='left')
    df.drop_duplicates('일자', keep='first', inplace=True)
    for col in ['확진자수', '전일대비증감', '사망자수']:
        df[col] = si.fit_transform(df[col].values.reshape(-1, 1))
    # corona ===========================================

    df.drop(columns=['일자'], inplace=True)

    columns = ['조식메뉴', '중식메뉴', '석식메뉴']
    for col in columns :
        df[col] = df[col].str.replace('/', ' ')
        df[col] = df[col].str.replace(r'([<]{1}[ㄱ-힣\:\,\.\/\-A-Za-z 0-9]*[>]{1})', '')
        df[col] = df[col].str.replace(r'([＜]{1}[ㄱ-힣\:\,\.\/\-A-Za-z 0-9]*[＞]{1})', '')
        df[col] = df[col].str.replace(r'([(]{1}[ㄱ-힣\:\,\.\/\-A-Za-z 0-9]*[)]{1})', '')
        df[col] = df[col].str.replace(r'[ ]{2, }', ' ')
        df[col] = df[col].str.replace('\(New\)', '')
        df[col] = df[col].str.replace('\(NeW\)', '')
        df[col] = df[col].str.replace(r'[D]{1}', '')
        df[col] = df[col].str.replace(r'[S]{1}', '')
        df[col] = df[col].str.replace('\(쌀:국내산,돈육:국내', '')
        df[col] = df[col].str.replace('고추가루:중국산\)', '')
        df[col] = df[col].str.replace('*', ' ')
        df[col] = df[col].str.replace('[(]만두 고추 통계란[)]', '')
        df[col] = df[col].str.replace('[(]모둠튀김 양념장[)]', '')
        df[col] = df[col].apply(lambda x : x.strip())


    # Normalize
    scaling_cols = ['본사시간외근무명령서승인건수', '출근', '휴가비율', '야근비율', '재택비율', '출장비율', 'year', 'day']
    for col in scaling_cols :
        ms = MinMaxScaler()
        ms.fit(df[col][:TRAIN_LENGTH].values.reshape(-1, 1))
        df[col] = ms.transform(df[col].values.reshape(-1, 1))

    le = LabelEncoder()
    le.fit(df.요일.values[:TRAIN_LENGTH])
    df.요일 = le.transform(df.요일.values)

    np.random.seed(config.seed)
    idx = np.random.permutation(TRAIN_LENGTH)
    train_idx = idx[:1000]
    valid_idx = idx[1000:]

    train_df = df.iloc[train_idx, :]
    valid_df = df.iloc[valid_idx, :]
    test_df = df.iloc[TRAIN_LENGTH:, :]
    train_y = y.iloc[train_idx, :]
    valid_y = y.iloc[valid_idx, :]

    train_df.drop(columns=['중식계', '석식계'], inplace=True)
    valid_df.drop(columns=['중식계', '석식계'], inplace=True)
    test_df.drop(columns=['중식계', '석식계'], inplace=True)

    if not config.drop_text:
        if config.text == 'embedding' :
            train_tmp, valid_tmp, test_tmp = embedding(config, train_df, valid_df, test_df)
        elif config.text == 'autoencoder' :
            train_tmp, valid_tmp, test_tmp = autoencoding(config, train_df, valid_df, test_df)
        elif config.text == 'menu':
            train_tmp, valid_tmp, test_tmp = menu_embedding(train_df, valid_df, test_df)
        else:
            print('ERROR: INVALID EMBEDDING METHOD, RUNTIME TERMINATED')
            quit()

        train_df = pd.concat([train_df.reset_index(drop=True), train_tmp.reset_index(drop=True)], axis=1)
        valid_df = pd.concat([valid_df.reset_index(drop=True), valid_tmp.reset_index(drop=True)], axis=1)
        test_df = pd.concat([test_df.reset_index(drop=True), test_tmp.reset_index(drop=True)], axis=1)

    train_df.drop(columns=['조식메뉴', '중식메뉴', '석식메뉴'], inplace=True)
    valid_df.drop(columns=['조식메뉴', '중식메뉴', '석식메뉴'], inplace=True)
    test_df.drop(columns=['조식메뉴', '중식메뉴', '석식메뉴'], inplace=True)

    print('=' * 10, 'MESSAGE: DATA LOADED SUCCESSFULLY', '=' * 10)
    print('|TRAIN| : {} |VALID| : {} |TEST| : {}'.format(train_df.shape, valid_df.shape, test_df.shape))

    return train_df, valid_df, test_df, train_y, valid_y, sample


def get_data(config) :
    train_df, valid_df, test_df, train_y, valid_y, sample = process(config)

    return train_df, valid_df, test_df, train_y, valid_y, sample

In [33]:
train = pd.read_csv('./data/train.csv')
test = pd.read_csv('./data/test.csv')

In [34]:
test

Unnamed: 0,일자,요일,본사정원수,본사휴가자수,본사출장자수,본사시간외근무명령서승인건수,현본사소속재택근무자수,조식메뉴,중식메뉴,석식메뉴
0,2021-01-27,수,2983,88,182,5,358.0,모닝롤/연유버터베이글 우유/주스 계란후라이/찐계란 단호박죽/흑미밥 우거지국 고기완자...,쌀밥/흑미밥/찰현미밥 대구지리 매운돈갈비찜 오꼬노미계란말이 상추무침 포기김치 양상추...,흑미밥 얼큰순두부찌개 쇠고기우엉볶음 버섯햄볶음 (New)아삭이고추무절임 포기김치
1,2021-01-28,목,2983,104,212,409,348.0,모닝롤/대만샌드위치 우유/주스 계란후라이/찐계란 누룽지탕/흑미밥 황태국 시래기지짐 ...,쌀밥/보리밥/찰현미밥 우렁된장찌개 오리주물럭 청양부추전 수제삼색무쌈 겉절이김치 양상...,충무김밥 우동국물 오징어무침 꽃맛살샐러드 얼갈이쌈장무침 석박지
2,2021-01-29,금,2983,270,249,0,294.0,모닝롤/핫케익 우유/주스 계란후라이/찐계란 오곡죽/흑미밥 매생이굴국 고구마순볶음 양...,쌀밥/흑미밥/찰현미밥 팽이장국 수제돈까스*소스 가자미조림 동초나물무침 포기김치 양상...,흑미밥 물만둣국 카레찜닭 숯불양념꼬지어묵 꼬시래기무침 포기김치
3,2021-02-01,월,2924,108,154,538,322.0,모닝롤/촉촉한치즈케익 우유/주스 계란후라이/찐계란 누룽지탕/흑미밥 두부김칫국 새우완...,쌀밥/흑미밥/찰현미밥 배추들깨국 오리대패불고기 시금치프리타타 부추고추장무침 포기김치...,흑미밥 동태탕 돈육꽈리고추장조림 당면채소무침 모자반무침 포기김치
4,2021-02-02,화,2924,62,186,455,314.0,모닝롤/토마토샌드 우유/주스 계란후라이/찐계란 채소죽/흑미밥 호박맑은국 오이생채 양...,쌀밥/팥밥/찰현미밥 부대찌개 닭살데리야끼조림 버섯탕수 세발나물무침 알타리김치/사과푸...,흑미밥 바지락살국 쇠고기청경채볶음 두부구이*볶은김치 머위된장무침 백김치
5,2021-02-03,수,2924,59,199,5,286.0,모닝롤/게살모닝샌드 우유/주스 계란후라이/찐계란 소고기죽/흑미밥 시래기된장국 베이컨...,쌀밥/흑미밥/찰현미밥 아욱국 매콤해물볶음 감자조림 미나리나물 포기김치 콥샐러드*렌치D,오므라이스 가쓰오장국 빌소세지구이*구운채소 단감치커리무침 양념고추지 겉절이김치
6,2021-02-04,목,2924,61,211,476,288.0,모닝롤/사과파이 우유/주스 계란후라이/찐계란 누룽지탕/흑미밥 아욱국 새송이버섯곤약장...,쌀밥/차조밥/찰현미밥 설렁탕 고등어김치말이찜 볼어묵굴소스볶음 브로콜리숙회*초장 석박...,흑미밥 계란파국 돈육두루치기 감자채파프리카볶음 세발나물오리엔탈무침 포기김치
7,2021-02-05,금,2924,169,252,0,256.0,모닝롤/앙버터모닝빵 우유/주스 계란후라이/찐계란 고구마죽/흑미밥 옹심이국 머위나물무...,쌀밥/흑미밥/찰현미밥 북엇국 닭볶음탕 채소전*장 솎음열무나물무침 포기김치 양상추샐러...,유부초밥/추가밥 온메밀소바 국물떡볶이 순대찜*소금 청경채겉절이 포기김치
8,2021-02-08,월,2924,88,174,690,329.0,모닝롤/스콘 우유/주스 계란후라이/찐계란 누룽지탕/흑미밥 꽃게탕 근대나물무침 연두부...,쌀밥/흑미밥/찰현미밥 감자양파국 돈수육*씨앗쌈장 매콤어묵볶음 콩나물파채무침 포기김치...,흑미밥 냉이국 반반치킨 꼬막채소무침 청경채찜 포기김치
9,2021-02-09,화,2924,94,183,542,329.0,모닝롤/치즈팡샌드 우유/주스 계란후라이/찐계란 팥죽/흑미밥 맑은버섯국 시금치나물무침...,쌀밥/기장밥/찰현미밥 장각백숙 적어양념장구이 채소스틱*쌈장 도라지오이초무침 겉절이김...,흑미밥 미역국 매운소불고기 단호박두부탕수 메추리알장조림 석박지


In [13]:
train.drop(index=[586]) #석식이 없는데 석식자가 있음

# train['자기계발의날'] = 0
# train['자기계발의날'].loc[327] = 1
# train['자기계발의날'].loc[346] = 1
# train['자기계발의날'].loc[366] = 1 #가정의 날
# train['자기계발의날'].loc[667] = 1
# train['자기계발의날'].iloc[706] = 1
# train['자기계발의날'].loc[730] = 1
# train['자기계발의날'].loc[747] = 1
# train['자기계발의날'].loc[766] = 1
# train['자기계발의날'].loc[786] = 1
# train['자기계발의날'].loc[809] = 1
# train['자기계발의날'].loc[828] = 1
# train['자기계발의날'].loc[853] = 1
# train['자기계발의날'].loc[872] = 1
# train['자기계발의날'].loc[890] = 1
# train['자기계발의날'].loc[912] = 1
# train['자기계발의날'].loc[932] = 1
# train['자기계발의날'].loc[973] = 1
# train['자기계발의날'].loc[993] = 1
# train['자기계발의날'].loc[955] = 1
# train['자기계발의날'].loc[1166] = 1

0

In [45]:
test.iloc[21]

일자                                                       2021-03-02
요일                                                                화
본사정원수                                                          2975
본사휴가자수                                                          139
본사출장자수                                                          166
본사시간외근무명령서승인건수                                                  781
현본사소속재택근무자수                                                     248
조식메뉴              모닝롤/호떡 우유/주스 계란후라이 누룽지탕/흑미밥 애호박새우젓국 재래김*양념장 양상...
중식메뉴              쌀밥/흑미밥/찰현미밥 아욱국 치즈불닭 베이컨감자볶음 매운콩나물무침 포기김치 양배추샐...
석식메뉴                           흑미밥 냉이김칫국 해물우동볶음 날치알계란찜 솎음열무나물 포기김치 
Name: 21, dtype: object

In [56]:
train.iloc[4]

일자                                                       2016-02-05
요일                                                                금
본사정원수                                                          2601
본사휴가자수                                                          278
본사출장자수                                                          181
본사시간외근무명령서승인건수                                                   34
현본사소속재택근무자수                                                       0
조식메뉴              모닝롤/와플  우유/두유/주스 계란후라이  쇠고기죽/쌀밥 (쌀:국내산) 재첩국  방...
중식메뉴              쌀밥/잡곡밥 (쌀,현미흑미:국내산) 떡국  돈육씨앗강정 (돼지고기:국내산) 우엉잡채...
석식메뉴              쌀밥/잡곡밥 (쌀,현미흑미:국내산) 차돌박이찌개 (쇠고기:호주산) 닭갈비 (닭고기:...
중식계                                                             925
석식계                                                             330
Name: 4, dtype: object

In [57]:
import re
from argparse import Namespace

import numpy as np
import pandas as pd

import fasttext
from konlpy.tag import Mecab

import tensorflow as tf
from tensorflow.keras.layers import *
from sklearn.feature_extraction.text import CountVectorizer


TRAIN_LENGTH = 1205


def pretext(text) :
    text = text.rstrip()
    text = re.sub('▁', '', text)
    return text

def get_fasttext_model(config, train_df, save=False):
    print('"{}" DOES NOT EXIST. START TRAINING MODEL'.format(config.fasttext_model_fn))
    corpus = np.concatenate([train_df.조식메뉴.values,
                             train_df.중식메뉴.values,
                             train_df.석식메뉴.values], axis=0)
    with open('./data/corpus.train.txt', 'w', -1, encoding='utf-8') as f :
        f.write('\n'.join(corpus))

    if config.dummy_corpus :
        args = {'load_fn' : './data/corpus.train.txt',
                'save_fn' : './data/corpus.train.dummy.txt',
                'iter' : 10,
                'verbose' : 300}
        args = Namespace(**args)
        main(args)

    model = fasttext.train_unsupervised(
        './data/corpus.train.dummy.txt' if config.dummy_corpus else './data/corpus.train.txt',
        dim=config.dim,
        ws=config.window_size,
        epoch=config.fasttext_epoch,
        min_count=config.min_count,
        minn=config.min_ngram,
        maxn=config.max_ngram,
        )
    if save:
        model.save_model('./data/{}'.format(config.fasttext_model_fn))
    return model

def embedding(config, train_df, valid_df, test_df):
    embedding_features = []

    if config.pretrained:
        print('USE PRETRAINED MODEL: cc.ko.300.bin')
        model = fasttext.load_model('cc.ko.300.bin')
        fasttext.util.reduce_model(model, config.dim)

    else:
        if config.fasttext_model_fn is not None:
            try:
                model = fasttext.load_model('./data/{}'.format(config.fasttext_model_fn))
            except:
                model = get_fasttext_model(config, train_df, save=True)
        else:
            model = get_fasttext_model(config, train_df, save=False)


    TRAIN_LENGTH, VALID_LENGTH = train_df.shape[0], valid_df.shape[0]

    df = pd.concat([train_df, valid_df, test_df], axis=0)
    breakfast = df.조식메뉴.values
    lunch = df.중식메뉴.values
    dinner = df.석식메뉴.values

    breakfast_array = np.zeros((1255, config.dim))
    lunch_array = np.zeros((1255, config.dim))
    dinner_array = np.zeros((1255, config.dim))
    for i in range(1255) :
        breakfast_array[i] = model.get_sentence_vector(breakfast[i]) / (len(breakfast[i].split()) + 1)
        lunch_array[i] = model.get_sentence_vector(lunch[i]) / (len(lunch[i].split()) + 1)
        dinner_array[i] = model.get_sentence_vector(dinner[i]) / (len(dinner[i].split()) + 1)

    for i in range(config.dim) :
        embedding_features.append('breakfast_{}'.format(i))
        embedding_features.append('lunch_{}'.format(i))
        embedding_features.append('dinner_{}'.format(i))

    tmp = pd.concat([
        pd.DataFrame(breakfast_array, columns=['breakfast_{}'.format(i) for i in range(config.dim)]),
        pd.DataFrame(lunch_array, columns=['lunch_{}'.format(i) for i in range(config.dim)]),
        pd.DataFrame(dinner_array, columns=['dinner_{}'.format(i) for i in range(config.dim)])], axis=1)
    train_tmp = tmp[:TRAIN_LENGTH]
    valid_tmp = tmp[TRAIN_LENGTH: TRAIN_LENGTH + VALID_LENGTH]
    test_tmp = tmp[TRAIN_LENGTH + VALID_LENGTH:]

    return train_tmp, valid_tmp, test_tmp

class Encoder(tf.keras.models.Model) :
    def __init__(self, step, input_size) :
        super(Encoder, self).__init__()
        self.model = tf.keras.models.Sequential([
            InputLayer(input_shape=(input_size,)),
            Dense(input_size - step * 1, activation='relu'),
            Dense(input_size - step * 2, activation='relu'),
            Dense(input_size - step * 3, activation='relu'),
            Dense(input_size - step * 4, activation='relu'),
            Dense(input_size - step * 5),
        ])

    def call(self, x) :
        z = self.model(x)
        return z

class Decoder(tf.keras.models.Model) :
    def __init__(self, step, input_size, output_size) :
        super(Decoder, self).__init__()
        self.model = tf.keras.models.Sequential([
            InputLayer(input_shape=(input_size,)),
            Dense(output_size - step * 4, activation='relu'),
            #             Dense(output_size - step * 3, activation='relu'),
            Dense(output_size - step * 2, activation='relu'),
            #             Dense(output_size - step * 1, activation='relu'),
            Dense(output_size),
        ])

    def call(self, x) :
        z = self.model(x)
        return z

class AutoEncoder(tf.keras.models.Model) :
    def __init__(self, input_size, step) :
        super(AutoEncoder, self).__init__()
        self.encoder = Encoder(step, input_size)
        self.decoder = Decoder(step, input_size - step * 5, input_size)

    def call(self, x) :
        y = self.encoder(x)
        z = self.decoder(y)
        return z

def autoencoding(config, train_df, valid_df, test_df) :
    TRAIN_LENGTH = train_df.shape[0]
    VALID_LENGTH = valid_df.shape[0]

    df = pd.concat([train_df, valid_df, test_df], axis=0)
    text_df = df[['조식메뉴', '중식메뉴', '석식메뉴']]

    mecab = Mecab(dicpath='C:/mecab/mecab-ko-dic')

    for i in range(len(text_df.조식메뉴)) :
        text_df.조식메뉴[i] = ','.join(text_df.조식메뉴[i].split())
        text_df.조식메뉴[i] = ' '.join(mecab.morphs(text_df.조식메뉴[i]))
    for i in range(len(text_df.중식메뉴)) :
        text_df.중식메뉴[i] = ','.join(text_df.중식메뉴[i].split())
        text_df.중식메뉴[i] = ' '.join(mecab.morphs(text_df.중식메뉴[i]))
    for i in range(len(text_df.석식메뉴)) :
        text_df.석식메뉴[i] = ','.join(text_df.석식메뉴[i].split())
        text_df.석식메뉴[i] = ' '.join(mecab.morphs(text_df.석식메뉴[i]))

    vect = CountVectorizer()
    vect.fit(text_df['조식메뉴'].values[:TRAIN_LENGTH])
    breakfast = vect.transform(text_df['조식메뉴'].values).toarray()
    vect.fit(text_df['중식메뉴'].values[:TRAIN_LENGTH])
    lunch = vect.transform(text_df['중식메뉴'].values).toarray()
    vect.fit(text_df['석식메뉴'].values[:TRAIN_LENGTH])
    dinner = vect.transform(text_df['석식메뉴'].values).toarray()

    enc_df = pd.DataFrame()

    i = 1
    for menu in [breakfast, lunch, dinner] :
        print('+' * 10, 'Train {}'.format(i), '+' * 10)
        train_X, valid_X = menu[:TRAIN_LENGTH], menu[TRAIN_LENGTH :TRAIN_LENGTH + VALID_LENGTH]
        STEP = (menu.shape[1] - config.dim) // 5
        INPUT = menu.shape[1]

        model = AutoEncoder(INPUT, STEP)
        model.compile(loss='mse', optimizer='adam', metrics='mse')
        model.fit(train_X, train_X,
                  validation_data=(valid_X, valid_X),
                  epochs=1000,
                  callbacks=tf.keras.callbacks.EarlyStopping(patience=10),
                  verbose=2)
        result = model.encoder(menu)
        result = np.array(result)

        enc_df = pd.concat([enc_df, pd.DataFrame(result)], axis=1)
        i += 1
        print()


    train_df_tmp = enc_df.iloc[:TRAIN_LENGTH]
    valid_df_tmp = enc_df.iloc[TRAIN_LENGTH :TRAIN_LENGTH + VALID_LENGTH]
    test_df_tmp = enc_df.iloc[TRAIN_LENGTH + VALID_LENGTH:]

    column_names = [i for i in range(enc_df.shape[1])]
    train_df_tmp.columns = column_names
    valid_df_tmp.columns = column_names
    test_df_tmp.columns = column_names

    return train_df_tmp, valid_df_tmp, test_df_tmp

def menu_embedding(train_df, valid_df, test_df):
    mecab = Mecab(dicpath='C:/mecab/mecab-ko-dic')

    train_df.reset_index(drop=True, inplace=True)
    valid_df.reset_index(drop=True, inplace=True)
    test_df.reset_index(drop=True, inplace=True)

    for i in range(train_df.shape[0]):
        for menu in ['조식메뉴', '중식메뉴', '석식메뉴']:
            train_df.loc[i, menu] = ' '.join(mecab.morphs(train_df.loc[i, menu]))
    for i in range(valid_df.shape[0]) :
        for menu in ['조식메뉴', '중식메뉴', '석식메뉴']:
            valid_df.loc[i, menu] = ' '.join(mecab.morphs(valid_df.loc[i, menu]))
    for i in range(test_df.shape[0]) :
        for menu in ['조식메뉴', '중식메뉴', '석식메뉴']:
            test_df.loc[i, menu] = ' '.join(mecab.morphs(test_df.loc[i, menu]))

    menu = pd.read_csv('menu.csv', encoding='utf-8')
    menu_names = list(menu.메뉴)

    DIM = len(menu.columns) - 2
    try:
        train_tmp = pd.read_csv('./data/train_tmp.csv')
        valid_tmp = pd.read_csv('./data/valid_tmp.csv')
        test_tmp = pd.read_csv('./data/test_tmp.csv')
    except:
        print('FILES DO NOT EXIST. START MAKING EMBEDDING DATAS.')
        print('MAKE EMBEDDING DATA...(1/3)')
        train_tmp = pd.DataFrame(np.zeros((train_df.shape[0], DIM)))
        for i in range(train_df.shape[0]):
            foods = train_df.조식메뉴[i].split()
            for f in foods:
                if f in menu_names:
                    train_tmp.loc[i, :] += menu[menu.메뉴 == f].iloc[:, 2:].values[0]
        train_tmp.to_csv('./data/train_tmp.csv')

        print('MAKE EMBEDDING DATA...(2/3)')
        valid_tmp = pd.DataFrame(np.zeros((valid_df.shape[0], DIM)))
        for i in range(valid_df.shape[0]) :
            foods = valid_df.조식메뉴[i].split()
            for f in foods :
                if f in menu_names :
                    valid_tmp.loc[i, :] += menu[menu.메뉴 == f].iloc[:, 2:].values[0]
        valid_tmp.to_csv('./data/valid_tmp.csv')

        print('MAKE EMBEDDING DATA...(3/3)')
        test_tmp = pd.DataFrame(np.zeros((test_df.shape[0], DIM)))
        for i in range(test_df.shape[0]) :
            foods = test_df.조식메뉴[i].split()
            for f in foods :
                if f in menu_names :
                    test_tmp.loc[i, :] += menu[menu.메뉴 == f].iloc[:, 2:].values[0]
        test_tmp.to_csv('./data/test_tmp.csv')

        print('COMPLETED!')

    return train_tmp, valid_tmp, test_tmp


In [60]:
from argparse import Namespace
config = {'text':'menu',
          'holiday_length':True,
          'model':'catboost',
          'seed': 0,
          'drop_text': False}
config = Namespace(**config)
get_data(config)

Exception: Install MeCab in order to use it: http://konlpy.org/en/latest/install/

In [1]:
menu = pd.read_csv('menu.csv', encoding='utf-8')

In [63]:
embedding = pd.read_csv('./data/menu.tok.csv', encoding='utf-8')

In [3]:
train = pd.read_csv('./data/train.csv', encoding='utf-8')

In [22]:
for i in range(train.shape[0]):
    if len(train.석식메뉴[i]) <= 20:
        print(train.석식메뉴[i])

    *        
    *        
     *       
    *        
    *        
    *        
      자기계발의날      
      *자기계발의날*      
      가정의날      
    *        
    *        
    *        
    *        
    *        
    *        
    *        
      *      
            
            
      *      
     *       
            
    *        
            
    자기계발의날        
    *        
    자기계발의날        
    자기개발의날        
    *  자기계발의날  *    
    *  자기개발의날  *    
    *  자기계발의날  *    
    *  자기개발의날  *    
   *  자기개발의날  *     
    자기계발의날        
    *        
    *        
    *        
    *        
    *        
    자기개발의날        
    자기개발의날        
 ＜자기 계발의 날＞      


In [24]:
test = pd.read_csv('./data/test.csv', encoding='utf-8')
test

Unnamed: 0,일자,요일,본사정원수,본사휴가자수,본사출장자수,본사시간외근무명령서승인건수,현본사소속재택근무자수,조식메뉴,중식메뉴,석식메뉴
0,2021-01-27,수,2983,88,182,5,358.0,모닝롤/연유버터베이글 우유/주스 계란후라이/찐계란 단호박죽/흑미밥 우거지국 고기완자...,쌀밥/흑미밥/찰현미밥 대구지리 매운돈갈비찜 오꼬노미계란말이 상추무침 포기김치 양상추...,흑미밥 얼큰순두부찌개 쇠고기우엉볶음 버섯햄볶음 (New)아삭이고추무절임 포기김치
1,2021-01-28,목,2983,104,212,409,348.0,모닝롤/대만샌드위치 우유/주스 계란후라이/찐계란 누룽지탕/흑미밥 황태국 시래기지짐 ...,쌀밥/보리밥/찰현미밥 우렁된장찌개 오리주물럭 청양부추전 수제삼색무쌈 겉절이김치 양상...,충무김밥 우동국물 오징어무침 꽃맛살샐러드 얼갈이쌈장무침 석박지
2,2021-01-29,금,2983,270,249,0,294.0,모닝롤/핫케익 우유/주스 계란후라이/찐계란 오곡죽/흑미밥 매생이굴국 고구마순볶음 양...,쌀밥/흑미밥/찰현미밥 팽이장국 수제돈까스*소스 가자미조림 동초나물무침 포기김치 양상...,흑미밥 물만둣국 카레찜닭 숯불양념꼬지어묵 꼬시래기무침 포기김치
3,2021-02-01,월,2924,108,154,538,322.0,모닝롤/촉촉한치즈케익 우유/주스 계란후라이/찐계란 누룽지탕/흑미밥 두부김칫국 새우완...,쌀밥/흑미밥/찰현미밥 배추들깨국 오리대패불고기 시금치프리타타 부추고추장무침 포기김치...,흑미밥 동태탕 돈육꽈리고추장조림 당면채소무침 모자반무침 포기김치
4,2021-02-02,화,2924,62,186,455,314.0,모닝롤/토마토샌드 우유/주스 계란후라이/찐계란 채소죽/흑미밥 호박맑은국 오이생채 양...,쌀밥/팥밥/찰현미밥 부대찌개 닭살데리야끼조림 버섯탕수 세발나물무침 알타리김치/사과푸...,흑미밥 바지락살국 쇠고기청경채볶음 두부구이*볶은김치 머위된장무침 백김치
5,2021-02-03,수,2924,59,199,5,286.0,모닝롤/게살모닝샌드 우유/주스 계란후라이/찐계란 소고기죽/흑미밥 시래기된장국 베이컨...,쌀밥/흑미밥/찰현미밥 아욱국 매콤해물볶음 감자조림 미나리나물 포기김치 콥샐러드*렌치D,오므라이스 가쓰오장국 빌소세지구이*구운채소 단감치커리무침 양념고추지 겉절이김치
6,2021-02-04,목,2924,61,211,476,288.0,모닝롤/사과파이 우유/주스 계란후라이/찐계란 누룽지탕/흑미밥 아욱국 새송이버섯곤약장...,쌀밥/차조밥/찰현미밥 설렁탕 고등어김치말이찜 볼어묵굴소스볶음 브로콜리숙회*초장 석박...,흑미밥 계란파국 돈육두루치기 감자채파프리카볶음 세발나물오리엔탈무침 포기김치
7,2021-02-05,금,2924,169,252,0,256.0,모닝롤/앙버터모닝빵 우유/주스 계란후라이/찐계란 고구마죽/흑미밥 옹심이국 머위나물무...,쌀밥/흑미밥/찰현미밥 북엇국 닭볶음탕 채소전*장 솎음열무나물무침 포기김치 양상추샐러...,유부초밥/추가밥 온메밀소바 국물떡볶이 순대찜*소금 청경채겉절이 포기김치
8,2021-02-08,월,2924,88,174,690,329.0,모닝롤/스콘 우유/주스 계란후라이/찐계란 누룽지탕/흑미밥 꽃게탕 근대나물무침 연두부...,쌀밥/흑미밥/찰현미밥 감자양파국 돈수육*씨앗쌈장 매콤어묵볶음 콩나물파채무침 포기김치...,흑미밥 냉이국 반반치킨 꼬막채소무침 청경채찜 포기김치
9,2021-02-09,화,2924,94,183,542,329.0,모닝롤/치즈팡샌드 우유/주스 계란후라이/찐계란 팥죽/흑미밥 맑은버섯국 시금치나물무침...,쌀밥/기장밥/찰현미밥 장각백숙 적어양념장구이 채소스틱*쌈장 도라지오이초무침 겉절이김...,흑미밥 미역국 매운소불고기 단호박두부탕수 메추리알장조림 석박지


In [25]:
test.석식메뉴

0         흑미밥 얼큰순두부찌개 쇠고기우엉볶음 버섯햄볶음 (New)아삭이고추무절임 포기김치 
1                   충무김밥 우동국물 오징어무침 꽃맛살샐러드 얼갈이쌈장무침 석박지 
2                   흑미밥 물만둣국 카레찜닭 숯불양념꼬지어묵 꼬시래기무침 포기김치 
3                  흑미밥 동태탕 돈육꽈리고추장조림 당면채소무침 모자반무침 포기김치 
4              흑미밥 바지락살국 쇠고기청경채볶음 두부구이*볶은김치 머위된장무침 백김치 
5          오므라이스 가쓰오장국 빌소세지구이*구운채소 단감치커리무침 양념고추지 겉절이김치 
6            흑미밥 계란파국 돈육두루치기 감자채파프리카볶음 세발나물오리엔탈무침 포기김치 
7              유부초밥/추가밥 온메밀소바 국물떡볶이 순대찜*소금 청경채겉절이 포기김치 
8                        흑미밥 냉이국 반반치킨 꼬막채소무침 청경채찜 포기김치 
9                   흑미밥 미역국 매운소불고기 단호박두부탕수 메추리알장조림 석박지 
10              흑미밥 참치김치찌개 오징어굴소스볶음 차돌비빔국수 건새우무나물 포기김치 
11                  흑미밥 순두부백탕 수제치킨까스 쫄면채소무침 얼갈이나물 포기김치 
12                   흑미밥 손수제비국 쇠고기낙지볶음 카레홍합찜 쑥갓나물 포기김치 
13                곤드레밥 황태국 찰떡떡갈비조림 계란후라이 재래김*달래양념장 무생채 
14              흑미밥 바지락된장찌개 제육볶음 양배추숙*쌈장 노가리고추조림 겉절이김치 
15              흑미밥 버섯들깨탕 아귀콩나물찜 콤비네이션피자 돌나물&된장소스 포기김치 
16                        흑미밥 동태알탕 깐풍육 고사리볶음 오이무침 포기김치 
17                 흑미밥 쇠고기무국 춘전닭갈비 뉴욕핫도그 유채나물된장무