In [184]:
import pandas as pd
import numpy as np
import os
import collections
import pickle
import datetime
import re
from tqdm import trange
import argparse
from sklearn.metrics import classification_report
from sklearn.model_selection import KFold

In [185]:
from sklearn.preprocessing import LabelEncoder

In [186]:
with open('../LSTM/train_kr_all.pkl', 'rb') as f :
    train_kr = pickle.load(f)

In [187]:
train_kr['temp_code'] = train_kr.Script_num.map(lambda x : '-'.join(x.split('-')[:3]))

In [188]:
temp_code = 'UL-MV-01'
temp_script = []
temp_category = []
temp = ''
for i, row in train_kr.iterrows() :
    if temp_code == row.temp_code :
        temp += ' ' + ' '.join(row.Script)
    else :
        temp_code = row.temp_code
        temp_script.append(temp)
        temp_category.append(row.Category)
        temp = ''

In [189]:
temp_category = np.array(temp_category)

In [190]:
import collections

In [191]:
def build_dataset(words):
    count = [['UNK', -1]]
    count.extend(collections.Counter(words).most_common(vocabulary_size - 1))
    dictionary = dict()
    for word, _ in count:
        dictionary[word] = len(dictionary)
    data = list()
    unk_count = 0
    for word in words:
        if word in dictionary:
            index = dictionary[word]
        else:
            index = 0  # dictionary['UNK']
            unk_count += 1
        data.append(index)
    count[0][1] = unk_count
    reverse_dictionary = dict(zip(dictionary.values(), dictionary.keys()))
    return data, count, dictionary, reverse_dictionary

In [290]:
vocabulary_size = 1500

In [291]:
data, count, dictionary, reverse_dictionary = build_dataset(' '.join(temp_script).split(' '))

In [292]:
from sklearn.feature_extraction.text import CountVectorizer

In [293]:
count_vectorizer = CountVectorizer(vocabulary = list(dictionary.keys()))

In [270]:
raw_data = pd.DataFrame(count_vectorizer.fit_transform(temp_script).toarray(), columns = list(dictionary.keys()))

In [271]:
from sklearn.naive_bayes import GaussianNB, BernoulliNB, MultinomialNB

In [272]:
cv = KFold(n_splits = 5, shuffle = True, random_state = 7)

In [273]:
gnb = GaussianNB()

In [274]:
for train_index, test_index in cv.split(raw_data) :
    gnb.fit(raw_data.iloc[train_index], temp_category[train_index])
    yhat = gnb.predict(raw_data.iloc[test_index])
    print(classification_report(temp_category[test_index], yhat))

             precision    recall  f1-score   support

         도선       0.43      0.43      0.43        47
         선박       0.44      0.42      0.43        53
         양묘       0.08      0.56      0.14        16
         육상       0.56      0.30      0.39       133
         이동       0.14      0.22      0.17        49
         입항       0.27      0.33      0.30        54
         접안       0.26      0.30      0.28        53
         출항       0.42      0.24      0.30        92
         통과       0.38      0.20      0.26       100
         투묘       0.21      0.15      0.18        40
         횡단       0.30      0.48      0.37        23

avg / total       0.37      0.30      0.31       660

             precision    recall  f1-score   support

         도선       0.31      0.43      0.36        35
         선박       0.35      0.27      0.31        55
         양묘       0.04      0.19      0.07        21
         육상       0.41      0.31      0.35       125
         이동       0.23      0.39      0.29

In [275]:
bnb = BernoulliNB()

In [276]:
for train_index, test_index in cv.split(raw_data) :
    bnb.fit(raw_data.iloc[train_index], temp_category[train_index])
    yhat = bnb.predict(raw_data.iloc[test_index])
    print(classification_report(temp_category[test_index], yhat))

             precision    recall  f1-score   support

         도선       0.86      0.64      0.73        47
         선박       0.86      0.70      0.77        53
         양묘       0.50      0.12      0.20        16
         육상       0.66      0.82      0.73       133
         이동       0.58      0.67      0.62        49
         입항       0.80      0.69      0.74        54
         접안       0.74      0.87      0.80        53
         출항       0.84      0.83      0.84        92
         통과       0.68      0.74      0.71       100
         투묘       0.62      0.57      0.60        40
         횡단       0.82      0.39      0.53        23

avg / total       0.73      0.72      0.72       660

             precision    recall  f1-score   support

         도선       0.62      0.57      0.60        35
         선박       0.86      0.56      0.68        55
         양묘       0.00      0.00      0.00        21
         육상       0.55      0.70      0.62       125
         이동       0.67      0.67      0.67

In [277]:
mnb = MultinomialNB()

In [278]:
for train_index, test_index in cv.split(raw_data) :
    mnb.fit(raw_data.iloc[train_index], temp_category[train_index])
    yhat = mnb.predict(raw_data.iloc[test_index])
    print(classification_report(temp_category[test_index], yhat))

             precision    recall  f1-score   support

         도선       0.80      0.70      0.75        47
         선박       0.86      0.72      0.78        53
         양묘       0.40      0.12      0.19        16
         육상       0.72      0.76      0.74       133
         이동       0.54      0.69      0.61        49
         입항       0.75      0.74      0.75        54
         접안       0.76      0.77      0.77        53
         출항       0.79      0.83      0.81        92
         통과       0.70      0.71      0.70       100
         투묘       0.60      0.62      0.61        40
         횡단       0.75      0.65      0.70        23

avg / total       0.72      0.72      0.72       660

             precision    recall  f1-score   support

         도선       0.58      0.51      0.55        35
         선박       0.84      0.56      0.67        55
         양묘       0.75      0.14      0.24        21
         육상       0.58      0.72      0.64       125
         이동       0.59      0.67      0.63

### Using tf-idf

In [294]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [295]:
tf = TfidfVectorizer(vocabulary = list(dictionary.keys()))

In [296]:
raw_data2 = pd.DataFrame(tf.fit_transform(temp_script).toarray(), columns = list(dictionary.keys()))

In [297]:
import xgboost

In [300]:
xgbc = xgboost.XGBClassifier(max_depth = 5, n_jobs = 12, n_estimators = 500)

In [301]:
for train_index, test_index in cv.split(raw_data) :
    xgbc.fit(raw_data.iloc[train_index], temp_category[train_index])
    yhat = xgbc.predict(raw_data.iloc[test_index])
    print(classification_report(temp_category[test_index], yhat))

             precision    recall  f1-score   support

         도선       0.76      0.74      0.75        47
         선박       0.78      0.81      0.80        53
         양묘       0.56      0.62      0.59        16
         육상       0.72      0.74      0.73       133
         이동       0.73      0.73      0.73        49
         입항       0.80      0.74      0.77        54
         접안       0.87      0.89      0.88        53
         출항       0.82      0.84      0.83        92
         통과       0.80      0.68      0.74       100
         투묘       0.70      0.75      0.72        40
         횡단       0.66      0.83      0.73        23

avg / total       0.76      0.76      0.76       660

             precision    recall  f1-score   support

         도선       0.63      0.77      0.69        35
         선박       0.80      0.71      0.75        55
         양묘       0.80      0.57      0.67        21
         육상       0.62      0.70      0.66       125
         이동       0.73      0.75      0.74

In [302]:
from sklearn.ensemble import RandomForestClassifier

In [312]:
rfc = RandomForestClassifier(max_depth = None, n_jobs = 12, n_estimators = 1000)

In [313]:
for train_index, test_index in cv.split(raw_data2) :
    rfc.fit(raw_data2.iloc[train_index], temp_category[train_index])
    yhat = rfc.predict(raw_data2.iloc[test_index])
    print(classification_report(temp_category[test_index], yhat))

             precision    recall  f1-score   support

         도선       0.86      0.66      0.75        47
         선박       0.80      0.68      0.73        53
         양묘       0.71      0.31      0.43        16
         육상       0.65      0.88      0.75       133
         이동       0.75      0.67      0.71        49
         입항       0.86      0.70      0.78        54
         접안       0.81      0.81      0.81        53
         출항       0.80      0.85      0.83        92
         통과       0.77      0.77      0.77       100
         투묘       0.81      0.65      0.72        40
         횡단       0.73      0.70      0.71        23

avg / total       0.77      0.76      0.75       660

             precision    recall  f1-score   support

         도선       0.74      0.66      0.70        35
         선박       0.86      0.55      0.67        55
         양묘       0.50      0.24      0.32        21
         육상       0.48      0.78      0.60       125
         이동       0.67      0.61      0.64

In [309]:
from sklearn.linear_model import LogisticRegression

In [310]:
lrc = LogisticRegression(C = 0.8, max_iter = 500, n_jobs = 12, solver = 'sag')

In [311]:
for train_index, test_index in cv.split(raw_data2) :
    lrc.fit(raw_data2.iloc[train_index], temp_category[train_index])
    yhat = lrc.predict(raw_data2.iloc[test_index])
    print(classification_report(temp_category[test_index], yhat))

             precision    recall  f1-score   support

         도선       0.82      0.66      0.73        47
         선박       0.88      0.70      0.78        53
         양묘       0.73      0.50      0.59        16
         육상       0.64      0.83      0.73       133
         이동       0.77      0.67      0.72        49
         입항       0.85      0.72      0.78        54
         접안       0.91      0.79      0.85        53
         출항       0.79      0.84      0.81        92
         통과       0.71      0.75      0.73       100
         투묘       0.67      0.65      0.66        40
         횡단       0.72      0.57      0.63        23

avg / total       0.76      0.75      0.75       660

             precision    recall  f1-score   support

         도선       0.75      0.60      0.67        35
         선박       0.84      0.58      0.69        55
         양묘       0.70      0.33      0.45        21
         육상       0.50      0.80      0.62       125
         이동       0.69      0.65      0.67

In [314]:
import lightgbm

In [358]:
lgbmc = lightgbm.LGBMClassifier(n_jobs = 12, n_estimators = 500, subsample = 0.7)

In [359]:
for train_index, test_index in cv.split(raw_data2) :
    lgbmc.fit(raw_data2.iloc[train_index].values, temp_category[train_index])
    yhat = lgbmc.predict(raw_data2.iloc[test_index].values)
    print(classification_report(temp_category[test_index], yhat))

             precision    recall  f1-score   support

         도선       0.84      0.68      0.75        47
         선박       0.73      0.81      0.77        53
         양묘       0.57      0.50      0.53        16
         육상       0.70      0.73      0.72       133
         이동       0.69      0.71      0.70        49
         입항       0.75      0.72      0.74        54
         접안       0.86      0.83      0.85        53
         출항       0.79      0.84      0.81        92
         통과       0.75      0.69      0.72       100
         투묘       0.69      0.72      0.71        40
         횡단       0.62      0.70      0.65        23

avg / total       0.74      0.74      0.74       660

             precision    recall  f1-score   support

         도선       0.63      0.63      0.63        35
         선박       0.78      0.78      0.78        55
         양묘       0.71      0.57      0.63        21
         육상       0.59      0.73      0.65       125
         이동       0.64      0.68      0.66

In [323]:
from sklearn.svm import LinearSVC

In [339]:
lsvc = LinearSVC(C = 0.7)

In [340]:
for train_index, test_index in cv.split(raw_data2) :
    lsvc.fit(raw_data2.iloc[train_index].values, temp_category[train_index])
    yhat = lsvc.predict(raw_data2.iloc[test_index].values)
    print(classification_report(temp_category[test_index], yhat))

             precision    recall  f1-score   support

         도선       0.76      0.68      0.72        47
         선박       0.85      0.83      0.84        53
         양묘       0.75      0.75      0.75        16
         육상       0.72      0.74      0.73       133
         이동       0.70      0.67      0.69        49
         입항       0.84      0.78      0.81        54
         접안       0.86      0.83      0.85        53
         출항       0.82      0.83      0.82        92
         통과       0.70      0.74      0.72       100
         투묘       0.67      0.72      0.70        40
         횡단       0.65      0.65      0.65        23

avg / total       0.76      0.76      0.76       660

             precision    recall  f1-score   support

         도선       0.71      0.71      0.71        35
         선박       0.77      0.75      0.76        55
         양묘       0.72      0.62      0.67        21
         육상       0.59      0.75      0.66       125
         이동       0.74      0.68      0.71

### Word Embedding으로 calssification 해보면?

In [132]:
from gensim.models import Word2Vec

In [133]:
embedding_model = Word2Vec.load('../LSTM/kr_word2vec_noun.model')

In [134]:
def get_mean_vector(sentence) :
    words = sentence.split()
    result = []
    for word in words :
        try :
            result.append(embedding_model.wv.get_vector(word))
        except :
            continue
    result = np.array(result)
    if result.sum() == 0 :
        result = np.zeros((1, 300))
    result = result.mean(axis = 0)
    return result
    

In [135]:
embedding_data = np.array(None)
for sentence in temp_script :
    embedding_data = np.append(embedding_data, get_mean_vector(sentence))

In [136]:
embedding_data = np.delete(embedding_data, 0)

In [137]:
embedding_data = embedding_data.reshape(-1, 300)

In [None]:
xgbc = xgboost.XGBClassifier(max_depth = 3, n_jobs = 12, n_estimators = 500)

In [138]:
for train_index, test_index in cv.split(embedding_data) :
    xgbc.fit(embedding_data[train_index], temp_category[train_index])
    yhat = xgbc.predict(embedding_data[test_index])
    print(classification_report(temp_category[test_index], yhat))

             precision    recall  f1-score   support

         도선       0.76      0.62      0.68        21
         선박       0.45      0.38      0.42        26
         양묘       0.67      0.36      0.47        11
         육상       0.61      0.75      0.67        63
         이동       0.46      0.52      0.49        21
         입항       0.85      0.65      0.74        26
         접안       0.82      0.78      0.80        23
         출항       0.79      0.85      0.81        52
         통과       0.59      0.67      0.63        52
         투묘       0.88      0.71      0.79        21
         횡단       0.60      0.43      0.50        14

avg / total       0.68      0.67      0.66       330

             precision    recall  f1-score   support

         도선       0.81      0.50      0.62        26
         선박       0.70      0.59      0.64        27
         양묘       0.50      0.40      0.44         5
         육상       0.63      0.80      0.70        70
         이동       0.86      0.64      0.73

In [None]:
lrc = LogisticRegression(C = 0.8, max_iter = 500, n_jobs = 12, solver = 'lbfgs')

In [None]:
for train_index, test_index in cv.split(embedding_data) :
    lrc.fit(embedding_data[train_index], temp_category[train_index])
    yhat = lrc.predict(embedding_data[test_index])
    print(classification_report(temp_category[test_index], yhat))

### Time information 반영

In [350]:
temp_code = 'UL-MV-01'
temp_script2 = []
temp_category2 = []
temp2 = ''
step = []
temp_step = 0
for i, row in train_kr.iterrows() :
    temp_step += 1
    if temp_code == row.temp_code :
        temp2 += ' ' + ' '.join(row.Script)
        temp_script2.append(temp2)
        temp_category2.append(row.Category)
        step.append(temp_step)
    else :
        temp_code = row.temp_code
        temp_script2.append(temp2)
        temp_category2.append(row.Category)
        temp2 = ''
        step.append(temp_step)
        temp_step = 0

In [351]:
temp_df = pd.DataFrame(tf.transform(temp_script2).toarray(), columns = list(dictionary.keys()))

In [352]:
temp_df['category'] = temp_category2
temp_df['step'] = step

In [353]:
temp_df.step.max()

25

상위 3개 예측 category에 실제 label이 들어가면 정답

In [354]:
for i in range(1, 25) :
    data = temp_df[temp_df.step == i].drop(['category', 'step'], axis = 1)
    yhat = xgbc.predict(data)
    print(classification_report(temp_df[temp_df.step == i].category.values, yhat), i)

ValueError: feature_names mismatch: ['', '수고', '현장', '못', '속도', '대단히', '브라보', '방', '되', '달포', '인', '리지', '최대한', '히', '정정', '여', '위스키', '비키', '직각', '우리', '혀', '공업', 'vts', '랍니', '파일럿', '전부', '세요', '낙', '사포', '마', '이에', '바짝', '불르', '대산', '에', '또', '진해', '침해', '꺼', '고맙', '부터', '찰', '행', '보드', '많', '사천', '데로', '다르', '앞쪽', '콜사인', '안전점검', '접안', '벽', '인원', '총', '잘', 'n', '바', '돌', '지나', '광', '중인', '풀', '부', '당직', '미로', 'calling', '반', 'lng', '함대', '호출', '서쪽', '통과', '평택갑니', '석', '으로', '빠르', '날씨', '움직이', '사이드', '잡', '어디', '하면', '전선', '목적지', '바로', '상', '이랑', 'reporting', 'dsnr', '들어오', '을', '단', 'ㄴ다고', '던지', '곳', '치고', 'cps', '서로', '일', '오르', 'ps', ',', '다가', 'morning', '크레인', '올라오', '일반부', '만', 'dsf', '많이', '하역', '갈라', '아침', '붙', '택', '고려', '함', '수면', '워터', '해군', '참조', '수가', '감사', '승무원', '내', '현재', 'jk', '이러', '안받', '관제', '러', '더', '신속', '유지', '도선', '길', '소형', 'ㄹ라', '교', '물어보', '대우', '석탄', '뒤따르', 'cpa', '지점', '들리', '양키', '마일', '북측', '지금', '빠지', '채널', 'to', '승선', '잇', 'ㄴ데', '오산', '교대', '넘어가', '저기', '끼', '돌산', '중앙', '태', '중공업', '외', '목적', '알파', '배', '겠', '낫', '좌측', '석이', '처음', '양지', '대길', '현시', 'mv', '부근', '그쪽', '안벽', '튿', '운항', '무선', '가시', '때', '곧', '펄', '도저히', '시키', '수리', 'ㄴ다고요', '델', '금', '은', '예정', '끄', '방향', '단독', '니까요', '번갈', '갑', '갱', '이대', '제주도', '이드', '올라가', '빅', 'lpg', '저', '나', 'ㅂ니까', '석유', '늦', '삼포', '가면', '뒤쪽', '마이', '원', '하자', '대교', '대리점', '스테이션', 'nr', '동북', '으니까', '산', '남방', 'ms', '대', '코', 'ㅂ니다', '오전', '위', '보하', '동쪽', '공간', '알', '귀선', '연', '현', '차', '내려오', '덱', '캐리', '가', '참', '파도', '라면', '시작하', '때문', '부대', '대양', '감속', '남단', '막', '어떻', 'vcm', '해', 't', '어야', 'ㄴ', '과', '이상', '한번', '앵커', '놀', '오른쪽', '장성', '포팅', 'captain', '갑자기', '입출', 'drop', '전', '부선', '불', '보이', '생각', '힘들', '끝단', '옥', '었', '바람', '삼남', '순찰', '안녕', '대형선', '상황', '화물', '유', '경유', '투묘하', 'p', '등대', '엔진', '통보', '스', '멈추', '흥', '하면서', '밖에', '커', '여객선', '분', '척', '레이더', '기', '가늘', '두', '감천', '관계', '밑', '정박', '가가', '참고하', '가깝', '약간', 'yes', '스타보드', '감', 'you', '선생님', '군산', '목포', '(', '푸', '언제', '어망', '노', '아무리', '묘', '가세', '용현', '보시', '데', '도선사', '말씀드리', '낮추', '남쪽', '속', 'is', 'dsrc', '자', '떄', '세', '어느', '에다', '소', '오동도', '항해', '체크', '정박선', '멀리', '좀', 'ㄹ까요', '부르', '부탁드리', '스티', '아직', '아요', '입시', '코드', 'g', '선장', '우현', '공선', '물', '알리', '오늘', '면서', '안되', 'ooo', '대로', '걸리', '급유차', '지만', '바라', '오시', 'ais', '낮', '변침', '원유', '외부', 'last', '일단', '어떻게', '스피드', '출발', '섬', '유선', '모르', '거거', '완료', '작도', 'knoc', '항무', '동', '다운', '보', '하고', 's', '고요', '마지막', '선박', '양호', '영', '이렇', '계시', '프로테우스', '동안', 'ㄹ지', '양장', 'hm', '늘', '해상', '까', '한진', '적', '상당히', '못하', '지가', '시운전', '내리', '그런데', '따라', '선원', '그거', '태흥', 'ㄹ라고', '으면', '잘하', '고철', '해금강', '천천히', '말', '노트', '님', '동해', '중국', '거성', '풍속', 'this', '모시', '니까', '정보', '출항지', '항장', '톤', '좀더', '광양', '앞', '예부', 'k', '제', 'ahead', '옥계', 'ㄹ게요', '싱', '새', '하세', '이쪽', '남해', '이제', '가꼬', '출발지', '아마', '이래', '탱고', '항', 'ㅂ시요', '남측', '항로', 'gs', '앵카', '정도', '테', '기다리', '이것', '자동차', '울산', '우', 'ㄴ데요', '바깥쪽', '마산', 'ㅂ시다', '성', '저희', '시작', '놓', '암', '어디쯤', 'b', '무슨', '그', '가능', '말씀하', '시간', '시운', '송신', '유조선', '돋', '나가', '제가', '대충', '추', 'your', '번', '거니', '다니', '아서', '진입', '클리어', '지원', '향하', '삼천포', '걸', '좌현', '랑', 'bs', '돌리', '효동', '톤수', '무옥', '일본', '양제', '보성', '번호', '동양', '아도', '지역', '컨테이너', '아', '망', ')', '돌려주', 'ㄹ까', '그러면', '쭉', '리', '소형선', '전화', '첫', '구요', '대도', '마시', 'go', '사이', '거기', '믄', '주', '엘엔지', '율촌', 'l', '으니까요', '역', '확보', '끊기', '란', '조선', '금일', 'ww', '케이', '으러', 'sk', 'sn', '길이', '작업차', '완전히', '가지', '벙커', '내려가', '였', '한전', '번째', '라서', 'q', '흘수', '넘', '지', '하', '는데', '성신', '샤클', 'ship', '다시', '새영', '라인', '티', '마이크', 'w', 'dsgp', 'thank', '창원', '나요', '디', '투', 'ㄴ다구요', '다녀오', '모양', '바이', '수요', '도록', '신호', '정', '하나', '아까', '어선', '델타', '기상', '싣', '기준', '강원도', '무', '확인', '호주', '동부', 'dsro', '그렇', '동시', 'unct', '일신', '모두', '장생', 'sir', '출항', '예고', '심히', '통영', '인천', '조', '신동', 'i', '피해', 'anchor', '통항', '선명', 'port', '공사', '맞추', 'sp', '바지', '내일', 'UNK', '넘어오', '평', '덕', '남', 'h', '재', '왜', '싶', '선하', 'dsn', '려고', '스케줄', 'eyw', '찾', '삼람', '정박지', '케이블', '오일', '어제', '예도', '는지', '뒤따라가', '장', '는', '까지', 'dsaj', '태창', '어서', '가까이', 'line', '응답', '개', '건너가', '넓', '위치', '괜찮', '을까요', '각', '얘기', '신', '좌', '접선', '승객', '그리', '약', '조절', '이진', '쓰', '준비', '뭐', '냐', '대단', '얼마나', '당', '그냥', '게', '양원', '문의', '선적', '아니', '안쪽', '이요', '습니까', '두고', '메가', '전항', '네요', '따르', '예', 'a', '현합', '잠시', '하선', '대하', '콜', '아이', '북쪽', '라고요', '닝', '어', '갈', 'untelligible', '정하', '니', '종명', '일반', '로', '정일', '혹시', '니깐', '다고요', '0', '입', '주변', '보고', '분경', '현측', '바뀌', 'dsqt', '조금', '야간', '안전', '은데요', '양묘하', '씨', '마주치', '열', '바꾸', '네', '라다', '영성', '포', 'ㅂ쇼', 'dsfw', '전화번호', '에코', '없', '호', '시경', '중간', 'v', '제품', '도착', '근처', '삼', '구', 'vhf', '쪽', '통', '해보', '동성', '지요', '묘지', '관제구', '받', '경일', '는데요', '시각', '크', '와', 'and', '여수', '잡히', '붙이', '잠깐', '지정', '골', 'yosu', '해양', '종료', '레', '신청', '작', '탱커', '횡단', '가요', '발효', '습니다', '동방', '측선', '필요', 'e', '부두', '용', '서', 'dsdu', '다고', '자꾸', '원산항', '항지', '나중', '양묘', '가보', '이렇게', 'o', '링', '참고', '의', '아야', '물량', '등', '거', '잖아요', '그라', '어떤', '파제', '요', '운반선', '끝', '터', '그것', 'sr', '온', '나오', '그리고', '이라고', '측', '피하', '카', '줄', '그렇게', '입항', '선과', '보내', '같', '무엇', '정치망', '청취', '거제', 'dsrj', '안', '중', '추월', '주의보', '를', '영포', '장님', '정확', '쯤', '그리하', '보다', '할려', '만나', '오버', '제주', '듣', '주의', '연락', '딥', '조선소', '삼호', '이수도', 'sc', '았', 'ooooo', '숫자', '벗어나', '용담', '변', '화', '지나가', '직전', '변경', '부산항', '이', '은데', '며', '그때', '주세', '문', '상선', '다이렉트', '앵', '넘버', '전하', '북방', '미', '기로', '니요', '무마', '후진', '풍랑', '것', '작업자', '보가', '묘하', '용정', '부이', '미터', '강남', '콩', '스타', '위험', '안하', '간', '동하', '신부', '삼척', '고', '밖', '통과보', '등록', '자리', '보트', '스톱', '화호', '리프팅', '코스', '라', '본선', '같이', '매안', '그럼', '되가지', '만들', '박지', '주실', '센터', '않', '트', 'pilot', '승', '어서요', '여도', '감도', 'time', '석화', '으시', '박', '하동', 'ds', '왼쪽', '시기', '프린세스', '말씀', '시다', '예인', '하이', '벌', '키로', '십', '적재', '죄송', 'otk', '오동', '예보', '가로지르', '대형', '타', '재송', '마치', '떨어지', 'ㅂ시오', '굉장히', '어도', '네네', 'ㄴ가요', '할랍니', '여요', '어요', '높', '려', '사람', '중흥', '?', '추로', '링크', '드', '경', '있', '뒤', '양', '방어진', '돌아가', 'name', '에요', '이거', '오드리', '빠져나가', '가주', '이야기', '예예', 'd', "'", '판단', 'c', '거리', '장생포', '입구', '사인', 'ㅁ', 'oo', '한쪽', '서해', '아예', '너무', '매암', '슬', '소등', '질', 'eez', '신흥', '다음', '이나', '교신', '지시', '고현', '라는', '복잡', '한테', 'please', '따라가', 'ok', '들', '충분히', '여기', '시고', '옆', '배가', '거의', '건', '테스트', '원산', '오케이', 'callsign', '명', '문제', '관', '북', '건느', '하라', '두리', 'ㄹ', '끝나', '엥', '잉', '가실', 'ㄴ지', '다른', '홍', '접근', '먼저', '콜스', '파이', '면', '포스', '선', '횡', '선수', '금호', '부탁', '삼성', '빨리', 'over', '원료', '죠', '선도', '위하', '중이', 'ㄴ가', '도로', '쉬', '구역', '들어가', '폴', '상태', '려면', 'unintelligible', '고생', '팔랑', '지세', '라고', '치', '사항', '거든요', '도', 'dsnd', '오', 'sb', '올리', '날', '예선', '블록', '태우', '면요', '틀', 'ㄴ다', '언제쯤', '전방', '로얄', '곤란', '좋', '끌', '항내', '선미', '낳', '양쪽', '인가', '현대', '한', '투묘', '작업', '가도', '우두', '도착지', '미리', '모던', '저쪽', '그러', '철', '드리', '속력', '렛', 'lk', '그래서', '에서', '부산', '대기', '우측', '성호', '시', '거양', '뭡', '맞', '수', '얼마', '정각', '갔다오', 'oooo', '지성', '그린', '점검', '방파제', '진', '급유', '실리', '선들', '다', '포항', 'm', '클리닝', '모래', '남서쪽', '가스', 'eta', '몇', 'hnd', '든', '으니깐', '아무튼', '고는', '울', '피', '에이스', '조심', '이동', '예인선', '인자', '포트', '계속', '후', '천', '사', '마루', '여쭈', '줄이', '본', '그대로', '연안', '찍히', '외항', 'dsol', '부호', '대성', '이안'] ['', '수고', '용점', '계시', '아예', '대단히', '방', '되', '인', '히', '발효', '회사', '잡', '동양', '이랑', '내려지', 'morning', '동방', '랍니', '파일럿', '전부', '세요', '낙', '사포', '마', '바짝', '불르', '한국', '진해', '침해', '도크', '그래', '찰', '해경', '잉', '사천', '부대', '순도', '콜사인', '접안', '벽', 'port', '총', '얼마나', '돌', '광', '부', '대상', '당직', '다고', '체크', '서쪽', '케이', '석', 'side', '으로', '빠르', '오등', '취소', '움직이', '원', 'stand', '어디', '전선', '선미', '선과', 'reporting', '깔', '들어오', '창', '을', '단', '상근', 'ㄴ다고', '곳', '치고', '서로', '일', '잇', 'dsf', '많이', 'take', '붙', '성호', '조우', '엥', '출하', '워터', '장천', 'station', '수가', '각', '마루', '현재', '이러', '코트', '관제', '러', '더', '신속', '유지', '도선', '길', '소형', 'ㄹ라', '대충', '물어보', '대우', '뒤따르', 'cpa', '루', '지점', '들리', '예보', '마일', 'kts', '북측', '지금', 'to', '승선', 'ㄴ데', '오산', '교대', '보다', '미트', '주세', '목적', '알파', '미터', '해양', '낫', '좌측', '석이', 'mv', '부근', '비상', '튿', '무선', '임도', '요', '뭔', '이소', '짜리', '부사', '금', '탱고', '끄', '거가', '니까요', '블록', '갑', '만약', '브라', 'this', '이드', '레이다', 'lpg', '일찍', '늦', '정정', '가면', '뒤쪽', '마이', '고맙', '출항지', '대교', '와이', '양키', '나오', '대', 'ㅂ니다', '파고', '보하', '동쪽', 'ㄹ', '알', '측', '차', '현시', '캐리', '파도', '때문', '정리', '남단', '화물', '철', 'ㄴ', '돌산', '오른쪽', '사우스', '포팅', '태국', '입출', '못하', '뭡', '생각', 'will', '옥', '었', 'r', '상황', '국동', '걸', '밖에', '커', '근접', '분', '척', '기', '가늘', '감천', '바쁘', '밑', '정박', 'in', 'yes', '하세', 'koc', '선생님', '목포', '(', '푸', '콜스', '야', '용현', '보시', '데', '도선사', '전화', '남쪽', 'is', '자', '강원도', '유람선', '항해', '외도', '주의보', '멀리', '급유차', 'ㄹ까요', '를', '부탁드리', 'pob', '입시', '하동', '봐주', '프', '절곶', '대로', '가시나', 'over', 'dsqo', '완전', '변침', 'callsign', '일단', '어떻게', '출발', '유선', '발생', '거거', '가주', 's', '고요', '선박', '연락', '양장', '봉호', 'vessel', '화력', '을까요', '내리', '그런데', '따라', '선원', 'no', '태흥', '청소', '베트남', '고철', '천천히', '양지', '님', '동해', '중국', '제주도', '았', '니까', '정보', '충분', 'aql', '광양', '싱', '새', 'you', '남해', '이제', '아마', 'ㅂ시다', '지나가', '남측', '항로', 'gs', '앵카', '정도', '기다리', '장비', '자동차', '울산', 'ㄹ라고', '라는', '바깥쪽', '마산', '성', '저희', '시작', '놓', '시간', 'ww', '송신', '티', '제가', '추', '지장', '번', '아서', '클리어', '향하', '삼천포', 'sn', 'spf', '려고', '효동', '톤수', '일본', '양제', '유', '검사', '바뀌', '상선', 'p', '망', '군산', 'ㄹ까', '파', '리', '동부', '해안', '첫', '구요', '가능', '그렇게', '오션', '구간', '주', '엘엔지', '율촌', '으니까요', '역', '확보', '끊기', '까', '지구', '같이', '위하', '길이', '재송', '가지', '벙커', '으러', '였', 'q', '흘수', '지', '는데', '투하', 'ㄴ지', '라인', '마이크', '조치', '나가', 'dsgp', 'thank', '창원', '디', '투', 'captain', '다녀오', '모양', '수요', '민원', '때', '아까', '어선', '이래', '무', '확인', '호주', '뒷', 'unct', '양곡', '모두', '장생', 'sir', '심히', '되가지', '인천', '조', '승무원', 'anchor', '원래', '선명', '면요', 'aa', '외국인', 'sp', '번갈', '베', '마세', '남', '헷갈리', '재', '싶', '아서요', '선하', 'drop', '바람', '찾', '이동', '돌아가시', '군도', '오동도', '뒤따라가', '테임드', '면서', '지만', 'dsmr', '응답', '페션', '개', '사이드', '삼남', '위치', '제', '신', '좌', '승객', '거니', '약', '이진', '냐', '총톤수', '당', '한전', '간', '선적', '아니', '안쪽', '이요', '다는', '두고', '메가', '전항', '네요', '전차', '예', '상당히', 'lx', '잠시', '하선', '아이', '고', '어', '이렇게', '라고요', '통과보', '하루', '혹시', '0', '세', '행', '드리', '현측', '조절', '안전', '올르', 'bs', '마주치', '바꾸', '청수', '즉시', '포', 'dsfw', '모래', '없', '호', '시경', 'v', '제품', '양', '트이', 'd', 'vhf', 'line', '통', '시고', '경일', '끝나', '수급', '프리', '시각', '아무튼', '와', '여수', '붙이', '밀', 'yosu', '하역', '종료', '레', '작', '횡단', '달포', '공간', '습니다', 'vts', '측선', 'e', '부두', '서', '론', '예고', '항지', '나중', '양묘', '링', '참고', '의', '아야', '물량', '등', '거', '잖아요', '합', '인가', '동이', '운항', '끝', 'sr', '온', '신흥', '그리고', '신동', '대도', '감속', '기적', '보내', '같', '무엇', '챔피언', '하면서', '중', '내', '장님', '어디쯤', '쯤', '낮', '할려', '오버', '듣', '믄', '베이', '조선소', '이수도', '런', '중간', '숫자', '용담', '려는', '나요', 'ㅂ시요', '항계', '정침', '부산항', '은데', '며', '그때', '한테', 'your', '다이렉트', '앵', '인제', '넘버', '목', 'japan', '기상', '것', '작업자', '보가', '강남', '콩', 'come', '스타', '란', '동하', '현합', '삼척', '대하', '팔랑', 'oil', 'ㅂ쇼', '골', '만들', '박지', '센터', '않', '트', 'ahead', '멀', '여도', '감도', 'time', '너무', '석화', '이내', '오래', '적', '동안', '말씀', '시다', '하이', '안녕히', '적재', '죄송', '원산항', '오케이', '대형', '섬', '마치', '북', '굉장히', '어도', '네네', 'ㄴ가요', '할랍니', '사가', '여요', '어요', '높', '사람', '중흥', '안', '드', '처음', '시', '수', '포항', '오드리', '공업', '경우', '탱커', '장생포', '사인', 'ㅁ', 'oo', '한쪽', '서해', ',', '올라오', '고현', '질', '치', '이나', '교신', '바깥', '함', '복잡', '예정', '따라가', '옆', '건', '테스트', '대양', '전', '문제', '관', 'ㅂ시오', '건느', '하라', '비슷', '지에', '정박선', '홍', '알리', '가가', '파이', 'opl', '이야기', '마지막', '선', '로미오', '금호', '부탁', '어떤', 'hm', '건너편', '죠', '세포', '경남', 'ㄴ가', '도로', '가라', '양항', '충', 'b', '무옥', '고생', '지세', 'w', '사항', '거든요', '도', '말하', 'dsnd', '예선', 'dsro', '북단', '여객선', '틀', '전방', '로얄', '곤란', '좋', '항내', '낳', '양쪽', '한', '조금', '추로', '도착지', '모던', '저쪽', 'ㄴ다구요', '년', '렛', '그래서', '꺾', '태화', '맞추', '거양', '가보', '어떻', '부분', 'oooo', 'eh', '통항', '스톱', '방파제', '정', '다', '줄이', '겠네', 'eta', '국', '몇', 'dsqv', '든', '고는', '정하', '에이스', '횡', '출발지', '인자', '천', '해상', '넘어오', '이대', 'dsaj', '외항', 'dsol', '대성', '이안', '그거', '브라보', '현장', '못', '리지', '최대한', '여', '먼저', '위스키', '비키', '직각', '우리', '혀', '북부', '안받', 'ㄴ다는', '이에', 'dsna', '대산', '에', '또', '종명', '꺼', '부르', '부터', 'dsgv', '멈추', '많', '데로', '앞쪽', '버리', '안전점검', '거리', '인원', '동시', '잘', 'n', '바', '지나', '중인', '스타보드', '라니', '미로', 'calling', '반', 'lng', '함대', '호출', '통과', '평택갑니', '날씨', '어느', '하면', '목적지', '바로', '상', 'dsnr', '해영', 'kl', '오르', 'ps', '석유', '다가', '생포', '가도', '크레인', '전하', '일반부', '만', '하나', '아침', '택', '손', '갱웨이', '해군', '참조', 'dsrd', '감사', 'i', '쓰', 'jk', '가로지르', '윤활유', 'f', 'dsoh', '교', '받', '석탄', '문', '그라', '빠지', '채널', '귀선', '저기', '클리닝', 'ooooo', '중앙', '태', '중공업', '외', '미', '으니깐', '배', '겠', '대길', '시운전', '그쪽', '안벽', 'otk', 'ㄴ답니다', '가시', '왔다갔다', '제실', '곧', '금일', '시키', '수리', 'ㄴ다고요', '델', '은', 'please', '방향', '단독', '바지', '갱', '올라가', '저', 'dsrh', '나', 'ㅂ니까', '해왕성', '삼포', '스테이션', 'nr', '으니까', '산', '남방', '던지', '코', '스케쥴', '수면', '오전', '어야지', '두리', '넘어가', '연', '현', '내려오', '덱', '가', '참', '라면', '막', '불', 'vcm', '해', 't', '어야', '과', '이상', '한번', '속', '장성', '보드', '갑자기', '주변', 'za', 'knoc', '명', '부선', '보이', '힘들', '끝단', '언제쯤', '싱가폴', '넓', '펄', '안녕', '대형선', '회두', '경유', '등대', '엔진', '통보', '스', '흥', '게', '레이더', '두', '편', '관계', '화안', '참고하', '가깝', '약간', '앞바다', 'dw', '언제', '어망', '오', '가세', '말씀드리', '어제', '떄', 'sb', '에다', '소', '는지', '홍등', '좀', '마린', '스티', '아직', '아요', '코드', '선장', '우현', '공선', '물', '오늘', '마제', '금방', '안되', 'ooo', '걸리', '까지', '돋', '오시', '이틀', '원유', '외부', '지고', '벗어나', '스피드', '모르', '복귀', '완료', '작도', '가야', '항무', '하고', '머스크', '양호', '영', '이렇', '투묘하', '프로테우스', 'ㄹ지', '충분히', '늘', '다르', 'ehm', '지가', '장소', '으면', '해금강', '건너가', '말', '션', '노트', 'jspt', '풍속', '모시', '하자', '항장', '톤', '좀더', '앞', '원료', '괜찮', '앵커', 'ㄹ게요', '여천', '이쪽', '낮추', '가꼬', '데는', '중이', '순찰', '항', '철거', '동', '테', '지신', '잘하', '지연', '우', 'ㄴ데요', '도저히', '승', '파인', '암', '양원', '애민', '들어가', '그', '풀', '말씀하', '특진', '시운', '유조선', '무슨', '가기', '케이블', '그리', '그다음', '다니', '진입', '좌현', '랑', '돌리', '고향', 'vlcc', '다운', '준비', '번호', '지역', '뭐', '아', '방어진', ')', '돌려주', '그러면', '크', '소형선', '침선', '는가', '마시', 'go', '사이', '거기', '당국', 'l', 'hnd', '기항지', '가이', '조선', 'sk', 'ht', '내려가', '지시', '하', '성신', '샤클', 'ship', '다시', 'my', 'oh', '빨리', 'g', '바이', '도록', '신호', '올리', '럿', '감', '델타', '사', '싣', '기준', '으시', '위험물', '한명', 'mile', '한진', '일신', '출항', '통영', '피해', '사이로', '공사', '내일', 'UNK', '맞', 'ts', '덕', '위', 'h', '해야겠습니', '덕진호', '스케줄', '삼람', '계획', '정박지', '동국', '오일', 'dsrc', '예도', '화호', '실크로드', 'ㄴ다', '는', '정확히', '태창', '어서', '어찌', '기가', '녹', '붐', '가게', 'hy', '얘기', '타', '접선', '번째', '시멘트', '보성', '컨테이너', '그런', '극동', '그냥', '문의', '북쪽', '이것', '놀', '룡', '따르', '침', 'a', '청', '경흥', '콜', '습니까', '닝', '갈', '왜', '할거', '일반', '로', '정일', '니깐', '께', '갔다오', '보고', 'untelligible', '투묘', '시작하', '작업', '니', '라서', '양묘하', '씨', '열', '네', '라다', '영성', 'dsq', '전화번호', '에코', 'xt', '도착', '근처', '삼', '구', '좋아지', '슬', '해보', '동성', '지요', '지원', '관제구', '는데요', '요청', '삼성', 'and', '잡히', '잠깐', '지정', '지성', '신청', 'eyg', '계세', '속도', '가요', '뭐하', '으세요', '필요', '미리', '용', '입', '자꾸', '에서', '옥계', 'o', '무신', '답니다', '선들', 'now', '따', '파제', '쭉', '운반선', '터', '그것', '분경', '동북', 'ms', '이라고', '포지션', '피하', '카', '줄', '벗', 'dsqt', '정치망', '청취', '거제', '항만', '묘', '탁하', '추월', '거성', '정확', '그리하', '영포', '만나', '제주', '보', '주의', '노', '딥', '삼호', '야간', 'sc', '료', '변', '화', '대리점', '직전', '변경', '이', '북방', '작업차', '기로', '니요', '무마', '후진', '풍랑', 'unintelligible', '묘하', '용정', '부이', 'eyw', '주시', '그린', '위험', '안하', '신부', '항상', '밖', '대놓', '등록', '자리', '보트', '점검', '리프팅', '코스', '라', '본선', '진', '수신', '매안', '그럼', '주실', '어렵', '입항', 'pilot', '다고요', '어서요', '실', '분리대', '박', 'ds', '왼쪽', '시기', '프린세스', 'dsn', '예인', 'call', '벌', '종', '십', '오동', '떨어지', '닿', '애매', '별로', '스카이', '영도', '날', '려', '두개', '?', '아도', '링크', '경', '있', '뒤', '돌아가', 'name', '에요', '이거', '빠져나가', '대단', '예예', '자체', "'", '판단', 'c', '피엠', '입구', '쪽', '침하', '잘되', '고려', '갈라', '소등', 'eez', '고성', '다음', 'cps', '뇨', 'ais', '키로', '태양', '오후', 'ok', '들', '빅', '여기', '묘지', '메일', '배가', '전마선', '거의', '나트', '원산', '끼', '피아', '스탠', '임드', '가실', '피', '다른', '바라', 'last', '떼', '면', '포스', '선수', '기항', 'k', '예부', '그렇', '선도', '놓을려', '쉬', '구역', 'bf', '나머지', '폴', '상태', '려면', '새영', 'er', '라고', '후', '넘', '평', '태우', '장', '가까이', '웨이', '여쭈', '끌', '아무리', '이너', '현대', 'oooooo', '은데요', '우두', '그러', '헤드', '속력', 'lk', '부산', '대기', '우측', '연안', 'dsrj', '제한', '얼마', '정각', 'dsdu', '울릉도', '급유', '든지', '매암', 'm', '남서쪽', '가스', '위쪽', '으', '완전히', '울', '실리', '조심', '예인선', '포트', '계속', '접근', '본', '그대로', '해제', '그랑프리', '찍히', '지랑', '부호']
training data did not have the following fields: 용점, 위험물, 편, 화안, 한명, 해야겠습니, in, 뒷, 인제, 메일, dsmr, 회사, come, koc, 앞바다, 주시, 내려지, 침, 북부, lx, 코트, 항상, ㄴ다는, dsna, aa, 청수, xt, 이소, 외국인, 도크, 철거, 수신, 밀, 웨이, dsgv, ts, 해경, 파, 순도, 극동, 버리, 아서요, 외도, 홍등, will, 멀, 마린, 계획, 근접, 바쁘, pob, 유람선, 이내, 해영, 대놓, 대상, 라니, oil, 돌아가시, 울릉도, 동국, 봐주, 테임드, 프, 실, 사이로, 실크로드, 금방, 마제, call, 절곶, side, 정확히, 종, 가시나, 어찌, 기가, 취소, 오등, dsqo, 페션, 붐, 완전, stand, 이틀, 닿, 애매, 가게, hy, 별로, 기항, 스카이, 발생, 깔, 창, 복귀, 상근, 가야, 시멘트, 녹, mile, 좋아지, 그런, 태화, kl, 생포, 머스크, 다는, 자체, 손, 한국, 봉호, 갱웨이, 전차, vessel, 화력, 장천, 덕진호, 군도, station, 경우, 그래, 분리대, 침하, 잘되, 경흥, 장소, no, take, 무신, 피아, 청소, dsrd, 윤활유, 고성, 런, f, 출하, 바깥, 하루, 션, dsoh, 뇨, 할거, 프리, jspt, 요청, 태양, 해왕성, 께, 충분, aql, 따, 전마선, 나트, 민원, 양곡, 미트, 스탠, 임드, 비슷, 즉시, 지에, dsq, 두개, 데는, 비상, 안녕히, 위쪽, 지고, 임도, opl, 사가, 꺾, 떼, 왔다갔다, 로미오, 트이, 제실, 뭔, 베트남, 지연, 짜리, my, 원래, 부사, 여천, 세포, 놓을려, 수급, 경남, 장비, 건너편, 양항, 파인, 충, bf, 지신, 거가, 나머지, 가기, 만약, 애민, ㄴ답니다, 브라, er, 레이다, dw, 특진, dsrh, 말하, 어렵, eyg, 계세, 뭐하, 으세요, 그다음, 헷갈리, 북단, 와이, 론, 당국, 룡, spf, 스케쥴, 마세, 총톤수, 고향, vlcc, 파고, 어야지, 답니다, 이너, 검사, 루, 합, oooooo, now, 올르, 피엠, kts, 오래, 헤드, 년, 일찍, 해안, 침선, 정리, 동이, 는가, 포지션, 오션, 벗, 기적, 구간, 제한, 부분, 회두, 챔피언, eh, 기항지, 지구, 항만, 가이, 야, 탁하, 든지, 사우스, 태국, za, 영도, 겠네, ht, 오후, 으, 베이, 국, ehm, dsqv, 베, 가라, 싱가폴, r, 투하, 려는, 료, 조우, 항계, 정침, 조치, oh, 국동, 지장, 해제, 청, 목, 그랑프리, 럿, 지랑, japan