# 7기 마에스트로 백엔드 과제 - 상품 카테고리 자동 분류 서버 

# 과제 개요

 * 출제자 : 남상협 멘토 (justin@buzzni.com) / 버즈니 (http://buzzni.com) 대표 
 * 배경 : 카테고리 분류 엔진은 실제로 많은 서비스에서 사용되는 중요한 기계학습의 한 분야이다. 본 과제는 버즈니 개발 인턴이자 마에스트로 6기 멘티가 아래와 나와 있는 기본 분류 모델을 기반으로 deep learning 기반의 feature 를 더해서 고도화된 분류 엔진을 만들어서 2016 한국 정보과학회 논문으로도 제출 했던 과제다. 기계학습에 대한 학습과, 실용성 두가지 측면에서 모두 도움이 될 것으로 보인다.


## 과제 목표

 * 입력 : 상품명, 상품 이미지
 * 출력 : 카테고리
 * 목표 : 가장 높은 정확도로 분류를 하는 분류 엔진을 개발

## 제약 조건
 * 분류 엔진은 rest api 형태로 만들어야함 (샘플로 준 python server 사용해도 됨)
 * rest api 는  http://서버주소:포트/classify?name=상품명&img=상품이미지주소 형식으로 호출이 가능해야함
 * 위 rest api 를 이용해서 별도로 가지고 있는 데이터로 자동 성능 평가로 채점을 하게됨 (채점하는 데이터는 제공되지 않음)
 * 데이터 리턴 형식은 {u'cate': u'\ud328\uc158\uc758\ub958;\uc544\ub3d9\uc758\ub958;\ud55c\ubcf5'} 이런식으로 cate 라는 키 값에 그에 해당되는 대,중,소 카테고리를 ; 로 연결한 형태로 반환하면 됨 

## 평가 항목
 1. 성능 평가 (100%)

## 제출 항목
 1. 채점 서버 호출이 필요함: 채점 서버 호출시 name 부분에 자신의 이름을 넣으면 됨.
  - 자신이 개발한 서버 호출 형태 : http://서버주소:포트/classify?name=상품명&img=상품이미지주소
  - 평가 서버 : http://somaeval.hoot.co.kr:8880/eval?url= 뒤에 자신의 서버 주소를 넣으면 됨 너무 자주 호출하면 서버가 죽을 수 있으니, mode=all 로는 꼭 필요할때만 호출하기 바람 , 평가 서버가 죽었을 시에는 justin@buzzni.com 으로 문의 
  - 예) 샘플 테스트 :  http://somaeval.hoot.co.kr:8880/eval?url=http://somaeval.hoot.co.kr:18887
  - 예) 전체 테스트 : http://somaeval.hoot.co.kr:8880/eval?url=http://somaeval.hoot.co.kr:18887&mode=all&name=베이스라인

## 성능 향상 포인트
 * 오픈된 형태소 분석기(예 - 은전한닢 http://eunjeon.blogspot.kr/ )를 써서, 단어 띄어쓰기를 의미 단위로 띄어서 학습하기 
 * 상품명에서 분류하는데 도움이 되지 않는 stop word 제거하기 
 * bigram, unigram, trigram 등 단어 feature 를 더 다양하게 추가하기 
 * 이미지 데이터를 Deep Learning (CNN) 기반 방법으로 feature 를 추출해서 추가하기 
  * 제일 기본적으로 https://github.com/irony/caffe-docker-classifier 이런 이미 만들어진 모델을 이용해서 feature 를 추출해서 추가하기도 가능함 
  * DIGITS + caffe 를 이용해서 본 학습 모델에 맞는 이미지 자동 분류기를 별도로 학습해서 사용하는것도 가능함

## 개발 서버 URL 형태 
 * name, img 를 파리미터로 호출한다.
 * 호출 형태 : http://somaeval.hoot.co.kr:18887/classify?name=조끼&img=http://shopping.phinf.naver.net/main_8134935/8134935099.1.jpg 
 

## 성능평가 테스트 서버 
 * 아래 주소에서 url 에 자신의 분류기 모델 주소를 넣어주면 제공되지 않았던 데이터들을 이용해서 평가를 해준다.
 * 샘플 테스트(카테고리별 2개만 가지고 테스트) : http://somaeval.hoot.co.kr:8880/eval?url=http://somaeval.hoot.co.kr:18887
 * 전체 성능 평가 테스트 (mode=all) : http://somaeval.hoot.co.kr:8880/eval?url=http://somaeval.hoot.co.kr:18887&mode=all
 

## 현재 보고 있는 IPython Notebook 사용법
 * https://www.youtube.com/results?search_query=ipython+notebook+tutorial
 * shift + enter 를 누르면 실행이 된다.

# 아래는 baseline 모델을 만드는 방법 

In [1]:
import pandas as pd
import sys
default_stdout = sys.stdout
default_stderr = sys.stderr
reload(sys)
sys.stdout = default_stdout
sys.stderr = default_stderr
sys.setdefaultencoding('utf-8')
from konlpy.tag import Twitter
twitter = Twitter()

In [2]:
print twitter.morphs('[KB국민카드 5%할인, 3/14]베네통키즈블링팝 슈가스타슬립온-바이올렛(QCSH05511-VO)')

[u'[', u'KB', u'\uad6d\ubbfc\uce74\ub4dc', u'5', u'%', u'\ud560\uc778', u',', u'3', u'/', u'14', u']', u'\ubca0\ub124\ud1b5', u'\ud0a4\uc988', u'\ube14\ub9c1\ud31d', u'\uc288\uac00', u'\uc2a4\ud0c0', u'\uc2ac\ub9bd', u'\uc628', u'-', u'\ubc14\uc774\uc62c\ub81b', u'(', u'QCSH', u'05511', u'-', u'VO', u')']


In [3]:
import re

def filtering(name, excepts = []):
    for exce in excepts:
        name = re.sub(exce, " ", name).lstrip();
    return name

def morpheme(name):
    m = MeCab.Tagger('-d /usr/local/lib/mecab/dic/mecab-ko-dic')
    name = m.parse(name)
    i = 0
    ret = ""
    ko = re.compile('[ㄱ-ㅣ가-힣]')
    for each in re.split('[\t\n]', name):
        if i%2 == 0 and each != 'EOS' and len(each) > 1:
            ret += each + " ";
        i+=1
    return ret
    
def ngram(n, name):
    modified_name = ""
    i = 0
    while i < len(name)-1:
        tmp = " "
        loop = i
        count = 0
        while(count < n):
            if  loop >= len(name) or name[loop] == ' ':
                tmp = " "
                break;
            else:
                tmp += name[loop]
                loop += 1
            count += 1
        modified_name += tmp
        i += 1
    return modified_name
"""
excepts = [u"해외", u"즉시", u"무료", u"배송", u"쿠폰", " [0-9] ",
           u"할인", u"(국민|하나|우리|농협|신한|KB)카드", "\[", "\]", "\(", "\)", 
           u"[◀▶▶♥●＋┏▩┓☆▒☞╋有☜口~無+.,!@#$%^&*-=\_+|━★■♣┕ΛΟΛ┙]"];
"""
"""
excepts = [u"해외", u"즉시", u"할인", u"(국민|하나|우리|농협|신한|KB)카드", "\[", "\]", "\(", "\)", u"무료", u"배송", u"쿠폰",
          u"[◀▶▶♥●＋┏▩┓☆▒☞╋有☜口~無+.,!@#$%^&*=\-\\_+|━★■♣┕ΛΟΛ┙?/]", "[0-9]"]
"\[", "\]", "\(", "\)", u"해외"
"""
excepts = ["\[", "\]", "\(", "\)"]

In [4]:
print len(filtering('[ 해외 ] IntelIntel Core i 7 - 5930 K Haswell - E 6 - Core 3 . 5 GHz LGA 2011 - v 3 140 W Desktop Processor BX 80648 I 7593', excepts))

123


In [5]:
#j['result']
#j['result'][1][0][1]
import json

def many_cate(num, cate):
    i = 0
    tmp = ""
    while(i < num):
        tmp += " " + cate
        i += 1
    return tmp

def image_parse(name, image_name):
    try:
        file_path = './local/' + str(image_name) + '.json'
        f = open(file_path, 'r')
        json_data = ""
        for each in f.readlines():
            json_data += each    
        j = json.loads(json_data)
        for each in j['result'][1]:
            if float(each[1]) < 0.5:
                name += many_cate(1, each[0])
            elif float(each[1]) < 1.0:
                name += many_cate(1, each[0])        
            elif float(each[1]) < 1.5:
                name += many_cate(4, each[0])
            elif float(each[1]) < 2.0:
                name += many_cate(1, each[0])
            elif float(each[1]) >= 2.0:
                name += many_cate(1, each[0])
            break
        for each in j['result'][2]:
            if float(each[1]) < 0.5:
                name += many_cate(1, each[0])
            elif float(each[1]) < 1.0:
                name += many_cate(1, each[0])        
            elif float(each[1]) < 1.5:
                name += many_cate(1, each[0])
            elif float(each[1]) < 2.0:
                name += many_cate(1, each[0])
            elif float(each[1]) >= 2.0:
                name += many_cate(1, each[0])
            break
    except Exception:
        pass
    f.close()
    return name

        

In [6]:
print ngram(2,image_parse('[현대백화점 V관] 파코라반베이비 룰라니트가디건 PP1-43204 핑크', '842723'))

 [현 현대 대백 백화 화점   V관 관]   파코 코라 라반 반베 베이 이비   룰라 라니 니트 트가 가디 디건   PP P1 1- -4 43 32 20 04   핑크   sw we ea at ts sh hi ir rt   cl lo ot th hi in ng


## 데이터를 읽는다.
 * 아래 id 에 해당되는 이미지 데이터 다운받기 https://www.dropbox.com/s/q0qmx3qlc6gfumj/soma_train.tar.gz
 

In [7]:
train_df = pd.read_pickle("soma_goods_train.df")

 * cate1 는 대분류, cate2 는 중분류, cate3 는 소분류 
 * 총 10000개의 학습 데이터

In [8]:
train_df.shape

(10000, 4)

In [9]:
train_df

Unnamed: 0,cate1,cate2,cate3,name
90985,디지털/가전,PC부품,CPU,인텔 인텔 코어i7-4세대 4770K (하스웰) (정품)
90986,디지털/가전,PC부품,CPU,애플 맥북에어 13형 MacBook Air 13.3/1.6/4/256FLASH MJ...
90987,디지털/가전,PC부품,CPU,애플 맥북에어 11형 MacBook Air 11.6/1.6/4/128FLASH MJ...
90988,디지털/가전,PC부품,CPU,[ICODA] [대리점정품]인텔 제온 E5-2630V3 하스웰-EP (2.4GHz/...
90989,디지털/가전,PC부품,CPU,ICODA [대리점정품]인텔 제온 E5-2630V3 하스웰-EP (2.4GHz/8C...
90990,디지털/가전,PC부품,CPU,인텔 intel 코어4세대 하스웰 i3-4160
90991,디지털/가전,PC부품,CPU,인텔 코어i3-4세대 4160 (하스웰 리프레시) (정품)
90992,디지털/가전,PC부품,CPU,인텔 코어i3-4세대 4160 (하스웰 리프레시) (수입/박스)
90993,디지털/가전,PC부품,CPU,애플 맥북에어 13형 MJVG2KH/A + AirPort Time Capsule -...
90994,디지털/가전,PC부품,CPU,[해외] Intel Intel Xeon Qc E3-1270 Processor ...


In [10]:
from sklearn.feature_extraction.text import CountVectorizer

 * CountVectorizer 는 일반 text 를 이에 해당되는 숫자 id 와, 빈도수 형태의 데이터로 변환 해주는 역할을 해준다.
 * 이 역할을 하기 위해서 모든 단어들에 대해서 id 를 먼저 할당한다.
 * 그리고 나서, 학습 데이터에서 해당 단어들과, 그것의 빈도수로 데이터를 변환 해준다. (보통 이런 과정을 통해서 우리가 이해하는 형태를 컴퓨터가 이해할 수 있는 형태로 변환을 해준다고 보면 된다)
 * 예를 들어서 '베네통키즈 키즈 러블리 키즈' 라는 상품명이 있고, 각 단어의 id 가 , 베네통키즈 - 1, 키즈 - 2, 러블리 -3 이라고 한다면 이 상품명은 (1,1), (2,2), (3,1) 형태로 변환을 해준다. (첫번째 단어 id, 두번째 빈도수)
 

In [11]:
vectorizer = CountVectorizer()

 * 대분류, 중분류, 소분류 카테고리 명을 합쳐서 카테고리명을 만든다.  우리는 이 카테고리명을 예측하는 분류기를 만들게 된다.
 * d_list 에는 학습하는 데이터(상품명) 을 넣고, cate_list 에는 분류를 넣는다.

In [12]:
d_list = []
cate_list = []
image_list = []
name_list = []
for each in train_df.iterrows():
    image_list.append(each[0])
    cate = ";".join([each[1]['cate1'],each[1]['cate2'],each[1]['cate3']])
    d_list.append(each[1]['name'])
    cate_list.append(cate)

In [13]:
print len(set(cate_list))
print filtering('[ 해외 ] IntelIntel Core i 7 - 5930 K Haswell - E 6 - Core 3 . 5 GHz LGA 2011 - v 3 140 W Desktop Processor BX 80648 I 7593', excepts)

108
해외   IntelIntel Core i 7 - 5930 K Haswell - E 6 - Core 3 . 5 GHz LGA 2011 - v 3 140 W Desktop Processor BX 80648 I 7593


In [14]:
tmp = ""
for each in d_list:
    tmp = ""
    for i in twitter.morphs(filtering(each, excepts)):
        tmp += " " + i
    name_list.append((tmp + " " + each))

In [15]:
d_list = []
i = 0
while(i < len(name_list)):
    d_list.append(image_parse(name_list[i], image_list[i]))
    i += 1
    
for each in d_list:
    print each

 인텔 인텔 코어 i 7 - 4 세대 4770 K 하스웰 정품 인텔 인텔 코어i7-4세대 4770K (하스웰) (정품) electric fan electric fan
 애플 맥북에어 13 형 MacBook Air 13 . 3 / 1 . 6 / 4 / 256 FLASH MJVG 2 KH / A 기존 가 : 1490000 원 애플 맥북에어 13형 MacBook Air 13.3/1.6/4/256FLASH MJVG2KH/A (기존가:1490000원) television computer
 애플 맥북에어 11 형 MacBook Air 11 . 6 / 1 . 6 / 4 / 128 FLASH MJVM 2 KH / A 기존 가 : 1130000 원 애플 맥북에어 11형 MacBook Air 11.6/1.6/4/128FLASH MJVM2KH/A (기존가:1130000원) television computer
 ICODA 대리점 정품 인텔 제온 E 5 - 2630 V 3 하스웰 - EP 2 . 4 GHz / 8 C / 20 MB / LGA 2011 - V 3 쿨 러미 포함 [ICODA] [대리점정품]인텔 제온 E5-2630V3 하스웰-EP (2.4GHz/8C/20MB/LGA2011-V3) [쿨러미포함] cassette scoreboard
 ICODA 대리점 정품 인텔 제온 E 5 - 2630 V 3 하스웰 - EP 2 . 4 GHz / 8 C / 20 MB / LGA 2011 - V 3 쿨 러미 포함 ICODA [대리점정품]인텔 제온 E5-2630V3 하스웰-EP (2.4GHz/8C/20MB/LGA2011-V3) [쿨러미포함] scoreboard scoreboard
 인텔 intel 코어 4 세대 하스웰 i 3 - 4160 인텔 intel 코어4세대 하스웰 i3-4160 web site web site
 인텔 코어 i 3 - 4 세대 4160 하스웰 리프 레시 정품 인텔 코어i3-4세대 4160 (하스웰 리프레시) (정품) web site web site
 인텔 코어 i 3 - 4

 * 각 카테고리명에 대해서 serial 한 숫자 id 를 부여한다.
 * cate_dict[카테고리명] = serial_id 형태이다. 

In [16]:
cate_dict = dict(zip(list(set(cate_list)),range(len(set(cate_list)))))

In [17]:
print cate_dict[u'디지털/가전;네트워크장비;KVM스위치']
print cate_dict[u'패션의류;남성의류;정장']

0
80


 * y_list 에는 단어 형태의 카테고리명에 대응되는 serial_id 값들을 넣어준다.

In [18]:
y_list = []
for each in train_df.iterrows():
    cate = ";".join([each[1]['cate1'],each[1]['cate2'],each[1]['cate3']])
    y_list.append(cate_dict[cate])

 * fit_transform 을 하게 되면, d_list 에 들어 있는 모든 단어들에 대해서, 단어-id 사전을 만드는 일을 먼저하고 (fit)
 * 실제로 d_list 에 들어 있는 각 데이터들에 대해서 (단어id,빈도수) 형태의 데이터로 변환을 해준다. (transform)

In [19]:
x_list = vectorizer.fit_transform(name_list)

In [20]:
# print y_list

 * 여기서는 분류에서 가장 많이 사용하는 SVM(Support Vector Machine) 을 사용한 분류 학습을 한다. 

In [21]:
from sklearn.svm import LinearSVC

In [22]:
from sklearn.grid_search import GridSearchCV

In [23]:
import numpy as np

In [24]:
svc_param = {'C':np.logspace(-2,0,20)}

 * grid search 를 통해서 최적의 c 파라미터를 찾는다.
 * 5 cross validation 을 한다.

In [25]:
gs_svc = GridSearchCV(LinearSVC(loss='l2'),svc_param,cv=10,n_jobs=4)

In [26]:
gs_svc.fit(x_list, y_list)



GridSearchCV(cv=10, error_score='raise',
       estimator=LinearSVC(C=1.0, class_weight=None, dual=True, fit_intercept=True,
     intercept_scaling=1, loss='l2', max_iter=1000, multi_class='ovr',
     penalty='l2', random_state=None, tol=0.0001, verbose=0),
       fit_params={}, iid=True, n_jobs=4,
       param_grid={'C': array([ 0.01   ,  0.01274,  0.01624,  0.02069,  0.02637,  0.0336 ,
        0.04281,  0.05456,  0.06952,  0.08859,  0.11288,  0.14384,
        0.1833 ,  0.23357,  0.29764,  0.37927,  0.48329,  0.61585,
        0.78476,  1.     ])},
       pre_dispatch='2*n_jobs', refit=True, scoring=None, verbose=0)

 * 현재 기본 baseline 성능은 64% 정도로 나온다. 이 성능을 높이는 것이 본 과제의 목표이다. 
 * 위 grid search 로는 c 값을 찾고, 이렇게 찾은 c 값으로 다시 train 을 해서 최종 모델을 만든다.

In [27]:
print gs_svc.best_params_, gs_svc.best_score_

{'C': 0.033598182862837812} 0.7358


In [28]:
clf = LinearSVC(C=gs_svc.best_params_['C'])

In [29]:
clf.fit(x_list,y_list)

LinearSVC(C=0.033598182862837812, class_weight=None, dual=True,
     fit_intercept=True, intercept_scaling=1, loss='squared_hinge',
     max_iter=1000, multi_class='ovr', penalty='l2', random_state=None,
     tol=0.0001, verbose=0)

In [30]:
from sklearn.externals import joblib

 * 만들어진 모델을 나중에도 쓰기 위해서 파일에 저장한다.
 * 아래 형태로 저장하면, 추후에 손쉽게 load 할 수 있다.
 * 이때 SVM 모델,  cate_name - cate_id 사전, 단어 - 단어_id,빈도수 변ㅎ

In [31]:
joblib.dump(clf,'classify.model',compress=3)
joblib.dump(cate_dict,'cate_dict.dat',compress=3)
joblib.dump(vectorizer,'vectorizer.dat',compress=3)

['vectorizer.dat']

 * 여기까지 모델을 만든다음에 classify_server 노트북을 열고, 쭉 실행을 시키면 서버가 뜬다.
 * 서버가 뜨면 아래처럼 실행을 시킬 수 가 있다.

In [63]:
import requests

In [487]:
name='[신한카드5%할인][예화-좋은아이들] 아동한복 여아 1076 빛이나노랑'
img=''

In [488]:
u='http://localhost:8887/classify?name=%s&img=%s'

In [489]:
r = requests.get(u%(name,img)).json()
# classify_server 이 노트북을 먼저 실행하고 나서 해야 동작한다.

In [490]:
print r['cate']

패션의류;아동의류;한복
