# 7기 마에스트로 백엔드 과제 - 상품 카테고리 자동 분류 서버 

# 과제 개요

 * 출제자 : 남상협 멘토 (justin@buzzni.com) / 버즈니 (http://buzzni.com) 대표 
 * 배경 : 카테고리 분류 엔진은 실제로 많은 서비스에서 사용되는 중요한 기계학습의 한 분야이다. 본 과제는 버즈니 개발 인턴이자 마에스트로 6기 멘티가 아래와 나와 있는 기본 분류 모델을 기반으로 deep learning 기반의 feature 를 더해서 고도화된 분류 엔진을 만들어서 2016 한국 정보과학회 논문으로도 제출 했던 과제다. 기계학습에 대한 학습과, 실용성 두가지 측면에서 모두 도움이 될 것으로 보인다.


## 과제 목표

 * 입력 : 상품명, 상품 이미지
 * 출력 : 카테고리
 * 목표 : 가장 높은 정확도로 분류를 하는 분류 엔진을 개발

## 제약 조건
 * 분류 엔진은 rest api 형태로 만들어야함 (샘플로 준 python server 사용해도 됨)
 * rest api 는  http://서버주소:포트/classify?name=상품명&img=상품이미지주소 형식으로 호출이 가능해야함
 * 위 rest api 를 이용해서 별도로 가지고 있는 데이터로 자동 성능 평가로 채점을 하게됨 (채점하는 데이터는 제공되지 않음)
 * 데이터 리턴 형식은 {u'cate': u'\ud328\uc158\uc758\ub958;\uc544\ub3d9\uc758\ub958;\ud55c\ubcf5'} 이런식으로 cate 라는 키 값에 그에 해당되는 대,중,소 카테고리를 ; 로 연결한 형태로 반환하면 됨 

## 평가 항목
 1. 성능 평가 (100%)

## 제출 항목
 1. 채점 서버 호출이 필요함: 채점 서버 호출시 name 부분에 자신의 이름을 넣으면 됨.
  - 자신이 개발한 서버 호출 형태 : http://서버주소:포트/classify?name=상품명&img=상품이미지주소
  - 평가 서버 : http://somaeval.hoot.co.kr:8880/eval?url= 뒤에 자신의 서버 주소를 넣으면 됨 너무 자주 호출하면 서버가 죽을 수 있으니, mode=all 로는 꼭 필요할때만 호출하기 바람 , 평가 서버가 죽었을 시에는 justin@buzzni.com 으로 문의 
  - 예) 샘플 테스트 :  http://somaeval.hoot.co.kr:8880/eval?url=http://somaeval.hoot.co.kr:18887
  - 예) 전체 테스트 : http://somaeval.hoot.co.kr:8880/eval?url=http://somaeval.hoot.co.kr:18887&mode=all&name=베이스라인

## 성능 향상 포인트
 * 오픈된 형태소 분석기(예 - 은전한닢 http://eunjeon.blogspot.kr/ )를 써서, 단어 띄어쓰기를 의미 단위로 띄어서 학습하기 
 * 상품명에서 분류하는데 도움이 되지 않는 stop word 제거하기 
 * bigram, unigram, trigram 등 단어 feature 를 더 다양하게 추가하기 
 * 이미지 데이터를 Deep Learning (CNN) 기반 방법으로 feature 를 추출해서 추가하기 
  * 제일 기본적으로 https://github.com/irony/caffe-docker-classifier 이런 이미 만들어진 모델을 이용해서 feature 를 추출해서 추가하기도 가능함 
  * DIGITS + caffe 를 이용해서 본 학습 모델에 맞는 이미지 자동 분류기를 별도로 학습해서 사용하는것도 가능함

## 개발 서버 URL 형태 
 * name, img 를 파리미터로 호출한다.
 * 호출 형태 : http://somaeval.hoot.co.kr:18887/classify?name=조끼&img=http://shopping.phinf.naver.net/main_8134935/8134935099.1.jpg 
 

## 성능평가 테스트 서버 
 * 아래 주소에서 url 에 자신의 분류기 모델 주소를 넣어주면 제공되지 않았던 데이터들을 이용해서 평가를 해준다.
 * 샘플 테스트(카테고리별 2개만 가지고 테스트) : http://somaeval.hoot.co.kr:8880/eval?url=http://somaeval.hoot.co.kr:18887
 * 전체 성능 평가 테스트 (mode=all) : http://somaeval.hoot.co.kr:8880/eval?url=http://somaeval.hoot.co.kr:18887&mode=all
 

## 현재 보고 있는 IPython Notebook 사용법
 * https://www.youtube.com/results?search_query=ipython+notebook+tutorial
 * shift + enter 를 누르면 실행이 된다.

# 아래는 baseline 모델을 만드는 방법 

In [1]:
import pandas as pd
from konlpy.tag import Mecab
from konlpy.utils import pprint

## 데이터를 읽는다.
 * 아래 id 에 해당되는 이미지 데이터 다운받기 https://www.dropbox.com/s/q0qmx3qlc6gfumj/soma_train.tar.gz
 

In [2]:
train_df = pd.read_pickle("soma_goods_train.df")

 * cate1 는 대분류, cate2 는 중분류, cate3 는 소분류 
 * 총 10000개의 학습 데이터

In [3]:
train_df.shape

(10000, 4)

In [4]:
count_list = []
for row in train_df.itertuples():
   count_list.append(len(row[4]))
                     
text_count = pd.Series(count_list,index=train_df.index,name ='text_count')
train_df = pd.concat((train_df,text_count),axis=1)
train_df.head(3)

Unnamed: 0,cate1,cate2,cate3,name,text_count
90985,디지털/가전,PC부품,CPU,인텔 인텔 코어i7-4세대 4770K (하스웰) (정품),31
90986,디지털/가전,PC부품,CPU,애플 맥북에어 13형 MacBook Air 13.3/1.6/4/256FLASH MJ...,68
90987,디지털/가전,PC부품,CPU,애플 맥북에어 11형 MacBook Air 11.6/1.6/4/128FLASH MJ...,68


# 1. Data cleaning

In [5]:
def data_add(text):
    text = text.replace(" ",',,,,')
    return text

In [6]:
pprint (data_add("."))
pprint (data_add(train_df.iloc[1]['name']))

'.'
애플,,,,맥북에어,,,,13형,,,,MacBook,,,,Air,,,,13.3/1.6/4/256FLASH,,,,MJVG2KH/A,,,,(기존가:1490000원)


In [7]:
from sklearn.feature_extraction.text import TfidfVectorizer

 * CountVectorizer 는 일반 text 를 이에 해당되는 숫자 id 와, 빈도수 형태의 데이터로 변환 해주는 역할을 해준다.
 * 이 역할을 하기 위해서 모든 단어들에 대해서 id 를 먼저 할당한다.
 * 그리고 나서, 학습 데이터에서 해당 단어들과, 그것의 빈도수로 데이터를 변환 해준다. (보통 이런 과정을 통해서 우리가 이해하는 형태를 컴퓨터가 이해할 수 있는 형태로 변환을 해준다고 보면 된다)
 * 예를 들어서 '베네통키즈 키즈 러블리 키즈' 라는 상품명이 있고, 각 단어의 id 가 , 베네통키즈 - 1, 키즈 - 2, 러블리 -3 이라고 한다면 이 상품명은 (1,1), (2,2), (3,1) 형태로 변환을 해준다. (첫번째 단어 id, 두번째 빈도수)
 

In [8]:
vectorizer = TfidfVectorizer(ngram_range=(1,4))

 * 대분류, 중분류, 소분류 카테고리 명을 합쳐서 카테고리명을 만든다.  우리는 이 카테고리명을 예측하는 분류기를 만들게 된다.
 * d_list 에는 학습하는 데이터(상품명) 을 넣고, cate_list 에는 분류를 넣는다.

In [9]:
mecab = Mecab()
pprint (" ".join(str(e) for e in mecab.pos(data_add(train_df.iloc[1]['name']))))

"(u'\\uc560\\ud50c', u'NNP') (u',', u'SC') (u',', u'SC') (u',', u'SC') (u',', u'SC') (u'\\ub9e5\\ubd81', u'NNP') (u'\\uc5d0', u'JKB') (u'\\uc5b4', u'IC') (u',', u'SC') (u',,,', u'SY') (u'13', u'SN') (u'\\ud615', u'NNG') (u',', u'SC') (u',,,', u'SY') (u'MacBook', u'SL') (u',', u'SC') (u',,,', u'SY') (u'Air', u'SL') (u',', u'SC') (u',,,', u'SY') (u'13', u'SN') (u'.', u'SY') (u'3', u'SN') (u'/', u'SC') (u'1', u'SN') (u'.', u'SY') (u'6', u'SN') (u'/', u'SC') (u'4', u'SN') (u'/', u'SC') (u'256', u'SN') (u'FLASH', u'SL') (u',', u'SC') (u',,,', u'SY') (u'MJVG', u'SL') (u'2', u'SN') (u'KH', u'SL') (u'/', u'SC') (u'A', u'SL') (u',', u'SC') (u',', u'SC') (u',', u'SC') (u',', u'SC') (u'(', u'SSO') (u'\\uae30\\uc874', u'NNG') (u'\\uac00', u'JKS') (u':', u'SC') (u'1490000', u'SN') (u'\\uc6d0', u'NNBC') (u')', u'SSC')"


In [10]:
d_list = []
cate_list = []
for each in train_df.iterrows():
    cate = ";".join([each[1]['cate1'],each[1]['cate2'],each[1]['cate3']])
    d_list.append(" ".join(str(e) for e in mecab.pos(data_add(each[1]['name']))))
    cate_list.append(cate)

In [11]:
print len(set(cate_list))

108


 * 각 카테고리명에 대해서 serial 한 숫자 id 를 부여한다.
 * cate_dict[카테고리명] = serial_id 형태이다. 

In [12]:
cate_dict = dict(zip(list(set(cate_list)),range(len(set(cate_list)))))

In [13]:
print cate_dict[u'디지털/가전;네트워크장비;KVM스위치']
print cate_dict[u'패션의류;남성의류;정장']

0
80


 * y_list 에는 단어 형태의 카테고리명에 대응되는 serial_id 값들을 넣어준다.

In [14]:
y_list = []
for each in train_df.iterrows():
    cate = ";".join([each[1]['cate1'],each[1]['cate2'],each[1]['cate3']])
    y_list.append(cate_dict[cate])

 * fit_transform 을 하게 되면, d_list 에 들어 있는 모든 단어들에 대해서, 단어-id 사전을 만드는 일을 먼저하고 (fit)
 * 실제로 d_list 에 들어 있는 각 데이터들에 대해서 (단어id,빈도수) 형태의 데이터로 변환을 해준다. (transform)

In [15]:
from sklearn.feature_selection import chi2
from sklearn.feature_selection import SelectKBest

In [16]:
x_list = vectorizer.fit_transform(d_list)

In [17]:
x_list.shape

(10000, 254527)

In [18]:
newX_list = SelectKBest(chi2,k=120000).fit_transform(x_list,y_list)

In [19]:
newX_list.shape

(10000, 120000)

In [36]:
# print y_list

 * 여기서는 분류에서 가장 많이 사용하는 SVM(Support Vector Machine) 을 사용한 분류 학습을 한다. 

In [20]:
from sklearn.svm import LinearSVC

In [21]:
from sklearn.grid_search import GridSearchCV

In [22]:
import numpy as np

In [23]:
svc_param = {'C':np.logspace(2,0,20)}

 * grid search 를 통해서 최적의 c 파라미터를 찾는다.
 * 5 cross validation 을 한다.

In [24]:
gs_svc = GridSearchCV(LinearSVC(loss='l2'),svc_param,cv=5,n_jobs=4)

In [27]:
gs_svc.fit(newX_list, y_list)



GridSearchCV(cv=5, error_score='raise',
       estimator=LinearSVC(C=1.0, class_weight=None, dual=True, fit_intercept=True,
     intercept_scaling=1, loss='l2', max_iter=1000, multi_class='ovr',
     penalty='l2', random_state=None, tol=0.0001, verbose=0),
       fit_params={}, iid=True, n_jobs=4,
       param_grid={'C': array([ 100.     ,   78.476  ,   61.58482,   48.3293 ,   37.9269 ,
         29.76351,   23.35721,   18.32981,   14.3845 ,   11.28838,
          8.85867,    6.95193,    5.45559,    4.28133,    3.35982,
          2.63665,    2.06914,    1.62378,    1.27427,    1.     ])},
       pre_dispatch='2*n_jobs', refit=True, scoring=None, verbose=0)

 * 현재 기본 baseline 성능은 64% 정도로 나온다. 이 성능을 높이는 것이 본 과제의 목표이다. 
 * 위 grid search 로는 c 값을 찾고, 이렇게 찾은 c 값으로 다시 train 을 해서 최종 모델을 만든다.

In [28]:
print gs_svc.best_params_, gs_svc.best_score_

{'C': 1.6237767391887226} 0.7316


In [28]:
# 'C': 1.2742749857031341

# 2. Test Score
---
 + ngram(1,2) , ngram(1,3) : 0.724(ad)->0.7308, ngram(1,4) : 0.7239(ad)->0.7324 ngram(1.4) : 0.7167
 ngram(1,5): 0.721(ad) 
 + tfidf : 0.651
 + text cleaning : 0.651(공백대신 ,로 모두 삽입)
 + mecab : 0.722 (공백대신 ,로 모두 삽입), 정상적인 적용 : 0.7169
 + max feature 제한 10000:0.7099, 20000:0.7218, 30000:0.7211 40000:0.7209 50000:0.7209
 + text_count : 안올름
--- 
- text_cleaning X :  ngram(1,4): 0.7203  , ngram(1,3): 0.7216
- text_cleaning(ad2,,) : ngram(1,4): 0.7234, ngram(1,3): 0.7243 -> 0.7308
- text_cleaning(ad3,,,) : ngram(1,4):0.7231 ,ngram(1,3) :0.7259->0.73248, ngram(1,2):7213, ngram(1,5):0.7217
- text_cleaning(ad4,,,,) : ngram(1,3): 0,7264
- text_cleaning(ad5,,,,,) : ngram(1,3) : 0.7254
---
- base text_cleaning(ad4,,,,) : ngram(1,3): 0,7264
    * svc_param = {'C':np.logspace(2,0,20)} : 0.7273 -> 0.73387
    * svc_param = {'C':np.logspace(5,0,20)} : 0.7269 -> 0.73265
    * svc_param = {'C':np.logspace(3,0,20)} : 0.7275 -> 0.73367
    * svc_param = {'C':np.logspace(3,0,20)} : 0.7272 -> 0.73367
    * svc_param = {'C':np.logspace(4,0,20)} : 0.7272
    * svc_param = {'C':np.logspace(-5,0,20)} : 0.726
    * svc_param = {'C':np.logspace(-2,-5,20)} : 0.620
- base text_cleaning(ad4,,,,) : ngram(1,3) svc_param = {'C':np.logspace(2,0,20)}: 0,7273
 * ngram(1,4) : 0.7263 -> 7.34082
- base text_cleaning(ad4,,,,) : ngram(1,4) svc_param = {'C':np.logspace(2,0,20)}:
 * feature selection 120000 : 0.7316 -> 73.4490
 * feature selection 100000 : 0.7317 -> 73.40
 * feature selection 150000 : 0.7311 -> 73.40
 * feature selection 110000 : 0.732 ->
 * feature selection 115000 : 0.7315 ->
 * feature selection 200000 : 0.7282 -> 73.4490
 * feature selection 125000 : 0.7316 ->
 * feature selection 130000 : 0.7316 -> 73.4490
----
- add name
 * no score
---
 * svc_param = {-2,0,20} : 73.14
 * no text processing : 72.41
 * + name 2times feature :0.728 + 300000: 73.03
---
* 1. no text, ngram(1,4), param 2 : 72.38

# 3. final model
---
 * ##  1. Feature
    * ### name, add ",,,,"
    * ### feature selection: SelectionKBest(chi2,k=120000)
    * ### Tfidf
    * ### ngram(1,4)
    
 * ## 2. svc parameter
    * ### C = 
    
 * ## 3. cv-score

 * ## 4. test-score
 

In [29]:
from sklearn.svm import SVC
from sklearn.ensemble import AdaBoostClassifier

In [30]:
#clf = AdaBoostClassifier(SVC(C=gs_svc.best_params_['C'],kernel='linear',verbose=True),n_estimators=10, learning_rate=1.0, algorithm='SAMME')

In [31]:
clf = LinearSVC(C=gs_svc.best_params_['C'])

In [35]:
clf.fit(newX_list,y_list)

LinearSVC(C=1.6237767391887226, class_weight=None, dual=True,
     fit_intercept=True, intercept_scaling=1, loss='squared_hinge',
     max_iter=1000, multi_class='ovr', penalty='l2', random_state=None,
     tol=0.0001, verbose=0)

In [36]:
from sklearn.externals import joblib

 * 만들어진 모델을 나중에도 쓰기 위해서 파일에 저장한다.
 * 아래 형태로 저장하면, 추후에 손쉽게 load 할 수 있다.
 * 이때 SVM 모델,  cate_name - cate_id 사전, 단어 - 단어_id,빈도수 변ㅎ

In [37]:
joblib.dump(clf,'classify.model',compress=3)
joblib.dump(cate_dict,'cate_dict.dat',compress=3)
joblib.dump(vectorizer,'vectorizer.dat',compress=3)

['vectorizer.dat']

 * 여기까지 모델을 만든다음에 classify_server 노트북을 열고, 쭉 실행을 시키면 서버가 뜬다.
 * 서버가 뜨면 아래처럼 실행을 시킬 수 가 있다.

In [34]:
import requests

In [35]:
name='[신한카드5%할인][예화-좋은아이들] 아동한복 여아 1076 빛이나노랑'
img=''

In [30]:
u='http://localhost:8887/classify?name=%s&img=%s'

In [31]:
r = requests.get(u%(name,img)).json()
# classify_server 이 노트북을 먼저 실행하고 나서 해야 동작한다.

ConnectionError: HTTPConnectionPool(host='localhost', port=8887): Max retries exceeded with url: /classify?name=[%EC%8B%A0%ED%95%9C%EC%B9%B4%EB%93%9C5%%ED%95%A0%EC%9D%B8][%EC%98%88%ED%99%94-%EC%A2%8B%EC%9D%80%EC%95%84%EC%9D%B4%EB%93%A4]%20%EC%95%84%EB%8F%99%ED%95%9C%EB%B3%B5%20%EC%97%AC%EC%95%84%201076%20%EB%B9%9B%EC%9D%B4%EB%82%98%EB%85%B8%EB%9E%91&img= (Caused by NewConnectionError('<requests.packages.urllib3.connection.HTTPConnection object at 0x7f5eded6a850>: Failed to establish a new connection: [Errno 111] Connection refused',))

In [None]:
print r