In [1]:
import pickle
import joblib
from konlpy.tag import Okt
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.linear_model import SGDClassifier
from sklearn.pipeline import Pipeline
import csv
from datetime import datetime

In [2]:
def openStopword():
    f = open('dataset/stopwords/stopwords.csv', 'r', encoding='utf-8')
    reader = csv.reader(f)
    stopwords = list()

    for row in reader:
        stopwords.append(row[0])

    return stopwords

In [3]:
def tokenizer(raw, pos=["Noun","Verb"], stopword=openStopword()):
    return [
        word for word, tag in okt.pos(
            raw, 
            norm=True,
            stem=True
            )
            if len(word) > 1 and tag in pos and word not in stopword
        ]

In [4]:
okt = Okt()

In [5]:
keyword_names = ['글로벌역량', '능동', '도전', '성실', '소통', '인내심', '정직', '주인의식', '창의', '팀워크']

In [6]:
vectorize = TfidfVectorizer(
    ngram_range=(1,3), #n-gram 3
    tokenizer=tokenizer,
    max_df=0.95,
    min_df=0,
    sublinear_tf=True
)

In [7]:
now = datetime.now()

filename = 'saved_model/SVC_190516.joblib'
svc_from_pickle = joblib.load(filename)

after = datetime.now()
print(after-now)

0:00:33.790856


In [8]:
job = ['architecture','IT','management','production','sales']
company = ['samsung','hyundai','LG','SK','CJ']

In [9]:
company_dict = {'samsung': [-0.8887642959439978,
  -0.2320497495038032,
  -0.3980158364286989,
  0.07982216179178525,
  -0.4634689585655357,
  -1.4945375211875371,
  -1.5887466236154073,
  -0.3994969557289842,
  -1.9458319112295257,
  -0.6715375781390972],
 'hyundai': [-0.8228359594421046,
  -0.4560047847307666,
  -0.4392581998869604,
  0.05151212010714745,
  -0.37278093523020006,
  -1.441515818729987,
  -1.6143444997864906,
  -0.554804611382156,
  -1.831011837725321,
  -0.6144309645563442],
 'LG': [-0.7620625480990436,
  -0.4474363044623253,
  -0.46674841323118554,
  0.07333865957640484,
  -0.43207572092095403,
  -1.4279317971574639,
  -1.4718943563369267,
  -0.6400563343545634,
  -1.7959020562081858,
  -0.7120585840815354],
 'SK': [-0.7200478445244407,
  -0.4990252126738345,
  -0.4127369498124192,
  0.006192507305919692,
  -0.41839920312881207,
  -1.4965564622475518,
  -1.4192891756133306,
  -0.552887345195595,
  -1.773997090857436,
  -0.6549712334986287],
 'CJ': [-0.7197954463771161,
  -0.3855618389458571,
  -0.5225478215844543,
  0.010193007021379819,
  -0.2898697024011009,
  -1.865131533958604,
  -1.4985025101392337,
  -0.6209880454739807,
  -1.7121484451524631,
  -0.5946502637415154]}

In [10]:
job_dict = {'architecture': [-0.7937901908504912,
  -0.3515023301323073,
  -0.4554235835706492,
  0.018568441679702063,
  -0.3968237083739492,
  -1.3308666785039271,
  -1.6242769517092572,
  -0.5504430612943971,
  -1.885447745552018,
  -0.6388167463616912],
 'IT': [-0.7696259816584736,
  -0.3750560327936908,
  -0.6220453215282576,
  0.038524218054105,
  -0.39442095530384713,
  -1.544660045088205,
  -1.5460983332577034,
  -0.4308008828190042,
  -1.8394535505010086,
  -0.6759891813109313],
 'management': [-0.5188299343485987,
  -0.029901147197725186,
  -0.6619645384923605,
  -0.5445850626174967,
  -0.5504030525920545,
  -1.9072380753198996,
  -1.74431572373821,
  -0.24064155987741787,
  -2.0314113808502823,
  -0.46495878588644735],
 'production': [-1.0853401959447126,
  -0.7227053210850563,
  -0.3608547010214966,
  0.3813338308480395,
  -0.576729031195717,
  -0.4727332740131014,
  -0.926939806428483,
  -0.7580681852975474,
  -1.486658160389664,
  -0.759715089466218],
 'sales': [-0.7978916757591541,
  -0.31373308290366486,
  -0.4780229416815024,
  0.09685117511087538,
  -0.42681929500149385,
  -1.5038986238349443,
  -1.4333001252748199,
  -0.6346743462103275,
  -1.9094620003216995,
  -0.6192814575524809]}

In [11]:
import pandas as pd

In [12]:
samsung = pd.read_csv("dataset/samsung.csv", encoding="utf-8")
hyundai = pd.read_csv("dataset/hyundai.csv", encoding="utf-8")
LG = pd.read_csv("dataset/LG.csv", encoding="utf-8")
SK = pd.read_csv("dataset/SK.csv", encoding="utf-8")
CJ = pd.read_csv("dataset/CJ.csv", encoding="utf-8")

In [13]:
architecture = pd.read_csv("dataset/architecture.csv", encoding="utf-8")
IT = pd.read_csv("dataset/IT.csv", encoding="utf-8")
management = pd.read_csv("dataset/management.csv", encoding="utf-8")
production = pd.read_csv("dataset/production.csv", encoding="utf-8")
sales = pd.read_csv("dataset/sales.csv", encoding="utf-8")

In [14]:
#생산 데이터 자름
from sklearn.model_selection import train_test_split
production_more, production_less = train_test_split(production, test_size=0.25, random_state=42)
production = production_less

In [15]:
company_csv = samsung.append(hyundai).append(LG).append(SK).append(CJ)
job_csv = architecture.append(IT).append(management).append(production).append(sales)

In [16]:
company_csv.head()

Unnamed: 0,label,type,company,document
0,samsung,영업관리,2018년 삼성화재 01,1. 삼성취업을 선택한 이유와 입사 후 회사에서 이루고 싶은 꿈을 기술하십시오. (...
1,samsung,생산기술,2018년 삼성전자 04,1.삼성전자를 지원한 이유와 입사 후 회사에서 이루고 싶은 꿈을 기술하십시오.\n[...
2,samsung,반도체,2018년 삼성전자 03,1. 삼성전자를 지원한 이유와 입사 후 회사에서 이루고 싶은 꿈을 기술하십시오. (...
3,samsung,국내영업,2018년 삼성전자 02,삼성전자를 지원한 이유와 입사 후 회사에서 이루고 싶은 꿈을 기술하십시오.\n[공조...
4,samsung,공통(CE/IM/전사직속)-소프트웨어,2018년 삼성전자 01,Essay1 삼성전자를 지원한 이유와 입사 후 회사에서 이루고 싶은 꿈을 기술하십시...


In [17]:
job_csv.head()

Unnamed: 0,label,type,company,document
0,architecture,건축시공,2018년 현대엔지니어링 01,"본인이 회사를 선택하는데 있어 가장 중요하게 생각하는 가치는 무엇인지와, 입사 후 ..."
1,architecture,전기,2018년 한국철도공사 03,1.*직장으로 한국철도공사에 지원하게 된 동기와 입사 후 포부를 기술하여 주십시오....
2,architecture,전기,2018년 한국전력거래소 02,1.*팀으로 업무 혹은 프로젝트를 수행하는 과정에서 동료의 실수로 인해 문제가 발생...
3,architecture,전기계장,2018년 포스코켐텍 01,1. 본인을 채용하게 되면 포스코켐텍에 영향을 줄 수 있는 긍정적인 측면(기회)에 ...
4,architecture,전기,2018년 대한항공 02,"직장으로 항공사, 특히 대한항공에 지원하게 된 동기와 입사 후 포부를 간단하게 작성..."


In [18]:
def SVCpredict(model, text):
    result = model.predict([text])
    return keyword_names[result[0]-1]

In [19]:
def SVCdecision(model, lst):
    result = []
    for li in lst:
        result.append(model.decision_function([li]).tolist()[0])
    return result        

In [20]:
import operator

def Compare(decision_dict,type_arr,lst):
    result = []
    for li in lst:
        compare_dict = {}
        for i in range(len(decision_dict)):#5
            tmp = []
            for j in range(len(li)):#10
                tmp.append(abs(decision_dict[type_arr[i]][j] - li[j]))
            compare_dict[type_arr[i]] = sum(tmp)
        result.append(sorted(compare_dict.items(), key=operator.itemgetter(1))[0][0])
    return result

In [21]:
import numpy as np

In [22]:
np.mean(Compare(company_dict,company,SVCdecision(svc_from_pickle, company_csv["document"])) == company_csv["label"])

0.1899159663865546

In [23]:
np.mean(Compare(job_dict,job,SVCdecision(svc_from_pickle, job_csv["document"])) == job_csv["label"])

0.2792621727926217