In [1]:
from konlpy.tag import Okt
import pandas as pd
import numpy as np
import csv

In [2]:
global_csv = pd.read_csv('blog/global.csv', encoding="utf-8").append(pd.read_csv('news/global.csv', encoding="utf-8"))
active_csv = pd.read_csv('blog/active.csv', encoding="utf-8").append(pd.read_csv('news/active.csv', encoding="utf-8"))
challenge_csv = pd.read_csv('blog/challenge.csv', encoding="utf-8").append(pd.read_csv('news/challenge.csv', encoding="utf-8"))
sincerity_csv = pd.read_csv('blog/sincerity.csv', encoding="utf-8").append(pd.read_csv('news/sincerity.csv', encoding="utf-8"))
communication_csv = pd.read_csv('blog/communication.csv', encoding="utf-8").append(pd.read_csv('news/communication.csv', encoding="utf-8"))
patient_csv = pd.read_csv('blog/patient.csv', encoding="utf-8").append(pd.read_csv('news/patient.csv', encoding="utf-8"))
honesty_csv = pd.read_csv('blog/honesty.csv', encoding="utf-8").append(pd.read_csv('news/honesty.csv', encoding="utf-8"))
responsibility_csv = pd.read_csv('blog/responsibility.csv', encoding="utf-8").append(pd.read_csv('news/responsibility.csv', encoding="utf-8"))
creative_csv = pd.read_csv('blog/creative.csv', encoding="utf-8").append(pd.read_csv('news/creative.csv', encoding="utf-8"))
teamwork_csv = pd.read_csv('blog/teamwork.csv', encoding="utf-8").append(pd.read_csv('news/teamwork.csv', encoding="utf-8"))

In [3]:
def openStopword():
    f = open('dataset/stopwords/stopwords.csv', 'r', encoding='utf-8')
    reader = csv.reader(f)
    stopwords = list()

    for row in reader:
        stopwords.append(row[0])

    return stopwords

In [4]:
def tokenizer(raw, pos=["Noun","Verb"], stopword=openStopword()):
    return [
        word for word, tag in okt.pos(
            raw, 
            norm=True,   # normalize 정제 과정
            stem=True    # stemming 정제 과정
            )
            if len(word) > 1 and tag in pos and word not in stopword
        ]

In [5]:
# Kolnpy
okt = Okt()

keyword_names = ['글로벌역량', '능동', '도전', '성실', '소통', '인내심', '정직', '주인의식', '창의', '팀워크']

In [6]:
all_data = global_csv.append(active_csv).append(challenge_csv).append(sincerity_csv).append(communication_csv)
all_data = all_data.append(patient_csv).append(honesty_csv).append(responsibility_csv).append(creative_csv).append(teamwork_csv)

In [7]:
all_data.head()

Unnamed: 0,label,sentence
0,1,업무상횡령 외국에서는 어떻게 대처해야 할까요?
1,1,업무상횡령 외국에서는 어떻게 대처해야 할까요? 안녕하세요. 성큼 다가온 5월! 다채...
2,1,압구정 로데오 맛집 외국같은 느낌~!
3,1,다행히 친구 중에 영어를 엄청 잘하는 친구가 있어서 해석 좀 해보라고 했더니 읽어보...
4,1,외국영어캠프 경험해야 알아요!


In [8]:
from sklearn.model_selection import train_test_split
train, test = train_test_split(all_data, test_size=0.33, random_state=42)
#train["label"] = pd.Categorical(train["label"])

In [9]:
train.groupby("label").count()

Unnamed: 0_level_0,sentence
label,Unnamed: 1_level_1
1,34
2,30
3,40
4,37
5,40
6,37
7,34
8,39
9,36
10,34


In [10]:
test.groupby("label").count()

Unnamed: 0_level_0,sentence
label,Unnamed: 1_level_1
1,20
2,24
3,14
4,17
5,14
6,17
7,20
8,15
9,18
10,20


In [11]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorize = TfidfVectorizer(
    ngram_range=(1,3), #n-gram 3
    tokenizer=tokenizer,
    max_df=0.95,
    min_df=0,
    sublinear_tf=True
)

In [12]:
#tdm = vectorize.fit_transform(train["sentence"].values.astype('U'))
tdm = vectorize.fit_transform(train["sentence"].apply(lambda x: np.str_(x)))

In [13]:
vectorize.vocabulary_

{'하동군': 11266,
 '지역': 9258,
 '청소년': 9607,
 '지난': 9179,
 '자매도시': 8177,
 '안양시': 6233,
 '찾다': 9535,
 '현지': 11748,
 '교류': 1014,
 '행사': 11652,
 '가지다': 161,
 '밝히다': 4164,
 '활동': 11990,
 '도시': 2701,
 '농어촌': 2118,
 '상호': 5106,
 '방문': 4196,
 '통해': 10352,
 '서로': 5175,
 '하동군 지역': 11269,
 '지역 청소년': 9273,
 '청소년 지난': 9619,
 '지난 자매도시': 9202,
 '자매도시 안양시': 8178,
 '안양시 찾다': 6234,
 '찾다 현지': 9542,
 '현지 청소년': 11749,
 '청소년 교류': 9610,
 '교류 행사': 1061,
 '행사 가지다': 11653,
 '가지다 밝히다': 168,
 '밝히다 지역': 4190,
 '교류 활동': 1079,
 '활동 도시': 11991,
 '도시 농어촌': 2704,
 '농어촌 청소년': 2123,
 '청소년 상호': 9617,
 '상호 방문': 5107,
 '방문 통해': 4210,
 '통해 서로': 10357,
 '하동군 지역 청소년': 11270,
 '지역 청소년 지난': 9275,
 '청소년 지난 자매도시': 9620,
 '지난 자매도시 안양시': 9203,
 '자매도시 안양시 찾다': 8179,
 '안양시 찾다 현지': 6235,
 '찾다 현지 청소년': 9543,
 '현지 청소년 교류': 11750,
 '청소년 교류 행사': 9611,
 '교류 행사 가지다': 1062,
 '행사 가지다 밝히다': 11655,
 '가지다 밝히다 지역': 169,
 '밝히다 지역 청소년': 4191,
 '지역 청소년 교류': 9274,
 '청소년 교류 활동': 9612,
 '교류 활동 도시': 1080,
 '활동 도시 농어촌': 11992,
 '도시 농어촌 청소년': 2705,
 '농어촌 청소년

#### 기존 모델(시간이 더 오래걸림)

In [14]:
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.linear_model import SGDClassifier
from sklearn.pipeline import Pipeline

In [15]:
text_clf_svm = Pipeline([('vect', vectorize),
                         ('tfidf', TfidfTransformer()),
                         ('clf-svm', SGDClassifier(loss='hinge', penalty='l2', alpha=1e-3, max_iter=1000, random_state=42))]) # 손실함수 기댓값 최소화

text_clf_svm = text_clf_svm.fit(train["sentence"].apply(lambda x: np.str_(x)), train["label"])



#### Naive Bayes

In [16]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.multiclass import OneVsRestClassifier

NB_pipeline = Pipeline([
                ('tfidf', vectorize),
                ('clf', OneVsRestClassifier(MultinomialNB(
                    fit_prior=True, class_prior=None))),
            ])

text_clf_nb = NB_pipeline.fit(train["sentence"].apply(lambda x: np.str_(x)), train["label"])

#### SVM - LinearSVC

In [17]:
from sklearn.svm import LinearSVC
SVC_pipeline = Pipeline([
                ('tfidf', vectorize),
                ('clf', OneVsRestClassifier(LinearSVC(), n_jobs=1)),
            ])

text_clf_svc = SVC_pipeline.fit(train["sentence"].apply(lambda x: np.str_(x)), train["label"])

#### Logistic Regression

In [18]:
from sklearn.linear_model import LogisticRegression
LogReg_pipeline = Pipeline([
                ('tfidf', vectorize),
                ('clf', OneVsRestClassifier(LogisticRegression(solver='sag'), n_jobs=1)),
            ])

text_clf_logreg = LogReg_pipeline.fit(train["sentence"].apply(lambda x: np.str_(x)), train["label"])

In [19]:
# 기존 모델 svm
print("train", np.mean(text_clf_svm.predict(train["sentence"]) == train["label"]))
print("test", np.mean(text_clf_svm.predict(test["sentence"]) == test["label"]))

train 1.0
test 0.9162011173184358


In [20]:
# Naive Bayes
print("train",np.mean(text_clf_nb.predict(train["sentence"]) == train["label"]) )
print("test",np.mean(text_clf_nb.predict(test["sentence"]) == test["label"]))

train 1.0
test 0.9106145251396648


In [21]:
# SVM-LinearSVC
print("train",np.mean(text_clf_svc.predict(train["sentence"]) == train["label"]))
print("test",np.mean(text_clf_svc.predict(test["sentence"]) == test["label"]))

train 1.0
test 0.9329608938547486


In [22]:
# Logistic Regression
print("train",np.mean(text_clf_logreg.predict(train["sentence"]) == train["label"]) )
print("test",np.mean(text_clf_logreg.predict(test["sentence"]) == test["label"]))

train 1.0
test 0.9050279329608939


#### 기존 모델로 예측-----

In [23]:
text_clf_svm.predict(["능동적인 사람이 되자"])

array([8], dtype=int64)

In [24]:
text_clf_svm.predict(["글로벌역량","능동","도전","성실","소통","인내심","정직","주인의식","창의","팀워크"])

array([ 8,  8, 10,  3,  3,  3,  3,  6,  8,  3], dtype=int64)

In [25]:
text_clf_svm.predict(["[열정을 갖고 끊임없이 노력하는 사람] 우선 주어진 일에 실패를 두려워하지 않고 끊임없이 도전하는 것입니다. 노력은 배신하지 않는다고 생각합니다. 주어진 일에 관한 분야의 역량을 함양하고자 시간 투자를 계속해서 쏟으며, 그 일을 반복하여 제 것으로 만듭니다. 저는 지금도 현재 진행형이며, 미래에도 멈추지 않고 달려 나가는 인재가 되고 싶습니다. 항상 배우고자 하고, 저 자신에게 나태해지지 않는 마음가짐으로 모든 일을 대할 것입니다. 팀 내부에서 저의 역할이 무엇인지 먼저 이해하고 팀원 간의 협력을 가장 중요시 여길 것입니다. 팀 프로젝트를 진행 할 때 가장 중요한 것은 팀원 간의 조화라고 생각하기 때문입니다. 이를 통해 어제보다 오늘의 제가, 오늘보다 내일의 제가 더 나은 사람이길 바랍니다. 안주하는 삶에 만족하지 않고 저의 가능성을 최대로 발휘하고 싶습니다. CJ올리브네트웍스에서도 발전하는 IT서비스와 시스템을 개발, 운영하기 위해 항상 새로운 도전에 주저없이 뛰어들겠습니다."])

array([8], dtype=int64)

In [26]:
text_clf_svm.decision_function(["[열정을 갖고 끊임없이 노력하는 사람] 우선 주어진 일에 실패를 두려워하지 않고 끊임없이 도전하는 것입니다. 노력은 배신하지 않는다고 생각합니다. 주어진 일에 관한 분야의 역량을 함양하고자 시간 투자를 계속해서 쏟으며, 그 일을 반복하여 제 것으로 만듭니다. 저는 지금도 현재 진행형이며, 미래에도 멈추지 않고 달려 나가는 인재가 되고 싶습니다. 항상 배우고자 하고, 저 자신에게 나태해지지 않는 마음가짐으로 모든 일을 대할 것입니다. 팀 내부에서 저의 역할이 무엇인지 먼저 이해하고 팀원 간의 협력을 가장 중요시 여길 것입니다. 팀 프로젝트를 진행 할 때 가장 중요한 것은 팀원 간의 조화라고 생각하기 때문입니다. 이를 통해 어제보다 오늘의 제가, 오늘보다 내일의 제가 더 나은 사람이길 바랍니다. 안주하는 삶에 만족하지 않고 저의 가능성을 최대로 발휘하고 싶습니다. CJ올리브네트웍스에서도 발전하는 IT서비스와 시스템을 개발, 운영하기 위해 항상 새로운 도전에 주저없이 뛰어들겠습니다."])

array([[-0.88528237, -0.61412665, -1.00692615, -0.85493519, -0.79695051,
        -0.68513904, -0.95058892, -0.43317499, -0.94023738, -0.824508  ]])

#### 여러 모델 예측

In [27]:
def Predict(model,text):
    result = model.predict([text])
    print(keyword_names[result[0]-1])
    #return keyword_names[result[0]-1]

In [28]:
Predict(text_clf_svm, "개정안에 따르면, 앞으로 산업기술 R&D는 ‘신속한 기술개발’을 우선 고려한다. 이를 위해 연구수행자는 ‘기존 기술의 도입을 통한 기간 단축 및 사업비 절감방안’을 사업계획서에 반드시 포함하도록 했고, 신규평가에서도 이 내용을 검토할 예정이다. 이를 통해 산업기술 R&D 전반의 개발 속도가 단축돼 4차 산업혁명 시대에 급변하는 외부환경 변화에 적기대응할 수 있는 제도적 기반을 갖추게 될 전망이다.")
Predict(text_clf_svm, "또한, 산업의 난제를 푸는 ‘도전적 프로젝트(알키미스트 프로젝트)’의 시행을 위해 기획부터 평가방식까지 사업추진 방식을 전면 개선했다. 알키미스트 프로젝트는 6월부터 시범사업(국비 100억원 규모)을 추진하고, 2020년부터는 과기부와 협업과제를 발굴하여 본격 시행될 예정으롤 예비타당성 조사를 추진하고 있다. ")

능동
팀워크


In [29]:
Predict(text_clf_nb, "개정안에 따르면, 앞으로 산업기술 R&D는 ‘신속한 기술개발’을 우선 고려한다. 이를 위해 연구수행자는 ‘기존 기술의 도입을 통한 기간 단축 및 사업비 절감방안’을 사업계획서에 반드시 포함하도록 했고, 신규평가에서도 이 내용을 검토할 예정이다. 이를 통해 산업기술 R&D 전반의 개발 속도가 단축돼 4차 산업혁명 시대에 급변하는 외부환경 변화에 적기대응할 수 있는 제도적 기반을 갖추게 될 전망이다.")
Predict(text_clf_nb, "또한, 산업의 난제를 푸는 ‘도전적 프로젝트(알키미스트 프로젝트)’의 시행을 위해 기획부터 평가방식까지 사업추진 방식을 전면 개선했다. 알키미스트 프로젝트는 6월부터 시범사업(국비 100억원 규모)을 추진하고, 2020년부터는 과기부와 협업과제를 발굴하여 본격 시행될 예정으롤 예비타당성 조사를 추진하고 있다. ")

주인의식
팀워크


In [30]:
Predict(text_clf_svc, "개정안에 따르면, 앞으로 산업기술 R&D는 ‘신속한 기술개발’을 우선 고려한다. 이를 위해 연구수행자는 ‘기존 기술의 도입을 통한 기간 단축 및 사업비 절감방안’을 사업계획서에 반드시 포함하도록 했고, 신규평가에서도 이 내용을 검토할 예정이다. 이를 통해 산업기술 R&D 전반의 개발 속도가 단축돼 4차 산업혁명 시대에 급변하는 외부환경 변화에 적기대응할 수 있는 제도적 기반을 갖추게 될 전망이다.")
Predict(text_clf_svc, "또한, 산업의 난제를 푸는 ‘도전적 프로젝트(알키미스트 프로젝트)’의 시행을 위해 기획부터 평가방식까지 사업추진 방식을 전면 개선했다. 알키미스트 프로젝트는 6월부터 시범사업(국비 100억원 규모)을 추진하고, 2020년부터는 과기부와 협업과제를 발굴하여 본격 시행될 예정으롤 예비타당성 조사를 추진하고 있다. ")

주인의식
능동


In [31]:
Predict(text_clf_logreg, "개정안에 따르면, 앞으로 산업기술 R&D는 ‘신속한 기술개발’을 우선 고려한다. 이를 위해 연구수행자는 ‘기존 기술의 도입을 통한 기간 단축 및 사업비 절감방안’을 사업계획서에 반드시 포함하도록 했고, 신규평가에서도 이 내용을 검토할 예정이다. 이를 통해 산업기술 R&D 전반의 개발 속도가 단축돼 4차 산업혁명 시대에 급변하는 외부환경 변화에 적기대응할 수 있는 제도적 기반을 갖추게 될 전망이다.")
Predict(text_clf_logreg, "또한, 산업의 난제를 푸는 ‘도전적 프로젝트(알키미스트 프로젝트)’의 시행을 위해 기획부터 평가방식까지 사업추진 방식을 전면 개선했다. 알키미스트 프로젝트는 6월부터 시범사업(국비 100억원 규모)을 추진하고, 2020년부터는 과기부와 협업과제를 발굴하여 본격 시행될 예정으롤 예비타당성 조사를 추진하고 있다. ")

주인의식
성실
