In [1]:
from konlpy.tag import Okt
import pandas as pd
import numpy as np

In [2]:
global_csv = pd.read_csv('dataset/keywords/global.csv', encoding="utf-8")
active_csv = pd.read_csv('dataset/keywords/active.csv', encoding="utf-8")
challenge_csv = pd.read_csv('dataset/keywords/challenge.csv', encoding="utf-8")
sincerity_csv = pd.read_csv('dataset/keywords/sincerity.csv', encoding="utf-8")
communication_csv = pd.read_csv('dataset/keywords/communication.csv', encoding="utf-8")
patient_csv = pd.read_csv('dataset/keywords/patient.csv', encoding="utf-8")
honesty_csv = pd.read_csv('dataset/keywords/honesty.csv', encoding="utf-8")
responsibility_csv = pd.read_csv('dataset/keywords/responsibility.csv', encoding="utf-8")
creative_csv = pd.read_csv('dataset/keywords/creative.csv', encoding="utf-8")
teamwork_csv = pd.read_csv('dataset/keywords/teamwork.csv', encoding="utf-8")

In [3]:
import csv

pd.options.mode.chained_assignment = None
np.random.seed(0)

# Kolnpy
okt = Okt()

rawdata = [
    global_csv,
    active_csv,
    challenge_csv,
    sincerity_csv,
    communication_csv,
    patient_csv,
    honesty_csv,
    responsibility_csv,
    creative_csv,
    teamwork_csv
]

keyword_names = ['글로벌역량', '능동', '도전', '성실', '소통', '인내심', '정직', '주인의식', '창의', '팀워크']

# 불용어리스트 불러오는 과정
f = open('dataset/stopwords/stopwords.csv', 'r', encoding='utf-8')
reader = csv.reader(f)
stopwords = list()

for row in reader:
    stopwords.append(row[0])

In [4]:
# raw한 문장데이터를 분석에 알맞게 정제하도록 한다.
def tokenizer(raw, pos=["Noun","Verb"], stopword=stopwords):
    return [
        word for word, tag in okt.pos(
            raw, 
            norm=True,   # normalize 정제 과정
            stem=True    # stemming 정제 과정
            )
            if len(word) > 1 and tag in pos and word not in stopword
        ]

In [5]:
global_csv.head()

Unnamed: 0,문장
0,"""페이스북 나와!""...네이버 라인, 일본 거점으로 글로벌 블록체인 시장 공략"
1,■’룰 세팅’ 완료된 일본 라이센스 기반으로 해외공략 특히 라인은 글로벌 소셜네트워...
2,"FAO 한국사무소, 종로에 문 연다…식량·농업 외교 역량 강화 기대"
3,FAO는 13일 서울 종로구 글로벌센터 빌딩에서 한국협력연락사무소 개소식을 갖는다....
4,[글로벌-Biz 24] KIND-현대엔지니어링 협력해 1조3천억 폴란드 석유화학플랜...


In [6]:
global_csv["문장"]

0           "페이스북 나와!"...네이버 라인, 일본 거점으로 글로벌 블록체인 시장 공략
1     ■’룰 세팅’ 완료된 일본 라이센스 기반으로 해외공략 특히 라인은 글로벌 소셜네트워...
2                 FAO 한국사무소, 종로에 문 연다…식량·농업 외교 역량 강화 기대
3     FAO는 13일 서울 종로구 글로벌센터 빌딩에서 한국협력연락사무소 개소식을 갖는다....
4     [글로벌-Biz 24] KIND-현대엔지니어링 협력해 1조3천억 폴란드 석유화학플랜...
5     발휘함으로써 '팀코리아'의 역량을 입증한 대표적 사례"라고 말했다. 폴란드 수도 바...
6                          다날, 수익성장-신사업 확대 위해 '조직역량 강화'
7     관계자는 "4차산업혁명에 대응하는 로봇기술, 빅데이터, 블록체인 기술에 투자와 M&...
8                      여수 한영대학, 교육부 전문대학혁신지원사업 역량강화형 선정
9     여수 한영대학(총장 임정섭)은 최근 교육부에서 주관하는 '2019 전문대학혁신지원사...
10    동원과학기술대학교가 서원유통과 동원과학기술대학교 3층 소회의실에서 상호협력을 통한 ...
11                                 양질의 취업 위한 학생 역량강화 노력
12                         은행들 '디지털·글로벌 인력' 대대적 '육성' 경쟁
13    디지털 역량을 강화한다. 지난 7일에는 서울과학종합대학원과 업무협약(MOU)을 맺고...
14            대구시, '인재양성''과 '글로벌 네트워크 강화'로 로봇 도시 위상 높인다
15    지금까지 1천800여 명이 로봇 제조 및 생산실무 전문기술·기능 교육과 역량강화 교...
16                 [신아-50대기업 해부8] 한화그룹, 글로벌 기업 도약 '정조준'
17    각 기업은 시대가 요구하는 변화에 대응하기 위해 핵심 사업의 역량을 끌어올리

In [7]:
global_csv = pd.DataFrame(global_csv["문장"])
global_csv["label"] = 1
active_csv = pd.DataFrame(active_csv["문장"])
active_csv["label"] = 2
challenge_csv = pd.DataFrame(challenge_csv["문장"])
challenge_csv["label"] = 3
sincerity_csv = pd.DataFrame(sincerity_csv["문장"])
sincerity_csv["label"] = 4
communication_csv = pd.DataFrame(communication_csv["문장"])
communication_csv["label"] = 5
patient_csv = pd.DataFrame(patient_csv["문장"])
patient_csv["label"] = 6
honesty_csv = pd.DataFrame(honesty_csv["문장"])
honesty_csv["label"] = 7
responsibility_csv = pd.DataFrame(responsibility_csv["문장"])
responsibility_csv["label"] = 8
creative_csv = pd.DataFrame(creative_csv["문장"])
creative_csv["label"] = 9
teamwork_csv = pd.DataFrame(teamwork_csv["문장"])
teamwork_csv["label"] = 10

In [8]:
all_data = global_csv.append(active_csv).append(challenge_csv).append(sincerity_csv).append(communication_csv)
all_data = all_data.append(patient_csv).append(honesty_csv).append(responsibility_csv).append(creative_csv).append(teamwork_csv)

In [9]:
all_data

Unnamed: 0,문장,label
0,"""페이스북 나와!""...네이버 라인, 일본 거점으로 글로벌 블록체인 시장 공략",1
1,■’룰 세팅’ 완료된 일본 라이센스 기반으로 해외공략 특히 라인은 글로벌 소셜네트워...,1
2,"FAO 한국사무소, 종로에 문 연다…식량·농업 외교 역량 강화 기대",1
3,FAO는 13일 서울 종로구 글로벌센터 빌딩에서 한국협력연락사무소 개소식을 갖는다....,1
4,[글로벌-Biz 24] KIND-현대엔지니어링 협력해 1조3천억 폴란드 석유화학플랜...,1
5,"발휘함으로써 '팀코리아'의 역량을 입증한 대표적 사례""라고 말했다. 폴란드 수도 바...",1
6,"다날, 수익성장-신사업 확대 위해 '조직역량 강화'",1
7,"관계자는 ""4차산업혁명에 대응하는 로봇기술, 빅데이터, 블록체인 기술에 투자와 M&...",1
8,"여수 한영대학, 교육부 전문대학혁신지원사업 역량강화형 선정",1
9,여수 한영대학(총장 임정섭)은 최근 교육부에서 주관하는 '2019 전문대학혁신지원사...,1


In [10]:
from sklearn.model_selection import train_test_split
train, test = train_test_split(all_data, test_size=0.33, random_state=42)
train["label"] = pd.Categorical(train["label"])

In [11]:
train.groupby("label").count()

Unnamed: 0_level_0,문장
label,Unnamed: 1_level_1
1,13
2,10
3,13
4,11
5,16
6,12
7,9
8,15
9,13
10,12


In [12]:
test.groupby("label").count()

Unnamed: 0_level_0,문장
label,Unnamed: 1_level_1
1,7
2,6
3,7
4,7
5,3
6,5
7,9
8,5
9,7
10,6


In [13]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorize = TfidfVectorizer(
    ngram_range=(1,2),
    tokenizer=tokenizer,
    max_df=0.95,
    min_df=0,
    sublinear_tf=True    # tf값에 1+log(tf)를 적용하여 tf값이 무한정 커지는 것을 막음
)

In [14]:
tdm = vectorize.fit_transform(train["문장"])

In [15]:
vectorize.vocabulary_

{'창의': 2005,
 '진로': 1959,
 '설계': 1120,
 '도움': 581,
 '고자': 178,
 '마련': 698,
 '하다': 2282,
 '행사': 2417,
 '도전': 586,
 '현장': 2448,
 '중심': 1901,
 '취업': 2113,
 '주제': 1881,
 '선배': 1105,
 '학생': 2359,
 '상담': 1054,
 '내용': 428,
 '질의': 1982,
 '응답': 1534,
 '형태': 2466,
 '토크': 2174,
 '콘서트': 2144,
 '진행': 1968,
 '돼다': 614,
 '창의 진로': 2011,
 '진로 설계': 1961,
 '설계 도움': 1121,
 '도움 고자': 582,
 '고자 마련': 179,
 '마련 하다': 700,
 '하다 행사': 2347,
 '행사 도전': 2418,
 '도전 현장': 594,
 '현장 중심': 2452,
 '중심 진로': 1902,
 '진로 취업': 1962,
 '취업 주제': 2114,
 '주제 선배': 1883,
 '선배 학생': 1108,
 '학생 취업': 2362,
 '취업 진로': 2115,
 '진로 상담': 1960,
 '상담 내용': 1055,
 '내용 질의': 429,
 '질의 응답': 1983,
 '응답 형태': 1535,
 '형태 토크': 2467,
 '토크 콘서트': 2175,
 '콘서트 진행': 2149,
 '진행 돼다': 1969,
 '의협': 1560,
 '대표': 529,
 '참여': 1999,
 '필수': 2274,
 '부회장': 933,
 '발언': 861,
 '통해': 2185,
 '작년': 1711,
 '수가': 1198,
 '협상': 2460,
 '결렬': 127,
 '올해': 1445,
 '인내심': 1618,
 '갖다': 60,
 '결과': 125,
 '나오다': 406,
 '노력': 446,
 '이다': 1570,
 '공단': 196,
 '나름': 397,
 '입장': 1683,
 '의협 대표': 1561,

In [16]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.linear_model import SGDClassifier
from sklearn.pipeline import Pipeline

In [17]:
text_clf_svm = Pipeline([('vect', vectorize),
                         ('tfidf', TfidfTransformer()),
                         ('clf-svm', SGDClassifier(loss='hinge', penalty='l2', alpha=1e-3, max_iter=10000, random_state=42))]) # 손실함수 기댓값 최소화

text_clf_svm = text_clf_svm.fit(train["문장"], train["label"])



In [18]:
predicted_svm = text_clf_svm.predict(train["문장"])#학습데이터 테스트
np.mean(predicted_svm == train["label"])

1.0

In [19]:
predicted_svm = text_clf_svm.predict(test["문장"])#테스트데이터
np.mean(predicted_svm == test["label"])

0.8225806451612904

In [20]:
text_clf_svm.predict(["능동적인 사람이 되자"])

array([2], dtype=int64)

In [21]:
text_clf_svm.predict(["글로벌역량","능동","도전","성실","소통","인내심","정직","주인의식","창의","팀워크"])

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10], dtype=int64)