### 2. 학습 데이터 준비

In [1]:
# OS 라이브러리 임포트
import os
# 정규표현식 라이브러리 임포트
import re

# scikit-learn 라이브러리 임포트
from sklearn import datasets, model_selection
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

# 형태소분석기 라이브러리
from konlpy.tag import Hannanum
from konlpy.tag import Kkma

# pandas 라이브러리 임포트
import pandas as pd

# numpy 라이브러리 임포트
import numpy as np

In [2]:
dir_prefix = '../data/'
target_dir = 'HKIB-20000'
cat_dirs = ['health', 'economy', 'science', 'education', 'culture', 'society', 'industry', 'leisure', 'politics']
cat_prefixes = ['건강', '경제', '과학', '교육', '문화', '사회', '산업', '여가', '정치']

In [3]:
# 데이터 정리
files = os.listdir(dir_prefix + target_dir)

# 5분할된 텍스트 파일을 각각 처리
for file in files:
    # 데이터가 담긴 파일만 처리
    if not file.endswith('.txt'):
        continue
    
    # 각 텍스트 파일을 처리
    with open(dir_prefix + target_dir + '/' + file) as currfile:
        doc_cnt = 0
        docs = []
        curr_doc = None
        
        # 기사 단위로 분할하여 리스트를 생성
        for curr_line in currfile:
            if curr_line.startswith('@DOCUMENT'):
                if curr_doc is not None:
                    docs.append(curr_doc)
                curr_doc = curr_line
                doc_cnt = doc_cnt + 1
                continue
            curr_doc = curr_doc + curr_line
        
        # 각 기사를 대주제 별로 분류하여 기사별 파일로 정리
        for doc in docs:
            doc_lines = doc.split('\n')
            doc_no = doc_lines[1][9:]
            
            # 주제 추출
            doc_cat03 = ''
            for line in doc_lines[:10]:
                if line.startswith("#CAT'03:"):
                    doc_cat03 = line[10:]
                    break
            
            # 추출한 주제 별로 디렉토리 정리
            for cat_prefix in cat_prefixes:
                if doc_cat03.startswith(cat_prefix):
                    dir_index = cat_prefixes.index(cat_prefix)
                    break
                    
            # 문서 정보를 제거하고 기사 본문만 남기기
            filtered_lines = []
            for line in doc_lines:
                if not (line.startswith('#') or line.startswith('@')):
                    filtered_lines.append(line)
                    
            # 주제별 디렉토리에 기사를 파일로 쓰기
            filename = 'hkib-' + doc_no + '.txt'
            filepath = dir_prefix + target_dir + '/' + cat_dirs[dir_index]
            
            if not os.path.exists(filepath):
                os.makedirs(filepath)
            f = open(filepath + '/' + filename, 'w')
            f.write('\n'.join(filtered_lines))
            f.close()

In [None]:
# 대상이 되는 주제 폴더 선택 (교육, 건강)
#dirs = ['economy', 'society']
dirs = ['education', 'health']

# 기사에 출현하는 단어와 레이블을 저장할 리스트를 생성
# 설명변수
x_ls = [] 
# 목적변수
y_ls = []

tmp1 = []
tmp2 = ''

# 형태소 분석기 객체 생성
#tokenizer_han = Hannanum()
tokenizer = Kkma()

# 각 폴더의 파일을 하나씩 읽어들이며, 전처리 후 리스트에 저장
for i, d in enumerate(dirs):
    # 파일 목록 읽어오기
    files = os.listdir(dir_prefix + target_dir + '/' + d)
    
    for file in files:
        # 각 파일을 읽어들이기
        f = open(dir_prefix + target_dir + '/' + d + '/' + file, 'r', encoding='utf-8')
        raw = f.read()  
        
        # 정규표현식을 사용하여 불필요한 문자열을 제거한 다음 파일 내용을 출력
        reg_raw = re.sub(r'[-\'@#:/◆▲0-9a-zA-Z<>!-"*\(\)]', '', raw)
        reg_raw = re.sub(r'[ ]+', ' ', reg_raw)
        reg_raw = reg_raw.replace('\n', ' ')
        
        # 형태소분석을 거쳐 명사만을 추출한 리스트를 생성
        tokens = tokenizer.nouns(reg_raw)
        
        for token in tokens:
            tmp1.append(token)
            
        tmp2 = ' '.join(tmp1)
        x_ls.append(tmp2)
        tmp1 = []
        
        # 기사 주제 레이블을 리스트에 저장
        y_ls.append(i)
        
        # 파일 닫기
        f.close()   

In [10]:
# 데이터프레임으로 변환해서 설명변수를 화면에 출력
pd.DataFrame(x_ls)

Unnamed: 0,0
0,포철 연간 백 백명 명 수준 엔지니어 국내외 유학 실시 예정 일 발표 이번 확대 확...
1,교육부 우수 우수기술인력 기술 인력 양성 내년 산 산업체 업체 전문 전문기술자 기술...
2,사립대 등록금 이후 년 년여 여 동결 서울 서울시내 시내 주요 사립대학 학년도 자릿...
3,한약 한약협회 협회 서울시 서울시지부장 지부장 박 박순태씨 순 태 씨 부부 피살 피...
4,학년도 입시 모집 정원 백 백명중 명 중 명이 미달 대구 대구교육대 교육대 일 수학...
5,전기대 합격자 발표 전 올해 새 실시 입시 입시제도 제도 장점 지 단점 있음 사람 ...
6,교수 교수전원 전원 세대 학과 등장 대학가 바람 년 개설 숙명 숙명여대 여대 정보 ...
7,전자 전자분야 분야 세기 주축 주축산업 산업 생물 생물공학분야 공학 인력 인력양성 ...
8,부산 부산대 대 한양 한양대 중앙대 등 한국 한국대학총학생회연합 대학 총학생회 연합...
9,연세대 일 학년도 학기 대학원 신입생 전형 전형때 때 정 원의 이내 학부 학부성적 ...


In [11]:
# 첫 번째 기사로부터 추출한 단어를 출력
print(x_ls[0])

포철 연간 백 백명 명 수준 엔지니어 국내외 유학 실시 예정 일 발표 이번 확대 확대실시 세계 철강업 주도 전문 인력 육 기초 기초이론 이론 습득 실무 겸비 함 기술 기술개발 개발 촉진 연구 연구활동 활동 강화 계기 기대


In [12]:
# 목적변수를 화면에 출력
print(y_ls)

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 

In [13]:
# 설명변수와 목적변수를 NumPy 배열로 변환
x_array = np.array(x_ls)
y_array = np.array(y_ls)

# 단어 출현 횟수를 계수
cntvec = CountVectorizer()
x_cntvecs = cntvec.fit_transform(x_array)
x_cntarray = x_cntvecs.toarray()

# 데이터프레임으로 단어 출현 횟수 출력
pd.DataFrame(x_cntarray)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,33562,33563,33564,33565,33566,33567,33568,33569,33570,33571
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
5,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
6,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
7,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
8,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
9,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [14]:
# 단어와 단어의 인덱스 표시
for k, v in sorted(cntvec.vocabulary_.items(), key=lambda x:x[1]):
    print(k, v)

가가 0
가가치 1
가검물 2
가게 3
가격 4
가격등 5
가격명 6
가격문란 7
가격변동 8
가격산정 9
가격상승요인 10
가격안정 11
가격인상 12
가격인하등 13
가격인하조치 14
가격자율 15
가격표시 16
가격현실화 17
가계 18
가계대출금리 19
가계생활자 20
가계수표 21
가공 22
가공공장 23
가공식품 24
가공품 25
가공품임 26
가구 27
가금 28
가급적 29
가기 30
가기위 31
가까이 32
가난 33
가늠 34
가능 35
가능대학 36
가능성 37
가능하다 38
가닥 39
가담 40
가동 41
가동국교 42
가두 43
가드너 44
가드너씨 45
가등 46
가락 47
가락본동 48
가래 49
가량 50
가량백명 51
가량인 52
가려움 53
가려움증 54
가로 55
가루 56
가루등 57
가리아 58
가마 59
가마귀 60
가마솥 61
가마솥더위 62
가망 63
가명 64
가문 65
가물치 66
가뭄 67
가뭄대책회의 68
가미 69
가발 70
가발제조업 71
가방 72
가방등 73
가방속 74
가벼운 75
가부 76
가부제기초과학 77
가사 78
가사교과서 79
가산 80
가산점 81
가상 82
가상공간 83
가상캠퍼스 84
가설 85
가세 86
가속 87
가속화 88
가속화등 89
가수 90
가스 91
가스공급 92
가스공사 93
가스버너 94
가스시설등 95
가스중독 96
가스통 97
가슴 98
가슴등 99
가슴속 100
가시 101
가시고기 102
가시화 103
가식 104
가신 105
가야 106
가야고 107
가야고졸 108
가양 109
가업 110
가업후계자 111
가업후계자고려대 112
가역성 113
가연성 114
가열 115
가열식품 116
가열해진 117
가와사키 118
가와사키시거주 119
가요 120
가요반주기 121
가요제 122
가용 123
가용성 124
가용성분 125
가용성분과 126
가운 127
가운데 128
가을 129
가을정기국회 130
가을철 131
가을학기 132
가의 133
가이드 134


경신 1606
경신수속 1607
경신여고 1608
경악 1609
경양대학원 1610
경양대학원중 1611
경여고은 1612
경연 1613
경영 1614
경영감각 1615
경영개선 1616
경영관 1617
경영관리 1618
경영교육 1619
경영구상 1620
경영권 1621
경영기획실 1622
경영기획조정실 1623
경영난 1624
경영능력 1625
경영다각화 1626
경영대 1627
경영대학원 1628
경영등 1629
경영방침 1630
경영상태 1631
경영수업 1632
경영수지 1633
경영안정 1634
경영여건 1635
경영우수평가대학 1636
경영인 1637
경영인체제 1638
경영일선 1639
경영자 1640
경영자감 1641
경영자교육과 1642
경영자양성 1643
경영자한국외대 1644
경영진 1645
경영철학 1646
경영체제 1647
경영총장시대 1648
경영학 1649
경영학과 1650
경영학석사 1651
경영학석사과정 1652
경영합리화 1653
경영현황 1654
경영환경 1655
경우 1656
경우등록금 1657
경우우리나라 1658
경우전국 1659
경우주관대학 1660
경운 1661
경원 1662
경위 1663
경유 1664
경인 1665
경인여전 1666
경일 1667
경일여고 1668
경자 1669
경쟁 1670
경쟁력 1671
경쟁력강화 1672
경쟁률 1673
경쟁상대 1674
경쟁시대 1675
경쟁시험 1676
경쟁심리 1677
경쟁양상 1678
경쟁업체 1679
경쟁우위 1680
경쟁원리 1681
경쟁유도 1682
경쟁이 1683
경쟁입시 1684
경쟁입시고교 1685
경쟁입시대상고교 1686
경쟁입찰 1687
경쟁입찰방식 1688
경쟁적 1689
경쟁주의 1690
경쟁질서 1691
경쟁프로 1692
경전 1693
경정 1694
경제 1695
경제기획원 1696
경제난 1697
경제등 1698
경제력 1699
경제발전 1700
경제발전등 1701
경제부흥 1702
경제분야 1703
경제생활 1704
경제성 1705
경제성장 1

교문 3197
교문안 3198
교미 3199
교민 3200
교민단체 3201
교배 3202
교보 3203
교보증권 3204
교복 3205
교복구입 3206
교복비 3207
교복선정 3208
교복업자 3209
교복채택 3210
교복채택때 3211
교본 3212
교부 3213
교분 3214
교사 3215
교사각 3216
교사간 3217
교사관 3218
교사구타 3219
교사모임 3220
교사모임대표 3221
교사모집 3222
교사방문 3223
교사상 3224
교사시설 3225
교사이 3226
교사자격 3227
교사제 3228
교사채용 3229
교사채용시 3230
교사확보율 3231
교사확보율등 3232
교생 3233
교섭 3234
교섭능력 3235
교섭중 3236
교수 3237
교수가 3238
교수개혁론 3239
교수공업화학 3240
교수국어 3241
교수기간 3242
교수님 3243
교수대 3244
교수대비 3245
교수대폭충원 3246
교수등 3247
교수로 3248
교수법 3249
교수부족 3250
교수사회 3251
교수서울대등 3252
교수소아과 3253
교수수 3254
교수승진과정 3255
교수승진심사 3256
교수신문 3257
교수실 3258
교수씨 3259
교수약학과 3260
교수업 3261
교수연구 3262
교수연구동 3263
교수요원 3264
교수위주 3265
교수은 3266
교수의 3267
교수인력 3268
교수인사제도 3269
교수인적자원 3270
교수임상병리과 3271
교수임용 3272
교수자신 3273
교수재임용 3274
교수재임용제 3275
교수전원 3276
교수종합평가 3277
교수직 3278
교수직선 3279
교수직제의 3280
교수진 3281
교수진명과 3282
교수진용과학문 3283
교수출신 3284
교수투표 3285
교수팀 3286
교수평가 3287
교수평가연구위원회 3288
교수평가제 3289
교수평가제도 3290
교수평점 3291
교수해외 3292
교수행정학를 3293
교수협의회 3294
교수확보율 3295
교수활동 3296


기업 4947
기업가 4948
기업가치 4949
기업경영 4950
기업경영관리 4951
기업규모 4952
기업부문 4953
기업인 4954
기업인과의 4955
기업체 4956
기업체연구소등에 4957
기업합병 4958
기업형 4959
기업환경 4960
기여 4961
기여금 4962
기여도 4963
기여입학제 4964
기염 4965
기예 4966
기온 4967
기온분포 4968
기와 4969
기왕 4970
기용 4971
기운 4972
기울 4973
기원 4974
기위 4975
기은 4976
기의 4977
기인 4978
기일 4979
기입시 4980
기자 4981
기자간담회 4982
기자단 4983
기자단등 4984
기자실 4985
기자약력 4986
기자재 4987
기자출신 4988
기자회견 4989
기자회견도중 4990
기자회견장 4991
기재 4992
기적 4993
기적과도 4994
기전 4995
기전기 4996
기조 4997
기조실장 4998
기조실장등 4999
기존 5000
기존모터 5001
기존시설 5002
기존양변기 5003
기존업체 5004
기존장비 5005
기존학교 5006
기준 5007
기준금리 5008
기준금리프라임레이트 5009
기준량 5010
기준령 5011
기준마련 5012
기준미달 5013
기준안 5014
기준이상 5015
기준일 5016
기준치 5017
기중 5018
기증 5019
기증식 5020
기증자 5021
기증자가 5022
기증자중 5023
기증키 5024
기증후 5025
기지 5026
기질 5027
기질등 5028
기체조 5029
기초 5030
기초과목 5031
기초과학 5032
기초과학교 5033
기초과학교수 5034
기초과학교육 5035
기초과학분야 5036
기초과학심사평가 5037
기초과학연구 5038
기초과학연구만이 5039
기초과학연구소 5040
기초과학연구수준 5041
기초과학연구자 5042
기초과학영역 5043
기초과학육성 5044
기초과학이론 5045
기초군사훈련 5046
기초기둥 5047
기초농산물 5048
기초

답변자료 6697
답사 6698
답습 6699
답신 6700
답안 6701
답안작성 6702
답안지 6703
당고 6704
당과 6705
당구라 6706
당국 6707
당국자 6708
당귀 6709
당귀뿌리 6710
당귀육황탕 6711
당근 6712
당근녹즙 6713
당근생즙 6714
당뇨 6715
당뇨병 6716
당뇨병등 6717
당뇨병발병률 6718
당뇨병환 6719
당뇨증상 6720
당뇨환자 6721
당대 6722
당락 6723
당마리 6724
당면 6725
당면문제 6726
당면소망 6727
당번 6728
당번약국 6729
당번제 6730
당부 6731
당분 6732
당사 6733
당사자 6734
당사자인 6735
당선 6736
당선으 6737
당선후보 6738
당시 6739
당시세 6740
당신 6741
당연시 6742
당위 6743
당위론 6744
당의 6745
당일 6746
당일인 6747
당장 6748
당정 6749
당정간 6750
당정의 6751
당정협의 6752
당정회의 6753
당제 6754
당좌 6755
당좌예금 6756
당직 6757
당직근무 6758
당직원 6759
당직의료인 6760
당직의원 6761
당직제 6762
당직제도 6763
당직체계 6764
당질 6765
당질섭취 6766
당첨 6767
당초 6768
당총서기직 6769
당한 6770
당해 6771
당해지역 6772
당혹 6773
당황 6774
대가 6775
대간 6776
대강당 6777
대개 6778
대개교 6779
대거리 6780
대건 6781
대건식품 6782
대검 6783
대결 6784
대결상황 6785
대경 6786
대경대 6787
대경여상 6788
대경여상설립자 6789
대경여상은 6790
대계 6791
대고객 6792
대곤 6793
대공보 6794
대공원 6795
대광고 6796
대교 6797
대교수 6798
대교측 6799
대교협 6800
대교협산하 6801
대교협의 6802
대구 6803
대구가톨릭대학 6804
대구개교 6805
대구광역시 6806
대구교대 

링구스 8446
마가린 8447
마감 8448
마감결과 8449
마감당일 8450
마감시한이 8451
마감일 8452
마나 8453
마늘 8454
마늘장아찌등 8455
마니아 8456
마닐라 8457
마당 8458
마도 8459
마도초등학교 8460
마드라스 8461
마라토너 8462
마라톤 8463
마련 8464
마련등 8465
마련중 8466
마련중인 8467
마련키 8468
마련하라 8469
마령 8470
마령면 8471
마로니에 8472
마로니에공원 8473
마르 8474
마르세유 8475
마르크 8476
마르틴 8477
마리 8478
마리아 8479
마릴린 8480
마모 8481
마모씨 8482
마무리 8483
마무리작업 8484
마미술대학원 8485
마법 8486
마비 8487
마빡 8488
마사지 8489
마산 8490
마산고 8491
마산중앙 8492
마세 8493
마스크 8494
마스터 8495
마스터카드 8496
마스터플랜 8497
마신 8498
마씨 8499
마약 8500
마약법 8501
마약복용자 8502
마약사용 8503
마약중독자 8504
마요네즈 8505
마을 8506
마을사람 8507
마을이면 8508
마을이장 8509
마을회관 8510
마음 8511
마음가짐 8512
마음속 8513
마이 8514
마이너 8515
마이너스 8516
마이신 8517
마이어 8518
마인드 8519
마주렌 8520
마지막 8521
마지막분 8522
마차 8523
마찬가지 8524
마찬가지라 8525
마찰 8526
마찰부분 8527
마천 8528
마천동 8529
마춤양복제조 8530
마취 8531
마취과 8532
마취제 8533
마친후에나 8534
마칭밴드 8535
마카 8536
마케팅 8537
마케팅분야 8538
마케팅팀장 8539
마켓 8540
마켓점포 8541
마크 8542
마트 8543
마포 8544
마포구 8545
마포구청과 8546
마포인터넷 8547
마필 8548
마황 8549
막걸리 8550
막국수 8551
막내딸 8552
막달 8553


발렌타인 10425
발령 10426
발매 10427
발명 10428
발명대회 10429
발명품 10430
발명품경진대회 10431
발목 10432
발밑 10433
발발 10434
발병 10435
발병기와 10436
발병률 10437
발병사태 10438
발병여부 10439
발병원인 10440
발병위험 10441
발병지인 10442
발병환자수 10443
발병후 10444
발뺌 10445
발산 10446
발상 10447
발생 10448
발생건수 10449
발생공학연구팀 10450
발생규모 10451
발생기 10452
발생기전 10453
발생등 10454
발생률 10455
발생보고 10456
발생비율 10457
발생빈도 10458
발생사례 10459
발생시 10460
발생여부 10461
발생원인 10462
발생주의 10463
발생주의보 10464
발생지 10465
발생직후 10466
발생현황 10467
발생환자 10468
발생후 10469
발송 10470
발안 10471
발암 10472
발암물질 10473
발암물질인 10474
발암성 10475
발암여부 10476
발야구 10477
발언 10478
발언대 10479
발열 10480
발육 10481
발육기 10482
발음 10483
발의 10484
발인 10485
발작 10486
발전 10487
발전경제학 10488
발전계획 10489
발전계획수립 10490
발전계획안 10491
발전기금 10492
발전방향 10493
발전설비 10494
발전소 10495
발전위원회 10496
발전적 10497
발전한계 10498
발전현황 10499
발족 10500
발주 10501
발진 10502
발진열 10503
발췌 10504
발치 10505
발치발치위주 10506
발탁 10507
발탁인사제도 10508
발판 10509
발판소독 10510
발표 10511
발표결과 10512
발표광복회 10513
발표논문 10514
발표때 10515
발표서울대 10516
발표시 10517
발표예정 10518
발표일 10519
발표키 10520
발표하겠

북도 12196
북도천천명 12197
북면 12198
북미 12199
북미대륙 12200
북미주 12201
북방 12202
북방외교 12203
북벌 12204
북벌계획 12205
북부 12206
북부지방 12207
북부지청 12208
북새통 12209
북성동 12210
북아프리카 12211
북어 12212
북어머리 12213
북어무침 12214
북어식해 12215
북어찜 12216
북유럽 12217
북인 12218
북인천여상 12219
북일고 12220
북제주 12221
북제주군 12222
북조선 12223
북쪽 12224
북한 12225
북한간 12226
북한간의 12227
북한공작원 12228
북한군 12229
북한대학생 12230
북한동포 12231
북한문제 12232
북한사회 12233
북한주민 12234
북한주석 12235
북한측 12236
북한학생 12237
북핵 12238
분가량 12239
분간 12240
분거리 12241
분경 12242
분과 12243
분과시용 12244
분과위 12245
분과위분과위원 12246
분교 12247
분규 12248
분기 12249
분기당 12250
분기회로 12251
분납 12252
분노 12253
분노감과 12254
분단 12255
분담 12256
분당 12257
분당구 12258
분당부근 12259
분당신도시 12260
분당신캠퍼스 12261
분당신캠퍼스경기 12262
분량 12263
분류 12264
분류작업 12265
분를 12266
분리 12267
분리개발 12268
분리관 12269
분리선발 12270
분리출제 12271
분마 12272
분마기 12273
분만 12274
분만실 12275
분만예정 12276
분만중 12277
분말 12278
분말제제 12279
분명 12280
분반 12281
분별 12282
분별력 12283
분비 12284
분비물 12285
분비물등 12286
분산 12287
분석 12288
분석가 12289
분석가능 12290
분석결과 12291
분석기 12292
분석대상 12293
분

서당 13946
서대문 13947
서대문구청측 13948
서대인씨 13949
서도 13950
서독 13951
서두 13952
서로 13953
서료 13954
서류 13955
서류심사 13956
서류작성 13957
서른 13958
서막 13959
서면 13960
서면결제 13961
서면동의 13962
서면면접 13963
서면질의서 13964
서명 13965
서명운동 13966
서모 13967
서모씨 13968
서민 13969
서민가정 13970
서민층 13971
서바토리 13972
서반어 13973
서반어관련학과 13974
서방 13975
서방국가 13976
서방선진 13977
서방언론 13978
서방인사 13979
서방제품 13980
서방진영 13981
서봉연 13982
서부 13983
서북 13984
서북변경주 13985
서비스 13986
서비스등 13987
서산 13988
서산두채 13989
서생 13990
서서 13991
서술 13992
서술과정 13993
서술능력 13994
서술능력등 13995
서술방식 13996
서술형 13997
서식 13998
서식지 13999
서신 14000
서신면 14001
서씨 14002
서안 14003
서양 14004
서양요리 14005
서양인 14006
서양학과 14007
서양화 14008
서양화가 14009
서양화과 14010
서열 14011
서열등급 14012
서열화의식 14013
서울 14014
서울강남역 14015
서울강동구 14016
서울개교 14017
서울고교 14018
서울고은 14019
서울과학고 14020
서울과학고가 14021
서울과학고과 14022
서울과학고내 14023
서울과학고은 14024
서울교대 14025
서울교대등 14026
서울구 14027
서울구치소 14028
서울대 14029
서울대가 14030
서울대고려대 14031
서울대공원 14032
서울대교수 14033
서울대교수등 14034
서울대논문 14035
서울대등 14036
서울대등에 14037
서울대법대출신 14038
서울대병원 14039

스스 15945
스스로 15946
스승 15947
스승의 15948
스시 15949
스아 15950
스에 15951
스에의해 15952
스웨덴 15953
스웰 15954
스웰컴사의 15955
스위스 15956
스윙 15957
스유 15958
스유전자 15959
스의 15960
스인 15961
스카우트 15962
스카우트통장 15963
스칸 15964
스칸수학 15965
스칼렛 15966
스칼렛오렌지 15967
스캐너 15968
스캔들 15969
스캘 15970
스케치 15971
스코 15972
스코어 15973
스코어메이킹 15974
스코어향상 15975
스코틀랜드 15976
스코포리 15977
스쿠버 15978
스쿨 15979
스쿼시 15980
스퀴브 15981
스퀴브사가 15982
스크린 15983
스크린쿼터 15984
스크린쿼터제의 15985
스키 15986
스킨 15987
스킨스쿠버 15988
스타 15989
스타인 15990
스타일 15991
스타일리스트과용 15992
스타트 15993
스탄 15994
스탈 15995
스태 15996
스태뷰 15997
스태뷰딘 15998
스태퍼 15999
스택 16000
스탠 16001
스탠리 16002
스탠포드 16003
스탠포드대학 16004
스테로이드 16005
스테이크 16006
스테퍼 16007
스텝 16008
스토 16009
스토리 16010
스튜 16011
스튜디어스 16012
스튜어디스 16013
스트라 16014
스트레스 16015
스트레스등 16016
스트레스때문 16017
스트리트 16018
스티븐 16019
스티커 16020
스티튜 16021
스티튜트 16022
스파 16023
스파게티 16024
스파게티등 16025
스파크 16026
스파탐등 16027
스파탐설탕 16028
스퍼드 16029
스페셜 16030
스페셜리스트 16031
스페인 16032
스페인국민 16033
스페인등 16034
스포 16035
스포라녹스개 16036
스포츠 16037
스포츠기사 16038
스포츠등 16039
스포츠맨

양질 17945
양쪽 17946
양천 17947
양천구 17948
양촌 17949
양촌면 17950
양측 17951
양치질 17952
양치질약 17953
양키 17954
양평 17955
양평동 17956
양하 17957
양하개 17958
양할머니 17959
양행 17960
양형 17961
양형도 17962
양호 17963
양호성씨 17964
양호실 17965
양호하다 17966
양희은 17967
얘기 17968
어가 17969
어간 17970
어고 17971
어공 17972
어공학군 17973
어귀 17974
어금니 17975
어깨 17976
어덜트 17977
어덜트스쿨 17978
어둠 17979
어드 17980
어디 17981
어떠한 17982
어려움 17983
어로 17984
어류 17985
어른 17986
어리광 17987
어린 17988
어린싹 17989
어린아이 17990
어린이 17991
어린이교육 17992
어린이날 17993
어린이날인 17994
어린이놀이터 17995
어린이발육 17996
어린이생후 17997
어린이심장재단설립 17998
어린이의 17999
어린이집 18000
어린이환자 18001
어릴 18002
어머니 18003
어머니중 18004
어머니회 18005
어머님 18006
어문 18007
어문교육과 18008
어문교육학과 18009
어민 18010
어버이날 18011
어버이날일 18012
어보 18013
어복 18014
어복쟁반 18015
어브 18016
어색 18017
어수 18018
어수선하 18019
어스 18020
어시 18021
어업 18022
어웨이 18023
어음 18024
어의도 18025
어제 18026
어주 18027
어중 18028
어지럼증 18029
어쨋거 18030
어처구니 18031
어촌 18032
어치 18033
어투 18034
어패류 18035
어프로치 18036
어학 18037
어학공부 18038
어학과정 18039
어학교육 18040
어학교육실 18041
어학부분 18042
어학센터 18043
어학

우발적 19945
우범자 19946
우산 19947
우산풀 19948
우상화 19949
우석 19950
우석고 19951
우선 19952
우선권 19953
우선내신 19954
우선적 19955
우선전형 19956
우성 19957
우성그룹 19958
우성아파트 19959
우세 19960
우송 19961
우수 19962
우수강사 19963
우수공무원 19964
우수교 19965
우수교사 19966
우수교원확보 19967
우수교원확보법과 19968
우수교원확보법제 19969
우수기술인력 19970
우수기업 19971
우수대학 19972
우수대학원 19973
우수상 19974
우수성 19975
우수업체 19976
우수연구인력 19977
우수의약품 19978
우수인력 19979
우수인재 19980
우수자 19981
우수품질관리기준 19982
우수하다 19983
우수학교 19984
우수학생 19985
우수혈통 19986
우스 19987
우스개 19988
우스갯소리 19989
우슬 19990
우슬리 19991
우승 19992
우애 19993
우연 19994
우열 19995
우왕좌왕 19996
우울 19997
우울증 19998
우위 19999
우위성 20000
우유 20001
우유량 20002
우육 20003
우의 20004
우익 20005
우정 20006
우정등 20007
우정호 20008
우주 20009
우주학 20010
우즈베크에서 20011
우지 20012
우체국 20013
우파 20014
우편 20015
우편집배원 20016
우황 20017
우황청심원 20018
우회 20019
운구 20020
운동 20021
운동가 20022
운동가이자 20023
운동계 20024
운동관계자인 20025
운동권 20026
운동권세대 20027
운동권학생 20028
운동노선 20029
운동량 20030
운동본부 20031
운동본부본 20032
운동본부장 20033
운동부 20034
운동사 20035
운동선수 20036
운동양식 20037
운동요법 20038
운동요법등 20039
운동

인도네시아 21945
인도적 21946
인도적인 21947
인독 21948
인두 21949
인두암 21950
인디애 21951
인디언 21952
인디오 21953
인디펜던트 21954
인디펜던트지가 21955
인력 21956
인력관리 21957
인력난 21958
인력송출 21959
인력송출기관 21960
인력송출사 21961
인력송출회사 21962
인력수급 21963
인력양성 21964
인력연인원 21965
인력확보 21966
인류 21967
인륜 21968
인맥 21969
인명 21970
인명경시풍조 21971
인명구조작업 21972
인명여고 21973
인명피해 21974
인문 21975
인문계 21976
인문계고교 21977
인문계고지원 21978
인문계수 21979
인문계수석 21980
인문계열 21981
인문계열수능 21982
인문고 21983
인문고교 21984
인문고등학교 21985
인문고생의 21986
인문과학 21987
인문과학대학 21988
인문관 21989
인문대 21990
인문대학 21991
인문대학장 21992
인문사회 21993
인문사회계 21994
인문사회계열 21995
인문사회과학 21996
인문사회분야 21997
인문사회학 21998
인문숭상 21999
인문적 22000
인문중심 22001
인문학 22002
인물 22003
인물동정 22004
인민 22005
인민국제기술개발 22006
인민대학 22007
인민전선등 22008
인분 22009
인사 22010
인사갈등 22011
인사관리업무 22012
인사권 22013
인사기록카드 22014
인사돌 22015
인사돌정 22016
인사동 22017
인사말 22018
인사원칙 22019
인사위원회 22020
인사이트 22021
인사제도 22022
인사제도등 22023
인사팀 22024
인삼 22025
인삼등 22026
인상 22027
인상계획 22028
인상률 22029
인상만이 22030
인상문제 22031
인상방침 22032
인상분 22033
인상수위 22034
인상시기 22035
인

전기공 23944
전기공사 23945
전기공학 23946
전기공학과 23947
전기공학부 23948
전기공학부명 23949
전기과교수 23950
전기구동 23951
전기녹즙기등 23952
전기누전 23953
전기대 23954
전기대입시 23955
전기대중 23956
전기대학 23957
전기대학입시 23958
전기대학중 23959
전기모집 23960
전기모집기간 23961
전기모집대학 23962
전기모집대학중 23963
전기모집정원 23964
전기스파크 23965
전기시설 23966
전기실과 23967
전기영동 23968
전기용품안전관리법 23969
전기월일모집 23970
전기육모기 23971
전기입시 23972
전기전자 23973
전기전자제어 23974
전기전자제어공 23975
전기전자제어학과 23976
전기조명 23977
전기찜질기 23978
전기컴퓨터공학과 23979
전기화 23980
전날 23981
전날밤 23982
전남 23983
전남개교 23984
전남광주 23985
전남대 23986
전남대병원 23987
전남등 23988
전남지역 23989
전내무부장관 23990
전년 23991
전년도 23992
전년도대비 23993
전념 23994
전념키 23995
전농 23996
전농동 23997
전단 23998
전단계 23999
전달 24000
전달식 24001
전달체 24002
전달키 24003
전담 24004
전담대행계약 24005
전담반도 24006
전담부서 24007
전담요원 24008
전당 24009
전대 24010
전대통령 24011
전대표 24012
전도 24013
전도사 24014
전도사가 24015
전동 24016
전동카골프 24017
전두 24018
전두환 24019
전라 24020
전라남 24021
전라남도 24022
전라도 24023
전라북 24024
전라북도 24025
전락 24026
전래 24027
전래동화 24028
전략 24029
전략리더과정 24030
전략적 24031
전량 24032
전력 24033
전력에너지등 24034
전력투

좌절 25694
좌절속 25695
좌지우지 25696
좌천 25697
좌파 25698
좌표 25699
죄악 25700
주가 25701
주가정보 25702
주가정보조회서비스 25703
주간 25704
주간격 25705
주간물가동향 25706
주간시설 25707
주간정원 25708
주간지 25709
주간지인 25710
주간특별 25711
주갑을 25712
주거 25713
주경 25714
주경식 25715
주고 25716
주고객 25717
주공 25718
주관 25719
주관광대 25720
주관대학 25721
주관식 25722
주관식답안 25723
주관식답안가운데 25724
주관식문 25725
주관식문제 25726
주관식위주 25727
주관식위주의 25728
주관식채점 25729
주관적 25730
주관처 25731
주관하에 25732
주관회사 25733
주교 25734
주교육당국 25735
주기 25736
주기관 25737
주기도 25738
주기적 25739
주년 25740
주당 25741
주대 25742
주대농 25743
주대표부 25744
주데이콤 25745
주도 25746
주도적 25747
주도한 25748
주동안 25749
주라 25750
주라기 25751
주라기공 25752
주럭키 25753
주력 25754
주례 25755
주류 25756
주름 25757
주름살 25758
주름제거 25759
주리 25760
주리크루트대표 25761
주립 25762
주립대 25763
주립대교수 25764
주립대학 25765
주마 25766
주만 25767
주말 25768
주말부킹 25769
주말부킹보장 25770
주말여행 25771
주말일은 25772
주머니 25773
주먹 25774
주먹구구식 25775
주목 25776
주목적 25777
주몽 25778
주무 25779
주무기관 25780
주무부서인 25781
주무부처 25782
주문 25783
주문도 25784
주문량 25785
주민 25786
주민등록등본 25787
주민등록등본상의 25788
주민등록번호 25789
주민

찬물 27194
찬바람 27195
찬반 27196
찬반의견 27197
찬반충돌 27198
찬반투표 27199
찬밥 27200
찬사 27201
찬성 27202
찬양 27203
찬조 27204
찬조금 27205
찬조금명목 27206
찬조금외 27207
찬조금중 27208
찬조금품관리지침 27209
찰스 27210
참가 27211
참가국 27212
참가방법 27213
참가인원 27214
참가자 27215
참가희망일 27216
참견 27217
참고 27218
참고사항 27219
참고서 27220
참관 27221
참관수업 27222
참극 27223
참나물 27224
참담 27225
참당귀 27226
참맛 27227
참모 27228
참사 27229
참석 27230
참석위원 27231
참석자 27232
참신 27233
참쑥 27234
참여 27235
참여교수 27236
참여권 27237
참여노사 27238
참여도 27239
참여비율 27240
참여연대 27241
참여유도등 27242
참여율 27243
참여자 27244
참여자중 27245
참여학 27246
참외 27247
참의 27248
참의사의 27249
참전 27250
참전군인 27251
참전장병 27252
참전전우회 27253
참조 27254
참죽 27255
참죽나무새순 27256
참취 27257
참치 27258
참함 27259
참혹 27260
참회 27261
찹쌀 27262
찹쌀경단 27263
창가 27264
창간 27265
창간호 27266
창고 27267
창구 27268
창구교직원 27269
창구앞 27270
창구전화 27271
창구전화번호초등 27272
창군 27273
창군이래 27274
창궐 27275
창기 27276
창기자 27277
창녀촌 27278
창덕 27279
창덕국민학교 27280
창덕여고교장 27281
창동 27282
창란젓 27283
창립 27284
창립년만 27285
창립멤버등 27286
창립자 27287
창립총회 27288
창립회원모집목표 27289
창무 27290
창문 27291
창부 27

캔음료 28884
캔자스 28885
캔제품 28886
캘리포니아 28887
캘리포니아대 28888
캘리포니아대데이비 28889
캘리포니아대로스앤 28890
캘리포니아대버클리소재 28891
캘리포니아대학 28892
캘리포니아로스앤젤 28893
캘리포니아버클리소재 28894
캘리포니아주 28895
캘리포니아주립대 28896
캘커타 28897
캠브리지 28898
캠브리지대학 28899
캠퍼 28900
캠퍼스 28901
캠퍼스내 28902
캠퍼스부지 28903
캠퍼스안 28904
캠퍼스전산망 28905
캠페인 28906
캠페인정신 28907
캠프 28908
캠핑 28909
캠핑강행 28910
캡슐 28911
캥거루 28912
캥거루떼 28913
커리어 28914
커리어순 28915
커트 28916
커트라인 28917
커티스 28918
커피 28919
컨닝 28920
컨디션 28921
컨설턴트 28922
컨설턴트제도 28923
컨설팅 28924
컨소시엄 28925
컨테이너 28926
컨트롤 28927
컬러 28928
컬러사진 28929
컬럼비아 28930
컬럼비아대학 28931
컴뮤 28932
컴사가 28933
컴투것 28934
컴팩트 28935
컴퓨 28936
컴퓨터 28937
컴퓨터감각 28938
컴퓨터게임 28939
컴퓨터교육 28940
컴퓨터기술 28941
컴퓨터등 28942
컴퓨터모델링 28943
컴퓨터보급률 28944
컴퓨터사용 28945
컴퓨터실등 28946
컴퓨터실습실 28947
컴퓨터유체역학 28948
컴퓨터이론 28949
컴퓨터전문가 28950
컴퓨터칩 28951
컴퓨터프로그래머 28952
컴퓨터프로그램 28953
컴퓨터학과 28954
컴퓨터학박사을 28955
컴퓨터혼합 28956
컴퓨터활용능력 28957
케르크 28958
케르크공장 28959
케미칼 28960
케보키안 28961
케보키안측 28962
케빈 28963
케이 28964
케이블 28965
케이션 28966
케이스 28967
켄터키 28968
켄터키대 28969
켄터키프라이드치킨 28970

풀이 30443
풀이과정 30444
풀장 30445
풀장등 30446
품광고내용 30447
품귀 30448
품귀현상 30449
품목 30450
품섬유 30451
품성 30452
품위 30453
품위손상 30454
품종 30455
품질 30456
품질검사 30457
품질관리 30458
품질관리기준 30459
품질관리기준시설 30460
품질보험보증 30461
품질인증 30462
품질저하 30463
품질향상 30464
품팔이 30465
품행 30466
풋고추 30467
풍경 30468
풍광 30469
풍광초 30470
풍광초등교 30471
풍납 30472
풍납동 30473
풍미 30474
풍선껌 30475
풍속도 30476
풍습 30477
풍요 30478
풍자 30479
풍자극 30480
풍자적 30481
풍전 30482
풍전등화 30483
풍조 30484
풍족하 30485
풍진 30486
풍토 30487
풍토등 30488
풍파 30489
퓨슈 30490
프가 30491
프가니스 30492
프강 30493
프국제연합아동 30494
프놈펜 30495
프놈펜대학교 30496
프라그 30497
프라그제거 30498
프라이드 30499
프라이팬 30500
프라임 30501
프란시스 30502
프란시스코 30503
프란시스코소재 30504
프랑 30505
프랑스 30506
프랑스대사관 30507
프랑스등 30508
프랑스법원 30509
프랑스어 30510
프랑스인 30511
프랑스정부 30512
프랑코 30513
프랑크 30514
프랑크소시지등 30515
프랑크푸르트 30516
프랜티스 30517
프랭크 30518
프레드 30519
프레드대 30520
프레드릭 30521
프레스 30522
프레스센터 30523
프레지 30524
프렉털 30525
프렌 30526
프렌티스 30527
프로 30528
프로골퍼 30529
프로골퍼세미나 30530
프로골프 30531
프로그래머 30532
프로그래밍 30533
프로그램 30534
프로그램등 30535
프로듀서 30536
프로등 305

현제령 32443
현존 32444
현주 32445
현주소 32446
현준 32447
현지 32448
현지강사 32449
현지공관 32450
현지관리 32451
현지대학졸업생 32452
현지법인 32453
현지실사 32454
현지언론 32455
현지영어강사 32456
현지적응 32457
현지채용 32458
현지체험 32459
현직 32460
현직교사 32461
현직교수신분 32462
현철 32463
현추세 32464
현충일 32465
현행 32466
현행법 32467
현행법대 32468
현행유지 32469
현행입시제도 32470
현행제도 32471
현황 32472
현황등 32473
현황자료 32474
현황조사결과 32475
혈관 32476
혈관병 32477
혈관속 32478
혈관이상 32479
혈관조형검사 32480
혈구 32481
혈구관련 32482
혈담 32483
혈당 32484
혈당계 32485
혈당치 32486
혈류 32487
혈변 32488
혈색 32489
혈소판 32490
혈소판감소예방제 32491
혈압 32492
혈압강하 32493
혈압강하효과 32494
혈압계 32495
혈압상태 32496
혈압저하 32497
혈액 32498
혈액검사 32499
혈액공급 32500
혈액교환 32501
혈액량 32502
혈액목표 32503
혈액부족현상 32504
혈액사정 32505
혈액속 32506
혈액수요 32507
혈액순환 32508
혈액순환개선 32509
혈액순환제제 32510
혈액역학 32511
혈액은행 32512
혈액응고시간 32513
혈액자급률 32514
혈액제제 32515
혈액제품 32516
혈액중 32517
혈액질환 32518
혈액형 32519
혈약 32520
혈연 32521
혈우병 32522
혈장 32523
혈전 32524
혈전용해제 32525
혈전용해제등 32526
혈중 32527
혈중농도 32528
혈중콜레스테롤 32529
혈증 32530
혈청 32531
혈청검사 32532
혈통 32533
혐오 32534
혐오감 32535
혐오증 32536
혐의 

In [15]:
# 단어의 TF-IDF 계산
tfidf_vec = TfidfVectorizer(use_idf=True)
x_tfidf_vecs = tfidf_vec.fit_transform(x_array)
x_tfidf_array = x_tfidf_vecs.toarray()

# 데이터프레임으로 변환하여 단어의 출현 횟수를 출력
pd.DataFrame(x_tfidf_array)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,33562,33563,33564,33565,33566,33567,33568,33569,33570,33571
0,0.0,0.0,0.000000,0.0,0.000000,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.000000,0.0,0.000000,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.000000,0.0,0.000000,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.000000,0.0,0.000000,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.000000,0.0,0.000000,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0,0.0
5,0.0,0.0,0.000000,0.0,0.000000,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0,0.0
6,0.0,0.0,0.000000,0.0,0.000000,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0,0.0
7,0.0,0.0,0.000000,0.0,0.000000,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0,0.0
8,0.0,0.0,0.000000,0.0,0.000000,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0,0.0
9,0.0,0.0,0.000000,0.0,0.000000,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0,0.0


In [16]:
# 데이터를 훈련 데이터와 테스트 데이터로 분할
train_X, test_X, train_Y, test_Y = model_selection.train_test_split(x_tfidf_array, y_array, test_size=0.2)

# 데이터 건수 확인
print(len(train_X))
print(len(test_X))

800
201


### 3. 텐서 생성

In [17]:
# PyTorch 라이브러리 임포트
import torch
from torch.autograd import Variable
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.utils.data import DataLoader, TensorDataset

In [18]:
# 훈련 데이터 텐서 생성
train_X = torch.from_numpy(train_X).float()
train_Y = torch.from_numpy(train_Y).long()

# 테스트 데이터 텐서 생성
test_X = torch.from_numpy(test_X).float()
test_Y = torch.from_numpy(test_Y).long()

# 텐서로 변환한 데이터 건수 확인
print(train_X.shape)
print(train_Y.shape)

torch.Size([800, 33572])
torch.Size([800])


In [19]:
# 설명변수와 목적변수의 텐서를 합친다
train = TensorDataset(train_X, train_Y)

# 첫번째 텐서 내용 확인
print(train[0])

# 미니배치 분할하기
train_loader = DataLoader(train, batch_size=100, shuffle=True)

(tensor([0., 0., 0.,  ..., 0., 0., 0.], device='cuda:0'), tensor(0, device='cuda:0'))


### 4. 신경망 구성

In [27]:
# 신경망 구성
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.fc1 = nn.Linear(33572, 256)
        self.fc2 = nn.Linear(256, 256)
        self.fc3 = nn.Linear(256, 256)
        self.fc4 = nn.Linear(256, 128)
        self.fc5 = nn.Linear(128, 128)
        self.fc6 = nn.Linear(128, 2)
        
    def forward(self, x):
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = F.relu(self.fc3(x))
        x = F.relu(self.fc4(x))
        x = F.relu(self.fc5(x))
        x = self.fc5(x)
        return F.log_softmax(x)
    
# 인스턴스 생성
model = Net()

Net(
  (fc1): Linear(in_features=33572, out_features=256, bias=True)
  (fc2): Linear(in_features=256, out_features=256, bias=True)
  (fc3): Linear(in_features=256, out_features=256, bias=True)
  (fc4): Linear(in_features=256, out_features=128, bias=True)
  (fc5): Linear(in_features=128, out_features=128, bias=True)
  (fc6): Linear(in_features=128, out_features=2, bias=True)
)

### 5. 모형 학습

In [28]:
# 오차함수
criterion = nn.CrossEntropyLoss()

# 최적화 기법 선택
optimizer = optim.Adam(model.parameters(), lr=0.005)

# 학습
for epoch in range(20):
    total_loss = 0
    
    # 분할한 데이터(미니배치)를 차례로 꺼내옴
    for train_x, train_y in train_loader:
        # 계산 그래프 구성
        train_x, train_y = Variable(train_x), Variable(train_y)
        # 경사 초기화
        optimizer.zero_grad()
        # 순전파 계산
        output = model(train_x)
        # 오차 계산
        loss = criterion(output, train_y)
        # 역전파 계산
        loss.backward()
        # 가중치 업데이트
        optimizer.step()
        # 오차 누적 계산
        total_loss += loss.data[0]
        
    # 100 에포크마다 누적오차를 출력
    if (epoch+1) % 1 == 0:
        print(epoch+1, total_loss)



1 tensor(26.3192, device='cuda:0')
2 tensor(8.7487, device='cuda:0')
3 tensor(6.8669, device='cuda:0')
4 tensor(5.9689, device='cuda:0')
5 tensor(4.7877, device='cuda:0')
6 tensor(3.8429, device='cuda:0')
7 tensor(2.5723, device='cuda:0')
8 tensor(0.7986, device='cuda:0')
9 tensor(0.2109, device='cuda:0')
10 tensor(0.1475, device='cuda:0')
11 tensor(0.1020, device='cuda:0')
12 tensor(0.1082, device='cuda:0')
13 tensor(0.0730, device='cuda:0')
14 tensor(0.0834, device='cuda:0')
15 tensor(0.0624, device='cuda:0')
16 tensor(0.0681, device='cuda:0')
17 tensor(0.0582, device='cuda:0')
18 tensor(0.0718, device='cuda:0')
19 tensor(0.0579, device='cuda:0')
20 tensor(0.0650, device='cuda:0')


In [24]:
# 계산 그래프 구성
test_x, test_y = Variable(test_X), Variable(test_Y)

# 출력이 0 혹은 1이 되도록
result = torch.max(model(test_x).data, 1)[1]

# 모형의 정확도 계산
accuracy = sum(test_y.data.numpy() == result.numpy()) / len(test_y.data.numpy())

# 정확도 출력
accuracy



0.9701492537313433