### 2. 학습 데이터 준비

In [1]:
# OS 라이브러리 임포트
import os
# 정규표현식 라이브러리 임포트
import re

# scikit-learn 라이브러리 임포트
from sklearn import datasets, model_selection
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

# 형태소분석기 라이브러리
from konlpy.tag import Hannanum
from konlpy.tag import Kkma

# pandas 라이브러리 임포트
import pandas as pd

# numpy 라이브러리 임포트
import numpy as np

In [2]:
dir_prefix = '../data/'
target_dir = 'HKIB-20000'
cat_dirs = ['health', 'economy', 'science', 'education', 'culture', 'society', 'industry', 'leisure', 'politics']
cat_prefixes = ['건강', '경제', '과학', '교육', '문화', '사회', '산업', '여가', '정치']

In [3]:
# 데이터 정리
files = os.listdir(dir_prefix + target_dir)

# 5분할된 텍스트 파일을 각각 처리
for file in files:
    # 데이터가 담긴 파일만 처리
    if not file.endswith('.txt'):
        continue
    
    # 각 텍스트 파일을 처리
    with open(dir_prefix + target_dir + '/' + file) as currfile:
        doc_cnt = 0
        docs = []
        curr_doc = None
        
        # 기사 단위로 분할하여 리스트를 생성
        for curr_line in currfile:
            if curr_line.startswith('@DOCUMENT'):
                if curr_doc is not None:
                    docs.append(curr_doc)
                curr_doc = curr_line
                doc_cnt = doc_cnt + 1
                continue
            curr_doc = curr_doc + curr_line
        
        # 각 기사를 대주제 별로 분류하여 기사별 파일로 정리
        for doc in docs:
            doc_lines = doc.split('\n')
            doc_no = doc_lines[1][9:]
            
            # 주제 추출
            doc_cat03 = ''
            for line in doc_lines[:10]:
                if line.startswith("#CAT'03:"):
                    doc_cat03 = line[10:]
                    break
            
            # 추출한 주제 별로 디렉토리 정리
            for cat_prefix in cat_prefixes:
                if doc_cat03.startswith(cat_prefix):
                    dir_index = cat_prefixes.index(cat_prefix)
                    break
                    
            # 문서 정보를 제거하고 기사 본문만 남기기
            filtered_lines = []
            for line in doc_lines:
                if not (line.startswith('#') or line.startswith('@')):
                    filtered_lines.append(line)
                    
            # 주제별 디렉토리에 기사를 파일로 쓰기
            filename = 'hkib-' + doc_no + '.txt'
            filepath = dir_prefix + target_dir + '/' + cat_dirs[dir_index]
            
            if not os.path.exists(filepath):
                os.makedirs(filepath)
            f = open(filepath + '/' + filename, 'w')
            f.write('\n'.join(filtered_lines))
            f.close()

FileNotFoundError: [WinError 3] 지정된 경로를 찾을 수 없습니다: '../data/HKIB-20000'

In [None]:
# 대상이 되는 주제 폴더 선택 (교육, 건강)
#dirs = ['economy', 'society']
dirs = ['education', 'health']

# 기사에 출현하는 단어와 레이블을 저장할 리스트를 생성
# 설명변수
x_ls = [] 
# 목적변수
y_ls = []

tmp1 = []
tmp2 = ''

# 형태소 분석기 객체 생성
#tokenizer_han = Hannanum()
tokenizer = Kkma()

# 각 폴더의 파일을 하나씩 읽어들이며, 전처리 후 리스트에 저장
for i, d in enumerate(dirs):
    # 파일 목록 읽어오기
    files = os.listdir(dir_prefix + target_dir + '/' + d)
    
    for file in files:
        # 각 파일을 읽어들이기
        f = open(dir_prefix + target_dir + '/' + d + '/' + file, 'r', encoding='utf-8')
        raw = f.read()  
        
        # 정규표현식을 사용하여 불필요한 문자열을 제거한 다음 파일 내용을 출력
        reg_raw = re.sub(r'[-\'@#:/◆▲0-9a-zA-Z<>!-"*\(\)]', '', raw)
        reg_raw = re.sub(r'[ ]+', ' ', reg_raw)
        reg_raw = reg_raw.replace('\n', ' ')
        
        # 형태소분석을 거쳐 명사만을 추출한 리스트를 생성
        tokens = tokenizer.nouns(reg_raw)
        
        for token in tokens:
            tmp1.append(token)
            
        tmp2 = ' '.join(tmp1)
        x_ls.append(tmp2)
        tmp1 = []
        
        # 기사 주제 레이블을 리스트에 저장
        y_ls.append(i)
        
        # 파일 닫기
        f.close()   

In [None]:
# 데이터프레임으로 변환해서 설명변수를 화면에 출력
pd.DataFrame(x_ls)

In [None]:
# 첫 번째 기사로부터 추출한 단어를 출력
print(x_ls[0])

In [None]:
# 목적변수를 화면에 출력
print(y_ls)

In [None]:
# 설명변수와 목적변수를 NumPy 배열로 변환
x_array = np.array(x_ls)
y_array = np.array(y_ls)

# 단어 출현 횟수를 계수
cntvec = CountVectorizer()
x_cntvecs = cntvec.fit_transform(x_array)
x_cntarray = x_cntvecs.toarray()

# 데이터프레임으로 단어 출현 횟수 출력
pd.DataFrame(x_cntarray)

In [None]:
# 단어와 단어의 인덱스 표시
for k, v in sorted(cntvec.vocabulary_.items(), key=lambda x:x[1]):
    print(k, v)

In [None]:
# 단어의 TF-IDF 계산
tfidf_vec = TfidfVectorizer(use_idf=True)
x_tfidf_vecs = tfidf_vec.fit_transform(x_array)
x_tfidf_array = x_tfidf_vecs.toarray()

# 데이터프레임으로 변환하여 단어의 출현 횟수를 출력
pd.DataFrame(x_tfidf_array)

In [None]:
# 데이터를 훈련 데이터와 테스트 데이터로 분할
train_X, test_X, train_Y, test_Y = model_selection.train_test_split(x_tfidf_array, y_array, test_size=0.2)

# 데이터 건수 확인
print(len(train_X))
print(len(test_X))

### 3. 텐서 생성

In [None]:
# PyTorch 라이브러리 임포트
import torch
from torch.autograd import Variable
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.utils.data import DataLoader, TensorDataset

In [None]:
# 훈련 데이터 텐서 생성
train_X = torch.from_numpy(train_X).float()
train_Y = torch.from_numpy(train_Y).long()

# 테스트 데이터 텐서 생성
test_X = torch.from_numpy(test_X).float()
test_Y = torch.from_numpy(test_Y).long()

# 텐서로 변환한 데이터 건수 확인
print(train_X.shape)
print(train_Y.shape)

In [None]:
# 설명변수와 목적변수의 텐서를 합친다
train = TensorDataset(train_X, train_Y)

# 첫번째 텐서 내용 확인
print(train[0])

# 미니배치 분할하기
train_loader = DataLoader(train, batch_size=100, shuffle=True)

### 4. 신경망 구성

In [None]:
# 신경망 구성
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.fc1 = nn.Linear(33572, 256)
        self.fc2 = nn.Linear(256, 256)
        self.fc3 = nn.Linear(256, 256)
        self.fc4 = nn.Linear(256, 128)
        self.fc5 = nn.Linear(128, 128)
        self.fc6 = nn.Linear(128, 2)
        
    def forward(self, x):
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = F.relu(self.fc3(x))
        x = F.relu(self.fc4(x))
        x = F.relu(self.fc5(x))
        x = self.fc5(x)
        return F.log_softmax(x)
    
# 인스턴스 생성
model = Net()

### 5. 모형 학습

In [None]:
# 오차함수
criterion = nn.CrossEntropyLoss()

# 최적화 기법 선택
optimizer = optim.Adam(model.parameters(), lr=0.005)

# 학습
for epoch in range(20):
    total_loss = 0
    
    # 분할한 데이터(미니배치)를 차례로 꺼내옴
    for train_x, train_y in train_loader:
        # 계산 그래프 구성
        train_x, train_y = Variable(train_x), Variable(train_y)
        # 경사 초기화
        optimizer.zero_grad()
        # 순전파 계산
        output = model(train_x)
        # 오차 계산
        loss = criterion(output, train_y)
        # 역전파 계산
        loss.backward()
        # 가중치 업데이트
        optimizer.step()
        # 오차 누적 계산
        total_loss += loss.data[0]
        
    # 100 에포크마다 누적오차를 출력
    if (epoch+1) % 1 == 0:
        print(epoch+1, total_loss)

In [None]:
# 계산 그래프 구성
test_x, test_y = Variable(test_X), Variable(test_Y)

# 출력이 0 혹은 1이 되도록
result = torch.max(model(test_x).data, 1)[1]

# 모형의 정확도 계산
accuracy = sum(test_y.data.numpy() == result.numpy()) / len(test_y.data.numpy())

# 정확도 출력
accuracy

In [4]:
%ls

 C 드라이브의 볼륨: OS
 볼륨 일련 번호: 56CE-D61E

 C:\dev\konlpy_tutorial 디렉터리

2019-09-28  오전 09:35    <DIR>          .
2019-09-28  오전 09:35    <DIR>          ..
2019-09-28  오전 09:36    <DIR>          .idea
2019-09-28  오전 01:03    <DIR>          .ipynb_checkpoints
2019-09-27  오후 02:23           539,044 A New Hope.ipynb
2019-09-27  오후 12:35            19,444 alice_mask.png
2019-09-27  오후 03:43           230,450 baby-law-analysis.ipynb
2019-09-27  오후 04:53    <DIR>          ch4
2018-10-09  오후 07:26         1,108,354 Ch6-4_MLP_News.ipynb
2019-09-27  오후 02:09    <DIR>          data
2019-09-27  오후 10:07               811 gyu001.ipynb
2019-09-27  오후 03:20            58,720 hangul-font.ipynb
2019-09-27  오후 03:35            21,551 hangulfont-test.ipynb
2019-09-28  오전 09:35               697 hkib.py
2019-09-27  오후 05:24             5,652 identify language.ipynb
2019-09-27  오후 05:41             5,848 identify language2.ipynb
2019-09-27  오후 12:17            41,484 konlpy_kkma1.ipynb
2019-09-27  오후 06:41    