In [60]:
import pandas as pd
import torch
import torch.nn as nn
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow import keras
from tensorflow.keras.preprocessing.sequence import pad_sequences
from sklearn.model_selection import train_test_split
import torch.utils.data as data
from collections import OrderedDict

In [65]:
# CPU 혹은 GPU 장치 확인
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print(device)

cpu


In [6]:
df = pd.read_csv("./다산콜재단_token.csv")

In [7]:
df.head()

Unnamed: 0.1,Unnamed: 0,분류,문서,token
0,0,복지,아빠 육아휴직 장려금아빠 육아휴직 장려금 업무개요 남성근로자의 육아휴직을 장려...,"['아빠', '육아휴직', '장려', '금', '아빠', '육아휴직', '장려', ..."
1,1,경제,서울산업진흥원 서울메이드란서울산업진흥원 서울메이드란 서울의 감성을 담은 다양하고 새...,"['서', '울', '산업', '진흥', '원', '서', '울', '메이드', '..."
2,2,복지,광진맘택시 운영임산부영아 양육가정 전용 택시광진맘택시 운영임산부영아 양육가정 전용 ...,"['광진', '맘', '택시', '운영', '임산부', '영아', '양육', '가정..."
3,3,복지,마포 뇌병변장애인 비전센터마포 뇌병변장애인 비전센터 마포뇌병변장애인 비전센터 운영 ...,"['마포', '뇌', '병변', '장애인', '비다', '센터', '마포', '뇌'..."
4,4,행정,년도 중고 신입생 입학준비금 지원년도 중고 신입생 입학준비금 지원 업무개요 서울...,"['년도', '중고', '신입생', '입학', '준비', '금', '지원', '년도..."


In [9]:
df = df.drop("Unnamed: 0", axis = 1)

In [11]:
df.head()

Unnamed: 0,분류,문서,token
0,복지,아빠 육아휴직 장려금아빠 육아휴직 장려금 업무개요 남성근로자의 육아휴직을 장려...,"['아빠', '육아휴직', '장려', '금', '아빠', '육아휴직', '장려', ..."
1,경제,서울산업진흥원 서울메이드란서울산업진흥원 서울메이드란 서울의 감성을 담은 다양하고 새...,"['서', '울', '산업', '진흥', '원', '서', '울', '메이드', '..."
2,복지,광진맘택시 운영임산부영아 양육가정 전용 택시광진맘택시 운영임산부영아 양육가정 전용 ...,"['광진', '맘', '택시', '운영', '임산부', '영아', '양육', '가정..."
3,복지,마포 뇌병변장애인 비전센터마포 뇌병변장애인 비전센터 마포뇌병변장애인 비전센터 운영 ...,"['마포', '뇌', '병변', '장애인', '비다', '센터', '마포', '뇌'..."
4,행정,년도 중고 신입생 입학준비금 지원년도 중고 신입생 입학준비금 지원 업무개요 서울...,"['년도', '중고', '신입생', '입학', '준비', '금', '지원', '년도..."


In [13]:
tokenizer = Tokenizer()

In [14]:
tokenizer.fit_on_texts(df["token"])

In [15]:
# 사용 단어 수를 지정하여 토큰화 : num_words = 1000
num_words = 1000
tokenizer = Tokenizer(num_words = num_words)
tokenizer.fit_on_texts(df["token"])

In [16]:
df["token"] = tokenizer.texts_to_sequences(df["token"])

In [17]:
df.head()

Unnamed: 0,분류,문서,token
0,복지,아빠 육아휴직 장려금아빠 육아휴직 장려금 업무개요 남성근로자의 육아휴직을 장려...,"[422, 422, 51, 218, 838, 2, 4, 39, 3, 67, 482,..."
1,경제,서울산업진흥원 서울메이드란서울산업진흥원 서울메이드란 서울의 감성을 담은 다양하고 새...,"[53, 283, 337, 658, 43, 53, 283, 175, 54, 337,..."
2,복지,광진맘택시 운영임산부영아 양육가정 전용 택시광진맘택시 운영임산부영아 양육가정 전용 ...,"[734, 973, 44, 358, 493, 973, 734, 973, 44, 35..."
3,복지,마포 뇌병변장애인 비전센터마포 뇌병변장애인 비전센터 마포뇌병변장애인 비전센터 운영 ...,"[975, 196, 590, 37, 975, 196, 590, 37, 975, 19..."
4,행정,년도 중고 신입생 입학준비금 지원년도 중고 신입생 입학준비금 지원 업무개요 서울...,"[602, 675, 422, 31, 602, 675, 422, 31, 51, 218..."


In [35]:
x = df["token"]
y = df["분류"]

In [36]:
labels = {0 : "행정", 1 : "경제", 2 : "복지"}
labels_rev = {"행정" : 0, "경제" : 1, "복지" : 2}

In [37]:
y = y.map(labels_rev)

In [38]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2, stratify = y, random_state = 7)

In [39]:
x_sub, x_val, y_sub, y_val = train_test_split(x_train, y_train, test_size = 0.2, stratify = y_train, random_state = 7)

In [40]:
maxlen = 60

sub_seq = pad_sequences(x_sub, maxlen = maxlen, truncating = "pre")
val_seq = pad_sequences(x_val, maxlen = maxlen, truncating = "pre")
test_seq = pad_sequences(x_test, maxlen = maxlen, truncating = "pre")

In [41]:
y_oh_sub = keras.utils.to_categorical(y_sub)
y_oh_val = keras.utils.to_categorical(y_val)
y_oh_test = keras.utils.to_categorical(y_test)

In [42]:
x_sub_tens = torch.tensor(sub_seq)
x_val_tens = torch.tensor(val_seq)
x_test_tens = torch.tensor(test_seq)
y_sub_tens = torch.tensor(y_oh_sub)
y_val_tens = torch.tensor(y_oh_val)
y_test_tens = torch.tensor(y_oh_test)

In [43]:
len(x_sub_tens), len(y_sub_tens)

(1367, 1367)

In [52]:
sub_dataset = data.TensorDataset(x_sub_tens, y_sub_tens)
val_dataset = data.TensorDataset(x_val_tens, y_val_tens)
test_dataset = data.TensorDataset(x_test_tens, y_test_tens)

In [54]:
batch_size = 16
sub_loader = torch.utils.data.DataLoader(sub_dataset, batch_size = batch_size)
val_loader = torch.utils.data.DataLoader(val_dataset, batch_size = batch_size)
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size = batch_size)

In [69]:
class DasanModel(nn.Module):
    def __init__(self):
        super().__init__()
        
        self.embedding = nn.Sequential(
            nn.Embedding(num_words, 128, max_norm = True)
        )
        
        self.ConvPool = nn.Sequential(
            nn.Conv1d(in_channels = maxlen, out_channels = 128, kernel_size = [5, 1], padding = 0),
            nn.BatchNorm1d(128),
            nn.ReLU(),
            nn.MaxPool1d(kernel_size = [4, 1], stride = 4)
        )
        # shape = (32, 1) ?
        
        self.LSTM = nn.Sequential(OrderedDict([('LSTM1', nn.LSTM(32, 64, 1, dropout = 0.5)), ('LSTM2', nn.LSTM(64, 64, 1, dropout = 0.5))]))
        # shape = (64, 1) ?
            
        self.fc = nn.Linear(in_features = 64, out_features = 3)
    
            
    def forward(self, x):
        x = self.embedding(x)
        x = self.ConvPool(x)
        x = self.LSTM(x)
        x = self.fc(x)
            
        return x

In [70]:
learning_rate = 0.001
model = DasanModel()
model.to(device)

criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr = learning_rate)
print(model)

DasanModel(
  (embedding): Sequential(
    (0): Embedding(1000, 128, max_norm=True)
  )
  (ConvPool): Sequential(
    (0): Conv1d(60, 128, kernel_size=(5, 1), stride=(1,))
    (1): BatchNorm1d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (2): ReLU()
    (3): MaxPool1d(kernel_size=[4, 1], stride=4, padding=0, dilation=1, ceil_mode=False)
  )
  (LSTM): Sequential(
    (LSTM1): LSTM(32, 64, dropout=0.5)
    (LSTM2): LSTM(64, 64, dropout=0.5)
  )
  (fc): Linear(in_features=64, out_features=3, bias=True)
)




In [72]:
num_epochs = 5
count = 0
loss_list = []
iteration_list = []
accuracy_list = []

predictions_list = []
labels_list = []

for epoch in range(num_epochs):
    for document, labels in sub_loader:
        document, labels = document.to(device), labels.to(device)
        # 모델이 데이터를 처리하기 위해서는 모델과 데이터가 동일한 장치에 있어야 함
        
#         train = Variable(document.view(100, 1, 28, 28))
#         labels = Variable(labels)
        # Autograd 는 자동 미분을 수행하는 파이토치의 핵심 패키지
        # 자동 미분에 대한 값을 저장
        
        # 대부분의 경우 등장하는 과정
        outputs = model(document)
        loss = criterion(outputs, labels)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        count += 1
        
        # 50으로 나누어 떨어질때
        if not (count % 50):
            total = 0
            correct = 0
            for document, labels in val_loader:
                document, labels = document.to(device), labels.to(device)
                labels_list.append(labels)
                
#                 test = Variable(document.view(100, 1, 28, 28))
                outputs = model(document)
                predictions = torch.max(outputs, 1)[1].to(device)
                predictions_list.append(predictions)
                correct += (predictions == labels).sum()
                total += len(labels)
                
            accuracy = correct * 100 / total
            loss_list.append(loss.data)
            iteration_list.append(count)
            accuracy_list.append(accuracy)
            
        if not (count % 500):
            print(f"Iteration: {count}, Loss: {loss.data}, Accuracy: {accuracy}")

RuntimeError: Expected 4-dimensional input for 4-dimensional weight [128, 60, 5, 1], but got 3-dimensional input of size [16, 60, 128] instead