In [29]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [30]:
!pip install transformers

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


# Spam SNS classification

각 문장이 spam 메일인지 아닌지를 판별하는 문장 분류 태스크  
dataset: https://www.kaggle.com/datasets/uciml/sms-spam-collection-dataset  
4000개까지 train으로 사용  

Dataset 구축  
dataset에서는 __ getitem __을 통해 한개의 데이터를 모델의 입력형태에 맞추어 반환한다.  
이번 코드에서는 자연어 문장을 모델에 입력하기 위해 tokenization과 vocab dictionary에 따른 index로의 변환을 진행한다.  
또한 label의 ham/spam에 따라 0/1을 label로 변환한다.  

주요 class, method:  
torchtext.data.utils.get_tokenizer: torchtext에서 제공하는 tokenizer 문법에 따른 tokenization을 수행하는 class 반환  
torchtext.vocab.build_vocab_from_iterator:  내 학습데이터에 대한 모든 단어를 입력하면 각 단어에 한개씩 index를 부여한 vocab dictionary 반환  
**huggingface.tokenizer:** 사전에 학습된 tokenization을 불러오는 huggingface class  
https://huggingface.co/docs/transformers/main_classes/tokenizer


In [31]:
import pandas as pd
import torch
from torch.utils.data import Dataset, DataLoader

from transformers import AutoTokenizer,BertTokenizer
from torchtext.data.utils import get_tokenizer
from torchtext.vocab import build_vocab_from_iterator

#dataset load
data_path = "/content/drive/MyDrive/Colab Notebooks/Natural_Language_Processing/4일차_배포/dataset/spam.csv"
data_df = pd.read_csv(data_path, encoding = "ISO-8859-1")
print(data_df)
print(data_df.columns)

#train test split
data_df = data_df.drop(['Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4'], axis=1)
train_df = data_df.loc[:200,:].reset_index()
test_df = data_df.loc[4000:,:].reset_index()
print(train_df)
print(train_df.columns)

#tokenizer load
tokenizer=get_tokenizer("basic_english")
d = data_df.loc[0:3,"v2"]
print(d)
print(tokenizer(data_df.loc[0,"v2"]))

#build vocab dictionary
vocab = build_vocab_from_iterator(list(map(tokenizer,data_df.loc[:,"v2"])))
print(vocab(tokenizer(data_df.loc[0,"v2"])))

#huggingface tokenizer load
tokenizer = BertTokenizer.from_pretrained('bert-base-cased')
print(tokenizer(data_df.loc[0,"v2"], max_length=100, padding='max_length', truncation=True))

class myDataset(Dataset):
  def __init__(self, df, tokenizer, vocab) -> None:
      super().__init__()
      self.df = df
      self.tokenizer = tokenizer
      self.vocab = vocab

  def __len__(self):
      return len(self.df)
  
  def __getitem__(self, index):
      data = self.df.loc[index, "v2"]
      target = self.df.loc[index, "v1"]
      
      #data tokenization
      data = self.tokenizer(data, max_length=100,padding='max_length', truncation=True)["input_ids"]

      data.reverse() # 역순으로
      # 왜냐면 vanishing gradient problem(시간이 지날수록 단어의 정보가 소실되는 문제)를 줄이기 위해 역순으로 만들어버림
      # max_length를 맞추기 위해 마지막에 0으로 다 채워주는데 역순으로 해주면 0 들이 처음에 나와서 그런 문제 줄일 수 있음

      #labeling
      if target == "ham":
          label = 0
      elif target == "spam":
          label = 1

      return torch.tensor(data, dtype=torch.int64), label


train_dataset = myDataset(train_df, tokenizer, vocab)
test_dataset = myDataset(test_df, tokenizer, vocab)
batch_size = 100
train_dataloader = DataLoader(train_dataset, batch_size = batch_size)
test_dataloader = DataLoader(test_dataset, batch_size = batch_size)

for i in train_dataset:
  print(i)
  break
  
for i in train_dataloader:
  print(i)
  break

        v1                                                 v2 Unnamed: 2  \
0      ham  Go until jurong point, crazy.. Available only ...        NaN   
1      ham                      Ok lar... Joking wif u oni...        NaN   
2     spam  Free entry in 2 a wkly comp to win FA Cup fina...        NaN   
3      ham  U dun say so early hor... U c already then say...        NaN   
4      ham  Nah I don't think he goes to usf, he lives aro...        NaN   
...    ...                                                ...        ...   
5567  spam  This is the 2nd time we have tried 2 contact u...        NaN   
5568   ham              Will Ì_ b going to esplanade fr home?        NaN   
5569   ham  Pity, * was in mood for that. So...any other s...        NaN   
5570   ham  The guy did some bitching but I acted like i'd...        NaN   
5571   ham                         Rofl. Its true to its name        NaN   

     Unnamed: 3 Unnamed: 4  
0           NaN        NaN  
1           NaN        NaN  


model 선언  
문장을 RNN/LSTM을 통해 classification하는 model 선언
1. token의 index를 입력으로 받고 word embedding을 결과로 반환하는 nn.Embedding 사용  
2. LSTM을 통해 모든 token을 입력  
3. many-to-one구조를 가지기 때문에 LSTM의 결과중 마지막 cell에 대한 결과만을 사용하여 nn.linear를통해 classification

입력으로는 문장을 tokenziation과 indexing한게 입력으로 들어오기 때문에(batch, sequance length)형태의 입력  
이후 nn.Embedding을 거치면서 각 단어의 벡터가 생성되기 때문에(batch, sequance length, hidden size)의 형태 사용

주요 obejct:  
**nn.Embedding:**https://pytorch.org/docs/stable/generated/torch.nn.Embedding.html  
**nn.LSTM:**https://pytorch.org/docs/stable/generated/torch.nn.LSTM.html  
**nn.RNN:**https://pytorch.org/docs/stable/generated/torch.nn.RNN.html

In [32]:
from torch import nn

class myModel(nn.Module):
    def __init__(self) -> None:
        super().__init__()
        self.emb = nn.Embedding(50000,128)
        self.lstm = nn.LSTM(128, 128, batch_first = True)
        self.linaer = nn.Linear(128, 2)

    def forward(self, x):

        x = self.emb(x)
        x, _ = self.lstm(x)
        
        #마지막 time(seq length)에 대한 결과만을 사용하여 classification
        x = self.linaer(x[:,-1,:])

        return x

model = myModel()

for i in train_dataloader:
  data = i[0]
  label = i[1]
  data = model(data)
  print(data)
  break

tensor([[-0.1304,  0.0584],
        [-0.1050, -0.0757],
        [-0.1443,  0.0327],
        [-0.0120,  0.0172],
        [-0.0038, -0.0440],
        [-0.0414,  0.0437],
        [-0.0651,  0.0106],
        [-0.0475,  0.0526],
        [-0.0087,  0.0048],
        [-0.0040, -0.0141],
        [-0.0371, -0.0163],
        [-0.0723,  0.0139],
        [-0.0083,  0.0096],
        [-0.0089, -0.0292],
        [-0.0743, -0.0130],
        [-0.1219,  0.0372],
        [-0.0821,  0.0324],
        [-0.0475,  0.0059],
        [-0.0259,  0.0324],
        [-0.0147, -0.0646],
        [-0.0650,  0.0426],
        [-0.0280,  0.0451],
        [-0.0349,  0.0519],
        [-0.0679, -0.0488],
        [-0.0553, -0.0316],
        [-0.0934, -0.0247],
        [-0.1194, -0.0531],
        [-0.0444,  0.0312],
        [-0.0209, -0.0065],
        [-0.0726, -0.0718],
        [-0.1751,  0.0332],
        [-0.1053, -0.0255],
        [-0.0105,  0.0188],
        [-0.1062,  0.0345],
        [-0.0368, -0.0026],
        [-0.1385,  0

model train

In [33]:
from torch.optim import Adam
from torch.nn import CrossEntropyLoss

model = myModel()
model.cuda()

#학습을 위한 optimizer와 loss function 설정
optimizer = Adam(model.parameters(), lr=0.001)
lf = CrossEntropyLoss().cuda()


#100번의 에폭을 실행
for e in range(100):
  print("\n\nepoch ", e)
  epoch_loss = 0
  train_correct = 0 
  
  #선언한 모델 오브젝트를 학습가능한 상태로 변경
  model.train()

  #모든 학습데이터에 대해서 학습
  for i in train_dataloader:
    #매 배치에 대한 gradient계산 이전에 optimizer에 저장된 이전 batch에 gradient를 삭제(초기화)
    optimizer.zero_grad()
    data = i[0]
    data = data.cuda()
    target = i[1]
    target = target.cuda()

    #결과 도출 및 정답수 연산
    output = model(data)
    pred_label = torch.argmax(output, dim=-1)
    train_correct += sum(pred_label == target.reshape(-1))

    target = target.reshape(-1)
    #loss연산
    loss = lf(output, target)
    #print(loss)

    #loss backpropagation
    loss.backward()

    #gradient update
    optimizer.step()

    epoch_loss += loss.item()
  
  print(train_correct)
  print("train loss", epoch_loss/len(train_dataloader))
  print("train acc", train_correct/len(train_dataset))

  #model이 학습되지 않는 상태로 변경
  model.eval()
  test_loss = 0
  test_correct = 0 

  #gradient를 계산하지 않도록 하여 cost낭비 방지
  with torch.no_grad():
    #모든 test dataset에 대해서 결과연산
    for i in test_dataloader:
      data = i[0]
      target = i[1]
      data = data.cuda()
      target = target.cuda()

      output = model(data)

      loss = lf(output, target.reshape(-1))
      pred_label = torch.argmax(output, dim=-1)
      test_correct += sum(pred_label == target.reshape(-1))
      test_loss += loss.item()

  print("test loss", test_loss/len(test_dataloader))
  print("test acc", test_correct/len(test_dataset))
    




epoch  0
tensor(119, device='cuda:0')
train loss 0.5915282666683197
train acc tensor(0.5920, device='cuda:0')
test loss 0.4709295444190502
test acc tensor(0.8651, device='cuda:0')


epoch  1
tensor(168, device='cuda:0')
train loss 0.3748283237218857
train acc tensor(0.8358, device='cuda:0')
test loss 0.388747476041317
test acc tensor(0.8651, device='cuda:0')


epoch  2
tensor(168, device='cuda:0')
train loss 0.3072759558757146
train acc tensor(0.8358, device='cuda:0')
test loss 0.38182023726403713
test acc tensor(0.8651, device='cuda:0')


epoch  3
tensor(168, device='cuda:0')
train loss 0.3013172708451748
train acc tensor(0.8358, device='cuda:0')
test loss 0.3919399678707123
test acc tensor(0.8651, device='cuda:0')


epoch  4
tensor(168, device='cuda:0')
train loss 0.3041407708078623
train acc tensor(0.8358, device='cuda:0')
test loss 0.3924777191132307
test acc tensor(0.8651, device='cuda:0')


epoch  5
tensor(168, device='cuda:0')
train loss 0.29628856976826984
train acc tensor(0.