In [None]:
#클래스로 모델 구현

In [None]:
'''
model = nn.Linear(1,1)

상속

붕어빵 기계(너비=10, 높이=5, 내용물=단팥, 굽는다(1분)... 부모 클래스 : 메서드, 속성, 내부 클래스 등)
agile 기법 : 허접하더라도 빠르게 만들고 계속 개선 -> 배포(time to market) release...
상속

잉어빵 기계(자식 클래스)

요구분석 설계 구현 테스트 배포 유지보수

부모 클래스에서 상속받은 메서드 재정의 (overriding) 추상적 -> 구체적
'''

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F

In [None]:
class LinearRegressionModel(nn.Module): # Module 부모 클래스, LinearRegressionModel 자식 클래스
    def __init__(self): # LinearRegressionModel 클래스 객체가 생성될 때 자동 호출
        super().__init__() # 부모 클래스의 속성이 초기화
        self.linear=nn.Linear(1,1)
    def forward(self, x):
        return self.linear(x)

In [None]:
LinearRegressionModel()

In [None]:
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]])

In [None]:
model = LinearRegressionModel()

In [None]:
optimizer=torch.optim.SGD(model.parameters(), lr=0.01)

In [None]:
nb_epochs = 2000
for epoch in range(nb_epochs+1):

    # H(x) 계산
    prediction = model(x_train)

    # cost 계산
    cost = F.mse_loss(prediction, y_train) # <== 파이토치에서 제공하는 평균 제곱 오차 함수

    # cost로 H(x) 개선하는 부분
    # gradient를 0으로 초기화
    optimizer.zero_grad()
    # 비용 함수를 미분하여 gradient 계산
    cost.backward() # backward 연산
    # W와 b를 업데이트
    optimizer.step()

    if epoch % 100 == 0:
    # 100번마다 로그 출력
      print('Epoch {:4d}/{} Cost: {:.6f}'.format(
          epoch, nb_epochs, cost.item()
      ))

In [None]:
'''
미니배치 : 대규모 데이터를 작은 단위로 나누어 연산

ex) 데이터 100 건
1 epoch : 100건의 데이터를 모두 학습
20 batch_size : 한 번에 20건의 데이터를 읽어서 학습(w, b 업데이트 -> 5 이터레이션, batch_size/전체 데이터수)
5 batch(mini) : 20 batch_size로 데이터를 5번 가져와서 학습 -> 100건 데이터 학습
이터레이션 : 1epoch에서 발생하는 w, b의 업데이트 횟수

배치할 때마다 w, b에 대해 업데이트가 발생됨

배치 학습 : 전체 데이터에 대해 한 번에 배치와 함께 업데이트
미니 배치 학습 : 전체 데이터에 대해 여러 번에 배치 및 업데이트 수행

파이토치에서는 데이터셋(DataSet), 데이터로더(DataLoader)를 제공
-> 데이터 셔플, 미니 배치 학습, 병렬 처리 등의 연산을 빠르게 할 수 있음
'''

In [None]:
x_train = torch.FloatTensor([[73, 80, 75],
                             [93, 88, 93],
                             [89, 91, 90],
                             [96, 98, 100],
                             [73, 66, 70]])
y_train = torch.FloatTensor([[152], [185], [180], [196], [142]])

In [None]:
class MultivariateLinearRegressionModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = nn.Linear(3, 1) # 다중 선형 회귀이므로 input_dim=3, output_dim=1.

    def forward(self, x):
        return self.linear(x)

In [None]:
model = MultivariateLinearRegressionModel()

In [None]:
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5)

In [None]:
nb_epochs = 2000
for epoch in range(nb_epochs+1):

    # H(x) 계산
    prediction = model(x_train)
    # model(x_train)은 model.forward(x_train)와 동일함.

    # cost 계산
    cost = F.mse_loss(prediction, y_train) # <== 파이토치에서 제공하는 평균 제곱 오차 함수

    # cost로 H(x) 개선하는 부분
    # gradient를 0으로 초기화
    optimizer.zero_grad()
    # 비용 함수를 미분하여 gradient 계산
    cost.backward()
    # W와 b를 업데이트
    optimizer.step()

    if epoch % 100 == 0:
    # 100번마다 로그 출력
      print('Epoch {:4d}/{} Cost: {:.6f}'.format(
          epoch, nb_epochs, cost.item()
      ))

In [None]:
#데이터 로드

In [None]:
from torch.utils.data import TensorDataset # 텐서데이터셋
from torch.utils.data import DataLoader # 데이터로더

In [None]:
x_train  =  torch.FloatTensor([[73,  80,  75],
                               [93,  88,  93],
                               [89,  91,  90],
                               [96,  98,  100],
                               [73,  66,  70]])
y_train  =  torch.FloatTensor([[152],  [185],  [180],  [196],  [142]])

In [None]:
dataset = TensorDataset(x_train, y_train)
# TensorDataset : 텐서 데이터를 전달받아 데이터셋(Dataset) 형태로 변환

In [None]:
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

In [None]:
model = nn.Linear(3,1)
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5)

In [None]:
nb_epochs = 20
for epoch in range(nb_epochs + 1):
  for batch_idx, samples in enumerate(dataloader):
    # print(batch_idx)
    # print(samples)
    x_train, y_train = samples
    # H(x) 계산
    prediction = model(x_train)

    # cost 계산
    cost = F.mse_loss(prediction, y_train)

    # cost로 H(x) 계산
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    print('Epoch {:4d}/{} Batch {}/{} Cost: {:.6f}'.format(
        epoch, nb_epochs, batch_idx+1, len(dataloader),
        cost.item()
        ))

In [None]:
new_var =  torch.FloatTensor([[73, 80, 75]])

In [None]:
pred_y = model(new_var)

In [None]:
pred_y

In [None]:
class CustomDataset(torch.utils.data.Dataset):
  def __init__(self):
    # 데이터 전처리
  def __len__(self):
    # 데이터 개수
  def __getitem__(self, idx):
    # 데이터 1개를 리턴

In [None]:
from torch.utils.data import Dataset
from torch.utils.data import DataLoader

In [None]:
class CustomDataset(Dataset):
  def __init__(self):
    self.x_data = [[73, 80, 75],
                   [93, 88, 93],
                   [89, 91, 90],
                   [96, 98, 100],
                   [73, 66, 70]]
    self.y_data = [[152], [185], [180], [196], [142]]

  # 총 데이터의 개수를 리턴
  def __len__(self):
    return len(self.x_data)

  # 인덱스를 입력받아 그에 맵핑되는 입출력 데이터를 파이토치의 Tensor 형태로 리턴
  def __getitem__(self, idx):
    x = torch.FloatTensor(self.x_data[idx])
    y = torch.FloatTensor(self.y_data[idx])
    return x, y

In [None]:
dataset = CustomDataset()

In [None]:
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

In [None]:
model = torch.nn.Linear(3,1)
optimizer = torch.optim.SGD(model.parameters(), lr=1e-5)

In [None]:
nb_epochs = 20
for epoch in range(nb_epochs + 1):
  for batch_idx, samples in enumerate(dataloader):
    # print(batch_idx)
    # print(samples)
    x_train, y_train = samples
    # H(x) 계산
    prediction = model(x_train)

    # cost 계산
    cost = F.mse_loss(prediction, y_train)

    # cost로 H(x) 계산
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    print('Epoch {:4d}/{} Batch {}/{} Cost: {:.6f}'.format(
        epoch, nb_epochs, batch_idx+1, len(dataloader),
        cost.item()
        ))

In [None]:
import tensorflow as tf
import os

resolver = tf.distribute.cluster_resolver.TPUClusterResolver(tpu='grpc://' + os.environ['COLAB_TPU_ADDR'])

tf.config.experimental_connect_to_cluster(resolver)
tf.tpu.experimental.initialize_tpu_system(resolver)

In [None]:
strategy = tf.distribute.TPUStrategy(resolver) # 분산 처리와 관련된 api

In [None]:
def create_model():
  return tf.keras.Sequential(
      [tf.keras.layers.Conv2D(256, 3, activation='relu', input_shape=(28, 28, 1)),
       tf.keras.layers.Conv2D(256, 3, activation='relu'),
       tf.keras.layers.Flatten(),
       tf.keras.layers.Dense(256, activation='relu'),
       tf.keras.layers.Dense(128, activation='relu'),
       tf.keras.layers.Dense(10)])

In [None]:
with strategy.scope():
  model = create_model()
  model.compile(optimizer='adam',
                loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
                metrics=['sparse_categorical_accuracy'])

In [None]:
#BERT, TPU, 네이버 영화 댓글 분류기

In [None]:
pip install transformers

In [None]:
import transformers
import pandas as pd
import numpy as np
import urllib.request
import os
from tqdm import tqdm
import tensorflow as tf
from transformers import BertTokenizer, TFBertModel

In [None]:
urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt", filename="ratings_train.txt")
urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings_test.txt", filename="ratings_test.txt")

In [None]:
train_data = pd.read_table('ratings_train.txt')
test_data = pd.read_table('ratings_test.txt')

In [None]:
print('훈련용 리뷰 개수 :',len(train_data)) # 훈련용 리뷰 개수 출력

In [None]:
print('테스트용 리뷰 개수 :',len(test_data)) # 테스트용 리뷰 개수 출력

In [None]:
train_data[:5]

In [None]:
train_data = train_data.dropna(how = 'any') # Null 값이 존재하는 행 제거
train_data = train_data.reset_index(drop=True)
print(train_data.isnull().values.any()) # Null 값이 존재하는지 확인

In [None]:
len(train_data)

In [None]:
test_data = test_data.dropna(how = 'any') # Null 값이 존재하는 행 제거
test_data = test_data.reset_index(drop=True)
print(test_data.isnull().values.any()) # Null 값이 존재하는지 확인

In [None]:
len(test_data)

In [None]:
train_data.drop_duplicates(subset=['document'], inplace=True)

In [None]:
len(train_data)

In [None]:
tokenizer=BertTokenizer.from_pretrained("klue/bert-base")

In [None]:
'''
BERT : 구글 104개 이상 국가의 언어로 만든 모델

사전 학습된 한국어 BERT 모델
KorBERT : ETRI, 20gb이상 데이터, 3만개 이상의 단어
KoBERT, KoBART : SKT

KoGPT2 : SKT
KoreALBERT : 40GB 이상 데이터
HyperCLOVA : 네이버, 초대규모 모델
KLUE-BERT
KoGPT : 카카오
'''

In [None]:
print(tokenizer.tokenize("보는내내 그대로 들어맞는 예측 카리스마 없는 악역")) #12개

In [None]:
print(tokenizer.encode("보는내내 그대로 들어맞는 예측 카리스마 없는 악역")) #14개 -> 2 : cls, 3 : spe

In [None]:
print(tokenizer.decode(tokenizer.encode("보는내내 그대로 들어맞는 예측 카리스마 없는 악역")))

In [None]:
tokenizer.pad_token_id

In [None]:
max_seq_len = 128

In [None]:
encoded_result = tokenizer.encode(" 전율을         일으키는         영화 . 다시         보고싶은   영화 "
, max_length=max_seq_len, pad_to_max_length=True)

In [None]:
encoded_result # 128 길이에 맞춰서 뒷부분 0으로 채움

In [None]:
#정수 인코딩, 세그먼트 인코딩, 어텐션 마스크

In [None]:
# 세그먼트 인코딩
[0]*max_seq_len

In [None]:
# 어텐션 마스크 : 토큰 위치는 1, 패팅 위치는 0
tokenizer.encode("전율을 일으키는 영화. 다시 보고싶은 영화")

In [None]:
valid_num = len(tokenizer.encode("전율을 일으키는 영화. 다시 보고싶은 영화"))
print(valid_num * [1] + (max_seq_len - valid_num) * [0])

In [None]:
def convert_examples_to_features(examples, labels, max_seq_len, tokenizer):
#                                  댓글     긍/부      128
    input_ids, attention_masks, token_type_ids, data_labels = [], [], [], []

    for example, label in tqdm(zip(examples, labels), total=len(examples)):
        # input_id는 워드 임베딩을 위한 문장의 정수 인코딩
        input_id = tokenizer.encode(example, max_length=max_seq_len, pad_to_max_length=True)

        # attention_mask는 실제 단어가 위치하면 1, 패딩의 위치에는 0인 시퀀스.
        padding_count = input_id.count(tokenizer.pad_token_id)
        attention_mask = [1] * (max_seq_len - padding_count) + [0] * padding_count

        # token_type_id는 세그먼트 임베딩을 위한 것으로 이번 예제는 문장이 1개이므로 전부 0으로 통일.
        token_type_id = [0] * max_seq_len

        assert len(input_id) == max_seq_len, "Error with input length {} vs {}".format(len(input_id), max_seq_len)
        assert len(attention_mask) == max_seq_len, "Error with attention mask length {} vs {}".format(len(attention_mask), max_seq_len)
        assert len(token_type_id) == max_seq_len, "Error with token type length {} vs {}".format(len(token_type_id), max_seq_len)

        input_ids.append(input_id)
        attention_masks.append(attention_mask)
        token_type_ids.append(token_type_id)
        data_labels.append(label)

    input_ids = np.array(input_ids, dtype=int)
    attention_masks = np.array(attention_masks, dtype=int)
    token_type_ids = np.array(token_type_ids, dtype=int)

    data_labels = np.asarray(data_labels, dtype=np.int32)

    return (input_ids, attention_masks, token_type_ids), data_labels

In [None]:
train_data

In [None]:
train_X, train_y = convert_examples_to_features(train_data['document'], train_data['label'], max_seq_len=max_seq_len, tokenizer=tokenizer)

In [None]:
train_X

In [None]:
train_y

In [None]:
test_X, test_y = convert_examples_to_features(test_data['document'], test_data['label'], max_seq_len=max_seq_len, tokenizer=tokenizer)

In [None]:
train_X[0][0] # 첫번째 문장에 대한 input_id

In [None]:
train_X[1][0] # 첫번째 문장에 대한 어텐션 마스크

In [None]:
train_X[2][0] # 첫번째 문장에 대한 세그먼트

In [None]:
tokenizer.decode(train_X[0][0])

In [None]:
# 최대 길이: 128
input_id = train_X[0][0]
attention_mask = train_X[1][0]
token_type_id = train_X[2][0]
label = train_y[0]

print('단어에 대한 정수 인코딩 :',input_id)
print('어텐션 마스크 :',attention_mask)
print('세그먼트 인코딩 :',token_type_id)
print('각 인코딩의 길이 :', len(input_id))
print('정수 인코딩 복원 :',tokenizer.decode(input_id))
print('레이블 :',label)

In [None]:
model = TFBertModel.from_pretrained("klue/bert-base", from_pt=True)

In [None]:
max_seq_len = 128

In [None]:
input_ids_layer = tf.keras.layers.Input(shape=(max_seq_len,), dtype=tf.int32)
attention_masks_layer = tf.keras.layers.Input(shape=(max_seq_len,), dtype=tf.int32)
token_type_ids_layer = tf.keras.layers.Input(shape=(max_seq_len,), dtype=tf.int32)

outputs = model([input_ids_layer, attention_masks_layer, token_type_ids_layer])

In [None]:
print(outputs[0])
#만들고자 하는 모델이 다:다 구조인 경우에는 outputs[0] 사용
#shape=(None, 128, 768), 입력 128 출력 128
#(배치크기, 문장길이, 단어벡터(토큰))
#768차원 벡터가 128개 있다

In [None]:
print(outputs[1])
#만들고자 하는 모델이 다:1 구조인 경우에는 outputs[1] 사용
#shape=(None, 768), 입력 128 출력 1개
#(배치크기, 단어벡터(토큰))
#768차원 벡터가 1개 있다

In [None]:
# bert 다:1 구조 모델 생성

In [None]:
class TFBertForSequenceClassification(tf.keras.Model):
    def __init__(self, model_name):
        super(TFBertForSequenceClassification, self).__init__()
        self.bert = TFBertModel.from_pretrained(model_name, from_pt=True)
        self.classifier = tf.keras.layers.Dense(1, # 종류 개수로 바뀔 수 있음
                                                kernel_initializer=tf.keras.initializers.TruncatedNormal(0.02),
                                                activation='sigmoid', # softmax 으로 바뀔 수 있음
                                                name='classifier')

    def call(self, inputs):
        input_ids, attention_mask, token_type_ids = inputs
        outputs = self.bert(input_ids=input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids)
        cls_token = outputs[1] # outputs[0] 으로 바뀔 수 있음
        prediction = self.classifier(cls_token)

        return prediction

In [None]:
# TPU 작동을 위한 코드 TPU 작동을 위한 코드
resolver = tf.distribute.cluster_resolver.TPUClusterResolver(tpu='grpc://' + os.environ['COLAB_TPU_ADDR'])
tf.config.experimental_connect_to_cluster(resolver)
tf.tpu.experimental.initialize_tpu_system(resolver)

In [None]:
strategy = tf.distribute.experimental.TPUStrategy(resolver)

In [None]:
with strategy.scope():
  model = TFBertForSequenceClassification("klue/bert-base")
  optimizer = tf.keras.optimizers.Adam(learning_rate=5e-5)
  loss = tf.keras.losses.BinaryCrossentropy()
  model.compile(optimizer=optimizer, loss=loss, metrics = ['accuracy'])

In [None]:
model.fit(train_X, train_y, epochs=2, batch_size=64, validation_split=0.2)

In [None]:
results = model.evaluate(test_X, test_y, batch_size=1024)
print("test loss, test acc: ", results)

In [None]:
def sentiment_predict(new_sentence):
  input_id = tokenizer.encode(new_sentence, max_length=max_seq_len, pad_to_max_length=True)

  padding_count = input_id.count(tokenizer.pad_token_id)
  attention_mask = [1] * (max_seq_len - padding_count) + [0] * padding_count
  token_type_id = [0] * max_seq_len

  input_ids = np.array([input_id])
  attention_masks = np.array([attention_mask])
  token_type_ids = np.array([token_type_id])

  encoded_input = [input_ids, attention_masks, token_type_ids]
  score = model.predict(encoded_input)[0][0]
  print(score)

  if(score > 0.5):
    print("{:.2f}% 확률로 긍정 리뷰입니다.\n".format(score * 100))
  else:
    print("{:.2f}% 확률로 부정 리뷰입니다.\n".format((1 - score) * 100))

In [None]:
sentiment_predict('내 친구 홍길동이가 이 영화를 보고 기겁을 하던데?')

In [None]:
sentiment_predict('우리 엄마가 이 영화를 보셨는데, 끝날때까지 주무셨다고 합니다.')

In [None]:
sentiment_predict('이것도 영화냐?')