In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms
import matplotlib.pyplot as plt

#### 1.PyTorch의 기본 개념을 이해하고, 텐서 연산, 자동 미분, 간단한 신경망 모델을 구현해보기

In [None]:
x = torch.tensor([1, 2, 3])  # 1D 텐서 생성
y = torch.ones(2, 3)         # 모든 값이 1인 2x3 텐서 생성
z = torch.zeros(4, 5)        # 모든 값이 0인 4x5 텐서 생성

print("X: ", x)
print("Y: ", y)
print("Z: ", z)

X:  tensor([1, 2, 3])
Y:  tensor([[1., 1., 1.],
        [1., 1., 1.]])
Z:  tensor([[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]])


In [None]:
# 텐서의 속성
print(x.shape)  # 텐서의 형태
print(y.size()) # 텐서의 크기
print(z.dtype)  # 텐서의 데이터 타입

torch.Size([3])
torch.Size([2, 3])
torch.float32


In [None]:
# 기본연산
a = torch.tensor([1, 2, 3])
b = torch.tensor([4, 5, 6])
c = a + b  # 텐서 덧셈
d = a * b  # 텐서 곱셈

print("덧셈 결과:", c)
print("곱셈 결과:", d)

덧셈 결과: tensor([5, 7, 9])
곱셈 결과: tensor([ 4, 10, 18])


In [None]:
# 행렬 연산
A = torch.tensor([[1, 2], [3, 4]])
B = torch.tensor([[5, 6], [7, 8]])
C = torch.matmul(A, B) # 행렬 곱셈

print("행렬 곱셈 결과:\n", C)

행렬 곱셈 결과:
 tensor([[19, 22],
        [43, 50]])


In [None]:
# 크기가 3x3인 랜덤 텐서 생성
x = torch.rand(3, 3)
y = torch.rand(3, 3)

# 텐서의 합계
z = torch.sum(x)
print("합계:\n", z)

# 텐서의 최대값과 인덱스
z, idx = torch.max(x, dim=0)
print("최대값:\n", z)
print("최대값 인덱스:\n", idx)

합계:
 tensor(3.9603)
최대값:
 tensor([0.8913, 0.5515, 0.6820])
최대값 인덱스:
 tensor([1, 2, 0])


In [None]:
# 연산의 Broadcasting
x = torch.tensor([1, 2, 3])
y = torch.tensor([[1], [2], [3]])
z = x + y

print("x의 덧셈 결과:\n", x)
print("y의 덧셈 결과:\n", y)
print("z의 덧셈 결과:\n", z)
print("x의 형태:", x.shape)
print("y의 형태:", y.shape)
print("z의 형태:", z.shape)

x의 덧셈 결과:
 tensor([1, 2, 3])
y의 덧셈 결과:
 tensor([[1],
        [2],
        [3]])
z의 덧셈 결과:
 tensor([[2, 3, 4],
        [3, 4, 5],
        [4, 5, 6]])
x의 형태: torch.Size([3])
y의 형태: torch.Size([3, 1])
z의 형태: torch.Size([3, 3])


- x의 형태: torch.Size([3]) - [가로]
- y의 형태: torch.Size([3, 1]) - [세로, 가로]
- z의 형태: torch.Size([3, 3])

In [None]:
# 자동 미분 (Autograd), autograd 모듈은 역전파를 통해 자동으로 기울기를 계산

x = torch.tensor([1.0, 3.0, 5.0], requires_grad=True)
y = x + 2
z = y * y * 3
out = z.mean()

out.backward() # 역전파 수행
print(x.grad) # x에 데한 기울기 출력

tensor([ 6., 10., 14.])




```
out = z.mean()

out의 z에 대한 기울기: dout/dz = 1/3, 즉 각 요소에 대해 1/3.
z = 3 * y^2

z의 y에 대한 기울기: dz/dy = 6y.
y = x + 2

y의 x에 대한 기울기: dy/dx = 1.
따라서 x에 대한 기울기는 다음과 같이 계산됩니다.

dz/dx = dz/dy * dy/dx = 6y * 1 = 6y.
dout/dx = dout/dz * dz/dy * dy/dx = (1/3) * 6y.
```



- z의 평균을 계산. 따라서 out의 값은 (27.0 + 75.0 + 147.0) / 3 = 83.0
- x[0]에 대한 기울기:
- y[0] = 3.0, 따라서 dz/dx[0] = 6 * 3.0 = 18.0.
- dout/dx[0] = (1/3) * 18.0 = 6.0.


- x[1]에 대한 기울기:
- y[1] = 5.0, 따라서 dz/dx[1] = 6 * 5.0 = 30.0.
- dout/dx[1] = (1/3) * 30.0 = 10.0.


- x[2]에 대한 기울기:
- y[2] = 7.0, 따라서 dz/dx[2] = 6 * 7.0 = 42.0.
- dout/dx[2] = (1/3) * 42.0 = 14.0.

따라서 x.grad는 [6.0, 10.0, 14.0]가 됩니다.

In [None]:
# requires_grad=True를 설정하여 텐서의 기울기를 계산하도록 지정
x = torch.tensor(2.0, requires_grad=True)
y = torch.tensor(3.0, requires_grad=True)

# 함수 정의
z = x * y + y**2

# 역전파 수행
z.backward()

# 기울기 출력
print("x에 대한 기울기:", x.grad)
print("y에 대한 기울기:", y.grad)

x에 대한 기울기: tensor(3.)
y에 대한 기울기: tensor(8.)


- x에 데한 편미분: y^2는 독립적. x만 계산
- y에 데한 편미분: x + 2y

In [None]:
# 신경망 모듈 (nn.Module),  nn.Module은 신경망의 기본 모듈
import torch.nn as nn
import torch.nn.functional as F

class SimpleNN(nn.Module):
    def __init__(self): # 신경망의 계층을 정의하는 부분
        super(SimpleNN, self).__init__()
        self.fc1 = nn.Linear(784, 512)
        self.fc2 = nn.Linear(512, 256)
        self.fc3 = nn.Linear(256, 128)
        self.fc4 = nn.Linear(128, 64)
        self.fc5 = nn.Linear(64, 10)

    def forward(self, x): # 순전파를 정의하는 부분으로, 입력 데이터가 신경망을 통과하는 방식을 지정
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = F.relu(self.fc3(x))
        x = F.relu(self.fc4(x))
        x = self.fc5(x)
        return x

model = SimpleNN()
print(model)

SimpleNN(
  (fc1): Linear(in_features=784, out_features=512, bias=True)
  (fc2): Linear(in_features=512, out_features=256, bias=True)
  (fc3): Linear(in_features=256, out_features=128, bias=True)
  (fc4): Linear(in_features=128, out_features=64, bias=True)
  (fc5): Linear(in_features=64, out_features=10, bias=True)
)


In [None]:
class CNN(nn.Module):
    def __init__(self):
        super(CNN, self).__init__()

        # 첫 번째 합성곱 층
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=32, kernel_size=3, stride=1, padding=1)
        self.bn1 = nn.BatchNorm2d(32)  # 배치 정규화
        self.pool = nn.MaxPool2d(kernel_size=2, stride=2, padding=0)  # 최대 풀링
        self.dropout1 = nn.Dropout(p=0.25)  # 드롭아웃

        # 두 번째 합성곱 층
        self.conv2 = nn.Conv2d(in_channels=32, out_channels=64, kernel_size=3, stride=1, padding=1)
        self.bn2 = nn.BatchNorm2d(64)  # 배치 정규화
        self.dropout2 = nn.Dropout(p=0.25)  # 드롭아웃

        # 세 번째 합성곱 층
        self.conv3 = nn.Conv2d(in_channels=64, out_channels=128, kernel_size=3, stride=1, padding=1)
        self.bn3 = nn.BatchNorm2d(128)  # 배치 정규화
        self.dropout3 = nn.Dropout(p=0.25)  # 드롭아웃

        # 네 번쨰 합성곱 층
        self.conv4 = nn.Conv2d(in_channels=128, out_channels=256, kernel_size=3, stride=1, padding=1)
        self.bn4 = nn.BatchNorm2d(256)  # 배치 정규화
        self.dropout4 = nn.Dropout(p=0.25)  # 드롭아웃

        # 완전 연결 층
        self.fc1 = nn.Linear(64 * 7 * 7, 256)
        self.bn5 = nn.BatchNorm1d(256)  # 배치 정규화
        self.dropout5 = nn.Dropout(p=0.5)  # 드롭아웃
        self.fc5 = nn.Linear(256, 10)

    def forward(self, x):
        x = self.pool(F.relu(self.bn1(self.conv1(x))))
        x = self.dropout1(x)
        x = self.pool(F.relu(self.bn2(self.conv2(x))))
        x = self.dropout2(x)
        x = self.pool(F.relu(self.bn3(self.conv3(x))))
        x = self.dropout3(x)
        x = self.pool(F.relu(self.bn4(self.conv4(x))))
        x = self.dropout4(x)

        x = x.view(-1, 64 * 7 * 7)  # 평탄화
        x = self.pool(F.relu(self.bn5(self.fc1(x))))

        x = self.dropout5(x)
        x = self.fc5(x)
        return F.log_softmax(x, dim=1)

# 모델 초기화
model_cnn = CNN()
print(model_cnn)

CNN(
  (conv1): Conv2d(1, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
  (bn1): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (pool): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  (dropout1): Dropout(p=0.25, inplace=False)
  (conv2): Conv2d(32, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
  (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (dropout2): Dropout(p=0.25, inplace=False)
  (conv3): Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
  (bn3): BatchNorm2d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (dropout3): Dropout(p=0.25, inplace=False)
  (conv4): Conv2d(128, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
  (bn4): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (dropout4): Dropout(p=0.25, inplace=False)
  (fc1): Linear(in_features=3136, out_features=256, bias=True)

#### 2. 간단한 Seq2Seq 모델 구현해보기 - 1

In [None]:
class Encoder(nn.Module):
    def __init__(self, input_size, emb_size, hidden_size, num_layers, dropout_p=0.1):
        super(Encoder, self).__init__()
        self.embedding = nn.Embedding(input_size, emb_size)
        self.rnn = nn.LSTM(emb_size, hidden_size, num_layers, batch_first=True, dropout=dropout_p)
        self.dropout = nn.Dropout(dropout_p)

    def forward(self, src):
        # 임베딩 후 드롭아웃 적용
        embedded = self.dropout(self.embedding(src))
        # LSTM에 임베딩 벡터 입력
        outputs, (hidden, cell) = self.rnn(embedded)
        # 은닉 상태와 셀 상태 반환
        return hidden, cell


In [None]:
class Decoder(nn.Module):
    def __init__(self, output_size, emb_size, hidden_size, num_layers, dropout_p=0.1):
        super(Decoder, self).__init__()

        self.embedding = nn.Embedding(output_size, emb_size)  # 임베딩 층 정의
        self.rnn = nn.LSTM(emb_size, hidden_size, num_layers, batch_first=True)  # LSTM 층 정의
        self.fc_out = nn.Linear(hidden_size, output_size)  # 완전 연결 층 정의
        self.dropout = nn.Dropout(dropout_p)  # 드롭아웃 정의

    def forward(self, trg, hidden, cell):
        trg = trg.unsqueeze(1)  # trg 형태: [배치 크기, 1]
        embedded = self.dropout(self.embedding(trg))  # 임베딩 후 드롭아웃 적용, embedded 형태: [배치 크기, 1, emb_size]
        output, (hidden, cell) = self.rnn(embedded, (hidden, cell))  # LSTM 적용, output 형태: [배치 크기, 1, hidden_size]
        predictions = self.fc_out(output.squeeze(1))  # 예측값 계산, predictions 형태: [배치 크기, output_size]
        return predictions, hidden, cell  # 예측값과 새로운 은닉 상태, 셀 상태 반환


In [None]:
import torch
import torch.nn as nn
import random

class Seq2Seq(nn.Module):
    def __init__(self, encoder, decoder, device):
        super(Seq2Seq, self).__init__()
        self.encoder = encoder
        self.decoder = decoder
        self.device = device

    def forward(self, src, trg, forcing_ratio=0.5):
        trg_len = trg.shape[0]
        batch_size = src.shape[1]
        trg_vocab_size = self.decoder.embedding.num_embeddings
        outputs = torch.zeros(trg_len, batch_size, trg_vocab_size).to(self.device)

        # 인코더를 통해 입력 시퀀스를 은닉 상태와 셀 상태로 변환
        hidden, cell = self.encoder(src)

        # 첫 입력은 항상 <sos> 토큰 (시작 토큰)
        input = trg[0, :]

        for t in range(1, trg_len):
            # 디코더를 통해 출력 계산
            output, hidden, cell = self.decoder(input, hidden, cell)
            outputs[t] = output

            # teacher forcing 결정
            teacher_force = random.random() < forcing_ratio
            top1 = output.argmax(1)

            # 다음 입력을 teacher forcing에 따라 결정
            input = trg[t] if teacher_force else top1

        return outputs

In [None]:
# 하이퍼파라미터 설정
INPUT_DIM = 1000
OUTPUT_DIM = 1000
ENC_EMB_DIM = 256
DEC_EMB_DIM = 256
HID_DIM = 512
N_LAYERS = 2
ENC_DROPOUT = 0.5
DEC_DROPOUT = 0.5

In [None]:
# 인코더 및 디코더 모델 정의
encoder = Encoder(input_size=INPUT_DIM, emb_size=ENC_EMB_DIM, hidden_size=HID_DIM, num_layers=N_LAYERS, dropout_p=ENC_DROPOUT)
decoder = Decoder(output_size=OUTPUT_DIM, emb_size=DEC_EMB_DIM, hidden_size=HID_DIM, num_layers=N_LAYERS, dropout_p=DEC_DROPOUT)

# Seq2Seq 모델 정의
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model_1 = Seq2Seq(encoder, decoder, device).to(device)

# 모델 구조 출력
print(model_1)

Seq2Seq(
  (encoder): Encoder(
    (embedding): Embedding(1000, 256)
    (rnn): LSTM(256, 512, num_layers=2, batch_first=True, dropout=0.5)
    (dropout): Dropout(p=0.5, inplace=False)
  )
  (decoder): Decoder(
    (embedding): Embedding(1000, 256)
    (rnn): LSTM(256, 512, num_layers=2, batch_first=True)
    (fc_out): Linear(in_features=512, out_features=1000, bias=True)
    (dropout): Dropout(p=0.5, inplace=False)
  )
)


#### 2. 간단한 Seq2Seq 모델 구현해보기 - 2

In [None]:
# 하이퍼파라미터 설정
INPUT_DIM = 1000  # 입력 단어의 개수 (어휘 크기)
OUTPUT_DIM = 1000  # 출력 단어의 개수 (어휘 크기)
HID_DIM = 512  # LSTM의 은닉 상태 크기
N_LAYERS = 2  # LSTM 레이어 수
ENC_DROPOUT = 0.5  # 인코더 드롭아웃 비율
DEC_DROPOUT = 0.5  # 디코더 드롭아웃 비율
MAX_LENGTH = 10  # 최대 시퀀스 길이
SOS_token = 1  # 시작 토큰 인덱스

In [None]:
class EncoderRNN(nn.Module):
    def __init__(self, input_size, hidden_size, dropout_p=0.1):
        super(EncoderRNN, self).__init__()
        self.hidden_size = hidden_size

        # 임베딩 층: 단어를 임베딩 벡터로 변환
        self.embedding = nn.Embedding(input_size, hidden_size)

        # LSTM 층: 임베딩 벡터를 입력으로 받아 인코딩
        self.lstm = nn.LSTM(hidden_size, hidden_size, batch_first=True)

        # 드롭아웃: 과적합 방지를 위해 임베딩 벡터에 드롭아웃 적용
        self.dropout = nn.Dropout(dropout_p)

    def forward(self, input):
        # 입력 시퀀스를 임베딩하고 드롭아웃 적용
        embedded = self.dropout(self.embedding(input))

        # LSTM에 임베딩 벡터를 입력하여 출력과 은닉 상태 반환
        output, hidden = self.lstm(embedded)

        return output, hidden

In [None]:
class DecoderRNN(nn.Module):
    def __init__(self, hidden_size, output_size):
        super(DecoderRNN, self).__init__()
        self.hidden_size = hidden_size
        self.output_size = output_size

        # 임베딩 층: 출력 단어를 임베딩 벡터로 변환
        self.embedding = nn.Embedding(output_size, hidden_size)

        # LSTM 층: 임베딩 벡터를 입력으로 받아 디코딩
        self.lstm = nn.LSTM(hidden_size, hidden_size, batch_first=True)

        # 완전 연결 층: LSTM의 출력을 출력 단어의 크기로 변환
        self.out = nn.Linear(hidden_size, output_size)

    def forward(self, encoder_outputs, encoder_hidden, target_tensor=None, max_length=MAX_LENGTH, teacher_forcing_ratio=0.5):
        batch_size = encoder_outputs.size(0)

        # 첫 번째 디코더 입력을 <sos> 토큰으로 설정
        decoder_input = torch.empty(batch_size, 1, dtype=torch.long, device=device).fill_(SOS_token)

        # 디코더 은닉 상태를 인코더 은닉 상태로 초기화
        decoder_hidden = encoder_hidden

        # 디코더 출력을 저장할 리스트 초기화
        decoder_outputs = []

        for i in range(max_length):
            # 현재 타임스텝의 출력과 은닉 상태 계산
            decoder_output, decoder_hidden = self.forward_step(decoder_input, decoder_hidden)

            # 디코더 출력을 리스트에 저장
            decoder_outputs.append(decoder_output)

            # teacher forcing 결정
            if target_tensor is not None and random.random() < teacher_forcing_ratio:
                # Teacher forcing: 목표 단어를 다음 입력으로 사용
                decoder_input = target_tensor[:, i].unsqueeze(1)
            else:
                # Teacher forcing 미사용: 예측 단어를 다음 입력으로 사용
                _, topi = decoder_output.topk(1)
                decoder_input = topi.squeeze(-1).detach()  # 히스토리 추적을 분리

        # 디코더 출력을 하나의 텐서로 결합
        decoder_outputs = torch.cat(decoder_outputs, dim=1)

        # 출력에 로그 소프트맥스 적용
        decoder_outputs = F.log_softmax(decoder_outputs, dim=-1)

        return decoder_outputs, decoder_hidden, None  # 학습 루프의 일관성을 위해 `None` 반환

    def forward_step(self, input, hidden):
        # 입력 단어를 임베딩하고 ReLU 활성화 함수 적용
        output = self.embedding(input)
        output = F.relu(output)

        # LSTM에 입력하고 출력과 은닉 상태 반환
        output, hidden = self.lstm(output, hidden)

        # 완전 연결 층을 통해 예측 단어로 변환
        output = self.out(output)

        return output, hidden


In [None]:
class Seq2Seq(nn.Module):
    def __init__(self, encoder, decoder, device):
        super(Seq2Seq, self).__init__()
        self.encoder = encoder
        self.decoder = decoder
        self.device = device

    def forward(self, src, trg, max_length=MAX_LENGTH, teacher_forcing_ratio=0.5):
        # 타겟 시퀀스의 길이 및 배치 크기, 출력 단어의 크기
        trg_len = trg.shape[1]
        batch_size = src.shape[0]
        trg_vocab_size = self.decoder.output_size

        # 디코더 출력을 저장할 텐서 초기화
        outputs = torch.zeros(batch_size, trg_len, trg_vocab_size).to(self.device)

        # 인코더를 통해 입력 시퀀스를 은닉 상태와 셀 상태로 변환
        encoder_outputs, encoder_hidden = self.encoder(src)

        # 첫 번째 디코더 입력을 <sos> 토큰으로 설정
        decoder_input = trg[:, 0].unsqueeze(1)
        decoder_hidden = encoder_hidden

        for t in range(1, trg_len):
            # 현재 타임스텝의 출력과 은닉 상태 계산
            decoder_output, decoder_hidden = self.decoder.forward_step(decoder_input, decoder_hidden)

            # 디코더 출력을 텐서에 저장
            outputs[:, t, :] = decoder_output.squeeze(1)

            # teacher forcing 결정
            teacher_force = random.random() < teacher_forcing_ratio
            top1 = decoder_output.argmax(2)

            # 다음 입력을 teacher forcing에 따라 결정
            decoder_input = trg[:, t].unsqueeze(1) if teacher_force else top1

        return outputs


In [None]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

# 인코더 및 디코더 모델 정의
encoder = EncoderRNN(INPUT_DIM, HID_DIM, ENC_DROPOUT)
decoder = DecoderRNN(HID_DIM, OUTPUT_DIM)

# Seq2Seq 모델 정의
model_2 = Seq2Seq(encoder, decoder, device).to(device)

# 모델 구조 출력
print(model_2)

Seq2Seq(
  (encoder): EncoderRNN(
    (embedding): Embedding(1000, 512)
    (lstm): LSTM(512, 512, batch_first=True)
    (dropout): Dropout(p=0.5, inplace=False)
  )
  (decoder): DecoderRNN(
    (embedding): Embedding(1000, 512)
    (lstm): LSTM(512, 512, batch_first=True)
    (out): Linear(in_features=512, out_features=1000, bias=True)
  )
)


#### 3. 실제 데이터셋 사용 - 요약

In [None]:
import requests
dataset_file_origin = 'https://www.gutenberg.org/cache/epub/1513/pg1513-images.html#sceneIII_30.1'

# 요청을 보내고 응답을 받기
response = requests.get(dataset_file_origin)

# 응답이 성공적이면 파일로 저장
if response.status_code == 200:
    # 파일을 열고 데이터 쓰기
    with open("romeo_and_juliet.txt", "w", encoding="utf-8") as file:
        file.write(response.text)
    print("파일이 성공적으로 다운로드되었습니다.")
else:
    print(f"파일 다운로드 실패: 상태 코드 {response.status_code}")

파일이 성공적으로 다운로드되었습니다.


In [None]:
text = ""
with open("romeo_and_juliet.txt", "r", encoding="utf-8") as file:
    text = file.read()
print(text[:100])

<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="utf-8"><style>
#pg-header div, #pg-footer div


In [None]:
# 데이터 전처리 - html tag 제거
import re
from bs4 import BeautifulSoup

# 읽어온 텍스트를 BeautifulSoup 객체로 변환
soup = BeautifulSoup(text, 'html.parser')

# p 태그 중 class가 drama인 태그 선택
drama_paragraphs = soup.find_all('p', class_='drama')

# 텍스트 추출
cleaned_text = ""
for para in drama_paragraphs:
    cleaned_text += para.get_text(separator="\n") + "\n"

# 불필요한 공백 제거
cleaned_text = re.sub(r'\n\s*\n', '\n\n', cleaned_text.strip())

# 결과 출력 (일부만 출력)
print(cleaned_text[:1000])

ESCALUS, Prince of Verona.

MERCUTIO, kinsman to the Prince, and friend to Romeo.

PARIS, a young Nobleman, kinsman to the Prince.

Page to Paris.

MONTAGUE, head of a Veronese family at feud with the Capulets.

LADY MONTAGUE, wife to Montague.

ROMEO, son to Montague.

BENVOLIO, nephew to Montague, and friend to Romeo.

ABRAM, servant to Montague.

BALTHASAR, servant to Romeo.

CAPULET, head of a Veronese family at feud with the Montagues.

LADY CAPULET, wife to Capulet.

JULIET, daughter to Capulet.

TYBALT, nephew to Lady Capulet.

CAPULET’S COUSIN, an old man.

NURSE to Juliet.

PETER, servant to Juliet’s Nurse.

SAMPSON, servant to Capulet.

GREGORY, servant to Capulet.

Servants.

FRIAR LAWRENCE, a Franciscan.

FRIAR JOHN, of the same Order.

An Apothecary.

CHORUS.

Three Musicians.

An Officer.

Citizens of Verona; several Men and Women, relations to both
houses; Maskers, Guards, Watchmen and Attendants.

CHORUS.

Two households, both alike in dignity,

In fair Verona, where we

In [None]:
# 데이터 전처리
chars = sorted(list(set(cleaned_text)))
char_to_idx = {char: idx for idx, char in enumerate(chars)}
idx_to_char = {idx: char for idx, char in enumerate(chars)}

In [None]:
# 시퀀스 데이터 생성 함수 정의
def create_sequences(text, seq_length):
    sequences = []
    targets = []
    for i in range(0, len(text) - seq_length):
        seq = text[i:i+seq_length]   # 시퀀스 생성
        target = text[i+seq_length]  # 시퀀스 다음에 오는 문자
        sequences.append([char_to_idx[char] for char in seq])
        targets.append(char_to_idx[target])
    return sequences, targets

In [None]:
# 시퀀스 길이 설정
seq_length = 100

# 시퀀스 데이터 생성
sequences, targets = create_sequences(cleaned_text, seq_length)

In [None]:
print(sequences[:10])

[[13, 27, 11, 9, 20, 29, 27, 3, 1, 24, 53, 44, 49, 38, 40, 1, 50, 41, 1, 30, 40, 53, 50, 49, 36, 5, 0, 0, 21, 13, 26, 11, 29, 28, 17, 23, 3, 1, 46, 44, 49, 54, 48, 36, 49, 1, 55, 50, 1, 55, 43, 40, 1, 24, 53, 44, 49, 38, 40, 3, 1, 36, 49, 39, 1, 41, 53, 44, 40, 49, 39, 1, 55, 50, 1, 26, 50, 48, 40, 50, 5, 0, 0, 24, 9, 26, 17, 27, 3, 1, 36, 1, 60, 50, 56, 49, 42, 1, 22, 50], [27, 11, 9, 20, 29, 27, 3, 1, 24, 53, 44, 49, 38, 40, 1, 50, 41, 1, 30, 40, 53, 50, 49, 36, 5, 0, 0, 21, 13, 26, 11, 29, 28, 17, 23, 3, 1, 46, 44, 49, 54, 48, 36, 49, 1, 55, 50, 1, 55, 43, 40, 1, 24, 53, 44, 49, 38, 40, 3, 1, 36, 49, 39, 1, 41, 53, 44, 40, 49, 39, 1, 55, 50, 1, 26, 50, 48, 40, 50, 5, 0, 0, 24, 9, 26, 17, 27, 3, 1, 36, 1, 60, 50, 56, 49, 42, 1, 22, 50, 37], [11, 9, 20, 29, 27, 3, 1, 24, 53, 44, 49, 38, 40, 1, 50, 41, 1, 30, 40, 53, 50, 49, 36, 5, 0, 0, 21, 13, 26, 11, 29, 28, 17, 23, 3, 1, 46, 44, 49, 54, 48, 36, 49, 1, 55, 50, 1, 55, 43, 40, 1, 24, 53, 44, 49, 38, 40, 3, 1, 36, 49, 39, 1, 41, 53, 44

In [None]:
# PyTorch Dataset 및 데이터로더 생성
from torch.utils.data import Dataset

class TextDataset(Dataset):
    def __init__(self, sequences, targets, seq_length):
        self.sequences = sequences
        self.targets = targets
        self.seq_length = seq_length

    def __len__(self):
        return len(self.sequences)

    def __getitem__(self, idx):
        input_seq = torch.tensor(self.sequences[idx], dtype=torch.long)
        target_seq = torch.tensor(self.targets[idx], dtype=torch.long)
        return input_seq, target_seq

In [None]:
# 데이터셋 및 데이터로더 인스턴스 생성
dataset = TextDataset(sequences, targets, seq_length)
dataloader = torch.utils.data.DataLoader(dataset, batch_size=64, shuffle=True)

In [None]:
# 하이퍼파라미터 설정
vocab_size = len(chars)
hidden_size = 256
output_size = len(chars)
num_layers = 2

- Seq2Seq 모델 정의

In [None]:
class EncoderRNN(nn.Module):
    def __init__(self, input_size, hidden_size, num_layers=1, dropout_p=0.1):
        super(EncoderRNN, self).__init__()
        self.hidden_size = hidden_size
        self.num_layers = num_layers

        self.embedding = nn.Embedding(input_size, hidden_size)
        self.lstm = nn.LSTM(hidden_size, hidden_size, num_layers, batch_first=True, dropout=dropout_p)
        self.dropout = nn.Dropout(dropout_p)

    def forward(self, input):
        embedded = self.dropout(self.embedding(input))
        output, hidden = self.lstm(embedded)
        return output, hidden


In [None]:
class DecoderRNN(nn.Module):
    def __init__(self, hidden_size, output_size, num_layers=1):
        super(DecoderRNN, self).__init__()
        self.hidden_size = hidden_size
        self.output_size = output_size
        self.num_layers = num_layers

        self.embedding = nn.Embedding(output_size, hidden_size)
        self.lstm = nn.LSTM(hidden_size, hidden_size, num_layers, batch_first=True)
        self.out = nn.Linear(hidden_size, output_size)

    def forward(self, input, hidden, cell):
        embedded = self.embedding(input)
        embedded = F.relu(embedded)
        output, (hidden, cell) = self.lstm(embedded, (hidden, cell))
        output = self.out(output.squeeze(1))
        return output, hidden, cell

In [None]:
class Seq2Seq(nn.Module):
    def __init__(self, encoder, decoder, device):
        super(Seq2Seq, self).__init__()
        self.encoder = encoder
        self.decoder = decoder
        self.device = device

    def forward(self, src, trg, teacher_forcing_ratio=0.5):
        batch_size = src.shape[0]
        trg_len = trg.shape[1]
        trg_vocab_size = self.decoder.output_size

        outputs = torch.zeros(batch_size, trg_len, trg_vocab_size).to(self.device)

        encoder_output, (hidden, cell) = self.encoder(src)

        input = trg[:, 0].unsqueeze(1)

        for t in range(1, trg_len):
            output, hidden, cell = self.decoder(input, hidden, cell)
            outputs[:, t] = output
            teacher_force = random.random() < teacher_forcing_ratio
            top1 = output.argmax(1)
            input = trg[:, t].unsqueeze(1) if teacher_force else top1.unsqueeze(1)

        return outputs


In [None]:
# 하이퍼파라미터 설정
vocab_size = len(chars)
hidden_size = 256
output_size = len(chars)
num_layers = 2
dropout_p = 0.5
learning_rate = 0.001
num_epochs = 5
MAX_LENGTH = 100
SOS_token = char_to_idx[' ']

In [None]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

# 인코더 및 디코더 모델 초기화
encoder = EncoderRNN(vocab_size, hidden_size, num_layers, dropout_p).to(device)
decoder = DecoderRNN(hidden_size, vocab_size, num_layers).to(device)

# Seq2Seq 모델 초기화
model = Seq2Seq(encoder, decoder, device).to(device)

# 손실 함수와 옵티마이저 정의
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=learning_rate)

In [None]:
# 학습 루프
for epoch in range(num_epochs):
    model.train()
    total_loss = 0
    for input_tensor, target_tensor in dataloader:
        input_tensor, target_tensor = input_tensor.to(device), target_tensor.to(device)

        optimizer.zero_grad()
        target_tensor = target_tensor.unsqueeze(1).repeat(1, MAX_LENGTH)

        output = model(input_tensor, target_tensor, teacher_forcing_ratio=0.5)

        loss = criterion(output.view(-1, output_size), target_tensor.view(-1))
        loss.backward()
        optimizer.step()

        total_loss += loss.item()

    print(f'Epoch {epoch+1}, Loss: {total_loss / len(dataloader):.4f}')

Epoch 1, Loss: 0.1170
Epoch 2, Loss: 0.0455
Epoch 3, Loss: 0.0483
Epoch 4, Loss: 0.0430
Epoch 5, Loss: 0.0441


In [None]:
def predict(model, start_char, char_to_idx, idx_to_char, max_length=100):
    model.eval()
    with torch.no_grad():
        input = torch.tensor([char_to_idx[start_char]], dtype=torch.long).unsqueeze(0).to(device)
        _, (hidden, cell) = model.encoder(input)

        input = input[:, -1].unsqueeze(1)
        predicted_seq = start_char

        for _ in range(max_length - 1):
            output, (hidden, cell) = model.decoder(input, hidden, cell)
            top1 = output.argmax(1)
            char = idx2char[top1.item()]
            predicted_seq += char
            input = top1.unsqueeze(1)

        return predicted_seq


In [None]:
# 예측 예제
start_char = 'h'
generated_text = predict(model, start_char, char_to_idx, idx_to_char, max_length=100)
print(f'Generated text: {generated_text}')

AttributeError: 'tuple' object has no attribute 'dim'