# Pytorch
- 구글의 tensorflow와 유사한 딥러닝 라이브러리
- 페이스북 인공지능 연구팀에 의해 주로 개발
- torch
    - 텐서 변환및 다양한 수학 함수와 클래스가 들어가 있다.
- torch.nn
     - 신경망을 구축하기위한 레이어(층), 활성화 함수, 손실함수 등이 들어가 있다.
- torch.utils.data
    - 미니 배치 학습을 위한 데이터셋을 구성하는 클래스들이 들어가 있다.
- torch.optim
    - optimizer 관련된 함수와 클래스가 있다.

In [1]:
import torch 
import numpy as np

# 텐서(Tensor)
- N-차원 배열
- 텐서는 다차원 배열이나 행렬과 매우 유사한 특수한 자료구조
- pytorch 에서는 텐서를 딥러닝 모델의 입력과 출력으로 하여 학습을 진행 

## 텐서 만들기

- tensor 함수
    - 입력받은 데이터를 텐서 객체로 반환

In [2]:
data = [
    [1,2,3],
    [4,5,6]
]
x = torch.tensor(data)
x

tensor([[1, 2, 3],
        [4, 5, 6]])

In [3]:
type(x)

torch.Tensor

In [4]:
x.dtype

torch.int64

In [5]:
arr = np.array(data)
torch.tensor(arr)

tensor([[1, 2, 3],
        [4, 5, 6]])

In [6]:
arr

array([[1, 2, 3],
       [4, 5, 6]])

- Tensor 클래스
    - 입력받은 데이터를 텐서 객체로 반환
    - 다른점은 데이터 타입을 float32 로 변경해준다.

In [7]:
x = torch.Tensor(arr)
x

tensor([[1., 2., 3.],
        [4., 5., 6.]])

- ones , zeros

In [8]:
ones_tensor = torch.ones(2,3)
ones_tensor

tensor([[1., 1., 1.],
        [1., 1., 1.]])

In [9]:
zeros_tensor = torch.zeros(2,3)
zeros_tensor

tensor([[0., 0., 0.],
        [0., 0., 0.]])

In [10]:
torch.cat([ones_tensor,zeros_tensor],dim=1)

tensor([[1., 1., 1., 0., 0., 0.],
        [1., 1., 1., 0., 0., 0.]])

# 차원 변경
- view 메소드
    - 원소의 순서대로 차원을 변경해서 반환

In [11]:
x = torch.Tensor(arr)
x

tensor([[1., 2., 3.],
        [4., 5., 6.]])

In [12]:
x_view = x.view(3,2)
x_view

tensor([[1., 2.],
        [3., 4.],
        [5., 6.]])

- 복사하기

In [13]:
x.clone()

tensor([[1., 2., 3.],
        [4., 5., 6.]])

- transpose 메소드
    - 차원 맞바꾸기
    - 두개의 차원만 가능

In [14]:
x

tensor([[1., 2., 3.],
        [4., 5., 6.]])

In [15]:
x.transpose(0,1)

tensor([[1., 4.],
        [2., 5.],
        [3., 6.]])

- permute 메소드
    - 여러개 차원 맞바꾸기

In [16]:
arr = np.arange(1,25).reshape(2,3,4)
arr

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[13, 14, 15, 16],
        [17, 18, 19, 20],
        [21, 22, 23, 24]]])

In [17]:
x = torch.Tensor(arr)
x

tensor([[[ 1.,  2.,  3.,  4.],
         [ 5.,  6.,  7.,  8.],
         [ 9., 10., 11., 12.]],

        [[13., 14., 15., 16.],
         [17., 18., 19., 20.],
         [21., 22., 23., 24.]]])

In [18]:
x.shape

torch.Size([2, 3, 4])

In [19]:
x.permute(0,2,1).shape

torch.Size([2, 4, 3])

In [20]:
x.permute(0,2,1)

tensor([[[ 1.,  5.,  9.],
         [ 2.,  6., 10.],
         [ 3.,  7., 11.],
         [ 4.,  8., 12.]],

        [[13., 17., 21.],
         [14., 18., 22.],
         [15., 19., 23.],
         [16., 20., 24.]]])

# 모델 학습에 사용할 CPU or GPU 장치 확인

In [21]:
device = "cuda" if torch.cuda.is_available() else "cpu"
device

'cpu'

- 텐서를 gpu로 이동시키기

In [22]:
x = x.to(device)
x

tensor([[[ 1.,  2.,  3.,  4.],
         [ 5.,  6.,  7.,  8.],
         [ 9., 10., 11., 12.]],

        [[13., 14., 15., 16.],
         [17., 18., 19., 20.],
         [21., 22., 23., 24.]]])

- 텐서가 위치한 장치 확인하기

In [23]:
x.device

device(type='cpu')

In [24]:
x = x.to("cpu")
x.device

device(type='cpu')

In [25]:
from google.colab import drive
drive.mount("/content/drive")

Mounted at /content/drive


In [26]:
DATA_PATH = "/content/drive/MyDrive/03-data-processing/data/"

In [27]:
# 아래 복붙
import pandas as pd
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold
from lightgbm import LGBMClassifier
df = pd.read_csv(f"{DATA_PATH}titanic.csv")
# 결측치 미리 채우기
df.age = df.age.fillna(df.age.median()) # age 중앙값
df.fare = df.fare.fillna(df.fare.median()) # fare 중앙값
df.cabin = df.cabin.fillna("UNK") # cabin 임의의 문자열로 채우기
df.embarked = df.embarked.fillna(df.embarked.mode()[0]) # embarked 최빈값
# 학습에 바로 사용가능한 특성
cols = ["pclass","age","sibsp","parch","fare"]
features = df[cols]
# 범주형 one-hot encoding
cols = ["gender","embarked"]
enc = OneHotEncoder()
tmp = pd.DataFrame(
    enc.fit_transform(df[cols]).toarray(),
    columns = enc.get_feature_names_out()
)
features = pd.concat([features,tmp],axis=1) # 특성
target = df["survived"].to_numpy() # 정답값
# 스케일링
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
features = scaler.fit_transform(features)
SEED = 42
# 학습 검증 나누기
from sklearn.model_selection import train_test_split
x_train, x_valid, y_train, y_valid = train_test_split(features, target, random_state=SEED)
x_train.shape, x_valid.shape, y_train.shape, y_valid.shape

((981, 10), (328, 10), (981,), (328,))

# Dataset 와 DataLoader
- torch.utils.data.Dataset
    - 학습데이터와 정답을 저장해서 인덱싱을 통해 반환하는 클래스
- torch.utils.data.DataLoader
    - Dataset의 데이터를 쉽게 접근 할수 있도록 iterable 한 객체를 만들어 준다.

In [28]:
class TitanicDataset(torch.utils.data.Dataset):
    def __init__(self,x,y = None):
        self.x = x
        self.y = y
        if self.y is not None:
            self.y = y.astype("float32").reshape(-1,1)
    def __len__(self):
        return self.x.shape[0]
    def __getitem__(self,idx):
        item = {}
        item["x"] = torch.Tensor(self.x[idx])
        if self.y is not None:
            item["y"] = torch.Tensor(self.y[idx])
        return item

In [29]:
train_dt = TitanicDataset(x_train,y_train)
train_dt

<__main__.TitanicDataset at 0x7f99fbf02f10>

In [30]:
train_dt[0]

{'x': tensor([0.5000, 0.3611, 0.1250, 0.0000, 0.0507, 1.0000, 0.0000, 0.0000, 0.0000,
         1.0000]), 'y': tensor([1.])}

In [31]:
train_dl = torch.utils.data.DataLoader(train_dt,batch_size=2,shuffle=False)
train_dl

<torch.utils.data.dataloader.DataLoader at 0x7f99e96dc910>

In [32]:
next(iter(train_dl))

{'x': tensor([[0.5000, 0.3611, 0.1250, 0.0000, 0.0507, 1.0000, 0.0000, 0.0000, 0.0000,
          1.0000],
         [1.0000, 0.5365, 0.1250, 0.6667, 0.0915, 1.0000, 0.0000, 0.0000, 0.0000,
          1.0000]]), 'y': tensor([[1.],
         [0.]])}

# 모델 계층(Layer) 정의해보기
- torch.nn.Linear
    - 가중치와 편향을 사용해서 입력에 대해 선형변환
    - in_features
        - 입력값의 개수
    - out_features
        - 출력값의 개수

In [33]:
x_train.shape[1]

10

In [34]:
torch.manual_seed(SEED)
torch.cuda.manual_seed(SEED)

input_layer = torch.nn.Linear(x_train.shape[1],1)
data = next(iter(train_dl))

hidden_layer = input_layer(data["x"])
hidden_layer

tensor([[0.3096],
        [0.6673]], grad_fn=<AddmmBackward0>)

# 모델 만들기
- Pytorch 에서 신경망 모델은 torch.nn.Module 을 상속받아서 클래스를 생성해서 정의
- `__init__` 메소드에서는 신경망의 계층들을 정의
- `forward` 메소드에서는 신경망에서 텐서를 어떻게 전달할지를 지정

In [35]:
class LogisticRegression(torch.nn.Module):
    def __init__(self,in_features):
        super().__init__()
        self.hidden_layer = torch.nn.Linear(in_features,1)
        # self.sig = torch.nn.Sigmoid()
    def forward(self,x):
        x = self.hidden_layer(x)
        # x = self.sig(x)
        return x

In [36]:
model = LogisticRegression(x_train.shape[1])
model(data["x"])

tensor([[0.0070],
        [0.2196]], grad_fn=<AddmmBackward0>)

# 모델 학습

In [37]:
batch_size = 32 # 미니 배치 사이즈

- 손실함수 객체 생성

In [38]:
loss_fn = torch.nn.BCEWithLogitsLoss() # 모델 출력에 시그모이드함수를 통과시켜 BCE 계산

- 모델 객체 생성

In [39]:
model = LogisticRegression(x_train.shape[1]).to(device)

- optimizer 객체 생성

In [40]:
optimizer = torch.optim.Adam(model.parameters(),lr=0.001)

- 학습데이터 객체 생성

In [41]:
train_dt = TitanicDataset(x_train,y_train)
train_dl = torch.utils.data.DataLoader(train_dt,batch_size=batch_size,shuffle=True)

- 학습하기

In [42]:
model.train()

epoch_loss = 0
for batch in train_dl:
    pred = model(batch["x"].to(device))
    loss = loss_fn(pred,batch["y"].to(device))

    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

    epoch_loss += loss.item()
    
epoch_loss /= len(train_dl)

print(f"epoch loss: {epoch_loss}")

epoch loss: 0.7615217739535917


- 학습 loop 함수화

In [43]:
def train_loop(train_dl,model,loss_fn,optimizer,device):
    model.train()
    epoch_loss = 0
    for batch in train_dl:
        pred = model(batch["x"].to(device))
        loss = loss_fn(pred,batch["y"].to(device))

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        epoch_loss += loss.item()
        
    epoch_loss /= len(train_dl)
    return epoch_loss

In [44]:
train_loop(train_dl,model,loss_fn,optimizer,device)

0.7423399283039954

- 검증셋에 대한 평가 loop 함수화

In [45]:
@torch.no_grad()
def test_loop(dataloader,model,loss_fn,device):
    epoch_loss = 0
    model.eval()

    for batch in dataloader:
        pred = model(batch["x"].to(device))
        loss = loss_fn(pred,batch["y"].to(device))
        epoch_loss += loss.item()
            
    epoch_loss /= len(dataloader)
    return epoch_loss

In [46]:
valid_dt = TitanicDataset(x_valid,y_valid)
valid_dl = torch.utils.data.DataLoader(valid_dt,batch_size=batch_size,shuffle=False)

In [47]:
test_loop(valid_dl,model,loss_fn,device)

0.7517904259941794

- 검증평가 뿐만 아니라 테스트데이터에 대한 예측만 해야하는 상황이라면?

In [48]:
@torch.no_grad()
def test_loop(dataloader,model,loss_fn,device):
    epoch_loss = 0
    model.eval()

    pred_list = []
    sig = torch.nn.Sigmoid()

    for batch in dataloader:
        pred = model(batch["x"].to(device))

        if batch.get("y") is not None: # y값이 있을 경우만 loss 계산
            loss = loss_fn(pred,batch["y"].to(device))
            epoch_loss += loss.item()
        
        pred = sig(pred) # 시그모이드 함수 통과, 0 ~ 1 확률값으로 변경
        pred = pred.to("cpu").numpy() # cpu 이동후 numpy 변환
        pred_list.append(pred)

    epoch_loss /= len(dataloader)

    pred = np.concatenate(pred_list)

    return epoch_loss,pred

In [49]:
x_test = x_valid.copy() # 테스트 데이터라고 가정하고 복사

In [50]:
test_dt = TitanicDataset(x_test)
test_dl = torch.utils.data.DataLoader(test_dt,batch_size=batch_size,shuffle=False)

_,pred = test_loop(test_dl,model,loss_fn,device)
pred

array([[0.43548584],
       [0.50419056],
       [0.43547758],
       [0.46744052],
       [0.37289846],
       [0.26883337],
       [0.37289846],
       [0.35799813],
       [0.31267574],
       [0.36820227],
       [0.43127477],
       [0.43652943],
       [0.4395618 ],
       [0.3198314 ],
       [0.43592188],
       [0.35671872],
       [0.37021402],
       [0.4354708 ],
       [0.40801257],
       [0.44177526],
       [0.4711563 ],
       [0.4391496 ],
       [0.42718893],
       [0.42771393],
       [0.4407235 ],
       [0.45517012],
       [0.43339115],
       [0.43762025],
       [0.46477994],
       [0.32468432],
       [0.43568015],
       [0.36222067],
       [0.3728993 ],
       [0.4301358 ],
       [0.4976283 ],
       [0.4899348 ],
       [0.37889856],
       [0.3114683 ],
       [0.43548125],
       [0.32646543],
       [0.5025921 ],
       [0.33414972],
       [0.37290213],
       [0.4286808 ],
       [0.44236574],
       [0.46511748],
       [0.42158246],
       [0.369

# 10에폭 학습 하고 검증평가해보기

In [51]:
epochs = 10
for epoch in range(epochs):
    print(f"{epoch+1} epoch 시작")
    train_loss = train_loop(train_dl, model, loss_fn, optimizer, device)
    valid_loss , pred = test_loop(valid_dl, model, loss_fn, device)
    print(train_loss, valid_loss)

1 epoch 시작
0.7284330033486889 0.7388763644478538
2 epoch 시작
0.7147180226541334 0.7264711911028082
3 epoch 시작
0.7007835603529408 0.7149528319185431
4 epoch 시작
0.6898600939781435 0.7038845907558094
5 epoch 시작
0.6781554568198419 0.6928930553522977
6 epoch 시작
0.6673279058548712 0.682576445015994
7 epoch 시작
0.6592964856855331 0.6726287711750377
8 epoch 시작
0.6484159096594779 0.6627776189283892
9 epoch 시작
0.6379899747910038 0.6531625660982999
10 epoch 시작
0.6300130005805723 0.6440484957261519


In [52]:
from sklearn.metrics import roc_auc_score
roc_auc_score(y_valid,pred)

0.7694036501724338

# 정리해보자

## dataset 정의

In [53]:
class TitanicDataset(torch.utils.data.Dataset):
    def __init__(self,x,y = None):
        self.x = x
        self.y = y
        if self.y is not None:
            self.y = y.astype("float32").reshape(-1,1)
    def __len__(self):
        return self.x.shape[0]
    def __getitem__(self,idx):
        item = {}
        item["x"] = torch.Tensor(self.x[idx])
        if self.y is not None:
            item["y"] = torch.Tensor(self.y[idx])
        return item

## 모델 정의

In [61]:
class LogisticRegression(torch.nn.Module):
    def __init__(self,in_features):
        super().__init__()
        self.hidden_layer = torch.nn.Linear(in_features,1)
        # self.sig = torch.nn.Sigmoid()
    def forward(self,x):
        x = self.hidden_layer(x)
        # x = self.sig(x)
        return x

## 학습하는 함수 정의

In [55]:
def train_loop(train_dl,model,loss_fn,optimizer,device):
    model.train()
    epoch_loss = 0
    for batch in train_dl:
        pred = model(batch["x"].to(device))
        loss = loss_fn(pred,batch["y"].to(device))

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        epoch_loss += loss.item()
        
    epoch_loss /= len(train_dl)
    return epoch_loss

## 평가 or 예측 하는 함수정의

In [56]:
@torch.no_grad()
def test_loop(dataloader,model,loss_fn,device):
    epoch_loss = 0
    model.eval()

    pred_list = []
    sig = torch.nn.Sigmoid()

    for batch in dataloader:
        pred = model(batch["x"].to(device))

        if batch.get("y") is not None: # y값이 있을 경우만 loss 계산
            loss = loss_fn(pred,batch["y"].to(device))
            epoch_loss += loss.item()
        
        pred = sig(pred) # 시그모이드 함수 통과, 0 ~ 1 확률값으로 변경
        pred = pred.to("cpu").numpy() # cpu 이동후 numpy 변환
        pred_list.append(pred)

    epoch_loss /= len(dataloader)

    pred = np.concatenate(pred_list)

    return epoch_loss,pred

## 학습에 필요한 손실과 최적화등 하이퍼 파라미터 정의

In [66]:
loss_fn = torch.nn.BCEWithLogitsLoss()
epoch = 1000
batch_size = 32
num_features = x_train.shape[1]

In [67]:
from sklearn.model_selection import KFold
cv = KFold(n_splits=5,shuffle=True,random_state=SEED)

In [68]:
features.shape , target.shape

((1309, 10), (1309,))

- 검증셋 평가 및 검증셋에 대한 AUC 개선이 없을 경우 조기 종료 조건주고 모델 가중치를 저장하기

In [72]:
is_holdout = False
for i,(tri,vai) in enumerate(cv.split(features)):
    # 학습데이터
    x_train = features[tri]
    y_train = target[tri]

    # 검증데이터
    x_valid = features[vai]
    y_valid = target[vai]

    model = LogisticRegression(num_features).to(device)
    optimizer = torch.optim.Adam(model.parameters())

    train_dt = TitanicDataset(x_train,y_train)
    valid_dt = TitanicDataset(x_valid,y_valid)

    train_dl = torch.utils.data.DataLoader(train_dt,batch_size=batch_size,shuffle=True)
    valid_dl = torch.utils.data.DataLoader(valid_dt,batch_size=batch_size,shuffle=False)

    

    best_score = 0
    patience = 0
    for e in range(epoch):
        train_loss = train_loop(train_dl, model, loss_fn, optimizer, device)
        valid_loss,pred = test_loop(valid_dl, model, loss_fn, device)

        score = roc_auc_score(y_valid,pred)
        patience += 1
        if best_score < score:
            patience = 0
            best_score = score
            torch.save(model.state_dict(),f"model_{i}.pth")
            
        if patience == 5:
            break
    print(f"{i} 번째 폴드 AUC: {best_score}")

    if is_holdout:
        break

0 번째 폴드 AUC: 0.8837088599865666
1 번째 폴드 AUC: 0.8919113955823293
2 번째 폴드 AUC: 0.8824742268041237
3 번째 폴드 AUC: 0.9097120098039215
4 번째 폴드 AUC: 0.8888257575757577


In [74]:
x_test.shape

(328, 10)

- 저장된 모델 불러오고 추론하기

In [76]:
test_dt = TitanicDataset(x_test)
test_dl = torch.utils.data.DataLoader(test_dt,batch_size=batch_size,shuffle=False)

In [78]:
pred_list = []
for i in range(5):
    model = LogisticRegression(num_features).to(device)
    state_dict = torch.load(f"model_{i}.pth")
    model.load_state_dict(state_dict)
    _, pred = test_loop(test_dl,model,loss_fn,device)
    pred_list.append(pred)
pred = np.mean(pred_list, axis = 0)
pred

array([[0.19209309],
       [0.2653097 ],
       [0.19205579],
       [0.22256497],
       [0.59340984],
       [0.61793673],
       [0.59340984],
       [0.6140162 ],
       [0.5676948 ],
       [0.24069309],
       [0.18858854],
       [0.1929297 ],
       [0.32876956],
       [0.7180167 ],
       [0.19406572],
       [0.62401533],
       [0.5883368 ],
       [0.19202532],
       [0.2776894 ],
       [0.1972495 ],
       [0.2258862 ],
       [0.19507463],
       [0.19800892],
       [0.1984699 ],
       [0.1963723 ],
       [0.4526525 ],
       [0.1903877 ],
       [0.19171485],
       [0.22994776],
       [0.55241024],
       [0.19296941],
       [0.61825466],
       [0.5934164 ],
       [0.2020663 ],
       [0.29543576],
       [0.21830778],
       [0.60124093],
       [0.5453297 ],
       [0.19207218],
       [0.59017694],
       [0.26373625],
       [0.5698945 ],
       [0.5934391 ],
       [0.18657194],
       [0.36188242],
       [0.21934755],
       [0.1852561 ],
       [0.232