# Torch Sequential 실습

In [1]:
import torch
from torch import nn, optim

### Torch Tensors

In [2]:
# gpu 사용이 가능한지 확인한 후 사용 가능하면 'cuda' 아니면 'cpu' 값을 device에 설정하세요.


'cuda'

In [3]:
# 리스트 [1,2,3,4]를 tensor로 변환하세요.


tensor([1, 2, 3, 4])

In [4]:
# 리스트 [1,2,3,4]를 float type tensor로 변환하세요.


tensor([1., 2., 3., 4.])

In [5]:
# 리스트 [1,2,3,4]를 float type tensor로 변환하세요.


tensor([1., 2., 3., 4.])

In [6]:
# 리스트 [1,2,3,4]를 float64 type tensor로 변환하세요.


tensor([1., 2., 3., 4.], dtype=torch.float64)

In [7]:
# 리스트 [1,2,3,4]를 정수 타입 tensor로 변환하세요.


tensor([1, 2, 3, 4], dtype=torch.int32)

In [8]:
# 리스트 [1,2,3,4]를 정수64 타입 tensor로 변환하세요.


tensor([1, 2, 3, 4])

In [9]:
# t의 차원 크기를 조회하세요.


1

In [10]:
# t의 shape을 조회하세요.


torch.Size([4])

In [12]:
# t의 shape을 [1,4]로 변경하세요.


tensor([[1, 2, 3, 4]])

In [14]:
# t에 축을 하나 추가하고 t에 저장하세요.


tensor([[1],
        [2],
        [3],
        [4]])

In [15]:
# t의 shape을 조회하세요.


torch.Size([4, 1])

In [16]:
# t의 새 축을 0번 축에 추가하고 저장하세요.


tensor([[[1],
         [2],
         [3],
         [4]]])

In [17]:
# t의 shape을 조회하세요.


torch.Size([1, 4, 1])

In [18]:
# t의 맨 마지막 축을 제거하고 t에 저장하세요.


tensor([[1, 2, 3, 4]])

In [19]:
# t의 shape을 조회하세요.


torch.Size([1, 4])

In [20]:
# t를 복사하여 t2에 저장하세요.


tensor([[1, 2, 3, 4]])

In [21]:
# t2를 numpy array로 변환하세요.


array([[1, 2, 3, 4]], dtype=int64)

In [22]:
# t를 device에 할당한 후 t에 저장하세요.


tensor([[1, 2, 3, 4]], device='cuda:0')

In [23]:
# t를 numpy array로 변환하세요.


array([[1, 2, 3, 4]], dtype=int64)

In [24]:
# t를 numpy array로 변환하세요.


array([[1, 2, 3, 4]], dtype=int64)

### Torch Sequential Model

In [25]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

 - 다이아몬드 가격을 Sequential 모델로 예측

In [26]:
# diamonds.csv 로드


In [27]:
# 문자열 인코딩
def encode_cut(x):
    return {'Fair':0, 'Good':1, 'Very Good':2, 'Premium':3, 'Ideal':4}[x]

def encode_color(x):
    return abs(ord(x)-74)

def encode_clarity(x):
    return {'I1':0, 'SI2':1, 'SI1':2, 'VS2':3, 'VS1':4, 'VVS2':5, 'VVS1':6, 'IF':7}[x]

diamond['cut'] = diamond['cut'].apply(encode_cut)
diamond['color'] = diamond['color'].apply(encode_color)
diamond['clarity'] = diamond['clarity'].apply(encode_clarity)

In [34]:
# 데이터 선택
features = [
    'carat',
    'cut',
    'color',
    'clarity',
    'depth',
    'table',
    'x',
    'y',
    'z'
]
X = diamond[features]
Y = diamond['price']

In [30]:
# 데이터 분할


(37758, 9)

In [40]:
# 비교를 위해 GrandientBoosting으로 모델링한 결과를 출력하세요.
# 평가 측도는 mse입니다.


(363227.58354604786, 386611.2288453066)

In [42]:
# 시드를 777로 설정하세요.
# gpu를 사용한다면 cuda 시드도 설정하세요.


In [43]:
# Sequential 모델을 이용하여 DNN을 구성하세요.
# 두 개의 은닉층은 각각 64, 32개 퍼셉트론
# 활성화는 relu


In [44]:
# 모델 구조를 출력하세요.


Sequential(
  (0): Linear(in_features=9, out_features=64, bias=True)
  (1): ReLU()
  (2): Linear(in_features=64, out_features=32, bias=True)
  (3): ReLU()
  (4): Linear(in_features=32, out_features=1, bias=True)
)


In [45]:
# 모델의 summary를 출력하세요.


Layer (type:depth-idx)                   Param #
Sequential                               --
├─Linear: 1-1                            640
├─ReLU: 1-2                              --
├─Linear: 1-3                            2,080
├─ReLU: 1-4                              --
├─Linear: 1-5                            33
Total params: 2,753
Trainable params: 2,753
Non-trainable params: 0

In [46]:
# 데이터에 적합한 loss와 optimizer를 선정하여 설정하세요.


In [47]:
# train 데이터를 학습시키세요.
# epoch=100000회


Epoch: 0/100000, Loss: 31750162.0
Epoch: 10000/100000, Loss: 389169.40625
Epoch: 20000/100000, Loss: 310860.59375
Epoch: 30000/100000, Loss: 300641.9375
Epoch: 40000/100000, Loss: 299175.3125
Epoch: 50000/100000, Loss: 334798.28125
Epoch: 60000/100000, Loss: 288774.71875
Epoch: 70000/100000, Loss: 284464.625
Epoch: 80000/100000, Loss: 289057.71875
Epoch: 90000/100000, Loss: 285846.65625
Epoch: 100000/100000, Loss: 288479.46875


In [48]:
# model의 구성을 변경하여 다시 학습해보세요.


In [49]:
# 모델의 summary를 출력하세요.


Layer (type:depth-idx)                   Param #
Sequential                               --
├─Linear: 1-1                            2,560
├─ReLU: 1-2                              --
├─Linear: 1-3                            32,896
├─ReLU: 1-4                              --
├─Linear: 1-5                            8,256
├─ReLU: 1-6                              --
├─Linear: 1-7                            2,080
├─ReLU: 1-8                              --
├─Linear: 1-9                            33
Total params: 45,825
Trainable params: 45,825
Non-trainable params: 0

In [50]:
# 데이터에 적합한 loss와 optimizer를 선정하여 설정하세요.


In [51]:
# train 데이터를 학습시키세요.
# epoch=100회


Epoch: 0/100000, Loss: 31743118.0
Epoch: 10000/100000, Loss: 279109.21875
Epoch: 20000/100000, Loss: 249392.40625
Epoch: 30000/100000, Loss: 247934.859375
Epoch: 40000/100000, Loss: 282854.09375
Epoch: 50000/100000, Loss: 277954.34375
Epoch: 60000/100000, Loss: 254170.859375
Epoch: 70000/100000, Loss: 252783.015625
Epoch: 80000/100000, Loss: 242974.21875
Epoch: 90000/100000, Loss: 243837.75
Epoch: 100000/100000, Loss: 246926.59375


In [53]:
# 학습시킨 모델로 mse를 출력하세요.


(240192.68228813485, 315315.2727905415)

In [56]:
# 학습시킨 모델로 r2를 출력하세요.


(0.9851378187499676, 0.97944465019442)

 - 타이타닉 생존자를 Sequential 모델로 예측

In [57]:
# 데이터 로드


In [58]:
# 데이터 전처리
df['child'] = df['who'].apply(lambda x: 1 if x=='child' else 0)
df['family'] = df['sibsp'] + df['parch']
df['alone'] = df['family'].apply(lambda x: 0 if x>0 else 1)
df['sex'] = df['sex'].apply(lambda x: 0 if x=='female' else 1)

In [59]:
# 데이터 전처리
def encode_class(x):
    return {'First':1, 'Second':2, 'Third':3}[x]

def encode_deck(x):
    if type(x) == str:
        return ord(x)-ord('A')
    else:
        return x

def encode_town(x):
    if type(x) == str:
        return {'Queenstown':0, 'Cherbourg':1, 'Southampton':2}[x]
    else:
        return x

df['class'] = df['class'].apply(encode_class)
df['deck'] = df['deck'].apply(encode_deck)
df['embark_town'] = df['embark_town'].apply(encode_town)

In [60]:
# 불필요한 열 삭제
df = df.drop('who', axis=1)

In [61]:
# 결측치 처리
df['age'] = df['age'].fillna(df.groupby(['class', 'alone'])['age'].transform('mean'))
df['deck'] = df['deck'].fillna(-1)
df['unk_deck'] = df['deck'].apply(lambda x: 1 if x==-1 else 0)
df['embark_town'] = df['embark_town'].fillna(df['embark_town'].mode()[0])

In [62]:
# 데이터 선택
features = [
    'sex',
    'age',
    'sibsp',
    'parch',
    'fare',
    'class',
    'deck',
    'embark_town',
    'child',
    'family',
    'alone',
    'unk_deck'
]
X = df[features]
Y = df['survived']

In [64]:
# 데이터 분할


(623, 12)

In [66]:
# 비교를 위해 GrandientBoosting으로 모델링한 결과를 출력하세요.
# 평가 측도는 accuracy입니다.


(0.9004815409309791, 0.8507462686567164)

In [102]:
# 시드를 777로 설정하세요.
# gpu를 사용한다면 cuda 시드도 설정하세요.


In [106]:
# Sequential 모델을 이용하여 DNN을 구성하세요.
# 두 개의 은닉층은 각각 64, 32개 퍼셉트론
# 은닉 활성화는 relu
# 출력 활성화는 sigmoid


In [107]:
# 데이터에 적합한 loss와 optimizer를 선정하여 설정하세요.


In [108]:
# train 데이터를 학습시키세요.
# epoch=10000회


Epoch: 0/10000, Loss: 0.6875969171524048
Epoch: 1000/10000, Loss: 0.2816391587257385
Epoch: 2000/10000, Loss: 0.2360059767961502
Epoch: 3000/10000, Loss: 0.21315239369869232
Epoch: 4000/10000, Loss: 0.19041895866394043
Epoch: 5000/10000, Loss: 0.1771760880947113
Epoch: 6000/10000, Loss: 0.16974623501300812
Epoch: 7000/10000, Loss: 0.1639212816953659
Epoch: 8000/10000, Loss: 0.1586689054965973
Epoch: 9000/10000, Loss: 0.15317735075950623
Epoch: 10000/10000, Loss: 0.15268617868423462


In [109]:
# 학습시킨 모델로 accuracy를 출력하세요.


(0.9390048154093098, 0.75)

In [121]:
# 반복 횟수를 줄여서 train 데이터를 학습시키세요.
# epoch=3000회


In [122]:
# 데이터에 적합한 loss와 optimizer를 선정하여 설정하세요.


In [123]:
# train 데이터를 학습시키세요.
# epoch=3000회


Epoch: 0/3000, Loss: 0.7178453803062439
Epoch: 1000/3000, Loss: 0.44086962938308716
Epoch: 2000/3000, Loss: 0.38368815183639526
Epoch: 3000/3000, Loss: 0.3547966182231903


In [124]:
# 학습시킨 모델로 accuracy를 출력하세요.


(0.85553772070626, 0.8022388059701493)