# super()로 기반 클래스 초기화

In [3]:
class Person:
    def __init__(self):
        self.hello = '안녕하세요.'

class Student(Person):
    def __init__(self):
        self.school = '서울 소프트웨어 아카데미'

dp = Student()
print(dp.school)
print(dp.hello)

서울 소프트웨어 아카데미


AttributeError: ignored

In [4]:
class Person:
    def __init__(self):
        self.hello = '안녕하세요.'

class Student(Person):
    def __init__(self):
        super().__init__()
        self.school = '서울 소프트웨어 아카데미'

dp = Student()
print(dp.school)
print(dp.hello)

서울 소프트웨어 아카데미
안녕하세요.


## 클래스를 초기화하지 않아도 되는 경우

In [5]:
class Person:
    def __init__(self):
        self.hello = '안녕하세요.'
 
class Student(Person):
    pass
 
dp = Student()
print(dp.hello)

안녕하세요.


# 인공 신경망

## 데이터셋 다운로드

In [6]:
!pip install -U --no-cache-dir gdown --pre
print("Downloading...")
!gdown --id {"1NDg2_ccmxkWDu2e_2hsngYI5pzY4qWkW"} -O reg.csv

Downloading...
Downloading...
From: https://drive.google.com/uc?id=1NDg2_ccmxkWDu2e_2hsngYI5pzY4qWkW
To: /content/reg.csv
100% 138k/138k [00:00<00:00, 77.3MB/s]


## 모델구조 및 가중치 확인

In [7]:
import torch
from torch import nn
import torch.nn.functional as F

#!pip install torchsummary
from torchsummary import summary

In [10]:
class Regressor(nn.Module):
    def __init__(self):
        super().__init__()
        self.fc1 = nn.Linear(13,50)
        self.fc2 = nn.Linear(50,30)
        self.fc3 = nn.Linear(30,1)
        self.dropout = nn.Dropout(0.5)

    def forward(self, x):
        x = F.relu(self.fc1(x))
        x = self.dropout( F.relu(self.fc2(x)))
        x = F.relu(self.fc3(x))

        return x

In [11]:
model = Regressor()

In [12]:
print(model)

Regressor(
  (fc1): Linear(in_features=13, out_features=50, bias=True)
  (fc2): Linear(in_features=50, out_features=30, bias=True)
  (fc3): Linear(in_features=30, out_features=1, bias=True)
  (dropout): Dropout(p=0.5, inplace=False)
)


In [16]:
for name, parameter in model.named_parameters():
    print(name,':',parameter.size())

fc1.weight : torch.Size([50, 13])
fc1.bias : torch.Size([50])
fc2.weight : torch.Size([30, 50])
fc2.bias : torch.Size([30])
fc3.weight : torch.Size([1, 30])
fc3.bias : torch.Size([1])


In [17]:
print(model.fc1.weight.size(), model.fc1.bias.size())

torch.Size([50, 13]) torch.Size([50])


In [18]:
model.fc1.weight

Parameter containing:
tensor([[-1.5780e-01,  2.3417e-01,  1.7752e-02, -2.6631e-01,  1.6722e-01,
         -4.3772e-03,  5.4788e-04, -1.9421e-01,  2.1251e-01,  3.4636e-02,
         -2.0070e-01, -1.1051e-02,  4.0080e-02],
        [ 1.3528e-02, -2.0909e-01, -1.3823e-01, -2.6414e-01, -2.3164e-01,
         -9.0052e-02,  1.2251e-01,  7.4680e-02, -3.2483e-02, -1.8444e-02,
          5.8270e-02,  1.2337e-01, -2.5885e-01],
        [-1.3172e-01, -2.3531e-01, -2.0977e-01, -1.3016e-01, -1.0816e-01,
         -1.8926e-01,  1.6356e-01,  1.7447e-01, -6.7925e-02,  9.5834e-02,
         -2.5357e-01, -2.3837e-01, -5.0259e-02],
        [ 2.5566e-01,  4.8410e-02, -4.6457e-02, -2.3086e-01, -1.7486e-01,
         -1.4643e-01, -3.0297e-02, -3.1141e-02, -5.5630e-02, -2.7379e-01,
         -1.2623e-02, -8.6297e-02, -7.6952e-02],
        [-1.4543e-01, -8.8758e-02,  5.9231e-02,  1.7032e-01,  1.7125e-01,
          1.4849e-01,  1.8870e-01, -9.6342e-02,  1.6834e-01, -1.4192e-01,
         -8.5753e-02,  2.3120e-01, -2.7483

In [19]:
model.fc1.bias

Parameter containing:
tensor([-0.1634, -0.1091,  0.0424, -0.0910, -0.0183, -0.1084, -0.2031, -0.0500,
         0.1312,  0.1336, -0.1537,  0.0947,  0.1531,  0.0636,  0.0365, -0.2251,
        -0.0816,  0.2589,  0.2567, -0.1017,  0.1052, -0.1064,  0.1002,  0.0356,
        -0.2637,  0.0963,  0.1851, -0.2650,  0.2623, -0.0167,  0.1846, -0.0663,
        -0.1792, -0.1375,  0.2511, -0.0396,  0.1209,  0.1363,  0.1000, -0.2177,
         0.1453, -0.1136, -0.2086, -0.2360,  0.0982, -0.2243,  0.0429, -0.2626,
        -0.0601, -0.1282], requires_grad=True)

In [20]:
summary(model, (10, 13))

----------------------------------------------------------------
        Layer (type)               Output Shape         Param #
            Linear-1               [-1, 10, 50]             700
            Linear-2               [-1, 10, 30]           1,530
           Dropout-3               [-1, 10, 30]               0
            Linear-4                [-1, 10, 1]              31
Total params: 2,261
Trainable params: 2,261
Non-trainable params: 0
----------------------------------------------------------------
Input size (MB): 0.00
Forward/backward pass size (MB): 0.01
Params size (MB): 0.01
Estimated Total Size (MB): 0.02
----------------------------------------------------------------


## 교차 검증

In [21]:
import pandas as pd # 데이터프레임 형태를 다룰 수 있는 라이브러리
import numpy as np
from sklearn.model_selection import train_test_split # 전체 데이터를 학습 데이터와 평가 데이터로 나눈다.

# ANN
import torch
from torch import nn, optim # torch 내의 세부적인 기능을 불러온다. (신경망 기술, 손실함수, 최적화 방법 등)
from torch.utils.data import DataLoader, Dataset # 데이터를 모델에 사용할 수 있도록 정리해 주는 라이브러리
import torch.nn.functional as F # torch 내의 세부적인 기능을 불러온다. (신경망 기술 등)

# Cross Validation
from sklearn.model_selection import KFold

# Loss
from sklearn.metrics import mean_squared_error # Regression 문제의 평가를 위해 MSE(Mean Squared Error)를 불러온다.

# Plot
import matplotlib.pyplot as plt # 시각화 도구

In [22]:
df = pd.read_csv('./reg.csv', index_col=[0])

In [23]:
# 데이터를 넘파이 배열로 만들기
X = df.drop('Price', axis=1).to_numpy() # 데이터프레임에서 타겟값(Price)을 제외하고 넘파이 배열로 만들기
Y = df['Price'].to_numpy().reshape((-1,1)) # 데이터프레임 형태의 타겟값을 넘파이 배열로 만들기

In [24]:
print(X.shape, Y.shape)

(506, 13) (506, 1)


In [25]:
class TensorData(Dataset):
    def __init__(self, x_data, y_data):
        self.x_data = torch.FloatTensor(x_data)
        self.y_data = torch.FloatTensor(y_data)
        self.len = self.y_data.shape[0]

    def __getitem__(self, index):
        return self.x_data[index], self.y_data[index]

    def __len__(self):
        return self.len

In [26]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.7)
trainset = TensorData(X_train, Y_train)
testset = TensorData(X_test, Y_test)

testloader = torch.utils.data.DataLoader(testset, batch_size=32, shuffle=False)

In [27]:
class Regressor(nn.Module):
    def __init__(self):
        super().__init__() # 모델 연산 정의
        self.fc1 = nn.Linear(13, 50, bias=True) # 입력층(13) -> 은닉층1(50)으로 가는 연산
        self.fc2 = nn.Linear(50, 30, bias=True) # 은닉층1(50) -> 은닉층2(30)으로 가는 연산
        self.fc3 = nn.Linear(30, 1, bias=True) # 은닉층2(30) -> 출력층(1)으로 가는 연산
    
    def forward(self, x):
        x = self.fc1(x) 
        x = self.fc2(x) 
        x = self.fc3(x) 
      
        return x

In [28]:
Y_train.shape

(151, 1)

In [29]:
kfold = KFold(n_splits=3, shuffle=True)

In [30]:
criterion = nn.MSELoss()

In [31]:
def evaluation(dataloader):
    
    predictions = torch.tensor([], dtype=torch.float) # 예측값을 저장하는 텐서
    actual = torch.tensor([], dtype=torch.float) # 실제값을 저장하는 텐서
        
    with torch.no_grad():
        model.eval() # 평가를 할 때에는 .eval() 반드시 사용해야 한다.
        for data in dataloader:
            inputs, values = data
            outputs = model(inputs)

            predictions = torch.cat((predictions, outputs), 0) # cat을 통해 예측값을 누적
            actual = torch.cat((actual, values), 0) # cat을 통해 실제값을 누적
    
    predictions = predictions.numpy() # 넘파이 배열로 변경
    actual = actual.numpy() # 넘파이 배열로 변경
    rmse = np.sqrt(mean_squared_error(predictions, actual)) # sklearn을 이용하여 RMSE 계산
    model.train()
    return rmse  

# 평가 시 .eval()을 사용해야 하는 이유
# 이번 예시에서는 상관없으나 평가 시에는 정규화 기술을 배제하여 온전한 모델로 평가를 해야한다. 따라서 .eval()을 사용한다.
# 즉, 드랍아웃이나 배치 정규화 등과 같이 학습 시에만 사용하는 기술들이 적용 된 모델은 평가 시에는 비활성화 해야하며 학습 시 .train()을 사용한다.

In [32]:
validation_loss = []

for fold, (train_idx, val_idx) in enumerate(kfold.split(trainset)):
    train_subsampler = torch.utils.data.SubsetRandomSampler(train_idx) # index 생성
    val_subsampler = torch.utils.data.SubsetRandomSampler(val_idx) # index 생성

    # sampler를 이용한 DataLoader 정의
    trainloader = torch.utils.data.DataLoader(trainset, batch_size=32, 
                                              sampler=train_subsampler) 
    valloader = torch.utils.data.DataLoader(trainset, batch_size=32, 
                                            sampler=val_subsampler)
    
    # 모델
    model = Regressor()
    optimizer = optim.Adam(model.parameters(), lr=0.001, weight_decay=1e-7)

    for epoch in range(400): # 400번 학습을 진행한다.
        for data in trainloader: # 무작위로 섞인 32개 데이터가 있는 배치가 하나 씩 들어온다.
            inputs, values = data # data에는 X, Y가 들어있다.
            optimizer.zero_grad() # 최적화 초기화

            outputs = model(inputs) # 모델에 입력값 대입 후 예측값 산출
            loss = criterion(outputs, values) # 손실 함수 계산
            loss.backward() # 손실 함수 기준으로 역전파 설정 

            optimizer.step() # 역전파를 진행하고 가중치 업데이트

    train_rmse = evaluation(trainloader) # 학습 데이터의 RMSE
    val_rmse = evaluation(valloader)
    print("k-fold", fold," Train Loss: %.4f, Validation Loss: %.4f" %(train_rmse, val_rmse)) 
    validation_loss.append(val_rmse)

validation_loss = np.array(validation_loss)
mean = np.mean(validation_loss)
std = np.std(validation_loss)
print("Validation Score: %.4f, ± %.4f" %(mean, std))     

k-fold 0  Train Loss: 0.0911, Validation Loss: 0.1313
k-fold 1  Train Loss: 0.1103, Validation Loss: 0.1050
k-fold 2  Train Loss: 0.1054, Validation Loss: 0.1079
Validation Score: 0.1147, ± 0.0117
