# 5-5 예제: 와인 분류하기

## 학습 데이터 준비

### 예제 5.2

In [1]:
# PyTorch 라이브러리 임포트
import torch
from torch.autograd import Variable
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.utils.data import DataLoader, TensorDataset

# scikit-learn 라이브러리 임포트
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split

# Pandas 라이브러리 임포트
import pandas as pd

### 예제 5.3

In [2]:
# 와인 데이터 읽어 들이기
wine = load_wine()
wine

{'data': array([[1.423e+01, 1.710e+00, 2.430e+00, ..., 1.040e+00, 3.920e+00,
         1.065e+03],
        [1.320e+01, 1.780e+00, 2.140e+00, ..., 1.050e+00, 3.400e+00,
         1.050e+03],
        [1.316e+01, 2.360e+00, 2.670e+00, ..., 1.030e+00, 3.170e+00,
         1.185e+03],
        ...,
        [1.327e+01, 4.280e+00, 2.260e+00, ..., 5.900e-01, 1.560e+00,
         8.350e+02],
        [1.317e+01, 2.590e+00, 2.370e+00, ..., 6.000e-01, 1.620e+00,
         8.400e+02],
        [1.413e+01, 4.100e+00, 2.740e+00, ..., 6.100e-01, 1.600e+00,
         5.600e+02]]),
 'target': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1

사이킷런에 포함된 와인 데이터 집합을 학습 데이터로 사용할 것이다. 와인 데이터 집합을 읽어 들여 wine 변수에 저장한다. wine 변수에는 다음과 같은 필드가 담겨 있다.

- DESCR: 데이터 집합의 상세 정보
- data: 와인 성분 데이터(설명변수)
- feature_names: 와인의 성분명
- target: 와인의 품종 데이터(목적변수)
- target_names: 와인의 품종 이름

### 예제 5.4

In [3]:
# 데이터프레임에 담긴 설명변수 출력
pd.DataFrame(wine.data, columns=wine.feature_names)

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14.23,1.71,2.43,15.6,127.0,2.80,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.20,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.50,16.8,113.0,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,13.71,5.65,2.45,20.5,95.0,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740.0
174,13.40,3.91,2.48,23.0,102.0,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750.0
175,13.27,4.28,2.26,20.0,120.0,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835.0
176,13.17,2.59,2.37,20.0,120.0,1.65,0.68,0.53,1.46,9.30,0.60,1.62,840.0


와인 성분 데이터(설명변수)를 먼저 확인해 보자. wine.data로 이 데이터에 접근할 수 있다.
실행 결과를 옆으로 스크롤해보면 와인 성분 13가지를 확인할 수 있다.

### 예제 5.5

In [5]:
# 목적변수 데이터 출력
wine.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2])

이번에는 와인 품종 데이터(목적변수)를 확인해 보자. wine.target으로 이 데이터에 접근할 수 있다.

### 예제 5.6

In [6]:
# 설명변수와 목적변수를 변수에 대입
wine_data = wine.data[0:130]
wine_target = wine.target[0:130]

목적변수의 값은 0~2까지 3가지이지만 이번에는 0과 1로 2가지로 제한한다. 설명변수와 목적변수 모두 앞에서부터 130건까지만 추려낸다.

### 예제 5.7

In [7]:
# 데이터 집합을 훈련 데이터와 테스트 데이터로 분할
train_X, test_X, train_Y, test_Y = train_test_split(wine_data, wine_target, test_size=0.2)

# 데이터 건수 확인
print(len(train_X))
print(len(test_X))

104
26


데이터 집합을 훈련 데이터와 테스트 데이터로 분할한다.

## 텐서 생성

준비가 끝난 데이터를 파이토치가 다룰 수 있는 형태로 정리한다.

### 예제 5.8

In [8]:
# 훈련 데이터 텐서 변환
train_X = torch.from_numpy(train_X).float()
train_Y = torch.from_numpy(train_Y).long()

# 테스트 데이터 텐서 변환
test_X = torch.from_numpy(test_X).float()
test_Y = torch.from_numpy(test_Y).long()

# 텐서로 변환한 데이터 건수 확인
print(train_X.shape)
print(train_Y.shape)

torch.Size([104, 13])
torch.Size([104])


이 책에서는 텐서라는 용어를 다차원 배열이라는 의미로 사용한다.

텐서의 차원을 확인한다. 원래 데이터를 빠짐없이 변환했음을 확인했다.

> **파이토치 함수**
>```
>torch.from_numpy(ndarray)
>```
>NumPy 배열을 텐서로 변환한다.

### 예제 5.9

In [10]:
# 설명변수와 목적변수의 텐서를 합침
train = TensorDataset(train_X, train_Y)

# 텐서의 첫 번재 데이터 내용 확인
print(train[0])

# 미니배치로 분할
train_loader = DataLoader(train, batch_size=16, shuffle=True)

(tensor([1.1640e+01, 2.0600e+00, 2.4600e+00, 2.1600e+01, 8.4000e+01, 1.9500e+00,
        1.6900e+00, 4.8000e-01, 1.3500e+00, 2.8000e+00, 1.0000e+00, 2.7500e+00,
        6.8000e+02]), tensor(1))


설명변수와 목적변수의 텐서를 합쳐서 train이라는 이름으로 훈련 데이터 집합을 만든다.

train에서 데이터 한 건을 꺼내보면 설명변수 13개와 목적변수 1개가 표시되므로 텐서의 집합이 만들어 진 것을 알 수 있다.

미니배치 학습을 수행하기 위해 데이터 집합을 셔플링해서 16개 단위로 분할한다.

>**파이토치 함수**
>```
>torch.utils.data.TensorDataset(data_tensor, target_tensor)
>```
>설명변수와 목적변수를 합쳐 인덱스를 붙이고 하나의 데이터 집합으로 만든다.
>
>파라미터
>- data_tensor(Tensor): 설명변수 텐서
>- target_tensor(Tensor): 목적변수 텐서

>**파이토치 함수**
>```
>torch.utils.data.DataLoader(dataset, batch_size=1, shuffle=False)
>```
>데이터 집합을 원하는 크기의 미니배치로 나누어 읽어들인다.
>
>파라미터
>- dataset(Dataset): 읽어 들일 데이터 집합
>- batch_size(int, optional): 배치 크긔, 기본값은 1
>- shuffle(bool, optional): 각 에포크마다 데이터를 셔플링할지 여부, 기본값은 False.

## 신경망 구성

이제 학습에 사용할 신경망을 구성할 차례다. 그림 5.21과 같이 입력층, 중간층, 출력층이 하나씩 있는 신경망을 구성한다. 입력층의 노드 수는 13개(설명변수의 개수)이고, 중간층 노드의 수는 96개, 출력층 노드의 수는 2개(목적변수의 개수)다.

### 예제 5.10

In [11]:
# 신경망 구성
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.fc1 = nn.Linear(13, 96)
        self.fc2 = nn.Linear(96, 2)
    
    def forward(self, x):
        x = F.relu(self.fc1(x))
        x = self.fc2(x)
        return F.log_softmax(x)

# 인스턴스 생성
model = Net()

Net 클래스 안에 신경망을 구성한다. 생성자 메서드(데이터를 초기화하기 위한 함수)에서 입력층과 중간층 사이의 결합, 중간층과 출력층 사이의 결합, 그리고 각 층의 노드 수를 정의한다. forward 메서드에서는 활성화 함수를 정의하는데, 중간층에는 ReLU 함수를 사용하고 출력층은 소프트맥스 함수를 사용한다. 그다음 model이라는 이름으로 이 클래스의 인스턴스를 생성한다.

>**파이토치 함수**
>```
>torch.nn.Module
>```
>모든 신경망 모듈의 기본이 되는 클래스다. 이 클래스 안에 각 층과 함수, 신경망의 구조를 정의한다.

>**파이토치 함수**
>```
>torch.nn.Linear(in_features, out_features, bias=True)
>```
>입력 데이터에 대한 선형변환(y=Ax+b)을 계산한다.
>
>파라미터
>- in_features: 입력 데이터의 차원 수
>- out_features: 출력 데이터의 차원 수
>- bias: 바이어스 학습 여부. 기본값은 True다.

>**파이토치 함수**
>```
>torch.nn.functional.relu(input)
>```
>ReLU 함수를 구현한 함수다.
>
>파라미터
>- input: 입력 데이터

>**파이토치 함수**
>```
>torch.nn.functional.log_softmax(input)
>```
>로그 소프트맥스 함수를 구현한 함수다.
>
>파라미터
>- input: 입력 데이터

## 모형 학습

앞서 3번째 단계에서 생성한 텐서를 조금 전에 만든 신경망에 입력해 모형을 학습해 본다. 그다음 학습된 모형의 정확도를 측정해 볼 것이다.

### 예제 5.11

In [13]:
# 오차함수 객체
criterion = nn.CrossEntropyLoss()

# 최적화를 담당할 객체
optimizer = optim.SGD(model.parameters(), lr=0.01)

# 학습 시작
for epoch in range(300):
    total_loss = 0
    # 분할해 둔 데이터를 꺼내옴
    for train_x, train_y in train_loader:
        # 계산 그래프 구성
        train_x, train_y = Variable(train_x), Variable(train_y)
        # 경사 초기화
        optimizer.zero_grad()
        # 순전파 계산
        output = model(train_x)
        # 오차 계산
        loss = criterion(output, train_y)
        # 역전파 계산
        loss.backward()
        # 가중치 업데이트
        optimizer.step()
        # 누적 오차 계산
        total_loss += loss.item()
        
    # 50회 반복마다 누적 오차 출력
    if (epoch+1) % 50 == 0:
        print(epoch+1, total_loss)

  # This is added back by InteractiveShellApp.init_path()


50 4.813330233097076
100 4.801799237728119
150 4.824586987495422
200 4.838492214679718
250 4.812598884105682
300 4.813462555408478


교차엔트로피로 오차를 계산하는 오차함수의 인스턴스인 criterion을 생성한다. 확률적 경사하강법으로 가중치를 최적화하는 SGD 클래스의 인스턴스 optimizer를 생성한다.

미니배치학습을 위해 분할해 둔 데이터를 train_loader에서 꺼낸 다음, 설명변수를 train_x, 목적변수를 train_y에 저장해 계산 그래프를 구성한다. 그다음 순전파 계산을 끝내고 그 결과를 다시 output에 저장한다. 목적변수와 출력의 오차를 계산해서 loss에 저장하고, 역전파 계산으로 경사(기울기)계산 및 가중치를 업데이트 한다. 그리고 이 과정을 300번 반복해 학습을 마친다.

>**파이토치 함수**
>```
>torch.nn.CrossEntropy
>```
>교차 엔트로피 함수를 구현한 클래스다.

>**파이토치 함수**
>```
>torch.optim.SGD(params, lr=<object object>)
>```
>확률적 경사 하강법을 구현한 클래스다.
>
>파라미터
>- params: 최적화 대상이 될 파라미터 그룹을 정의
>- lr: 학습률

>**파이토치 함수**
>```
>torch.autograd.Variable(data)
>```
>텐서를 래핑하고, 계산과정을 기록하는 역할을 한다.
>
>파라미터
>- data: 입력할 텐서
    
>**파이토치 함수**
>```
>torch.autograd.backward(variables)
>```
>경사의 합을 구한다.
>
>파라미터
>- variables: 입력 변수

이 코드를 실행하면 저 위와 같은 결과가 표시되므로 오차가 수렴해 가는 것을 알 수 있다.
    
### 예제 5.12

In [14]:
# 계산 그래프 구성
test_x, test_y = Variable(test_X), Variable(test_Y)
# 출력이 0 혹은 1이 되게 함
result = torch.max(model(test_x).data, 1)[1]
# 모형의 정확도 측정
accuracy = sum(test_y.data.numpy() == result.numpy()) / len(test_y.data.numpy())

# 모형의 정확도 출력
accuracy

  # This is added back by InteractiveShellApp.init_path()


0.5384615384615384

이번에는 테스트 데이터의 설명변수를 test_x, 목적변수를 test_Y로 저장해서 계산 그래프를 구성한다. 그리고 목적변수의 값과 순전파 출력값 중 최곳값을 result에 저장한다. 모형의 정확도는 전체 건수에서 목적변수 test_y와 result가 일치한 건수의 비율을 기준으로 한다.

필자의 환경에서 모형의 정확도는 0.65384가 나왔다. 다시말해, 약 65%의 정확도로 와인의 종류를 정확하게 분류했다. 이번에는 데이터 건수의 모수가 적기 때문에 정확도가 65%에 미치지 못하는 경우가 있을 수 있다.

>**파이토치 함수**
>```
>torch.max(input)
>```
>입력 텐서의 최댓값을 반환한다.
>- input: 입력 텐서