## 5-5 예제: 와인 분류하기
조금 피곤하고 졸리지만... torch를 시작해보고 자자!

### #1. 학습 데이터 준비
* Import Library
* Load Data
* EDA(Exploratory Data Analysis)

### Import Library

In [27]:
# PyTorch 라이브러리 임포트
import torch
from torch.autograd import Variable
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.utils.data import DataLoader, TensorDataset

# scikit-learn 라이브러리 임포트
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split

# Pandas 라이브러리 임포트
import pandas as pd


### Load Data

In [26]:
# 와인 데이터 읽어들이기

wine = load_wine()
# wine

### Exploratory Data Analysis

wine 변수에는 다음과 같은 필드가 담겨 있다.

* DESCR: 데이터 집합의 상세정보
* data: 와인 성분 데이터(설명 변수)
* feature_names: 와인의 성분명
* target: 와인의 품종 데이터(목적변수)
* target_names: 와인의 품종 이름

In [3]:
wine.data

array([[1.423e+01, 1.710e+00, 2.430e+00, ..., 1.040e+00, 3.920e+00,
        1.065e+03],
       [1.320e+01, 1.780e+00, 2.140e+00, ..., 1.050e+00, 3.400e+00,
        1.050e+03],
       [1.316e+01, 2.360e+00, 2.670e+00, ..., 1.030e+00, 3.170e+00,
        1.185e+03],
       ...,
       [1.327e+01, 4.280e+00, 2.260e+00, ..., 5.900e-01, 1.560e+00,
        8.350e+02],
       [1.317e+01, 2.590e+00, 2.370e+00, ..., 6.000e-01, 1.620e+00,
        8.400e+02],
       [1.413e+01, 4.100e+00, 2.740e+00, ..., 6.100e-01, 1.600e+00,
        5.600e+02]])

In [4]:
wine.data.shape

(178, 13)

In [5]:
wine.feature_names

['alcohol',
 'malic_acid',
 'ash',
 'alcalinity_of_ash',
 'magnesium',
 'total_phenols',
 'flavanoids',
 'nonflavanoid_phenols',
 'proanthocyanins',
 'color_intensity',
 'hue',
 'od280/od315_of_diluted_wines',
 'proline']

In [28]:
len(wine.feature_names)

13

# #2. Data Preprocessing

* NumPy to DataFrame
* Data Preprocessing

### NumPy to DataFrame

wine.data의 타입은 NumPy배열이므로 한 번에 내용을 파악하기 어렵다.<br/>
따라서 pandas library를 이용하자!

In [7]:
# 데이터 프레임에 담긴 설명변수 출력

df =pd.DataFrame(wine.data, columns=wine.feature_names)
df.head()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0


In [29]:
# 목적변수 데이터 출력
wine.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2])

### Data Preprocessing

* 설명변수 목적변수 분할
* Train_Test_Split

### 설명변수, 목적변수 분할

In [9]:
# 설명변수와 목적변수를 변수에 대입

wine_data = wine.data[0:130]
wine_target = wine.target[0:130]

# 설명변수와 목적변수 모두 앞에서부터 130건까지만 추려낸다.

In [13]:
import numpy as np
np.unique(wine_target)

array([0, 1])

130건만 추출시 레이블은 0과 1 2가지로 분류된다.

### Train_Test Split

데이터 집합을 훈련 데이터와 테스트 데이터로 분할한다.

In [14]:
# 데이터 집합을 훈련 데이터와 테스트 데이터로 분할
train_X, test_X, train_Y, test_Y = train_test_split(wine_data, wine_target, test_size = 0.2)

# 데이터 건수 확인
print(len(train_X))
print(len(test_X))

104
26


* 정리하자 맨날 헷갈려하지말고 지금이야말로!!
    * train_X: 훈련데이터에서 설명변수(X)
    * test_X : 테스트데이터에서 설명변수(X)
    * train_Y: 훈련데이터에서 종속변수(Y) 
    * test_Y : 테스트데이터에서 종속변수(Y)

In [9]:
type(train_X)

numpy.ndarray

train 데이터의 설명변수의 변수명은 train_X, 목적변수의 변수명은 train_Y<br/>
test 데이터의 설명변수의 변수명은 test_X, 목적변수명은 test_Y로 한다.

### #3. Make Tensor(텐서 생성)

완성된 train, test 데이터를 PyTorch의 tensor 데이터로 변환<br/>
준비가 끝난 데이터를 파이토치가 다룰 수 있는 형태로 정리한다.<br/>

* 훈련 데이터, 테스트 데이터 tensor 변환
* train데이터의 X와 Y데이터 tensorDataset으로 병합
* Mini-Batch

### 훈련 데이터, 테스트 데이터 tensor 변환

**예제 5.8**

In [15]:
# 훈련 데이터 텐서 변환
train_X = torch.from_numpy(train_X).float()
train_Y = torch.from_numpy(train_Y).long()
# train_Y = torch.as_tensor(train_Y.astype('float'))

# 테스트 데이터 텐서 변환
test_X = torch.from_numpy(test_X).float()
test_Y = torch.from_numpy(test_Y).long()
# test_Y = torch.as_tensor(test_Y.astype('float'))

# 텐서로 변환한 데이터 건수 확인
print(train_X.shape)
print(train_Y.shape)
print(test_X.shape)
print(test_Y.shape)

torch.Size([104, 13])
torch.Size([104])
torch.Size([26, 13])
torch.Size([26])


train dataset의 경우 104개 데이터(설명변수는 13개) <br/>
test dataset의 경우 26개의 데이터(설명변수는 마찬가지 13개)

* TypeError가 발생했었는데... 구글링을 통해 해결은 했다.

TypeError: expected np.ndarray (got Tensor)<br/>
https://discuss.pytorch.org/t/why-do-i-get-typeerror-expected-np-ndarray-got-numpy-ndarray-when-i-use-torch-from-numpy-function/37525


Hello It seems you are getting the error because the argument to from_numpy function is a single value rather than array.
In numpy, there is difference between np.array(1) and np.array([1]) and both are completely different data types.
Try torch.from_numpy(np.asarray(x)).

다시 해보니깐 또 잘되네...허허

### 설명변수와 목적변수 병합

In [30]:
# 설명변수와 목적변수의 텐서를 합침
train = TensorDataset(train_X, train_Y)

# 텐서의 첫 번째 데이터 내용 확인
print(train[0])

(tensor([1.4020e+01, 1.6800e+00, 2.2100e+00, 1.6000e+01, 9.6000e+01, 2.6500e+00,
        2.3300e+00, 2.6000e-01, 1.9800e+00, 4.7000e+00, 1.0400e+00, 3.5900e+00,
        1.0350e+03]), tensor(0))


### Mini-Batch

In [None]:
# 미니배치로 분할
train_loader = DataLoader(train, batch_size=16, shuffle=True)

미니배치 학습을 수행하기 위해 데이터 집합을 셔플링해서 16개 단위로 분할한다. 그리고 분할한 데이터를 train_loader라는 이름으로 저장한다.

### #4. 신경망 구성

학습에 사용할 신경망을 구성한다.<br/>
입력층의 노드 수는 13개(설명변수의 개수), 중간층 노드의 수는 96개, 출력층 노드의 수는 2개(목적변수의 수)이다.

**예제 5.10**

In [18]:
# 신경망 구성

class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.fc1 = nn.Linear(13, 96)
        self.fc2 = nn.Linear(96, 2)
        
    def forward(self, x):
        x = F.relu(self.fc1(x))
        x = self.fc2(x)
        return F.log_softmax(x)
    
# 인스턴스 생성
model = Net()

Net클래스 안에 신경망을 구성한다.<br/>
**생성자 메서드**에서 입력층과 중간층 사이의 결합, 중간층과 출력층 사이의 결합, 그리고 각 층의 노드 수를 정의한다.<br/>
**forward 메서드**에서는 활성화함수를 정의하는데, 중간층에서는 ReLU함수를 사용하고 출력층은 소프트맥스 함수를 사용한다.<br/>
마지막으로 model라는 이름으로 이 클래스의 인스턴스를 생성한다.

### #5. 모형 학습

**예제5.11** 오늘 학습의 끝이 보인다! 좀만 더 힘내자!

앞서 생성한 텐서를 신경망에 입력해 모형을 학습해 본다.<br/>
학습된 모형의 정확도도 측정해보도록 하자!

In [31]:
# 오차함수 객체
criterion = nn.CrossEntropyLoss()

# 최적화를 담당할 객체
optimizer = optim.SGD(model.parameters(), lr=0.01)

# 학습시작
for epoch in range(300):
    total_loss = 0
    # 분할해 둔 데이터를 꺼내옴
    for train_x, train_y in train_loader:
        # 계산 그래프 구성
        train_x, train_y = Variable(train_x), Variable(train_y)
        # 경사 초기화
        optimizer.zero_grad()
        # 순전파 계산
        output = model(train_x)
        #  오차 계산
        loss = criterion(output, train_y)
        # 역전파 계산
        loss.backward()
        # 가중치 업데이터
        optimizer.step()
        # 누적 오차 계산
        total_loss += loss.data
    
    # 50회마다 누적 오차 출력
    if (epoch+1) % 50 == 0:
        print(epoch+1, total_loss)

  if sys.path[0] == '':


50 tensor(4.8250)
100 tensor(4.8021)
150 tensor(4.8261)
200 tensor(4.8138)
250 tensor(4.8245)
300 tensor(4.8251)


<blockquote>
torch.nn.Module: 모든 신경망의 기본이 되는 클래스. 사용자가 정의하려는 클래스를 정의할 때 nn.Module을 상속받아 정의한다.<br/>
torch.nn.Linear(in_features, out_features, bias=True): 선형 함수 (ax+b)를 구현하는 Layer<br/>
torch.nn.functional.relu(input): ReLU함수<br/>
torch.nn.functional.log_softmax(input): log_softmax함수<br/>
</blockquote>

### #6. Accuracy test 
test data로 accuracy 계산

In [25]:
# 계산 그래프 구성
test_x, test_y = Variable(test_X), Variable(test_Y)
# 출력이 0 또는 1이 되도록 변환
result = torch.max(model(test_x).data, 1)[1]
# 모형의 정확도 측정
accuracy = sum(test_y.data.numpy() == result.numpy()) / len(test_y.data.numpy())

# 모형의 정확도 출력
accuracy

  if sys.path[0] == '':


0.5384615384615384

신경망의 학습 과정에 대한 이해가 머리속에 있어서일까 구현을 하면서 이해하는데 문제가 없었다.<br/>
하지만 앞으로 torch를 계속해서 사용할 것이기 때문에 코드 리뷰를 하면서 조금이라도 모르겠는 부분, 궁금한 부분이 있다면 Comment를 달아가면서 학습해야겠다.<br/>

* Jeina님의 노트북에서 torch모듈에 대한 설명을 참조했다.  
    * http://bitly.kr/lHNepWXo