#### [PyTorch를 활용한 머신러닝, 딥러닝 철저 입문]
## [Chapter 5-5] 예제: 와인 분류하기

---

## \#1. Import Modules

In [1]:
import torch
from torch.autograd import Variable
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.utils.data import DataLoader, TensorDataset

from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split

import pandas as pd
import numpy as np

---

## \#2. Load Data

### 2-1. Get Wine Data

In [2]:
wine = load_wine()
print(wine.keys())

dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names'])


### 2-2. Description of Data

In [3]:
print(wine.DESCR[18:-1526])


Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  14.3
    Total Phenols:                0.98  3.88    2.29 

---

## \#3. DataFrame

### 3-1. Create DataFrame in `df`

In [4]:
df = pd.DataFrame(wine.data, columns=wine.feature_names)
print(df.shape)
df.tail()

(178, 13)


Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
173,13.71,5.65,2.45,20.5,95.0,1.68,0.61,0.52,1.06,7.7,0.64,1.74,740.0
174,13.4,3.91,2.48,23.0,102.0,1.8,0.75,0.43,1.41,7.3,0.7,1.56,750.0
175,13.27,4.28,2.26,20.0,120.0,1.59,0.69,0.43,1.35,10.2,0.59,1.56,835.0
176,13.17,2.59,2.37,20.0,120.0,1.65,0.68,0.53,1.46,9.3,0.6,1.62,840.0
177,14.13,4.1,2.74,24.5,96.0,2.05,0.76,0.56,1.35,9.2,0.61,1.6,560.0


---

## \#4. Training / Test Data

### 4-1. Data Selecting

In [5]:
wine.target_names

array(['class_0', 'class_1', 'class_2'], dtype='<U7')

`wine` 데이터에는 `class 0`, `class 1`, `class 2` 의 세 가지 데이터가 있지만, 이번 예제에서는 0과 1 두 가지 데이터만 사용한다.

In [6]:
wine.target[:130]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

총 178개의 데이터 중 index=130 까지의 데이터가 0과 1의 클래스를 가지는 데이터이므로, 이를 추출한다.

In [7]:
wine_data = wine.data[:130]
wine_target = wine.target[:130]
len(wine_data), len(wine_target)

(130, 130)

### 4-2. Mask

#### 130개의 data에서 랜덤하게 추출할 index 역할을 하는 `mask` 리스트를 생성한다.

In [8]:
len_test = int(len(wine_data) * 0.2)
len_test

26

In [9]:
len_train = len(wine_data) - 26
len_train

104

130개 중 20%의 데이터, 즉 26개의 데이터는 test data로, 나머지 104개의 데이터는 train data로 사용한다.

In [10]:
# (0, 178) 범위 내의 random index 추출
mask_train = np.random.choice(len(wine_data), len_train, replace=False)
mask_train.sort()
print(len(mask_train))
mask_train

104


array([  0,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14,  17,  18,  19,  20,  24,  25,  26,  28,  29,  30,  31,
        32,  33,  35,  36,  37,  39,  40,  41,  42,  43,  44,  45,  46,
        47,  49,  50,  51,  52,  53,  54,  55,  56,  57,  59,  60,  61,
        62,  63,  65,  67,  68,  69,  70,  71,  72,  73,  74,  75,  77,
        79,  80,  81,  82,  83,  84,  85,  88,  89,  90,  91,  93,  96,
        97,  98, 100, 101, 103, 104, 105, 106, 107, 108, 110, 111, 112,
       113, 114, 115, 116, 117, 119, 122, 124, 125, 126, 127, 128, 129])

In [11]:
# (0, 178) 범위 내 중 trian 인덱스를 제외한 test index 추출
mask_test = np.array(list(set(np.arange(len(wine_data))) - set(mask_train)))
print(len(mask_test))
mask_test.sort()
mask_test

26


array([ 15,  16,  21,  22,  23,  27,  34,  38,  48,  58,  64,  66,  76,
        78,  86,  87,  92,  94,  95,  99, 102, 109, 118, 120, 121, 123])

### 4-3. Get Train / Test data

In [12]:
train_X = wine.data[mask_train]
train_y = wine.target[mask_train]
len(train_X), len(train_y)

(104, 104)

In [13]:
test_X = wine.data[mask_test]
test_y = wine.target[mask_test]
len(test_X), len(test_y)

(26, 26)

### 4-4. Get Train / Test data by `train_test_split`

위와 같은 방법 외에, `train_test_split` 함수를 이용해 데이터를 분리할 수 있다.

In [14]:
train_X, test_X, train_y, test_y = train_test_split(wine_data, wine_target, test_size=0.2)

print(train_X.shape, train_y.shape)
print(test_X.shape, test_y.shape)

(104, 13) (104,)
(26, 13) (26,)


---

## \#5. Make Tensor

### 5-1. Transform Data Type

#### 완성된 train, test 데이터를 PyTorch의 `tensor 데이터`로 변환한다.

> `torch.from_numpy(ndarray)` : numpy array를 torch tensor로 변환

In [15]:
# train data
train_X = torch.from_numpy(train_X).float()
train_y = torch.from_numpy(train_y).long()

# test data
test_X = torch.from_numpy(test_X).float()
test_y = torch.from_numpy(test_y).long()

train_X.shape, train_y.shape

(torch.Size([104, 13]), torch.Size([104]))

#### train의 X와 y데이터를 `tensorDataset` 으로 합친다.

> `torch.utils.data.TensorDataset(data_tensor, target_tensor)` : 독립변수와 종속변수를 합쳐서 하나의 DataSet으로 생성

In [16]:
train = TensorDataset(train_X, train_y)
train[0]

(tensor([ 11.7900,   2.1300,   2.7800,  28.5000,  92.0000,   2.1300,   2.2400,
           0.5800,   1.7600,   3.0000,   0.9700,   2.4400, 466.0000]),
 tensor(1))

### 5-2. Mini Batch

#### train 데이터를 미니배치로 학습시킬 수 있도록 16개 단위로 분할한다.

> `torch.utils.data.DataLoader(dataset, batch_size=n, shuffle=True)` : DataSet을 원하는 크기의 mini batch로 분할

In [17]:
train_loader = DataLoader(train, batch_size=16, shuffle=True)

---

## \#6. Neural Network Composition

### 6-1. Neural Network class

In [18]:
class Net(nn.Module):
    
    def __init__(self):
        super(Net, self).__init__()
        self.func1 = nn.Linear(13, 96)
        self.func2 = nn.Linear(96, 2)
        
    def forward(self, x):
        # 1층
        x = self.func1(x)
        # 1층 활성화함수
        x = F.relu(x)
        
        # 2층
        x = self.func2(x)
        # 2층 활성화함수 (=출력함수)
        y = F.log_softmax(x, dim=1)
        
        return y

> `torch.nn.Module` : 모든 신경망의 기본이 되는 클래스. 사용자가 정의하려는 클래스를 정의할 때 `nn.Module`을 상속받아 정의한다.  

> `torch.nn.Linear(in_features, out_features, bias=True)` : 선형함수 ($ax+b$) 를 구현하는 layer  

> `torch.nn.functional.relu(input)` : ReLu 함수  

> `torch.nn.functional.log_softmax(input)` : log-softmax 함수

### \# Jeina's comment

#### 위의 신경망 구성에서, `forward` 함수의 출력함수 (2층 활성화함수)로 사용한 log_softmax 함수에 대해 발생한 issue    


- 책에 나온 코드는 `y = F.log_softmax(x)` 로, `dim` 파라미터는 사용하지 않았다.


- 그러나 이 코드를 그대로 실행하면 아래의 에러가 발생한다.
```
UserWarning: Implicit dimension choice for log_softmax has been deprecated. Change the call to include dim=X as an argument.
```


- `log_softmax` 함수의 `dim` 파라미터는 softmax 함수의 결과를 **어느 축을 기준으로 더해서 1이 되는 결과를 만들건지**를 결정한다.

> - `dim=0` : column 기준 (axis=0) 으로 모든 값을 더하면 1
- `dim=1` : row 기준 (axis=1) 으로 모든 값을 더하면 1

- 현재 와인 분류 문제에서는 category class가 0과 1로, 두 가지 클래스를 분류하는 문제


- 이 결과는 row 별로 결과가 출력되므로 (row의 길이가 2) `dim=1`이라는 파라미터를 추가했다.


- [Reference | PyTorch Discuss](https://discuss.pytorch.org/t/implicit-dimension-choice-for-softmax-warning/12314)

### 6-2. NN Instance 생성

In [19]:
model = Net()
model

Net(
  (func1): Linear(in_features=13, out_features=96, bias=True)
  (func2): Linear(in_features=96, out_features=2, bias=True)
)

## \#7. Model Training

### 7-1. Loss Function

In [20]:
criterion = nn.CrossEntropyLoss()

> `torch.nn.CrossEntropyLoss()` : 크로스 엔트로피 함수

### 7-2. Optimizer

In [21]:
optimizer = optim.SGD(model.parameters(), lr=0.01)

> `torch.optim.SGD(params, lr=eta)` : SGD (확률적 경사하강법) 함수

### 7-3. Training

In [22]:
print("{} \t {}".format("epoch", "total loss"))
print("----- \t ----------------------")

for epoch in range(300):
    total_loss = 0
    
    for train_X, train_y in train_loader:
        
        # 계산 그래프 구성
        train_X, train_y = Variable(train_X), Variable(train_y)
        
        # gradient 초기화
        optimizer.zero_grad()
        
        # forward 계산
        output = model.forward(train_X)
        
        # loss 계산
        loss = criterion(output, train_y)
        
        # 오차 역전파
        loss.backward()
        
        # gradient update
        optimizer.step()
        
        # 누적 오차 계산
        total_loss += loss.data
        
    # 50번째 epoch마다 loss 출력    
    if (epoch+1) % 50 == 0:
        print("{} \t {}".format(epoch+1, total_loss))

epoch 	 total loss
----- 	 ----------------------
50 	 4.8501176834106445
100 	 4.8353095054626465
150 	 4.842362403869629
200 	 4.866007328033447
250 	 4.835178375244141
300 	 4.835207462310791


> `torch.autograd.Variable(data)` : 텐서 래핑, 계산과정 기록  


> `torch.autograd.backward(variables)` : gradient 역전파

#### 조금씩 수렴하기는 하나, 데이터가 적은 관계로 크게 loss가 변화하지는 않는 것을 확인할 수 있다.

## \#8. Accuracy

### 8-1. test data 로 accuracy 계산

In [23]:
# 계산 그래프 구성
test_X, test_y = Variable(test_X), Variable(test_y)

# 결과를 0 또는 1이 되도록 변환
result = torch.max(model(test_X).data, 1)[1]

# test_y 와 결과가 같은 예측값의 개수 (맞춘 개수) 계산
accuracy = sum(test_y.data.numpy() == result.numpy()) / len(test_y.data.numpy())

accuracy

0.6153846153846154

정확도는 약 65.3% 정도로 확인