# 분류 및 모델평가 실습과제 - 로지스틱 회귀분석과 동일하게 와인 데이터를 사용
- 와인의 화학 조성을 사용하여 와인의 종류를 예측하기 위한 데이터
- 독립변수(features): Alcohol, Malic acid, Ash, Alcalinity of ash, Magnesium, Total phenols, Flavanoids, Nonflavanoid phenols, Proanthocyanins, Color intensity, Hue, OD280/OD315 of diluted wines, Proline
- 종속변수(target): 와인의 종류 0, 1, 2의 세가지 값

https://datascienceschool.net/03%20machine%20learning/09.01%20%EB%B6%84%EB%A5%98%EC%9A%A9%20%EC%98%88%EC%A0%9C%20%EB%8D%B0%EC%9D%B4%ED%84%B0.html#

In [1]:
# 필요한 라이브러리를 불러옵니다.
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

### 1. 데이터 읽어오기 및 준비
- sklearn.datasets에서 와인 데이터(load_wine)를 읽어온다.
- 데이터에 대한 설명을 출력해서 확인한다.

In [2]:
from sklearn.datasets import load_wine
wine = load_wine()
print(wine.DESCR)

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

:Number of Instances: 178
:Number of Attributes: 13 numeric, predictive attributes and the class
:Attribute Information:
    - Alcohol
    - Malic acid
    - Ash
    - Alcalinity of ash
    - Magnesium
    - Total phenols
    - Flavanoids
    - Nonflavanoid phenols
    - Proanthocyanins
    - Color intensity
    - Hue
    - OD280/OD315 of diluted wines
    - Proline
    - class:
        - class_0
        - class_1
        - class_2

:Summary Statistics:

                                Min   Max   Mean     SD
Alcohol:                      11.0  14.8    13.0   0.8
Malic Acid:                   0.74  5.80    2.34  1.12
Ash:                          1.36  3.23    2.36  0.27
Alcalinity of Ash:            10.6  30.0    19.5   3.3
Magnesium:                    70.0 162.0    99.7  14.3
Total Phenols:                0.98  3.88    2.29  0.63
Flavanoids:                   0.34  5.08    2.03  1.00

- feature_names에 독립변수의 이름을 저장한다.
- data, target의 shape와 feature_names를 출력한다.
- data의 첫 5건의 값을 출력한다.
- target의 첫 5건의 값을 출력한다.
- **`wine.data`와 `wine.target`을 그대로 사용하는 것에 유의**

In [3]:
# pandas를 사용하고 싶은 경우 아래 코드를 이용
#df = pd.DataFrame(wine.data, columns=wine.feature_names)
#df["target"] = wine.target
feature_names = wine.feature_names
print(wine.data.shape, wine.target.shape)
print(feature_names)
print(wine.data[:5]) 
print(wine.target[:5])

(178, 13) (178,)
['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']
[[1.423e+01 1.710e+00 2.430e+00 1.560e+01 1.270e+02 2.800e+00 3.060e+00
  2.800e-01 2.290e+00 5.640e+00 1.040e+00 3.920e+00 1.065e+03]
 [1.320e+01 1.780e+00 2.140e+00 1.120e+01 1.000e+02 2.650e+00 2.760e+00
  2.600e-01 1.280e+00 4.380e+00 1.050e+00 3.400e+00 1.050e+03]
 [1.316e+01 2.360e+00 2.670e+00 1.860e+01 1.010e+02 2.800e+00 3.240e+00
  3.000e-01 2.810e+00 5.680e+00 1.030e+00 3.170e+00 1.185e+03]
 [1.437e+01 1.950e+00 2.500e+00 1.680e+01 1.130e+02 3.850e+00 3.490e+00
  2.400e-01 2.180e+00 7.800e+00 8.600e-01 3.450e+00 1.480e+03]
 [1.324e+01 2.590e+00 2.870e+00 2.100e+01 1.180e+02 2.800e+00 2.690e+00
  3.900e-01 1.820e+00 4.320e+00 1.040e+00 2.930e+00 7.350e+02]]
[0 0 0 0 0]


### 3. 데이터셋 분리
- train_test_split을 이용하여 train set과 test set으로 분리한다.
- X_train, X_test, Y_train, Y_test으로 이름을 지정한다.
- test_size의 비율은 0.2, random_state는 2024를 설정한다.
- 분리된 data set(X_train, X_test, Y_train, Y_test)의 크기를 출력한다.

In [4]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(wine.data, wine.target, random_state=2024, test_size=0.2)
print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)

(142, 13) (142,)
(36, 13) (36,)


### 4. k-최근접 이웃 학습 및 평가
- `KNeighborsClassifier`를 사용
- `n_neighbors`를 3으로 설정

**출력 예시**
```
K-neighbor train set score: 0.880
K-neighbor test set score: 0.667
```

### 5. 결정트리(Decision Tree) 학습 및 평가
- `DecisionTreeClassifier`를 사용
- `random_state`를 7로 설정

**출력 예시**
```
Decision Tree train set score: 1.000
Decision Tree test set score: 0.778
```

### 6. 랜덤 포레스트 (Random Forest) 학습 및 평가
- `RandomForestClassifier`를 사용
- `n_estimators`를 50으로, `random_state`를 7로 설정

**출력 예시**
```
Random Forest train set score: 1.000
Random Forest test set score: 1.000
```

### 7. 서포트 벡터 머신에 스케일링을 적용하고 학습 및 평가
- `MinMaxScaler`를 이용해 데이터를 스케일링해서 `X_train_scaled`와 `X_test_scaled`에 저장
- `svm.SVC`를 사용
- `gamma`를 `auto`로 설정

**출력 예시**
```
Scaled test set accuracy: 1.000
```

### 8. 로지스틱 회귀분석 모형에 교차검증 적용
- `LogisticRegression`을 사용
- `max_iter`를 10000으로 설정
- `KFold`를 사용하고 `n_splits`는 5로, `shuffle`은 하는 것으로, `random_state`는 0으로 설정
- `cross_val_score`를 이용해 5개 split에 대한 평가 결과를 계산하고 출력

**출력 예시**
```
Cross-validation scores:
[0.97222222 0.91666667 0.97222222 0.97142857 0.94285714]
```

### 9. 검증 데이터 집합(Validation data Set)을 이용해 그리드 서치 실행
- wine.data와 wine.target을 train, valid, test의 세 집합으로 분리 (`train_test_split`)
- gamma와 C를 각각 [0.001, 0.01, 0.1, 1, 10, 100]에 대해 그리드 서치 실행
- 검증 데이터 집합으로 스코어를 계산하고, 이를 이용해 최적 파라미터를 탐색
- 최대 스코어와 이 때의 최적 파라미터를 출력
- train + valid 데이터 집합으로 다시 학습을 하고 test 데이터 집합에 대해 최종 일반화 성능을 평가해서 출력

**출력 예시**
```
Best score on validation set: 0.79
Best parameters:  {'C': 10, 'gamma': 0.001}
Test set score with best parameters: 0.84
```