# (2) load_wine : 와인 분류

## 1 필요한 모듈 import하기

In [81]:
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

## 2  데이터 준비 - load_wine 메서드를 사용

In [82]:
wine = load_wine()

print(dir(wine))

['DESCR', 'data', 'feature_names', 'frame', 'target', 'target_names']


## 3 데이터 이해하기

In [83]:
# 데이터와 타겟의 이름을 재정의하고 배열 구조 확인
wine_data = wine.data
wine_label = wine.target

print("wine_data의 배열구조: ", wine_data.shape)
print("wine_label의 배열구조:", wine_label.shape)

wine_data의 배열구조:  (178, 13)
wine_label의 배열구조: (178,)


In [84]:
# 특성 이름 확인하기
print("타겟 이름 확인:", wine.feature_names)

타겟 이름 확인: ['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']


In [85]:
# 타겟 이름 확인하기
print("타겟 이름 확인:", wine.target_names)

타겟 이름 확인: ['class_0' 'class_1' 'class_2']


In [86]:
# 데이터 Describe 해 보기
print(wine.DESCR)

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  14.3
    Total Phenols:                0

## 4 train, test 데이터 분리 - train_test_split()이용

In [96]:
X_train, X_test, y_train, y_test = train_test_split(wine_data, wine_label,test_size=0.2, random_state=42)

print('X_train 개수 :', len(X_train),', X_test 개수 :', len(X_test))

X_train 개수 : 142 , X_test 개수 : 36


In [92]:
print("X_train 배열구조 :", X_train.shape, "   y_train 배열구조 :", y_train.shape)
print("X_test 배열구조 :", X_test.shape, "   y_test 배열구조 :", y_test.shape)

X_train 배열구조 : (142, 13)    y_train 배열구조 : (142,)
X_test 배열구조 : (36, 13)    y_test 배열구조 : (36,)


## 5 다양한 모델로 학습시켜보기
- Decision Tree 사용해 보기
- Random Forest 사용해 보기
- SVM 사용해 보기
- SGD Classifier 사용해 보기
- Logistic Regression 사용해 보기

### Decision Tree 모델로 학습, 평가하기

In [109]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# Decision Tree 모델 만들기
decision_tree = DecisionTreeClassifier(random_state=32)

# Decision Tree 모델로 훈련
decision_tree.fit(X_train, y_train)

# 테스트 데이터의 예상값 저장
y_pred = decision_tree.predict(X_test)

# 모델 정확도 알아보기1
accuracy = accuracy_score(y_test, y_pred)
print("Decision Tree 모델의 정확도 :", accuracy, "\n")

# 모델 분류 성능표
print("Decision Tree 모델의 분류 성능표 \n", classification_report(y_test, y_pred))

Decision Tree 모델의 정확도 : 0.9444444444444444 

Decision Tree 모델의 분류 성능표 
               precision    recall  f1-score   support

           0       0.93      0.93      0.93        14
           1       0.93      1.00      0.97        14
           2       1.00      0.88      0.93         8

    accuracy                           0.94        36
   macro avg       0.95      0.93      0.94        36
weighted avg       0.95      0.94      0.94        36



### Random Forest 모델로 학습, 평가하기

In [110]:
from sklearn.ensemble import RandomForestClassifier

# RandomForestClassifier 모델 생성
random_forest = RandomForestClassifier(random_state=32)

# RandomForestClassifier 모델 훈련
random_forest.fit(X_train, y_train)

# 테스트 데이터의 예상값 저장
y_pred = random_forest.predict(X_test)

# 모델 정확도 알아보기
accuracy = accuracy_score(y_test, y_pred)
print("RandomForest 모델의 정확도 :", accuracy, "\n")

# 모델 분류 성능표
print("RandomForest 모델의 분류 성능표 \n", classification_report(y_test, y_pred))

RandomForest 모델의 정확도 : 1.0 

RandomForest 모델의 분류 성능표 
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        14
           1       1.00      1.00      1.00        14
           2       1.00      1.00      1.00         8

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36



### SVM 모델로 학습, 평가하기

In [113]:
from sklearn import svm

# SVM 모델 생성
svm_model = svm.SVC()

# SVM 모델 훈련
svm_model.fit(X_train, y_train)

# 테스트 데이터의 예상값 저장
y_pred = svm_model.predict(X_test)

# 모델 정확도 알아보기
accuracy = accuracy_score(y_test, y_pred)
print("SVM 모델의 정확도 :", accuracy, "\n")

## 모델 분류 성능표
print("SVM 모델의 분류 성능표 \n", classification_report(y_test, y_pred))

SVM 모델의 정확도 : 0.8055555555555556 

SVM 모델의 분류 성능표 
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        14
           1       0.73      0.79      0.76        14
           2       0.57      0.50      0.53         8

    accuracy                           0.81        36
   macro avg       0.77      0.76      0.76        36
weighted avg       0.80      0.81      0.80        36



### SGD Classifier 모델로 학습, 평가하기

In [106]:
from sklearn.linear_model import SGDClassifier

# SGD 모델 생성
sgd_model = SGDClassifier()

# SGD 모델 훈련
sgd_model.fit(X_train, y_train)

# 테스트 데이터의 예상값 저장
y_pred = sgd_model.predict(X_test)

# 모델 정확도 알아보기
accuracy = accuracy_score(y_test, y_pred)
print("SGD 모델의 정확도 :", accuracy, "\n")

# 모델 분류 성능표
print("SGD 모델의 분류 성능표 \n", classification_report(y_test, y_pred))

SGD 모델의 정확도 : 0.6944444444444444 

SGD 모델의 분류 성능표 
               precision    recall  f1-score   support

           0       1.00      0.79      0.88        14
           1       0.56      1.00      0.72        14
           2       0.00      0.00      0.00         8

    accuracy                           0.69        36
   macro avg       0.52      0.60      0.53        36
weighted avg       0.61      0.69      0.62        36



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


#### 빨간 경고문이 뜨넹요...
경고문이 나온다는 것은 무엇이 좋지 않다는 이야기인데..<br>
그래서 번역기를 돌렸더니 오차행렬에서 0이 있어서 계산은 하지만<br>
경고문을 보내니 'zero_division'의 파라미터를 조정하라고 하네요..<br>
'zero_division'의 기본값은 'warn', 0을 받아는 주지만 경고문은 발송하는 거라고...<br>
그래서 어디서 0이 나오는 지 확인하려고 아래에서 정답지와 예측값을 출력해보니<br>
예측값에 2가 없네요...<br>
데이터 개수가 적어서 그런거겠죠??<br>
그리고 'zero_division' 파라미터는 어디서 조정해야 하는 지...<br>
모델 생성할 때 지정하니 타입에러가 나더군요..<br>
어디서 'zero_division'를 조정해야 할까요??<br>
알 수 없어서 주저리 했어요...

In [99]:
print(y_test)
print(y_pred)

[0 0 2 0 1 0 1 2 1 2 0 2 0 1 0 1 1 1 0 1 0 1 1 2 2 2 1 1 1 0 0 1 2 0 0 0]
[1 0 1 0 1 0 1 1 1 0 0 1 0 1 0 1 1 1 0 1 0 1 1 1 1 1 1 1 1 0 0 1 1 0 0 0]


In [107]:
# SGD 모델 생성
sgd_model = SGDClassifier()

# SGD 모델 훈련
sgd_model.fit(X_train, y_train)

# 테스트 데이터의 예상값 저장
y_pred = sgd_model.predict(X_test)

# 모델 정확도 알아보기
accuracy = accuracy_score(y_test, y_pred)
print("SGD 모델의 정확도 :", accuracy, "\n")

# 모델 분류 성능표
print("SGD 모델의 분류 성능표 \n", classification_report(y_test, y_pred))

SGD 모델의 정확도 : 0.6111111111111112 

SGD 모델의 분류 성능표 
               precision    recall  f1-score   support

           0       0.54      1.00      0.70        14
           1       0.86      0.43      0.57        14
           2       0.67      0.25      0.36         8

    accuracy                           0.61        36
   macro avg       0.69      0.56      0.55        36
weighted avg       0.69      0.61      0.58        36



#### 근데 위에서는 되네요... 
이건 데이터 부족일까요?? 모델 불안정일까요??

### Logistic Regression 모델로 학습, 평가하기

In [68]:
from sklearn.linear_model import LogisticRegression

logistic_model = LogisticRegression()

# Logistic Regression 모델 훈련
logistic_model.fit(X_train, y_train)

# 테스트 데이터의 예상값 저장
y_pred = logistic_model.predict(X_test)

# 모델 정확도 알아보기
accuracy = accuracy_score(y_test, y_pred)
print("Logistic Regression 모델의 정확도 :", accuracy, "\n")

# 모델 분류 성능표
print("Logistic Regression 모델의 분류 성능표 \n", classification_report(y_test, y_pred))

Logistic Regression 모델의 정확도 : 0.9722222222222222 

Logistic Regression 모델의 분류 성능표 
               precision    recall  f1-score   support

           0       1.00      0.93      0.96        14
           1       0.93      1.00      0.97        14
           2       1.00      1.00      1.00         8

    accuracy                           0.97        36
   macro avg       0.98      0.98      0.98        36
weighted avg       0.97      0.97      0.97        36



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


#### Logistic Regression 모델 훈련 후 평가를 했더니 빨간 경고문이 뜬다.
 경고문이 싫어서 번역을 해 보았더니 max_iter를 늘이거나 데이터 크기를 조정하라고 하네요..<br>
 주어진 데이터이니 데이터 크기를 조정할 수 없어 <br>
 'max_iter' 하이퍼파라미터를 조정했습니다. 

In [116]:
from sklearn.linear_model import LogisticRegression

logistic_model = LogisticRegression(max_iter = 2900)

# Logistic Regression 모델 훈련
logistic_model.fit(X_train, y_train)

# 테스트 데이터의 예상값 저장
y_pred = logistic_model.predict(X_test)

# 모델 정확도 알아보기
accuracy = accuracy_score(y_test, y_pred)
print("Logistic Regression 모델의 정확도 :", accuracy, "\n")

# 모델 분류 성능표
print("Logistic Regression 모델의 분류 성능표 \n", classification_report(y_test, y_pred))

Logistic Regression 모델의 정확도 : 1.0 

Logistic Regression 모델의 분류 성능표 
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        14
           1       1.00      1.00      1.00        14
           2       1.00      1.00      1.00         8

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36



##  6 모델평가하기

### 와인 분류에서는 
정확도와 모델 분류 성능표가 RandonForest, Logistic Regression 둘 다 1이 나와서 고민을 했습니다.<br>
RandonForest는 하이퍼파라미터를 조정하지 않아도 1이 나오고, <br>
Logistic Regression은 하이퍼파라미터 'max_iter'를 조정하고 나서 1이 나왔으므로<br>
RandonForest모델이 더 적합하다고 생각됩니다.