# 🍷 와인 분류하기

**😊 목차**
1. 데이터 불러오기 / 구성 확인하기
2. 데이터 전처리
3. 모델 학습 및 예측
4. 고찰

In [1]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn import svm
from sklearn.linear_model import SGDClassifier
from sklearn.linear_model import LogisticRegression

#### 1.데이터 불러오기 / 구성 확인하기 

In [2]:
from sklearn.datasets import load_wine
import pandas as pd

wine = load_wine()

In [3]:
wine.keys() # 7가지 정보

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names'])

In [4]:
wine.data.shape # 178개의 데이터가 13개의 종류로 특징지어진 데이터셋

(178, 13)

In [5]:
wine.feature_names # 특징 이름

['alcohol',
 'malic_acid',
 'ash',
 'alcalinity_of_ash',
 'magnesium',
 'total_phenols',
 'flavanoids',
 'nonflavanoid_phenols',
 'proanthocyanins',
 'color_intensity',
 'hue',
 'od280/od315_of_diluted_wines',
 'proline']

In [6]:
wine.target_names # 3개 라벨

array(['class_0', 'class_1', 'class_2'], dtype='<U7')

In [7]:
wine_df = pd.DataFrame(data = wine.data, columns = wine.feature_names)
wine_df # 와인별 특징을 표로 확인하기

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14.23,1.71,2.43,15.6,127.0,2.80,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.20,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.50,16.8,113.0,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,13.71,5.65,2.45,20.5,95.0,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740.0
174,13.40,3.91,2.48,23.0,102.0,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750.0
175,13.27,4.28,2.26,20.0,120.0,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835.0
176,13.17,2.59,2.37,20.0,120.0,1.65,0.68,0.53,1.46,9.30,0.60,1.62,840.0


데이터 Describe

1. 와인 데이터 178개
2. 해당 데이터의 13개의 특징을 이용하여 3개의 종류로 분류

---

#### 2. 데이터 전처리

In [8]:
# 데이터, 라벨 지정
wine_data = wine.data
wine_label = wine.target

In [9]:
# train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(wine_data,
                                                    wine_label,
                                                    test_size=0.2,
                                                    random_state=1)
print("X_train 갯수:", len(X_train))
print("X_test 갯수:", len(X_test))

X_train 갯수: 142
X_test 갯수: 36


---

#### 3. 모델 학습 및 예측

- **Decision Tree:** 계산복잡성 대비 높은 예측 성능을 갖고 있지만, 결정경계(decision boundary)가 데이터 축에 수직이어서 특정 데이터에만 잘 작동할 가능성이 높음
- **Random Forest:** 의사결정나무를 여러 개 만들어 그 결과를 종합해 예측
- **SVM:** 데이터를 비선형 매핑(Mapping)을 통해 고차원으로 변환하고, 새로운 차원에서 초평면(hyperplane)을 최적으로 분리하는 선형분리를 찾아서 최적의 의사결정 영역(Decision Boundary)를 찾음
- **SGD Classifier:** 확률적으로 무작위로 골라낸 데이터에 대해 수행하는 경사 하강법
- **Logistic Regession:** 회귀를 사용하여 데이터가 어떤 범주에 속할 확률을 0에서 1 사이의 값으로 예측하고, 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류

In [10]:
# Decision Tree
decision_tree = DecisionTreeClassifier(random_state=2)
decision_tree.fit(X_train, y_train)
y_pred = decision_tree.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.93      0.93      0.93        14
           1       0.80      0.92      0.86        13
           2       1.00      0.78      0.88         9

    accuracy                           0.89        36
   macro avg       0.91      0.88      0.89        36
weighted avg       0.90      0.89      0.89        36



In [11]:
# Random Forest
random_forest = RandomForestClassifier(random_state=2)
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.93      1.00      0.97        14
           1       1.00      0.92      0.96        13
           2       1.00      1.00      1.00         9

    accuracy                           0.97        36
   macro avg       0.98      0.97      0.98        36
weighted avg       0.97      0.97      0.97        36



In [12]:
# SVM
svm_model = svm.SVC()
svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)

print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.92      0.79      0.85        14
           1       0.58      0.85      0.69        13
           2       0.20      0.11      0.14         9

    accuracy                           0.64        36
   macro avg       0.57      0.58      0.56        36
weighted avg       0.62      0.64      0.61        36

[[11  0  3]
 [ 1 11  1]
 [ 0  8  1]]


In [13]:
# SGD Classifier
sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)

print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.64      0.78        14
           1       0.50      1.00      0.67        13
           2       0.00      0.00      0.00         9

    accuracy                           0.61        36
   macro avg       0.50      0.55      0.48        36
weighted avg       0.57      0.61      0.55        36

[[ 9  4  1]
 [ 0 13  0]
 [ 0  9  0]]


In [14]:
# Logistic Regression
logistic_model = LogisticRegression()
logistic_model.fit(X_train, y_train)
y_pred = logistic_model.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.93      0.96        14
           1       0.87      1.00      0.93        13
           2       1.00      0.89      0.94         9

    accuracy                           0.94        36
   macro avg       0.96      0.94      0.94        36
weighted avg       0.95      0.94      0.95        36



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


---

#### 4. 고찰

- 데이터 Descibe
1. 와인 데이터 178개
2. 해당 데이터의 13개 특징을 이용하여 3개의 종류로 분류

- Decision Tree, Random Forest, Logistic Regression의 정확도는 0.9 이상으로 해당 모델에 적합하다고 볼 수 있다.

- SVM과 SGD Classifier는 0.6 정도의 정확도를 보였다. 오차행렬을 확인해보니 두 모델 모두 class_0은 어느정도 예측 정확도가 높지만 class_1는 절반 정도 정확한 예측을 하고, class_2는 대부분 틀린 예측을 하는 것을 볼 수 있다.

- 우선적으로 적합한 모델을 선택해 와인 분류를 진행하는 것이 좋겠다. 추후 SVM과 SGD Classifier의 원리와 예제에 대해 공부하여 서로간의 유사점, 다른 모델과의 차이점 등에 대해 추가적인 공부를 진행 할 것이다.