
# Wine Classification
- Red Wine Quality
    - Simple and clean practice dataset for regression or classification modelling
    - https://www.kaggle.com/datasets/uciml/red-wine-quality-cortez-et-al-2009/code


---

In [None]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn import metrics



df_wine = pd.read_csv('./winequality-red.csv', delimiter=';')
df_wine

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.700,0.00,1.9,0.076,11.0,34.0,0.99780,3.51,0.56,9.4,5
1,7.8,0.880,0.00,2.6,0.098,25.0,67.0,0.99680,3.20,0.68,9.8,5
2,7.8,0.760,0.04,2.3,0.092,15.0,54.0,0.99700,3.26,0.65,9.8,5
3,11.2,0.280,0.56,1.9,0.075,17.0,60.0,0.99800,3.16,0.58,9.8,6
4,7.4,0.700,0.00,1.9,0.076,11.0,34.0,0.99780,3.51,0.56,9.4,5
...,...,...,...,...,...,...,...,...,...,...,...,...
1594,6.2,0.600,0.08,2.0,0.090,32.0,44.0,0.99490,3.45,0.58,10.5,5
1595,5.9,0.550,0.10,2.2,0.062,39.0,51.0,0.99512,3.52,0.76,11.2,6
1596,6.3,0.510,0.13,2.3,0.076,29.0,40.0,0.99574,3.42,0.75,11.0,6
1597,5.9,0.645,0.12,2.0,0.075,32.0,44.0,0.99547,3.57,0.71,10.2,5


In [None]:
# 초기 quality 값은 3~8 사이의 수치형 변수
df_wine['quality'].value_counts()

5    681
6    638
7    199
4     53
8     18
3     10
Name: quality, dtype: int64

In [None]:
# 수치형 변수인 quality를 범주형으로 전환

# 분할 기준: 
bins = (2, 6.5, 8)
    # (2~6.5), (6.5~8)  2개 파트로 분할

group_names = ['bad', 'good']
            # (2~6.5)점 = 'bad'
            # (6.5~8)점 = 'good'
        
df_wine['quality'] = pd.cut(df_wine['quality'], bins = bins, labels = group_names)

df_wine['quality'].value_counts()

bad     1382
good     217
Name: quality, dtype: int64

### train-test set 분할

In [None]:
# 예측할 변수인 quality를 y로 설정, 그 외 값들을 X로 설정
X = df_wine.drop('quality', axis = 1)
y = df_wine['quality'].values

# train/test 8:2로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)

# 독립변수에 scaling 적용
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.fit_transform(X_test)


## 머신러닝 분류 모델 적용

### Gausian Naive Bayes

In [None]:
from sklearn.naive_bayes import GaussianNB

# 모델 설정
NB_model = GaussianNB()

# 모델 학습
NB_model.fit(X_train, y_train)

# 예측
y_pred = NB_model.predict(X_test)

# 정확도 확인
print(f"정확도: {metrics.accuracy_score(y_test, y_pred)*100:.2f}%")   # Precision이 평가 기준

정확도: 85.31%


### RandomForest

In [None]:
from sklearn.ensemble import RandomForestClassifier

# 모델 설정
model = RandomForestClassifier()

# 모델 학습
model.fit(X_train, y_train)

# 예측
y_pred = model.predict(X_test)

# 정확도 확인
print(f"정확도: {metrics.accuracy_score(y_test, y_pred)*100:.2f}%")   # Precision이 평가 기준
              

정확도: 87.50%


### Support Vector Machine

In [None]:
from sklearn.svm import SVC

# 모델 설정
model = SVC()

# 모델 학습
model.fit(X_train, y_train)

# 예측
y_pred = model.predict(X_test)

# 정확도 확인
print(f"정확도: {metrics.accuracy_score(y_test, y_pred)*100:.2f}%")   # Precision이 평가 기준



정확도: 87.50%


### K-nearest neighborhood

In [None]:
from sklearn.neighbors import KNeighborsClassifier


# 모델 설정
model = KNeighborsClassifier()

# 모델 학습
model.fit(X_train, y_train)

# 예측
y_pred = model.predict(X_test)

# 정확도 확인
print(f"정확도: {metrics.accuracy_score(y_test, y_pred)*100:.2f}%")   # Precision이 평가 기준



정확도: 87.50%


## Hyperparameter 조정으로 성능 향상

### RandomForest

In [None]:

# 모델 설정
model = RandomForestClassifier(n_estimators=150, criterion='entropy',
                                  max_depth=100, min_samples_split=4,
                                  min_samples_leaf=1)

# 모델 학습
model.fit(X_train, y_train)

# 예측
y_pred = model.predict(X_test)

# 정확도 확인
print(f"정확도: {metrics.accuracy_score(y_test, y_pred)*100:.2f}%")   # Precision이 평가 기준



정확도: 89.38%


### K-nearest neighborhood

In [None]:

for k in range(1,16):

    # 모델 설정
    model = KNeighborsClassifier(n_neighbors=k)

    # 모델 학습
    model.fit(X_train, y_train)

    # 예측
    y_pred = model.predict(X_test)

    # 정확도 확인
    print(f"K={k} - 정확도: {metrics.accuracy_score(y_test, y_pred)*100:.2f}%")   # Precision이 평가 기준



K=1 - 정확도: 89.06%
K=2 - 정확도: 87.19%
K=3 - 정확도: 86.56%
K=4 - 정확도: 87.81%
K=5 - 정확도: 87.50%
K=6 - 정확도: 88.44%
K=7 - 정확도: 87.50%
K=8 - 정확도: 87.19%
K=9 - 정확도: 88.44%
K=10 - 정확도: 88.12%
K=11 - 정확도: 88.44%
K=12 - 정확도: 89.38%
K=13 - 정확도: 89.06%
K=14 - 정확도: 88.44%
K=15 - 정확도: 89.06%


# 결과

## 문제 정의
- 다양한 머신 러닝 모델을 활용하여 와인 품질을 이진 분류(`good` or `bad`) 하는 분석을 수행
    - 데이터셋의 전체 컬럼 중, `quality`를 범주형 변인으로 수정하여 종속 변인으로 사용
    - 나머지 컬럼 `['fixed', 'acidity', 'volatile', 'acidity', 'citric', 'acid', 'residual', 'sugar', 'chlorides', 'free', 'sulfur', 'dioxide', 'total', 'sulfur', 'dioxide', 'density', 'pH', 'sulphates', 'alcohol']` 의 데이터를 독립 변인으로 사용

## 분류 과제 수행
- 가우시안 나이브 베이즈, 랜덤포레스트, 서포트벡터머신, K-최근접 이웃 등을 사용
    - 상기한 모델 중, 대부분이 **정확도: 87.50%**를 달성
    
## 모델 최적화
- 모델 성능을 더 높이기 위해 hyper parameter tunning을 시도
    - 랜덤포레스트: 정확도: **87.50% -> 89.38%**로 상승
    - K-최근접 이웃: 정확도: **87.50% -> 89.06%**로 상승
    
## 논의
- 다양한 머신 러닝 모델은 각각의 장단점이 있기 때문에, 문제에서 성능이 잘 나오는 모델을 선택하는 것이 중요
- 또한, 같은 모델이더라도 hyper parameter에 따라 모델 성능에 편차가 있기 때문에, 이를 잘 튜닝하는 것도 중요
    - test set은 hyperparameter tunning 과정에서는 사용되면 안되기 때문에, training set을 다시 분할하여 validation set을 만들어야 할 필요가 있음
    - 다양한 hyperparameter에 따른 성능을 확인하기 위해 RandomSearch, GridSearch 등을 활용할 수 있음