## load_wine : 와인을 분류해 봅시다

## 1. 필요한 모듈 import하기

In [1]:
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

## 2. 데이터 준비
- `load_wine` 메서드를 사용합니다.

In [2]:
from sklearn.datasets import load_wine
# sklearn 라이브러리의 datasets 패키지에서 load_wine 함수를 임포트함

wine = load_wine()
# load_wine 함수는 wine 데이터셋을 로드하는 함수
# 로드된 wine 데이터셋을 wine 라는 변수에 저장

print(dir(wine))
# dir()는 객체가 어떤 변수와 메서드를 가지고 있는지 나열함

In [3]:
wine.keys() # wine 데이터셋에 담긴 정보 종류 확인

## 3. 데이터 이해하기
지피지기면 백전불태! 다루어야 할 데이터를 자세히 살펴봅시다.
- Feature Data 지정하기
- Label Data 지정하기
- Target Names 출력해 보기
- 데이터 Describe 해 보기

In [4]:
wine_data = wine.data

print(wine_data.shape) 
# shape는 배열의 형상정보를 출력

In [5]:
wine_data[0]
# 150개의 데이터 중 첫 번째 데이터 출력

In [6]:
wine_label = wine.target

print(wine_label.shape)
wine_label

In [7]:
wine.target_names

In [23]:
# print(wine.DESCR)
# keys에서 확인한 정보 중 DESCR을 변수에 따로 저장하지 않고 호출
# 데이터셋 설명서 출력

In [9]:
wine.feature_names

In [10]:
import pandas as pd

In [11]:
type(wine_data)
# iris_data의 데이터 타입은 numpy의 ndarray인 것을 확인할 수 있음

In [12]:
wine_df = pd.DataFrame(data=wine_data, columns=wine.feature_names)
wine_df["label"] = wine.target
wine_df

In [24]:
wine_df.describe()

In [56]:
wine_df.label.value_counts()

In [26]:
wine_df.label.value_counts().plot(kind='bar')

## 4. train, test 데이터 분리
모델 학습과 테스트용 문제지와 정답지를 준비해 봅시다.
X_train, X_test, y_train, y_test를 생성하는 방법을 참고해 보세요.

In [40]:
from sklearn.model_selection import train_test_split
# sklearn model_selection패키지의 train_test_split 함수를 임포트

X_train, X_test, y_train, y_test = train_test_split(wine_data, 
                                                    wine_label, 
                                                    test_size=0.2, 
                                                    random_state=7)

print('X_train 개수: ', len(X_train),', X_test 개수: ', len(X_test))
# len은 배열의 길이를 출력

In [41]:
X_train.shape, y_train.shape
# train의 형상정보 확인

In [42]:
X_test.shape, y_test.shape
# test의 형상정보 확인

In [43]:
y_train, y_test
# label이 잘 분리되었는지 확인

## 5. 다양한 모델로 학습시켜보기
학습데이터 X_train, y_train 을 활용해 분류기 모델을 만들어 봅시다. 어떤 모델이 가장 좋은 성능을 보일까요?

- Decision Tree 사용해 보기
- Random Forest 사용해 보기
- SVM 사용해 보기
- SGD Classifier 사용해 보기
- Logistic Regression 사용해 보기

### Decision Tree

In [51]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report

decision_tree = DecisionTreeClassifier(random_state=32)
decision_tree.fit(X_train, y_train) 
y_pred = decision_tree.predict(X_test)

print(classification_report(y_test, y_pred))

### Random Forest

In [52]:
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=32) # RandomForest분류기 객체를 생성
random_forest.fit(X_train, y_train) # 훈련
y_pred = random_forest.predict(X_test) # 예측

print(classification_report(y_test, y_pred)) # 결과 지표를 확인

### SVM 사용해 보기

In [57]:
from sklearn import svm
svm_model = svm.SVC()
svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)

print(classification_report(y_test, y_pred)) 

### SGD Classifier 사용해 보기

In [54]:
from sklearn.linear_model import SGDClassifier #선형분류기인 SGDClassifier를 사용하기 위한 import
sgd_model = SGDClassifier() # 모델 객체 생성

sgd_model.fit(X_train, y_train) # sgd모델로 훈련데이터로 훈련시킨다.
y_pred = sgd_model.predict(X_test)# 그 모델로 test데이터를 사용해 예측

print(classification_report(y_test, y_pred)) # 결과 지표를 확인

### Logistic Regression 사용해 보기

In [55]:
from sklearn.linear_model import LogisticRegression # 선형분류기인 LogisticRegression를 사용하기 위한 import
logistic_model = LogisticRegression() # 모델 객체 생성

logistic_model.fit(X_train, y_train) #LogisticRegression모델로 훈련데이터를 가지고 훈련시킨다.
y_pred = logistic_model.predict(X_test) # 예측

print(classification_report(y_test, y_pred))

## 6. 모델을 평가해 보기
학습된 모델들의 테스트데이터 예측 결과를 어떻게 해석해야 할까요? 모델의 성능을 평가하는 지표로는 무엇이 좋을까요? sklearn.metrics 에서 제공하는 평가지표 중 적절한 것을 선택해 보세요. 선택하신 이유도 설명해 주세요.

### Macro F1 score을 사용하였습니다.

F1 Score는 Precision과 Recall의 조화 평균으로 계산되며, 모델이 클래스 불균형 문제를 얼마나 잘 처리하는지 측정하는 데 도움이 된다.

Macro F1 Score는 다중 클래스 분류 문제에서 모델의 성능을 평가하는 데 사용되는 지표 중 하나이다. 
Macro F1 Score는 각 클래스별로 계산된 F1 Score의 평균을 구하여 모델의 전체 성능을 평가한다. 

Macro F1 Score는 모든 클래스에 대한 F1 Score의 평균으로 계산됩니다.

- F1 Score = $2 * \frac{Precision * Recall}{Precision + Recall}$

wine data는 class 0이 59개, 1이 71개, 2가 48개로 레이블이 약간 불균형하기에 f1 score을 이용하고자 하였다.

In [59]:
import numpy as np
from sklearn.metrics import f1_score


def macro_f1_score(y_true, y_pred, n_classes):
    f1_scores = []
    for c in range(n_classes):
        y_true_c = (y_true == c)
        y_pred_c = (y_pred == c)
        f1_c = f1_score(y_true_c, y_pred_c)
        f1_scores.append(f1_c)
    return np.mean(f1_scores)


# Macro F1 Score 계산
n_classes = 3

In [61]:
print('< Macro F1 Score >')
decision_tree = DecisionTreeClassifier(random_state=32)
decision_tree.fit(X_train, y_train) 
y_pred = decision_tree.predict(X_test)
macro_f1 = macro_f1_score(y_test, y_pred, n_classes)
print("decision_tree :", macro_f1)

random_forest = RandomForestClassifier(random_state=32) # RandomForest분류기 객체를 생성
random_forest.fit(X_train, y_train) # 훈련
y_pred = random_forest.predict(X_test)
macro_f1 = macro_f1_score(y_test, y_pred, n_classes)
print("random_forest :", macro_f1)

svm_model = svm.SVC() # 모델 객체를 만든다.
svm_model.fit(X_train, y_train) # 훈련
y_pred = svm_model.predict(X_test)
macro_f1 = macro_f1_score(y_test, y_pred, n_classes)
print("svm_model :", macro_f1)

sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)
macro_f1 = macro_f1_score(y_test, y_pred, n_classes)
print("sgd_model  :", macro_f1)

logistic_model = LogisticRegression()
logistic_model.fit(X_train, y_train) 
y_pred = logistic_model.predict(X_test)
macro_f1 = macro_f1_score(y_test, y_pred, n_classes)
print("logistic_model :", macro_f1)