# 1.필요한 모듈 import 하기

In [1]:
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# 2.데이터 준비

In [2]:
wine = load_wine()

# 3.데이터 이해하기

In [3]:
# Feature Data 지정하기
print(wine.data.shape)
# 총 178개 데이터, feature는 13개
wine_data = wine.data

(178, 13)


In [4]:
# Label Data 지정하기
print(wine.target.shape)
wine_label = wine.target

(178,)


In [5]:
# Target Names 출력해보기
wine.target_names

array(['class_0', 'class_1', 'class_2'], dtype='<U7')

In [6]:
# 데이터 Describe해보기
wine.DESCR



# 4.train,test 데이터 분리

In [7]:
X_train,X_test,y_train,y_test = train_test_split(wine_data,wine_label,test_size=0.2,random_state=7)

# 5.다양한 모델로 학습시켜보기

In [8]:
# Decision Tree 사용해 보기
from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier(random_state=32)
decision_tree.fit(X_train, y_train)
y_pred_decision = decision_tree.predict(X_test)

#print(classification_report(y_test, y_pred_decision))

In [9]:
# Random Forest 사용해 보기
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=32)
random_forest.fit(X_train, y_train)
y_pred_forest = random_forest.predict(X_test)

#print(classification_report(y_test, y_pred_forest))

In [10]:
# SVM 사용해 보기
from sklearn import svm

svm_model = svm.SVC()
svm_model.fit(X_train, y_train)
y_pred_svm = svm_model.predict(X_test)

#print(classification_report(y_test, y_pred_svm))

In [11]:
# SGD Classifier 사용해 보기
from sklearn.linear_model import SGDClassifier

sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)
y_pred_sgd = sgd_model.predict(X_test)

#print(classification_report(y_test, y_pred_sgd,zero_division=))

In [12]:
# Logistic Regression 사용해 보기
from sklearn.linear_model import LogisticRegression
# Gradient Decending 이 수렴되지 않아서 warning메세지 나와서
# max_iter 값을 3000번 으로 변경
logistic_model = LogisticRegression(max_iter=3000)

logistic_model.fit(X_train, y_train)
y_pred_log = logistic_model.predict(X_test)

#print(classification_report(y_test, y_pred_log))

# 6.모델을 평가해 보기

In [15]:
#Decision Tree (y_pred_decision)
#Random Forest (y_pred_forest)
#SVM (y_pred_svm)
#SGD Classifier (y_pred_sgd)
#Logistic Regression (y_pred_log)
print('Decision Tree -----------------------------')
print(classification_report(y_test, y_pred_decision,zero_division=0))
print('Random Forest -----------------------------')
print(classification_report(y_test, y_pred_forest,zero_division=0))
print('SVM           -----------------------------')
print(classification_report(y_test, y_pred_svm,zero_division=0))
print('SGD Classifier ----------------------------')
print(classification_report(y_test, y_pred_sgd,zero_division=0))
print('Logistic Regression -----------------------')
print(classification_report(y_test, y_pred_log,zero_division=0))

Decision Tree -----------------------------
              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       0.89      1.00      0.94        17
           2       1.00      0.83      0.91        12

    accuracy                           0.94        36
   macro avg       0.96      0.94      0.95        36
weighted avg       0.95      0.94      0.94        36

Random Forest -----------------------------
              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       1.00      1.00      1.00        17
           2       1.00      1.00      1.00        12

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36

SVM           -----------------------------
              precision    recall  f1-score   support

           0       0.86      0.86      0.86        

### 1.데이터 불균형이 존재하는가?  
 - 1.1. SVM모델과 SGD Classifier의 classification_report를 보면 데이터 불균형으로 판단  
   - f1-score 값이 54%,48%로 낮고 accuracy 값과 차이가 10%이상 나는 모습  
   - 총 36개의 테스트 데이터중에 class_0의 데이터 비중이 19.4% 로 낮아서 영향을 주는 것인가?      
 - 1.2. 그러나 다른 모델에서는 데이터 불균형이 없는 것으로 판단  
   - f1-score와 accuracy값이 비슷하고 값이 90%로 높게 형성됨    
 - 1.1과 1.2를 바탕으로 어떻게 결론을 내야할 지 잘 모르겠습니다.  

### 2.모델의 성능을 평가하는 지표로 무엇이 좋을까요?  
 - 잘 모르겠네요