# 프로젝트 (2) load_wine

# 1. 필요한 모듈 Import 하기


In [1]:
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# 2. 데이터 준비

In [2]:
wines = load_wine()

# 3. 데이터 이해하기

In [3]:
### Feature Data 지정하기
wines_data = wines.data

### Label Data 지정하기
wines_label = wines.target

### Target Names 출력해 보기
print(wines.target_names)

### 데이터 Describe 해보기
wines.DESCR

['class_0' 'class_1' 'class_2']




# 4. train, test 데이터 분리

In [4]:
X_train, X_test, y_train, y_test = train_test_split(wines_data, 
                                                    wines_label, 
                                                    test_size = 0.2, 
                                                    random_state = 77)

# 5. 다양한 모델로 학습시켜보기, 6. 모델을 평가해 보기

  

> (1) Decision Tree 사용 및 모델 평가



In [5]:
from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier(random_state = 7)
decision_tree.fit(X_train, y_train)
y_pred_dtree = decision_tree.predict(X_test)

print(classification_report(y_test, y_pred_dtree))

              precision    recall  f1-score   support

           0       1.00      0.91      0.95        11
           1       0.88      1.00      0.93        14
           2       1.00      0.91      0.95        11

    accuracy                           0.94        36
   macro avg       0.96      0.94      0.95        36
weighted avg       0.95      0.94      0.94        36



> (2) Random Forest 사용 및 모델 평가


In [6]:
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=7)
random_forest.fit(X_train, y_train)
y_pred_rforest = random_forest.predict(X_test)

print(classification_report(y_test, y_pred_rforest))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        11
           1       1.00      1.00      1.00        14
           2       1.00      1.00      1.00        11

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36




> (3) SVM 사용 및 모델 평가




In [7]:
from sklearn import svm

svm_model = svm.SVC(random_state=7)
svm_model.fit(X_train, y_train)
y_pred_svm = svm_model.predict(X_test)

print(classification_report(y_test, y_pred_svm))

              precision    recall  f1-score   support

           0       0.90      0.82      0.86        11
           1       0.58      0.79      0.67        14
           2       0.43      0.27      0.33        11

    accuracy                           0.64        36
   macro avg       0.64      0.63      0.62        36
weighted avg       0.63      0.64      0.62        36



> (4) SGD Classifier 사용 및 모델 평가


In [8]:
from sklearn.linear_model import SGDClassifier

sgd_model = SGDClassifier(random_state=7)
sgd_model.fit(X_train, y_train)
y_pred_sgd = sgd_model.predict(X_test)

print(classification_report(y_test, y_pred_sgd))

              precision    recall  f1-score   support

           0       0.59      0.91      0.71        11
           1       0.58      0.79      0.67        14
           2       0.00      0.00      0.00        11

    accuracy                           0.58        36
   macro avg       0.39      0.56      0.46        36
weighted avg       0.40      0.58      0.48        36



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


> (5) Logisitic Regression 사용 및 모델 평가


In [9]:
from sklearn.linear_model import LogisticRegression

logistic_model = LogisticRegression(max_iter = 10000, random_state=7)
logistic_model.fit(X_train, y_train)
y_pred_logisitic = logistic_model.predict(X_test)

print(classification_report(y_test, y_pred_logisitic))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        11
           1       0.93      1.00      0.97        14
           2       1.00      0.91      0.95        11

    accuracy                           0.97        36
   macro avg       0.98      0.97      0.97        36
weighted avg       0.97      0.97      0.97        36



# 6. 모델을 평가해 보기

In [10]:
from sklearn.metrics import accuracy_score

scoring = {'Decision Tree accuracy':accuracy_score(y_test, y_pred_dtree), 
           'Random Forest accuracy':accuracy_score(y_test, y_pred_rforest),
           'SVM accuracy':accuracy_score(y_test, y_pred_svm),
           'SGD Classifier accuracy':accuracy_score(y_test, y_pred_sgd),
           'Logistic accuracy':accuracy_score(y_test, y_pred_logisitic)}

print(scoring)

{'Decision Tree accuracy': 0.9444444444444444, 'Random Forest accuracy': 1.0, 'SVM accuracy': 0.6388888888888888, 'SGD Classifier accuracy': 0.5833333333333334, 'Logistic accuracy': 0.9722222222222222}


# 결론 

-> Random Forest Model 을 사용했을 때 정확도가 1로 가장 높게 나왔습니다.이는 wines 데이터의 경우 총 13개의 특성을 바탕으로 3개의 label로 분류하는 작업이라 랜덤 특성을 뽑아서 ensemble 로 처리하는 모델인 random forest 모델이 높은 것으로 이해했습니다. 

-> wine 역시 분류 문제이기 때문에 True positive 와 True negative를 같이 평가하는 accuracy로 판단하는 것이 적절한 것 같습니다. 