## 프로젝트 평가 문항
1) 3가지 데이터셋 구성 합리적으로 진행 됐나?  
: feature, label 선정 위한 데이터 분석과정이 체계적으로 전개됨  

2) 3가지 데이터셋에 대해 각각 5가지 모델을 성공적으로 적용했는가?  
: 모델 학습 및 테스트가 정상적으로 수행  

3) 3가지 데이터셋에 대해 모델의 평가지표가 적절히 선택됐나?  
: 평가지표 선택 및 이유 설명이 타당함




## 2-11. 프로젝트 (2) wine

### 1. 필요한 모듈 import

In [2]:
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

### 2. 데이터 준비

In [3]:
wine = load_wine()

#Feature Data 지정하기
wine_data = wine.data
#print(wine_data.shape) -> (178, 13) : 178개 샘플/데이터, 13개 특징

#Label Data 지정하기
wine_target = wine.target
#print(wine_target.shape) -> (178,) : 열벡터 타겟 데이터 확인

### 3. 데이터 이해하기

In [4]:
wine.keys() 

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names'])

In [5]:
wine.target_names

array(['class_0', 'class_1', 'class_2'], dtype='<U7')

In [6]:
print(dir(wine))

['DESCR', 'data', 'feature_names', 'frame', 'target', 'target_names']


In [7]:
#데이터셋 설명 
print(wine.DESCR)

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  14.3
    Total Phenols:                0

In [8]:
#데이터 분류 어떻게 되어있나 확인
import pandas as pd

print(pd.Series(wine.target).value_counts())

1    71
0    59
2    48
dtype: int64


### 4. 데이터 분리

In [9]:
#4. train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(wine_data, 
                                                    wine_target, 
                                                    test_size=0.2, 
                                                    random_state=7)

### 5. 다양한 모델로 학습 및 평가

#### 1) Decision Tree 

In [10]:
#모델생성
from sklearn.tree import DecisionTreeClassifier 
decision_tree = DecisionTreeClassifier()

#모델학습
decision_tree.fit(X_train, y_train)

#예측
dt_pred = decision_tree.predict(X_test)

#모델평가 - 정확도
from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_test, dt_pred)
print(accuracy)

#모델평가 - 오차행렬
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

confusion_matrix(y_test, dt_pred)
dt_c_m = classification_report(y_test, dt_pred)
#print(classification_report(y_test, dt_pred))   



0.9444444444444444


#### 2) Random Forest

In [11]:

#모델생성
from sklearn.ensemble import RandomForestClassifier
random_forest = RandomForestClassifier()

#모델학습
random_forest.fit(X_train, y_train)

#예측
rf_pred = random_forest.predict(X_test)

#모델평가 - 정확도
from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_test, rf_pred)
print(accuracy)

#모델평가 - 오차행렬
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

confusion_matrix(y_test, rf_pred)
rf_c_m = classification_report(y_test, rf_pred)

#print(classification_report(y_test, rf_pred))   

1.0


#### 3) SVM

In [12]:
#모델생성
from sklearn import svm
svm_model = svm.SVC()

#모델학습
svm_model.fit(X_train, y_train)

#예측
svm_pred = svm_model.predict(X_test)

#모델평가 - 정확도
from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_test, svm_pred)
print(accuracy)

#모델평가 - 오차행렬
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

confusion_matrix(y_test, svm_pred)
svm_c_m = classification_report(y_test, svm_pred)

#print(classification_report(y_test, svm_pred))   

0.6111111111111112


#### 4)SGDC Classifier

In [13]:
#모델생성
from sklearn.linear_model import SGDClassifier
sgd_model = SGDClassifier()

#모델학습
sgd_model.fit(X_train, y_train)

#예측
SGDC_pred = sgd_model.predict(X_test)

#모델평가 - 정확도
from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_test,SGDC_pred)
print(accuracy)

#모델평가 - 오차행렬
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

confusion_matrix(y_test, SGDC_pred)
SGDC_c_m = classification_report(y_test, SGDC_pred)

#print(classification_report(y_test, SGDC_pred))   

0.5277777777777778


  _warn_prf(average, modifier, msg_start, len(result))


#### 5) Logistic Regression

In [14]:
#모델생성
from sklearn.linear_model import LogisticRegression
logistic_model = LogisticRegression()

#모델학습
logistic_model.fit(X_train, y_train)

#예측
lr_pred = logistic_model.predict(X_test)

#모델평가 - 정확도
from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_test, lr_pred)
print(accuracy)

#모델평가 - 오차행렬
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

confusion_matrix(y_test, lr_pred)
lr_c_m = classification_report(y_test,lr_pred)

#print(classification_report(y_test,lr_pred))   

#max_iter'까지 학습했으나 아직 정답에 수렴하지 못한 상태<- 라고 경고문이 뜸
#max_iter=500으로 늘려야 할 것 같습니다.  적절값 테스트는 반복 변경해 가면서 찾아야 할 것
#max_iter이 여기서 무엇인가 -> 이터레이터...!
#옴.. 근데 어떤 값을 바꿔야될지 모르니까, 스터디에 질문하쟝..ㅠ

0.9722222222222222


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


### 6. 모델 선택 및 평가지표
선택 모델 : Random forest 모델  
-> 모든 평가지표의 정확도가 가장 높게 나왔음 

3가지의 라벨중에 중경의 의미를 따질 수 없다고 판단  
때문에 recall과 precision 중에  
더 중요하게 평가해야하는 지표를 판단 할 수 없다고 생각  
와중에 Random forest 모델이 모든 평가지표 가장 높게 나왔기 때문에 svm 모델 선택
데이터 뷴류도 고른편이니 해당 평가지표를 신뢰할 수도 있을 것 같음  

* macro avg :  
평균들의 평균 개념    
전체 성능을 평가하기 위해 모든 클래스에 동일한 가중치를 부여  
precision의 값들의 평균  
recall 값들의 평균 들의 값
<br>

* weighted avg  
실제 인스턴스 수에 따라 각 클래스의 점수에 가중치를 부여하여 계산하는 방법  
클래스 불균형을 다룰 때 유용

#### 1) Decision Tree

In [15]:
print(dt_c_m)

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       0.89      1.00      0.94        17
           2       1.00      0.83      0.91        12

    accuracy                           0.94        36
   macro avg       0.96      0.94      0.95        36
weighted avg       0.95      0.94      0.94        36



#### 2) Random forest

In [16]:
print(rf_c_m)

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       1.00      1.00      1.00        17
           2       1.00      1.00      1.00        12

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36



#### 3) SVM

In [17]:
print(svm_c_m)

              precision    recall  f1-score   support

           0       0.86      0.86      0.86         7
           1       0.58      0.88      0.70        17
           2       0.33      0.08      0.13        12

    accuracy                           0.61        36
   macro avg       0.59      0.61      0.56        36
weighted avg       0.55      0.61      0.54        36



#### 4) SGDC

In [18]:
print(SGDC_c_m)

              precision    recall  f1-score   support

           0       0.37      1.00      0.54         7
           1       0.71      0.71      0.71        17
           2       0.00      0.00      0.00        12

    accuracy                           0.53        36
   macro avg       0.36      0.57      0.41        36
weighted avg       0.40      0.53      0.44        36



#### 5) logist regression

In [19]:
print(lr_c_m)

              precision    recall  f1-score   support

           0       1.00      0.86      0.92         7
           1       0.94      1.00      0.97        17
           2       1.00      1.00      1.00        12

    accuracy                           0.97        36
   macro avg       0.98      0.95      0.96        36
weighted avg       0.97      0.97      0.97        36

