# [E_02] Classifier

---
# Project 1: 손글씨 분류
## (1) 필요한 모듈 import 하기

In [22]:
from sklearn.datasets import load_digits # 손글씨 데이터를 로드
from sklearn.model_selection import train_test_split # train과 test 셋으로 나눠줌
from sklearn.metrics import classification_report # 테스트 결과를 분석

## (2) 데이터 준비

In [23]:
digits = load_digits() # 손글씨 데이터 불러오기

## (3) 데이터 이해하기

In [24]:
# Feature Data 지정하기
digit_data = digits.data

# Label Data 지정하기
digit_label = digits.target

# Target Names 출력해 보기
print(digits.target_names)

[0 1 2 3 4 5 6 7 8 9]


## (4) train, test 데이터 분리

In [25]:
X_train, X_test, y_train, y_test = train_test_split(digit_data, digit_label, test_size=0.2, random_state=42)

## (5) 다양한 모델로 학습시켜보기

In [26]:
# random_state는 동일하게 42로 설정
# Decision Tree 사용해 보기
from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier(random_state=42)
decision_tree.fit(X_train, y_train)

# Random Forest 사용해 보기
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=42)
random_forest.fit(X_train, y_train)

# SVM 사용해 보기
from sklearn import svm

svm_model = svm.SVC()
svm_model.fit(X_train, y_train)

# SGD Classifier 사용해 보기
from sklearn.linear_model import SGDClassifier

sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)

# Logistic Regression 사용해 보기
from sklearn.linear_model import LogisticRegression

logistic_model = LogisticRegression(max_iter=3000) # 뭔가 max_iter를 지정해주라는 경고가 떠서 검색후 보통 사용하는 값으로 설정
#logistic_model = LogisticRegression()
logistic_model.fit(X_train, y_train)

LogisticRegression(max_iter=3000)

## (6) 모델을 평가해 보기

In [41]:
# Descision Tree
y_pred_deci = decision_tree.predict(X_test)
print("\n********* Decision Tree *********\n")
print(classification_report(y_test, y_pred_deci))

# Random Forest
y_pred_rand = random_forest.predict(X_test)
print("\n********* Random Forest *********\n")
print(classification_report(y_test, y_pred_rand))

# SVM
y_pred_svm = svm_model.predict(X_test)
print("\n********* Support Vector Machine *********\n")
print(classification_report(y_test, y_pred_svm))

# SGD Classifier
y_pred_sgd = sgd_model.predict(X_test)
print("\n********* SGD Classifier *********\n")
print(classification_report(y_test, y_pred_sgd))

# Logistic Regression
y_pred_logi = logistic_model.predict(X_test)
print("\n********* Logistic Regression *********\n")
print(classification_report(y_test, y_pred_logi))


********* Decision Tree *********

              precision    recall  f1-score   support

           0       0.86      0.97      0.92        39
           1       0.99      0.92      0.95        75

    accuracy                           0.94       114
   macro avg       0.92      0.95      0.93       114
weighted avg       0.94      0.94      0.94       114


********* Random Forest *********

              precision    recall  f1-score   support

           0       1.00      0.95      0.97        39
           1       0.97      1.00      0.99        75

    accuracy                           0.98       114
   macro avg       0.99      0.97      0.98       114
weighted avg       0.98      0.98      0.98       114


********* Support Vector Machine *********

              precision    recall  f1-score   support

           0       1.00      0.87      0.93        39
           1       0.94      1.00      0.97        75

    accuracy                           0.96       114
   macro av

---
# Project 2: 와인 분류
## (1) 필요한 모듈 import 하기

In [28]:
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

## (2) 데이터 준비

In [29]:
wine = load_wine()

## (3) 데이터 이해하기

In [30]:
# Feature Data 지정하기
wine_data = wine.data

# Label Data 지정하기
wine_label = wine.target

# Target Names 출력해 보기
print(wine.target_names)

['class_0' 'class_1' 'class_2']


## (4) train, test 데이터 분리

In [31]:
X_train, X_test, y_train, y_test = train_test_split(wine_data, wine_label, test_size=0.2, random_state=43)

## (5) 다양한 모델로 학습시켜보기

In [32]:
# random_state는 동일하게 43으로 설정
# Decision Tree 사용해 보기
from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier(random_state=43)
decision_tree.fit(X_train, y_train)

# Random Forest 사용해 보기
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=43)
random_forest.fit(X_train, y_train)

# SVM 사용해 보기
from sklearn import svm

svm_model = svm.SVC()
svm_model.fit(X_train, y_train)

# SGD Classifier 사용해 보기
from sklearn.linear_model import SGDClassifier

sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)

# Logistic Regression 사용해 보기
from sklearn.linear_model import LogisticRegression

#logistic_model = LogisticRegression(max_iter=3000): 3000으로 하니 max를 넘어갔다는 경고가 나와 단순히 높여줌
logistic_model = LogisticRegression(max_iter=5000)
logistic_model.fit(X_train, y_train)


LogisticRegression(max_iter=5000)

## (6) 모델을 평가해 보기

In [33]:
# Descision Tree
y_pred_deci = decision_tree.predict(X_test)
print("\n********* Decision Tree *********\n")
print(classification_report(y_test, y_pred_deci))

# Random Forest
y_pred_rand = random_forest.predict(X_test)
print("\n********* Random Forest *********\n")
print(classification_report(y_test, y_pred_rand))

# SVM
y_pred_svm = svm_model.predict(X_test)
print("\n********* Support Vector Machine *********\n")
print(classification_report(y_test, y_pred_svm))

# SGD Classifier
y_pred_sgd = sgd_model.predict(X_test)
print("\n********* SGD Classifier *********\n")
print(classification_report(y_test, y_pred_sgd))

# Logistic Regression
y_pred_logi = logistic_model.predict(X_test)
print("\n********* Logistic Regression *********\n")
print(classification_report(y_test, y_pred_logi))


********* Decision Tree *********

              precision    recall  f1-score   support

           0       0.87      0.93      0.90        14
           1       0.92      0.86      0.89        14
           2       1.00      1.00      1.00         8

    accuracy                           0.92        36
   macro avg       0.93      0.93      0.93        36
weighted avg       0.92      0.92      0.92        36


********* Random Forest *********

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        14
           1       1.00      1.00      1.00        14
           2       1.00      1.00      1.00         8

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36


********* Support Vector Machine *********

              precision    recall  f1-score   support

           0       0.93      0.93      0.93        14
           1

  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


---
# Project 3: 유방암 여부 진단
## (1) 필요한 모듈 import 하기

In [34]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

## (2) 데이터 준비

In [35]:
breast_cancer = load_breast_cancer()

## (3) 데이터 이해하기

In [36]:
# Feature Data 지정하기
breast_cancer_data = breast_cancer.data

# Label Data 지정하기
breast_cancer_label = breast_cancer.target

# Target Names 출력해 보기
print(breast_cancer.target_names)

['malignant' 'benign']


## (4) train, test 데이터 분리

In [37]:
X_train, X_test, y_train, y_test = train_test_split(breast_cancer_data, breast_cancer_label, test_size=0.2, random_state=43)

## (5) 다양한 모델로 학습시켜보기

In [38]:
# random_state는 동일하게 44로 설정
# Decision Tree 사용해 보기
from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier(random_state=44)
decision_tree.fit(X_train, y_train)

# Random Forest 사용해 보기
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=44)
random_forest.fit(X_train, y_train)

# SVM 사용해 보기
from sklearn import svm

svm_model = svm.SVC()
svm_model.fit(X_train, y_train)

# SGD Classifier 사용해 보기
from sklearn.linear_model import SGDClassifier

sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)

# Logistic Regression 사용해 보기
from sklearn.linear_model import LogisticRegression

logistic_model = LogisticRegression(max_iter=3000)
logistic_model.fit(X_train, y_train)

LogisticRegression(max_iter=3000)

## (6) 모델을 평가해 보기

In [39]:
# Descision Tree
y_pred_deci = decision_tree.predict(X_test)
print("\n********* Decision Tree *********\n")
print(classification_report(y_test, y_pred_deci))

# Random Forest
y_pred_rand = random_forest.predict(X_test)
print("\n********* Random Forest *********\n")
print(classification_report(y_test, y_pred_rand))

# SVM
y_pred_svm = svm_model.predict(X_test)
print("\n********* Support Vector Machine *********\n")
print(classification_report(y_test, y_pred_svm))

# SGD Classifier
y_pred_sgd = sgd_model.predict(X_test)
print("\n********* SGD Classifier *********\n")
print(classification_report(y_test, y_pred_sgd))

# Logistic Regression
y_pred_logi = logistic_model.predict(X_test)
print("\n********* Logistic Regression *********\n")
print(classification_report(y_test, y_pred_logi))


********* Decision Tree *********

              precision    recall  f1-score   support

           0       0.86      0.97      0.92        39
           1       0.99      0.92      0.95        75

    accuracy                           0.94       114
   macro avg       0.92      0.95      0.93       114
weighted avg       0.94      0.94      0.94       114


********* Random Forest *********

              precision    recall  f1-score   support

           0       1.00      0.95      0.97        39
           1       0.97      1.00      0.99        75

    accuracy                           0.98       114
   macro avg       0.99      0.97      0.98       114
weighted avg       0.98      0.98      0.98       114


********* Support Vector Machine *********

              precision    recall  f1-score   support

           0       1.00      0.87      0.93        39
           1       0.94      1.00      0.97        75

    accuracy                           0.96       114
   macro av

---

# 결과 비교

평가문항	상세기준
1. 3가지 데이터셋의 구성이 합리적으로 진행되었는가?  
  - feature와 label 선정을 위한 데이터 분석과정이 체계적으로 전개됨  
    

2. 3가지 데이터셋에 대해 각각 5가지 모델을 성공적으로 적용하였는가?  
  - 모델학습 및 테스트가 정상적으로 수행되었음  
    

3. 3가지 데이터셋에 대해 모델의 평가지표가 적절히 선택되었는가?  
  - 평가지표 선택 및 이유 설명이 타당함  
    


#### 1. 손글씨
* 숫자를 0에서 9까지 각각을 다 잘 맞춰야 하므로, FN(False Negative)가 작아야 한다고 생각
* 그러므로 Recall 값을 비교하는 것이 적절
* Recall 비교
\# Descision Tree: 0.94  
\# Random Forest: 0.98  
\# Support Vector Machine: 0.96  
\# SGD Classifier: 0.91  
\# Logistic Regression: 0.98

#### 2. 와인
* 와인의 종류를 구별하는 문제로, 역시나 FN(False Negative)가 작아야 한다고 생각
* 그러므로 Recall 값을 비교하는 것이 적절
* Recall 비교
\# Descision Tree: 0.92  
\# Random Forest: 1.0  
\# Support Vector Machine: 0.72  
\# SGD Classifier: 0.64  
\# Logistic Regression: 0.94

#### 3. 유방암
* 유방암 여부를 양성/음성 두 가지중 하나로 판별하는 문제이므로,  
어느 하나에 집중하기 보다는 양성이면 양성, 음성이면 음성이라고 제대로 판별해야 한다고 생각
* 그러므로 Precision과 Recall을 모두 포함하는 f1-score를 활용
* f1-score 비교
\# Descision Tree: 0.94  
\# Random Forest: 0.98  
\# Support Vector Machine: 0.96  
\# SGD Classifier: 0.91  
\# Logistic Regression: 0.98  
  
  
* Random Forest와 Logistic Regression이 동일한 값이므로, 추가적인 비교가 필요
* 양성인데 음성이라고 판단하는 경우가 더 치명적이므로 실제 양성인 경우(TP + FN)가 중요
 - Recall 추가 비교해본 결과 두 Classifier가 같은 값을 가짐

# 회고

* sickit-learn을 활용하면 다양한 Classifier를 쉽게 활용할 수 있다!


* 테스트 결과를 비교하는 metric으로 accuracy와 precision, recall이 있고,  
데이터의 특성에 따라 선택해야하는 비교 기법이 다르다!


* 계속해서 여러가지 라이브러리들을 학습하고 활용해보고 있는데,  
각각의 장단점이 있을것이므로 이를 잘 파악해서 실제 프로젝트 진행 시 적합한 것으로 선택하는 것이 중요할 듯!
  
  
* 아직 시각화에 대한 숙달이 안되어 활용을 못했지만,  
시각화에 대한 필요성을 매번 느끼고 있으며 빠르게 학습해야 할 필요가 있다...!!!


* Logistic Regression을 활용하는 과정에서 max_iter 관련 경고가 있었다.  
solver를 몇 번 반복할 것인지에 대한 내용인데 이게 수렴이 되면 그 다음으로는 몇 번을 수행하든 변화가 없다.  
그저 수행 시간만 길어지는데, 그렇다면 어떻게 이 값을 적절하게 조절할 수 있는 것인가?  
역시나 시각화를 하는것이 중요한 것인가? 하는 의문이 든다.  
max_iter 관련해서는 조금 더 알아봐야할 필요가 있다!!  

 -> GridSearchCV를 활용하거나, RandomizedSearchCV 또는 BayesianOptimization를 활용하는 방법이 있다고 한다!
