In [65]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn import svm
from sklearn.linear_model import SGDClassifier, LogisticRegression
from sklearn.metrics import f1_score, classification_report, confusion_matrix

# 데이터 준비
digits = load_digits()

# Feature Data 지정하기
digits_feature = digits.data

# Label Data 지정하기
digits_label = digits.target

# Target Names 출력해 보기
# print(digits_label)

# 데이터 Describe 해 보기
# print(digits.DESCR)

# train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(digits_feature, digits_label, test_size=0.2, random_state=17)

# models
dt = DecisionTreeClassifier(random_state=17)
rf = RandomForestClassifier(random_state=17)
svm = svm.SVC(random_state=17)
sgd = SGDClassifier(random_state=17)
lr = LogisticRegression(random_state=17, max_iter=5000)
models = [dt, rf, svm, sgd, lr]

# 모델 학습 및 평가
for model in models:
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    print(str(model) + ': ' + str(f1_score(y_test, y_pred, average='macro')))
    # print(classification_report(y_test, y_pred))
    # print(confusion_matrix(y_test, y_pred))

DecisionTreeClassifier(random_state=17): 0.8266508772376999
RandomForestClassifier(random_state=17): 0.9622816477550563
SVC(random_state=17): 0.9840710163841433
SGDClassifier(random_state=17): 0.9378717635704982
LogisticRegression(max_iter=5000, random_state=17): 0.9649599002074807


In [None]:
# 모델 평가
'''
손글씨 분류 경우에는 오류가 발생하여도 생명 혹은 막대한 피해를 끼치지 않기 때문에 전반적인 성능이 높은 것이 좋다.
따라서 precision과 recall이 같이 높은 모델, 즉 F1 Score가 높은 것을 선택하면 된다. 
위의 코드를 기준으로는 모델이 SVC인 경우의 F1 score가 가장 높으므로 이 경우에는 SVC를 사용해야 한다.
그리고 위의 데이터 셋의 경우 각 카테고리별 데이터의 비율이 비슷하므로 Recall 수치 중 macro avg을 사용해도 무방하다.
'''

In [71]:
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn import svm
from sklearn.linear_model import SGDClassifier, LogisticRegression
from sklearn.metrics import f1_score, classification_report, confusion_matrix

# 데이터 준비
wines = load_wine()

# Feature Data 지정하기
wines_feature = wines.data

# Label Data 지정하기
wines_label = wines.target

# Target Names 출력해 보기
# print(wines_label)

# 데이터 Describe 해 보기
# print(wines.DESCR)

# train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(wines_feature, wines_label, test_size=0.2, random_state=17)

# models
dt = DecisionTreeClassifier(random_state=17)
rf = RandomForestClassifier(random_state=17)
svm = svm.SVC(random_state=17)
sgd = SGDClassifier(random_state=17)
lr = LogisticRegression(random_state=17, max_iter=5000)
models = [dt, rf, svm, sgd, lr]

# 모델 학습 및 평가
for model in models:
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    print(str(model) + ': ' + str(f1_score(y_test, y_pred, average='macro')))
    # print(classification_report(y_test, y_pred))
    # print(confusion_matrix(y_test, y_pred))

DecisionTreeClassifier(random_state=17): 0.9754062362758015
RandomForestClassifier(random_state=17): 1.0
SVC(random_state=17): 0.5617875056999544
SGDClassifier(random_state=17): 0.7317043740573151
LogisticRegression(max_iter=5000, random_state=17): 0.9754062362758015


In [None]:
# 모델 평가
'''
와인 분류 경우에도 오류가 발생으로 인해 생명 혹은 막대한 피해를 끼치지 않기 때문에 전반적인 성능이 높은 것이 좋다.
따라서 precision과 recall이 같이 높은 모델, 즉 F1 Score가 높은 것을 선택하면 된다. 
위의 코드를 기준으로는 모델이 Random Forest인 경우의 F1 score가 가장 높으므로 이 경우에는 Random Forest를 사용해야 한다.
그리고 위의 데이터 셋의 경우에도 각 카테고리별 데이터의 비율이 거의 비슷하므로 Recall 수치 중 macro avg을 사용해도 무방하다.
'''

In [69]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn import svm
from sklearn.linear_model import SGDClassifier, LogisticRegression
from sklearn.metrics import recall_score
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix

# 데이터 준비
breast_cancer = load_breast_cancer()

# Feature Data 지정하기
breast_cancer_feature = breast_cancer.data

# Label Data 지정하기
breast_cancer_label = breast_cancer.target

# Target Names 출력해 보기
# print(breast_cancer_label)

# 데이터 Describe 해 보기
# print(breast_cancer.DESCR)

# train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(breast_cancer_feature, breast_cancer_label, test_size=0.2, random_state=17)

# models
dt = DecisionTreeClassifier(random_state=17)
rf = RandomForestClassifier(random_state=17)
svm = svm.SVC(random_state=17)
sgd = SGDClassifier(random_state=17)
lr = LogisticRegression(random_state=17, max_iter=1000)
models = [dt, rf, svm, sgd, lr]

# 모델 학습 및 평가
for model in models:
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    print(str(model) + ': ' + str(recall_score(y_test, y_pred, average='macro')))
    # print(classification_report(y_test, y_pred))
    # print(confusion_matrix(y_test, y_pred))

DecisionTreeClassifier(random_state=17): 0.9078947368421053
RandomForestClassifier(random_state=17): 0.9605263157894737
SVC(random_state=17): 0.9144736842105263
SGDClassifier(random_state=17): 0.9013157894736842
LogisticRegression(max_iter=1000, random_state=17): 0.9473684210526315


In [None]:
# 모델 평가
'''
유방암 예측 경우에는 양성인 사람들을 많이 예측할수록 좋다. 
따라서 음성으로 예측된 것 중 실제 양성인 것, 즉 FN이 가장 작고 TP가 가장 높아야 하므로 
이 경우에는 Recall이 중요한 평가 기준으로 사용되어야 한다.
위의 코드를 기준으로는 Random Forest인 경우의 Recall이 가장 높으므로 이 경우에는 Random Forest를 사용해야 한다.
그리고 위의 데이터 셋의 경우도 양성과 음성의 비율이 거의 비슷하므로 Recall 수치 중 macro avg을 사용해도 무방하다.
'''

In [None]:
회고
- 이번 프로젝트에서 어려웠던 점
    - confusion matrix를 볼 때마다 항상 정의 내용들이 헷갈려서 계속 왔다갔다 했던 점이 어려웠다.
- 프로젝트를 진행하면서 알아낸 점 혹은 아직 모호한 점
    - 평가 성능 지표를 정할 때 생명 혹은 사회적인 이슈가 있는 특수한 케이스가 아닌 경우에는 전반적인 성능 지표인 F1 Score를 사용하면 된다.  
- 루브릭 평가 지표를 맞추기 위해 시도한 것들
    - 1. 코드를 계속 돌려도 일정한 결과값이 나오도록 각 모델마다 random state 를 설정했다.
    - 2. 각 성능 평가 지표의 특성들에 대해 찾아보며 경우에 따라 적절한 평가 지표를 적용했다.
- 만약에 루브릭 평가 관련 지표를 달성 하지 못했을 때, 이유에 관한 추정 (없음)
- 자기 다짐
    - confusion matrix를 볼 때마다 외우려고 했지만 그동안은 꼼꼼하게 보지 않았던 것 같다. 그래서 앞으로는 새로운 내용을 배울 때 조금 더 꼼꼼하게 익혀야겠다.