In [14]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score, cross_validate
from sklearn.datasets import load_iris
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

In [25]:
# 2주차 과제에서 전처리한 titanic 데이터를 활용한다
df = pd.read_csv("titanic_preprocessed.csv", index_col=0)
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,alone
0,0,3,0,22,1,0,7.25,0,0
1,1,1,1,38,1,0,71.2833,1,0
2,1,3,1,26,0,0,7.925,0,1
3,1,1,1,35,1,0,53.1,0,0
4,0,3,0,35,0,0,8.05,0,1


In [34]:
data = df.drop('survived', axis=1)
label = df['survived']

model_dt = DecisionTreeClassifier(random_state=111)
model_rf = RandomForestClassifier(random_state=111)
model_lr = LogisticRegression(random_state=111)

In [35]:
label.value_counts() # 이진 분류이며 클래스별로 균등한 데이터가 아닌 상황

survived
0    458
1    322
Name: count, dtype: int64

In [43]:
scores = cross_val_score(model_dt, data, label, scoring='recall_weighted', cv=5)
scores # label인 df['survived']는 0, 1 값만 있는 이진 분류이기 때문에 값이 나온다

array([0.6474359 , 0.77564103, 0.75      , 0.75641026, 0.75641026])

- _macro : 각 클래스를 동등한 가중치로 클래스별 측정 점수를 평균한다

- _weighted : 샘플 개수에 비례하여 각 클래스별 측정 점수를 평균한다 --> 가중치 평균

- 따라서 macro 옵션과 weighted 옵션의 값을 비교해보

In [44]:
scoring_list = ['precision_macro', 'precision_weighted', 'f1_macro', 'f1_weighted', 'recall_macro', 'recall_weighted']
model_list = [model_dt, model_rf, model_lr]
for scoring in scoring_list:
    print(scoring)
    for model in model_list:
        print(model, round(np.mean(cross_val_score(model, data, label, scoring=scoring, cv=5)), 3))
    print()

precision_macro
DecisionTreeClassifier(random_state=111) 0.731
RandomForestClassifier(random_state=111) 0.767
LogisticRegression(random_state=111) 0.766

precision_weighted
DecisionTreeClassifier(random_state=111) 0.739
RandomForestClassifier(random_state=111) 0.772
LogisticRegression(random_state=111) 0.772

f1_macro
DecisionTreeClassifier(random_state=111) 0.728
RandomForestClassifier(random_state=111) 0.762
LogisticRegression(random_state=111) 0.763

f1_weighted
DecisionTreeClassifier(random_state=111) 0.737
RandomForestClassifier(random_state=111) 0.77
LogisticRegression(random_state=111) 0.771

recall_macro
DecisionTreeClassifier(random_state=111) 0.728
RandomForestClassifier(random_state=111) 0.76
LogisticRegression(random_state=111) 0.762

recall_weighted
DecisionTreeClassifier(random_state=111) 0.737
RandomForestClassifier(random_state=111) 0.772
LogisticRegression(random_state=111) 0.772



## 출력 결과 
```
precision_macro
DecisionTreeClassifier(random_state=111) 0.731
RandomForestClassifier(random_state=111) 0.767
LogisticRegression(random_state=111) 0.766

precision_weighted
DecisionTreeClassifier(random_state=111) 0.739
RandomForestClassifier(random_state=111) 0.772
LogisticRegression(random_state=111) 0.772

f1_macro
DecisionTreeClassifier(random_state=111) 0.728
RandomForestClassifier(random_state=111) 0.762
LogisticRegression(random_state=111) 0.763

f1_weighted
DecisionTreeClassifier(random_state=111) 0.737
RandomForestClassifier(random_state=111) 0.77
LogisticRegression(random_state=111) 0.771

recall_macro
DecisionTreeClassifier(random_state=111) 0.728
RandomForestClassifier(random_state=111) 0.76
LogisticRegression(random_state=111) 0.762

recall_weighted
DecisionTreeClassifier(random_state=111) 0.737
RandomForestClassifier(random_state=111) 0.772
LogisticRegression(random_state=111) 0.772
```

precision, f1, recall이라는 서로 다른 평가지표, 그리고 DT, RF, LR이라는 서로 다른 모델에 대해 계산을 하였을 때,   
모두 공통적으로 macro에 비해 weighted가 높은 평가 지표 값을 보여주는 것을 확인할 수 있다.   
이는 불균형한 데이터의 경우에도 weighted가 클래스별 불균형을 고려한 가중치를 사용하기 때문임으로 보인다.   
