### 3-1 Accuracy(정확도)

In [1]:
import numpy as np
from sklearn.base import BaseEstimator

class MyDummyClassifier(BaseEstimator):
    # fit() 메소드는 아무것도 학습하지 않음
    def fit(self, X, y=None):
        pass
    
    # predict() 메소드는 단순히 성별 feature가 1이면 0, 0 이면 1로 예측
    def predict(self, X):
        pred = np.zeros( (X.shape[0], 1))
        for i in range(X.shape[0]):
            if X['Sex'].iloc[i] == 1:
                pred[i] = 0
            else:
                pred[i] = 1
                
        return pred

In [2]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

# null 처리 함수
def fillna(df):
    df['Age'].fillna(df['Age'].mean(), inplace=True)
    df['Cabin'].fillna('N', inplace=True)
    df['Embarked'].fillna('N', inplace=True)
    df['Fare'].fillna(0, inplace=True)
    return df

# 머신러닝 알고리즘에 불필요한 속성 제거
def drop_features(df):
    df.drop(['PassengerId', 'Name', 'Ticket'], axis=1, inplace=True)
    return df

# 레이블 인코딩 수행
def format_features(df):
    df['Cabin'] = df['Cabin'].str[:1]
    features = ['Cabin','Sex','Embarked']
    
    for feature in features:
        le = LabelEncoder()
        le = le.fit(df[feature])
        df[feature] = le.transform(df[feature])
    return df

# 앞에서 설정한 Data Preprocessing 함수 호출
def transform_features(df):
    df = fillna(df)
    df = drop_features(df)
    df = format_features(df)
    return df

In [4]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 원본 데이터를 재로딩, 데이터 가공, 학습데이터/테스트 데이터 분할
t_df = pd.read_csv("./titanic_train.csv")
y_t_df = t_df['Survived']
X_t_df = t_df.drop('Survived', axis=1)
X_t_df = transform_features(X_t_df)

X_train, X_test, y_train, y_test = train_test_split(X_t_df, y_t_df, 
                                                    test_size=0.2, random_state=0)

# 위에서 생성한 Dummy Classifier를 이용하여 학습/예측/평가 수행
myclf = MyDummyClassifier()
myclf.fit(X_train, y_train)

mypredictions = myclf.predict(X_test)
print("Dummy Classifier의 정확도는: {:.4f}".format(accuracy_score(y_test, mypredictions)))

Dummy Classifier의 정확도는: 0.7877


In [5]:
# mnist dataset
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.base import BaseEstimator
from sklearn.metrics import accuracy_score

import numpy as np
import pandas as pd


class MyFakeClassifier(BaseEstimator):
    def fit(self, X, y):
        pass
    
    # 입력값으로 들어오는 X데이터 셋의 크기만큼 모두 0값으로 만들어서 반환
    def predict(self, X):
        return np.zeros((len(X), 1), dtype=bool)
    
# 사이킷런의 내장 데이터 셋인 load_digits()를 활용하여 MNIST 데이터 로딩
digits = load_digits()

print(digits.data)
print("### digits.data.shape:", digits.data.shape)
print(digits.target)
print("### digits.target.shape:", digits.target.shape)

[[ 0.  0.  5. ...  0.  0.  0.]
 [ 0.  0.  0. ... 10.  0.  0.]
 [ 0.  0.  0. ... 16.  9.  0.]
 ...
 [ 0.  0.  1. ...  6.  0.  0.]
 [ 0.  0.  2. ... 12.  0.  0.]
 [ 0.  0. 10. ... 12.  1.  0.]]
### digits.data.shape: (1797, 64)
[0 1 2 ... 8 9 8]
### digits.target.shape: (1797,)


In [6]:
# digits 번호가 7번이면 True이고, 이를 astype(int)로 1로 변환, 7번이 아니면 False이고 0으로 반환
y = (digits.target == 7).astype(int)
X_train, X_test, y_train, y_test = train_test_split(digits.data, y, random_state=11)

In [7]:
# 불균형한 레이블 데이터 분포도 확인.
print("레이블 테스트 세트 크기:", y_test.shape)
print("테스트 세트 레이블 0과 1의 분포도")
print(pd.Series(y_test).value_counts())

# Fake Classifier로 학습/예측/평가
fakeclf = MyFakeClassifier()
fakeclf.fit(X_train, y_train)
fakepred = fakeclf.predict(X_test)
print("모든 예측을 0으로 하여도 정확도는:{:.3f}".format(accuracy_score(y_test, fakepred)))

레이블 테스트 세트 크기: (450,)
테스트 세트 레이블 0과 1의 분포도
0    405
1     45
dtype: int64
모든 예측을 0으로 하여도 정확도는:0.900


### Confusion Matrix

In [9]:
from sklearn.metrics import confusion_matrix

confusion_matrix(y_test, fakepred)

array([[405,   0],
       [ 45,   0]])

### 정밀도(Precision)과 재현율(Recall)

- 정밀도 = TP / (FP + TP)
  - 정밀도는 예측을 Positive로 한 대상 중에 예측과 실제 값이 Positive로 일치한 데이터의 비율을 뜻함
- 재현율 = TP / (FN + TP)
  - 재현율은 실제 값이 Positive인 대상 중에 예측과 실제 값이 Positive로 일치한 데이터의 비율을 뜻함

### MyFakeClassifier의 예측 결과로 정밀도와 재현율 측정

In [10]:
from sklearn.metrics import accuracy_score, precision_score, recall_score

print("정밀도(Precision):", precision_score(y_test, fakepred))
print("재현율(Recall):", recall_score(y_test, fakepred))

정밀도(Precision): 0.0
재현율(Recall): 0.0


  _warn_prf(average, modifier, msg_start, len(result))


### 오차행렬, 정확도, 정밀도, 재현율을 한꺼번에 계산하는 함수 생성

In [11]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, confusion_matrix

def get_clf_eval(y_test, pred):
    confusion = confusion_matrix(y_test, pred)
    accuracy = accuracy_score(y_test, pred)
    precision = precision_score(y_test, pred)
    recall = recall_score(y_test, pred)
    print("오차 행렬")
    print(confusion)
    print("정확도:{0:.4f}, 정밀도:{1:.4f}, 재현율:{2:.4f}".format(accuracy, precision, recall))
    

In [12]:
import numpy as np
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

t_df = pd.read_csv("./titanic_train.csv")
y_t_df = t_df['Survived']
X_t_df = t_df.drop('Survived', axis=1)
X_t_df = transform_features(X_t_df)

x_t, x_te, y_t, y_te = train_test_split(X_t_df, y_t_df, test_size=0.2, random_state=11)

lr_clf = LogisticRegression()

lr_clf.fit(x_t, y_t)
pred = lr_clf.predict(x_te)

get_clf_eval(y_te, pred)

오차 행렬
[[104  14]
 [ 13  48]]
정확도:0.8492, 정밀도:0.7742, 재현율:0.7869


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


### Precision/Recall Trade-off

#### predict_proba() 메소드 확인

In [13]:
pred_proba = lr_clf.predict_proba(x_te)
pred = lr_clf.predict(x_te)
print("pred_proba()결과 Shape: {}".format(pred_proba.shape))
print("pred_proba array에서 앞 3개만 샘플로 추출 \n:", pred_proba[:3])

pred_proba()결과 Shape: (179, 2)
pred_proba array에서 앞 3개만 샘플로 추출 
: [[0.46184106 0.53815894]
 [0.87866995 0.12133005]
 [0.8771695  0.1228305 ]]


In [14]:
# 예측 확률 array와 예측 결과값 array를 concatenate 하여 예측 확률과 결과값을 한눈에 확인
pred_proba_result = np.concatenate([pred_proba, pred.reshape(-1, 1)], axis=1)
print("두개의 class 중에서 더 큰 확률을 클래스 값으로 예측 \n", pred_proba_result[:-3])

두개의 class 중에서 더 큰 확률을 클래스 값으로 예측 
 [[0.46184106 0.53815894 1.        ]
 [0.87866995 0.12133005 0.        ]
 [0.8771695  0.1228305  0.        ]
 [0.88265546 0.11734454 0.        ]
 [0.8551068  0.1448932  0.        ]
 [0.88225581 0.11774419 0.        ]
 [0.88842064 0.11157936 0.        ]
 [0.20876242 0.79123758 1.        ]
 [0.78270934 0.21729066 0.        ]
 [0.3695523  0.6304477  1.        ]
 [0.89982999 0.10017001 0.        ]
 [0.87492225 0.12507775 0.        ]
 [0.87716351 0.12283649 0.        ]
 [0.88837465 0.11162535 0.        ]
 [0.43645496 0.56354504 1.        ]
 [0.85895814 0.14104186 0.        ]
 [0.90368543 0.09631457 0.        ]
 [0.7333317  0.2666683  0.        ]
 [0.72463445 0.27536555 0.        ]
 [0.17180573 0.82819427 1.        ]
 [0.75352758 0.24647242 0.        ]
 [0.61909451 0.38090549 0.        ]
 [0.85459198 0.14540802 0.        ]
 [0.81472367 0.18527633 0.        ]
 [0.88800331 0.11199669 0.        ]
 [0.76544616 0.23455384 0.        ]
 [0.85967062 0.14032938 0.   

### Binarizer 활용

In [15]:
from sklearn.preprocessing import Binarizer

X = [
    [1, -1, 2],
    [2, 0, 0],
    [0, 1.1, 1.2]
]

# threshold 기준값보다 같거나 작으면 0을, 크면 1을 반환
binarizer = Binarizer(threshold=1.1)
print(binarizer.fit_transform(X))

[[0. 0. 1.]
 [1. 0. 0.]
 [0. 0. 1.]]


### 분류 결정 임계값 0.5 기반에서 Binarizer를 이용하여 예측값 반환

In [16]:
# Binarizer의 threshold 설정값, 분류 결정 임계값임
custom_threshold = 0.5

# predict_proba() 반환값의 두번째 컬럼, 즉 Positive 클래스 컬럼 하나만 추출 하여 Binarizer를 적용
pred_proba_1 = pred_proba[:, 1].reshape(-1, 1)

binarizer = Binarizer(threshold=custom_threshold).fit(pred_proba_1)
custom_predict = binarizer.transform(pred_proba_1)

get_clf_eval(y_te, custom_predict)

오차 행렬
[[104  14]
 [ 13  48]]
정확도:0.8492, 정밀도:0.7742, 재현율:0.7869
