### 정확도
예측 결과와 실제 값이 동일한 건수 / 전체 데이터 수

## 정밀도와 재현율
혼동행렬에서 나온다.
이 수치는 동시에 올라갈 수가 없다. 어느 하나가 높아지면 나머지 하나가 낮아진다.

### 정밀도(Precision) = 양성 예측도
예측 값 기준으로
내가 1이라고 예측해서 실제로 1이라고 맞춘 비율
ex. 스팸 메일 거르다가 내 정상 메일까지 걸러버리면 안되기 때문에 정밀도가 더 중요.

### 재현율(Recall) = 민감도 = TPR
실제 값 기준으로
실제 1인 결과들에서 1이라고 예측에 성공한 비율
ex. 암환자 구분 모델에서 암환자 놓치면 안되기 때문에 재현율이 더 중요.

*** 농산물 판별 프로젝트는 재현율이 더 높아야 한다.

In [1]:
def get_clf_eval(y_test,pred):
    from sklearn.metrics import accuracy_score,precision_score,recall_score,confusion_matrix
    confusion = confusion_matrix(y_test,pred)
    accuracy = accuracy_score(y_test,pred)
    precision = precision_score(y_test,pred)
    recall = recall_score(y_test,pred)
    print('오차행렬')
    print(confusion)
    # 교재에서는 str의 format 형태를 활용하여 작업함. 
    # 선생님은 `f포맷팅`을 활용하심 
    print(f'정확도:{accuracy:.4f}, 정밀도:{precision:.4f}, 재현율:{recall:.4f}')

In [9]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

In [10]:
# 데이터 수정할 내용 바꿔주고
def fillna(df):
    df['Age'].fillna(df['Age'].mean(),inplace=True)
    df['Cabin'].fillna('N',inplace=True)
    df['Embarked'].fillna('N',inplace=True)
    df['Fare'].fillna(0,inplace=True)
    return df

def drop_features(df):
    df.drop(columns=['PassengerId','Name','Ticket'],inplace=True)
    return df

def format_features(df):
    #레이블 인코더는 함수 안에 같이 넣어주는 것이 좋다.
    from sklearn.preprocessing import LabelEncoder
    
    df['Cabin'] = df['Cabin'].str[:1]
    features=['Sex','Cabin','Embarked']
    for feature in features:
        le = LabelEncoder()
        df[feature] = le.fit_transform(df[feature])
        # 데이터 몇 개 안되면 그냥 숫자값에 뭐가 있는지 보고 작업하면 좋다.
        print(le.classes_)
    return df

def transform_features(df):
    df = fillna(df)
    df = drop_features(df)
    df = format_features(df)
    return df

In [11]:
df = pd.read_csv('titanic.csv')
y = df['Survived']
# 해당 컬럼 빼고 나머지를 X로 가져옴
X = df.drop(columns=['Survived'])
X = transform_features(X)

['female' 'male']
['A' 'B' 'C' 'D' 'E' 'F' 'G' 'N' 'T']
['C' 'N' 'Q' 'S']


In [12]:
# 데이터 분리 시작
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=11)

In [13]:
lr_clf = LogisticRegression(solver='liblinear')
lr_clf.fit(X_train,y_train)
pred = lr_clf.predict(X_test)
get_clf_eval(y_test,pred)

오차행렬
[[108  10]
 [ 14  47]]
정확도:0.8659, 정밀도:0.8246, 재현율:0.7705


## 정밀도/재현율 트레이드오프
하나가 올라가면 하나는 떨어지게 되어있다.

In [14]:
# 결정값에 대해 확인해봄 (0:사망, 1:생존)
pred

array([1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1,
       1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       1, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 0,
       1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0,
       0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0,
       1, 1, 1, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0,
       1, 1, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0,
       0, 0, 1], dtype=int64)

In [17]:
pred_proba = lr_clf.predict_proba(X_test)
# 첫번째 케이스에서
# 0이 될 확률보다 1이 될 확률이 (0.55이상) 좀 더 높게 나왔으므로 위의 어레이 맨 위에 값이 1이 나온 것이다.
# 임계값이 0.5이기 때문이다.
# 임계값을 조절함에 따라서 0인지 1인지도 달라지고 그에 따른 재현율과 정밀도가 달라질 수 있다.

In [18]:
# 합칠 것 들을 어레이 형태로 형태 맞춰주고
# 어느쪽으로 넣어줄 것인지 (합칠 것인지) 정해주면 됨.
np.concatenate([pred_proba,pred.reshape(-1,1)],axis=1)

array([[0.44935225, 0.55064775, 1.        ],
       [0.86335511, 0.13664489, 0.        ],
       [0.86429643, 0.13570357, 0.        ],
       [0.84968519, 0.15031481, 0.        ],
       [0.82343409, 0.17656591, 0.        ],
       [0.84231224, 0.15768776, 0.        ],
       [0.87095489, 0.12904511, 0.        ],
       [0.27228603, 0.72771397, 1.        ],
       [0.78185128, 0.21814872, 0.        ],
       [0.33185998, 0.66814002, 1.        ],
       [0.86178763, 0.13821237, 0.        ],
       [0.87058097, 0.12941903, 0.        ],
       [0.8642595 , 0.1357405 , 0.        ],
       [0.87065944, 0.12934056, 0.        ],
       [0.56033544, 0.43966456, 0.        ],
       [0.85003022, 0.14996978, 0.        ],
       [0.88954172, 0.11045828, 0.        ],
       [0.74250732, 0.25749268, 0.        ],
       [0.71120224, 0.28879776, 0.        ],
       [0.23776278, 0.76223722, 1.        ],
       [0.75684107, 0.24315893, 0.        ],
       [0.62428169, 0.37571831, 0.        ],
       [0.

In [24]:
from sklearn.preprocessing import Binarizer

In [25]:
X = [[1,-1,2],
     [2,0,0],
     [0,1.1,1.2]]
X

[[1, -1, 2], [2, 0, 0], [0, 1.1, 1.2]]

In [26]:
# 들어오는 데이터의 임계값을 정 할 수 있음. 
# 설명서 보면 기본값 0.0 이다.
# 지금은 1.1로 넣어보자.
binarizer = Binarizer(threshold=1.1)

In [28]:
#  그럼 임계값 1.1 까지는 0이 나오고 1.1 초과값은 1이 나온다.
binarizer.fit_transform(X)

array([[0., 0., 1.],
       [1., 0., 0.],
       [0., 0., 1.]])

In [42]:
# 직접 임계값 넣는 과정.
# 임계값 0.5로 넣었을 때 정확도, 정밀도, 재현율
custom_threshold=0.5

In [34]:
# 원하는 부분만 인덱스로 불러옴
# 한 행에 한 건씩 담게 모양 수정
# 수정 후 저장
pred_proba_1 = pred_proba[:,1].reshape(-1,1)

In [38]:
custom_predict = binarizer = Binarizer(threshold=custom_threshold).fit_transform(pred_proba_1)

In [41]:
# 오차행렬
# [[108  10]
#  [ 14  47]]
# 정확도:0.8659, 정밀도:0.8246, 재현율:0.7705 
get_clf_eval(y_test,custom_predict)

오차행렬
[[108  10]
 [ 14  47]]
정확도:0.8659, 정밀도:0.8246, 재현율:0.7705


In [45]:
# 임계값 0.4로 넣었을 때 정확도, 정밀도, 재현율
custom_threshold=0.4
custom_predict = binarizer = Binarizer(threshold=custom_threshold).fit_transform(pred_proba_1)
get_clf_eval(y_test,custom_predict)
# 따라서 임계값 낮추면 재현율이 올라가고, 임계값을 높이몀ㄴ 정밀도가 올라간다.

오차행렬
[[97 21]
 [11 50]]
정확도:0.8212, 정밀도:0.7042, 재현율:0.8197


In [51]:
# 임계값 0.6로 넣었을 때 정확도, 정밀도, 재현율
custom_threshold=0.6
custom_predict = binarizer = Binarizer(threshold=custom_threshold).fit_transform(pred_proba_1)
get_clf_eval(y_test,custom_predict)

오차행렬
[[113   5]
 [ 17  44]]
정확도:0.8771, 정밀도:0.8980, 재현율:0.7213


In [53]:
thresholds = [0.4, 0.45, 0.5, 0.55, 0.6]
def get_eval_by_threshold(y_test,pred_proba_1,thresholds):
    for custom_threshold in thresholds:
        custom_predict = binarizer = Binarizer(threshold=custom_threshold).fit_transform(pred_proba_1)
        get_clf_eval(y_test,custom_predict)
get_eval_by_threshold(y_test,pred_proba_1,thresholds)

오차행렬
[[97 21]
 [11 50]]
정확도:0.8212, 정밀도:0.7042, 재현율:0.8197
오차행렬
[[105  13]
 [ 13  48]]
정확도:0.8547, 정밀도:0.7869, 재현율:0.7869
오차행렬
[[108  10]
 [ 14  47]]
정확도:0.8659, 정밀도:0.8246, 재현율:0.7705
오차행렬
[[111   7]
 [ 16  45]]
정확도:0.8715, 정밀도:0.8654, 재현율:0.7377
오차행렬
[[113   5]
 [ 17  44]]
정확도:0.8771, 정밀도:0.8980, 재현율:0.7213
