In [4]:
# 정밀도 (precision) 와 재현율 (recall) 은 Positive 데이터 세트의 예측 성능에 좀 더 초점을 맞춘 평가 지표이다.
#
# 정밀도 = TP / (FP + TP)
# 재현율 = TP / (FN + TP)
#
# 정밀도는 예측을 Positive로 한 대상 중 예측과 실제 값이 Positive로 일치하는 데이터의 비율을 뜻한다.
# 재현율은 실제 값이 Positive인 대상 중에 예측과 실제 값이 Positive로 일치하는 데이터의 비율을 뜻한다.

In [5]:
# 이진 분류 모델의 특성에 따라 특정 평가 지표가 더 중요한 지표로 간주될 수 있다.

# 예를 들어 암 진단 모델의 경우, 재현율이 훨씬 중요한 지표이다.
# 실제 Positive인 암 환자를 Positive가 아닌 Negative로 판단하였을 경우, 그 대가는 생명을 앗아갈 정도로 심각할 수 있기 때문이다. (재현율)
# 그러나 실제 Negative인 암 환자를 Positive로 판단하는 것은 그저 재검사 한 번의 대가밖에 필요로 하지 않을 것이다. (정밀도)

# 스팸메일 분류 모델의 경우에는 재현율이 더 중요하다.
# 실제 스팸메일 (Positive) 인 메일을 Positive가 아닌 Negative로 판단한다 하더라도 사용자 입장에서 크게 손해볼 일은 없을 것이다. (재현율)
# 그러나 스팸메일이 아닌 중요메일일 경우 (Negative) 만약 메일을 Negative가 아닌 Positive로 판단하는 것은
# 사용자 입장에서 큰 손해를 입을 수도 있는 상황이다. (정밀도)

In [6]:
from sklearn.preprocessing import LabelEncoder
import pandas as pd
import numpy as np

# Null 처리
def fillna(df):
    df['Age'].fillna(df['Age'].mean(), inplace=True)
    df['Cabin'].fillna('N', inplace=True)
    df['Embarked'].fillna('N', inplace=True)
    df['Fare'].fillna(0, inplace=True)
    return df

# 머신러닝 알고리즘에 불필요한 속성 제거
def drop_features(df):
    df.drop(['PassengerId', 'Name', 'Ticket'], axis=1, inplace=True)
    return df

# 레이블 인코딩 수행
def format_features(df):
    df['Cabin'] = df['Cabin'].str[:1]
    features = ['Cabin', 'Sex', 'Embarked']
    for feature in features:
        le = LabelEncoder()
        le = le.fit(df[feature])
        df[feature] = le.transform(df[feature])
    return df

# 앞에서 설정한 데이터 전처리 함수 호출
def transform_features(df):
    df = fillna(df)
    df = drop_features(df)
    df = format_features(df)
    return df

In [7]:
# 타이타닉 예제에 있어서 예측 성능을 평가
from sklearn.metrics import accuracy_score, precision_score, recall_score, confusion_matrix

def get_clf_eval(y_test, pred):
    confusion = confusion_matrix(y_test, pred)
    accuracy = accuracy_score(y_test, pred)
    precision = precision_score(y_test, pred)
    recall = recall_score(y_test, pred)
    print('오차행렬\n', confusion)
    print('정확도: {0:.4f}, 정밀도: {1:.4f}, 재현율: {2:.4f}'.format(accuracy, precision, recall))

In [10]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

# 원본 데이터 재로딩, 데이터 가공, 학습 데이터/테스트 데이터 분할
titanic_df = pd.read_csv('./titanic_train.csv')
y_titanic_df = titanic_df['Survived']
X_titanic_df = titanic_df.drop('Survived', axis=1)
X_titanic_df = transform_features(X_titanic_df)

X_train, X_test, y_train, y_test = train_test_split(X_titanic_df, y_titanic_df, test_size=0.2, random_state=11)

lr_clf = LogisticRegression()

lr_clf.fit(X_train, y_train)
pred = lr_clf.predict(X_test)
get_clf_eval(y_test, pred)

오차행렬
 [[104  14]
 [ 13  48]]
정확도: 0.8492, 정밀도: 0.7742, 재현율: 0.7869


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
