### 지도학습

#### 분류 - 이진분류
- 목표변수가 2개 항목인 것
- 목표변수 : Survived

In [1]:
import pandas as pd

In [2]:
df_TFD = pd.read_csv('../../../datasets/TitanicFromDisaster_train.csv')
df_TFD[:2]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


#### 전처리

In [3]:
df_TFD.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [4]:
df_TFD_extract = df_TFD[['Survived', 'Pclass', 'Age']]
df_TFD_extract.isnull().sum()

Survived      0
Pclass        0
Age         177
dtype: int64

In [5]:
# age null값 존재 -> regression으로 null값을 채울 수 있음. 여기선 drop함
df_TFD_extract_preprocess = df_TFD_extract.dropna()
df_TFD_extract_preprocess[:2]

Unnamed: 0,Survived,Pclass,Age
0,0,3,22.0
1,1,1,38.0


#### 정형화 단계
- 데이터를 머신에 넣기 전 목표변수와 설명변수를 분리
- 데이터 분할(Split)
    * 머신러닝 모델을 훈련하고 성능을 측정할 때 훈련 데이터와 테스트 데이터 비율을 8:2로 설정한다.
    * train_test_split() : 8:2 비율로 만들어주는 fuction
    * 데이터가 500개 미만일 경우 split을 하는 것보다 데이터를 더 모으는 게 좋다.

In [15]:
from sklearn.model_selection import train_test_split
target = df_TFD_extract_preprocess['Survived']
features = df_TFD_extract_preprocess[['Pclass', 'Age']]

In [20]:
features_train, features_test, target_train, target_test = train_test_split(features, target, random_state=111)
features_train.shape, target_train.shape, features_test.shape, target_test.shape

((535, 2), (535,), (179, 2), (179,))

In [6]:
target_train = df_TFD_extract_preprocess['Survived']
features_train = df_TFD_extract_preprocess[['Pclass', 'Age']]   # label(=feature)
target_train.shape, features_train.shape

((714,), (714, 2))

#### 모델학습

In [21]:
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()  # 인스턴스화
model.fit(features_train, target_train)  # 모델 훈련은 fit() fuction을 이용함 -> fit(feature, target)

In [22]:
model.coef_, model.intercept_

(array([[-1.25703902, -0.04521969]]), array([3.78621796]))

#### 예측

In [23]:
# 값을 넣어서 확인해보기
df_TFD_extract_preprocess[10:15]   # index가 features_train과 같다.

Unnamed: 0,Survived,Pclass,Age
11,1,1,58.0
12,0,3,20.0
13,0,3,39.0
14,0,3,14.0
15,1,2,55.0


In [24]:
model.predict(features_train[10:15])
# 위에서는 0이 3개 1이 2개
# 결과: array([0, 0, 0, 0, 0]) 60% 맞음

array([0, 0, 0, 0, 0], dtype=int64)

In [25]:
# predict_proba() : 확률을 알 수 있음
model.predict_proba(features_train[10:15])

# [0.52507531, 0.47492469] -> 앞은 0에 대한 열, 뒤는 1에 대한 열
# 0에 대한 확률이 더 높기 때문에 위에서 0으로 결과가 나온 것

array([[0.54134981, 0.45865019],
       [0.5967343 , 0.4032657 ],
       [0.76144372, 0.23855628],
       [0.52337371, 0.47662629],
       [0.74462956, 0.25537044]])

#### 평가

In [28]:
target_train_predict = model.predict(features_train)
target_train_predict.shape  # target_train.shape과 동일

(535,)

In [13]:
from sklearn.metrics import accuracy_score

In [35]:
# 정확도 평가 (실제값, 예측값을 넣으면 정확도가 평가된다)
accuracy_score(target_train, target_train_predict)  # 교내 시험

0.7065420560747664

In [32]:
target_test_predict = model.predict(features_test)
target_test_predict.shape   # target_test.shape과 동일

(179,)

In [39]:
accuracy_score(target_test, target_test_predict)   # 교외 시험

# 교내 시험, 교외 시험의 두 개의 차이가 많이 나면 모델 성능에 문제가 있다고 판단
# 0.7, 0.65는 0.05정도의 차이이므로 양호함

0.659217877094972

##### 성능지표
1. accuracy(정확도) : 정확하게 분류한 데이터 수 / 전체 데이터 수
    * 실제 데이터 분포는 unbalance하기 때문에 accuracy만으로 평가하는 것은 무의미함.
    * 예측값과 살제값이 얼마나동일한지에 대한 비율로 결정
2. precision(정밀도)
    * 모델이 True라고 분류한 것 중 실제 True인 비율
3. recall(재현율)
    * 실제 True인 것 중에서 모델이 True라고 예측한 것의 비율
    * 정밀도와 재현율은 상호보완적, 두 지표가 모두 높을수록 좋은 지표
4. F1 Score

In [40]:
from sklearn.metrics import classification_report

In [44]:
print(classification_report(target_train, target_train_predict))   # vs code의 파이썬에서 사용되는 코드라서 print로 감싸줘야 모양이 이상하지 않게 나옴

              precision    recall  f1-score   support

           0       0.71      0.83      0.77       312
           1       0.69      0.54      0.60       223

    accuracy                           0.71       535
   macro avg       0.70      0.68      0.69       535
weighted avg       0.70      0.71      0.70       535



In [45]:
print(classification_report(target_test, target_test_predict))

              precision    recall  f1-score   support

           0       0.73      0.72      0.73       112
           1       0.54      0.55      0.55        67

    accuracy                           0.66       179
   macro avg       0.64      0.64      0.64       179
weighted avg       0.66      0.66      0.66       179

