<span style="color:grey"> By Seongchan Kang </span>

<span style="color:grey"> Version : Python 3.10.1 in Window </span>

# 모델링(Modeling) 기법 선택

현재 올리지는 못했지만 올리고 싶었던 선택 알고리즘을 통해 모델링할 기법을 고름.

- 데이터가 글이나 시계열은 아님
- 범주를 예측함
- 데이터가 식별값을 가짐
- 그렇다면 분류에 해당함(로지스틱 회귀, 선형, 최근접, svm, 딥러닝, 의사결정 나무 등...)
- 위 기법 중 "생존을 했느냐? 마느냐?" 2가지 중에 판단하는 로지스틱이 좋아보임.

# 로지스틱 회귀란

데이터가 어떤 범주에 속할 확률을 0에서 1 사이의 값으로 예측 =>  2진 분류(binary classification) => 우리의 생존 분석에 적합해 보임

로지스틱 회귀에 대한 자세한 내용은 아래 URL에서 확인

참고 : <span> https://hleecaster.com/ml-logistic-regression-concept/ </span>

# 로지스틱 회귀 실습

## 라이브러리 및 파일 불러오기

In [6]:
# 라이브러리 불러오기
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

In [5]:
# 파일 불러오기 변수 이름 확인
titanic_data = pd.read_csv("titanic_df.csv")

titanic_data.columns

Index(['Unnamed: 0', 'Sex', 'Embarked', 'ToH', 'Survived', 'Pclass', 'Age',
       'Fare', 'Family'],
      dtype='object')

In [21]:
# X, Y로 변수를 나누기(독립괴 종속 변수)
X = titanic_data[['Sex', 'Embarked', 'ToH', 'Pclass', 'Age', 'Fare', 'Family']]
Y = titanic_data['Survived']

# 훈련과 테스트로 변수 다시 한번더 나누기
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.3)

## 모델링 및 학습 1

사이킷런 함수의 파라미터 설명
- penalty
  > 설정 가능 값 : 'l1', 'l2', 'elasticnet', 'none' (1차, 2차, 1차+2차 혼합, 미규제)\
  > 디폴트 값 : 'l2'\
  > 모델에 대한 규제 방법을 선택

- C
  > penalty에 대한 계수 설정\
  > 디폴트 값 : 1.0\
  > 높을 수록 복잡한 모델에 대한 규제 강화

- solver
  > 설정 가능 값 : ‘newton-cg’, ‘lbfgs’, ‘liblinear’, ‘sag’, ‘saga’ (알고리즘의 종류 선택)\
  > 디폴트 값 : 'lbfgs'\
  > 로지스틱 회귀는 비선형 방정식이라 근사 알고리즘으로 접근 \
  > 특정 solver는 일부 penalty 방식을 지원하지 않을 수도 있음

- max_iter
  > solver의 수렴의 반복 횟수를 정해놓는 것 \
  > 경우에 따라 수렴이 오래 걸리는 경우도 존재

- random_state
  > 실행 시마다 결과를 고정하고 싶다면 임의의 정수로 설정\
  > 근사 알고리즘의 초기 상태가 실행 시마다 달라질 수 있어서 초기값을 일정하게 고정시킴

In [22]:
# 로지스틱 모델링에 필요한 라이브러리
from sklearn.linear_model import LogisticRegression

In [23]:
# 로지스틱 회귀 모델링 및 적합(= 학습) #

## 모델링
model = LogisticRegression(random_state = 5)

## 적합(= 학습)
model.fit(X_train, Y_train)

## 평가 및 확인

In [24]:
# 평가를 위한 라이브러리 설치
from sklearn.metrics import accuracy_score

In [25]:
# 학습 데이터로 정확도 평가
print(model.score(X_train, Y_train))

0.8282504012841091


In [26]:
# 로지스틱 모델 학습 성능 비교

## 테스트 데이터로 다시 모델 학습
y_pred = model.predict(X_test)

## 테스트 데이터에 대한 정확도 측정
accuracy_score(y_pred, Y_test)

0.8171641791044776

In [27]:
# 변수와 각 변수의 영향
print(X_train.columns)
print(model.coef_)

Index(['Sex', 'Embarked', 'ToH', 'Pclass', 'Age', 'Fare', 'Family'], dtype='object')
[[ 2.82984468  0.23373604  0.429146   -0.95408232 -0.03190038  0.0045098
  -0.60659528]]
