# 1. 복습하기

* ( Feature Scaling ) : 서로 다른 변수의 값의 범위를 일정한 수준으로 맞추는 작업으로 ( 정규화 )와 ( 표준화 )가 있습니다.

* ( 정규화 ) : 최소 ~ 최대 범위로 스케일 변환을 하는 것으로 대부분 0 ~ 1 범위에 맞추는 것을 의미합니다. 사이킷런의 정규화를 위한 클래스는? ( MinMaxScaler )

* ( 표준화 ) : 특성의 평균을 0으로 맞추고 분산을 1로 만들어 정규 분포와 같은 특징을 가지도록 합니다. 사이컷런의 표준화를 위한 클래스는? ( StandardScaler )

* 피처 스케일링 시 주의사항은? ( 학습데이터로 Fit 한 후, ... )

* ( 로지스틱 회귀 )는 선형 회귀 방식을 기반으로 데이터가 어떤 범주에 속할 확률을 0 ~ 1 사이의 값으로 예측하고 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해주는 알고리즘 입니다.

* 로지스틱 회귀는 ( 시그모이드 ) 함수를 이용하여 x값이 아무리 커지거나 작아져도 y값이 항상 0과 1사이의 값이 되도록 반환해 줍니다.

* 사이킷런에서 제공하는 로지스틱 회귀를 위한 클래스는? ( LogisticRegression )

# 2. 데이터 가져오기

* kaggle.com에서 타이타닉 데이터셋 가져오기 [캐글](https://www.kaggle.com/c/titanic)

In [1]:
# 데이터 불러오기
import numpy as np
import pandas as pd

# train_df = pd.read_csv('/content/drive/MyDrive/datasets/titanic/train.csv', index_col='PassengerId')
# test_df = pd.read_csv('/content/drive/MyDrive/datasets/titanic/test.csv', index_col='PassengerId')
train_df = pd.read_csv('./titanic/train.csv', index_col='PassengerId')
test_df = pd.read_csv('./titanic/test.csv', index_col='PassengerId')

In [None]:
# 앞 데이터 보기1
train_df.head()

In [None]:
# 앞 데이터 보기2
test_df.head()

In [None]:
# 열 정보 보기1
train_df.info()

In [None]:
# 열 정보 보기2
test_df.info()

In [None]:
# Null 건수 보기1
train_df.isnull().sum()

In [None]:
# Null 건수 보기2
test_df.isnull().sum()

# 3. 데이터 전처리하기

* 머신러닝 알고리즘은 Null값과 문자열 값을 입력값으로 허용하지 않습니다.

* Null값 처리하기
  * Null값이 얼마 되지 않는다면 피처의 평균값 또는 중앙값으로 대체할 수 있음
  * Null값이 대부분이라면 해당 피처는 Drop하는 것이 좋음
  * 위의 경우가 아니라면 더 정밀하게 대체값을 선정해야 함

* 범주형 데이터 변환하기 : 학습에 필요한 모든 문자열 값은 인코딩되어 숫자형으로 변환해야 함

* 불필요한 피처 삭제하기 : 예) 단순 아이디와 같은 식별자 피처

## 3-1. Null값 처리하기

In [None]:
# Age : 중앙값으로 채우기
train_df['Age'].fillna(train_df['Age'].median(), inplace=True)
test_df['Age'].fillna(test_df['Age'].median(), inplace=True)

In [None]:
# Cabin : 삭제
train_df.drop(['Cabin'], axis=1, inplace=True)
test_df.drop(['Cabin'], axis=1, inplace=True)

In [None]:
# Embarked : 건수 확인하기
train_df['Embarked'].value_counts()

In [None]:
# Embarked : 가장 건수가 많은 데이터로 채우기
train_df['Embarked'].fillna('S', inplace=True)
test_df['Embarked'].fillna('S', inplace=True)

In [None]:
# Fare : 중앙값으로 채우기
test_df['Fare'].fillna(test_df['Fare'].median(), inplace=True)

In [None]:
# Null 건수 보기1
train_df.isnull().sum()

In [None]:
# Null 건수 보기2
test_df.isnull().sum()

## 3-2. 범주형 데이터 변환하기

* 머신러닝에서는 학습에 필요한 문자열값은 인코딩되어 수치형 데이터로 변환해 주어야 합니다.

* 만약에 봄을 1, 여름을 2, 가을을 3, 겨울을 4로 변환하게 되면 어떻게 될까요?

* (   ) : 피처 값의 유형에 따라 새로운 피처를 추가하여 고유값에 해당하는 컬럼에만 1을 표시하고 나머지 칼럼에는 0을 표시하는 방식입니다.

* 이렇게 되면 더미로 만든 가변수로 변환하여 관계성이 생기지 않게 됩니다.

In [None]:
# 범주형 데이터 : Pclass, Sex, Embarked
train_df.head()

In [None]:
# get_dummies 함수 알아보기
season = pd.DataFrame({
    'season':['spring', 'summer', 'fall', 'winter']
})
season

In [None]:
pd.get_dummies(season['season'])

In [None]:
# 원-핫 인코딩
train_df = pd.get_dummies(train_df, columns=['Pclass', 'Sex', 'Embarked'])
test_df = pd.get_dummies(test_df, columns=['Pclass', 'Sex', 'Embarked'])
train_df.head()

## 3-3. 불필요한 피처 삭제하기

In [None]:
# 불필요한 피처 삭제하기
drop_cols = ['Name', 'Ticket']
train_df.drop(drop_cols, axis=1, inplace=True)
test_df.drop(drop_cols, axis=1, inplace=True)

In [None]:
# 데이터 확인하기1
train_df.head()

In [None]:
# 데이터 확인하기2
test_df.head()

# 4. 데이터 분리하기

In [None]:
# 데이터 분리하기
from sklearn.model_selection import train_test_split

X_train_all = train_df.drop('Survived', axis=1)
y_train_all = train_df['Survived']

X_train, X_test, y_train, y_test = train_test_split(X_train_all, y_train_all, test_size=0.2, random_state=11)
X_train.shape, X_test.shape

# 5. 모델 선택 및 훈련하기

In [None]:
# 사이킷런 알고리즘 import하기
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV

In [None]:
# Decision Tree
params = {
    'max_depth': [4, 6, 8, 10, 12],
    'min_samples_split': [2, 3, 4]
}
dt = DecisionTreeClassifier(random_state=11)

gs1 = GridSearchCV(dt, param_grid=params, n_jobs=-1)

gs1.fit(X_train, y_train)

print('best parameter:', gs1.best_params_)
print('best score:', gs1.best_score_)
print(gs1.score(X_train, y_train))
print(gs1.score(X_test, y_test))

In [None]:
# Random Forest
params = {  
    'max_depth': [4, 6, 8, 10, 12],
    'min_samples_split': [2, 3, 4],
    'n_estimators': [100, 125, 150]
}
rf = RandomForestClassifier(random_state=11)

gs2 = GridSearchCV(rf, param_grid=params, n_jobs=-1)

gs2.fit(X_train, y_train)
 
print('best parameter:', gs2.best_params_)
print('best score:', gs2.best_score_)
print(gs2.score(X_train, y_train))
print(gs2.score(X_test, y_test))

In [None]:
# Logistic Regression
params = {
    'penalty': ['l1', 'l2'],
    'C': [0.01, 0.1, 1, 5, 10],
    'max_iter': [500, 750, 1000]
}
lr = LogisticRegression()

gs3 = GridSearchCV(lr, param_grid=params, n_jobs=-1)

gs3.fit(X_train, y_train)

print('best parameter:', gs3.best_params_)
print('best score:', gs3.best_score_)
print(gs3.score(X_train, y_train))
print(gs3.score(X_test, y_test))

# 6. 모델 예측값 저장하기

In [None]:
# test.csv : 2차원 배열로 변환하기
pred_input = test_df.values
pred_input

In [None]:
# 모델 예측값 얻기
best_dt = gs1.best_estimator_
pred_dt = best_dt.predict(pred_input)

best_rf = gs2.best_estimator_
pred_rf = best_rf.predict(pred_input)

best_lr = gs3.best_estimator_
pred_lr = best_lr.predict(pred_input)

In [None]:
# 파일 저장하기
output = pd.DataFrame({
    'PassengerId': test_df.index,
    'Survived': pred_dt})

output.to_csv('/content/drive/MyDrive/datasets/titanic/my_submission.csv', index=False)