### kaggle 사용을 위한 준비단계

In [None]:
pip install kaggle --upgrade

In [None]:
#colab에서 g란 이름으로 구글드라이브의 root를 MOUNT
from google.colab import drive
drive.mount('/content/g')

In [None]:
!mkdir -p ~/.kaggle
!cp "/content/g/My Drive/kaggle/kaggle.json" ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json

In [None]:
!kaggle competitions download -c titanic

### titanic 데이터

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

df_train = pd.read_csv('./train.csv')
df_test = pd.read_csv('./test.csv')

In [None]:
df_train.info()
df_test.info()

In [None]:
df_train

In [None]:
df_test

titanic 데이터는 **891행**으로 이루어져 있는 **train 데이터**와 **418행**으로 이루어져 있는 **test 데이터**를 가지고 있다.  
  
**<center>데이터 구성</center>**

|변수|설명|비고|데이터유형|구분|
|------|---|---|---|---|
|PassengerId|승객번호||int|
|Survived|생존여부|0 = No, 1 = Yes|int|범주형|
|Pclass|객실등급|1 = 1등급, 2 = 2등급, 3 = 3등급|int|범주형|
|Name|승객이름||object||
|Sex|성별|male, female|object|범주형|
|Age|나이||float||
|SibSp|함께 탑승한 형제와 배우자의 수|형제수 + 배우자수|int||
|Parch|함께 탑승한 부모와 아이의 수|부모수 + 자녀수|int||
|Ticket|티겟 번호||object||
|Fare|탑승 요금||float||
|Cabin|객실 번호|공백도 많고 정확한 기준을 알 수 없다|object||
|Embarked|탑승 항구|C=Cherbourg, Q=Queenstown, S=Southampton|object|범주형|

### 데이터 전처리
**필요 없는 열 삭제**  
생존여부를 판단하는데에 있어 필요하지 않다고 생각하는 열을 삭제하기로 하였다.  
  
PassengerId = 인덱스처럼 1부터 순차적으로 증가하는 값을 가지고 있어 생존여부에 관여하지 않는다.  
Name = 탑승자의 이름은 생존여부와 관련이 없다.  
Ticket = 탑승자의 티켓 번호는 생존여부와 관련이 없다.
Cabin = 객실 번호는 공백이 많기 때문에 대체하기 어려워 삭제를 진행하였다.

In [None]:
del df_train['PassengerId']
del df_train['Name']
del df_train['Ticket']
del df_train['Cabin']
del df_test['PassengerId']
del df_test['Name']
del df_test['Ticket']
del df_test['Cabin']

### 결측치 처리

In [None]:
df_train.groupby('Embarked').count()

In [None]:
df_train['Age'].mean()

In [None]:
df_test['Age'].mean()

Embarked 열에서 최다 빈도는 S 이므로 결측치를 일괄적으로 S로 채우기로 하였고,  
Age 열은 나이의 평균값으로 결측치를 채우기로 하였다.  
train 데이터 Age 평균 : 29.699117647058763  
test 데이터 Age 평균 : 30.272590361445815

In [None]:
df_train['Embarked']=df_train['Embarked'].fillna('S')
df_train['Age']=df_train['Age'].fillna(df_train['Age'].mean())

In [None]:
df_test['Fare']=df_test['Fare'].fillna(df_test['Fare'].mean())
df_test['Age']=df_test['Age'].fillna(df_test['Age'].mean())

### 범주형 열 처리
int 및 object 타입으로 되어 있던 범주형 열인 Sex, Pclass, Embarked 열을 category 타입으로 변경

In [None]:
df_train['Sex']=df_train['Sex'].astype('category')
df_train['Pclass']=df_train['Pclass'].astype('category')
df_train['Embarked']=df_train['Embarked'].astype('category')
df_train = pd.get_dummies(df_train)

df_test['Sex']=df_test['Sex'].astype('category')
df_test['Pclass']=df_test['Pclass'].astype('category')
df_test['Embarked']=df_test['Embarked'].astype('category')
df_test = pd.get_dummies(df_test)

### 학습

### 훈련

In [None]:
from sklearn import model_selection
from sklearn import metrics
from sklearn import datasets
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
from sklearn import linear_model

df_train의 라벨은 Survived로 0번 열에 해당.

In [None]:
x_data = df_train.iloc[:,1:]
y_data = df_train.iloc[:,0]

x_data = x_data.values
y_data = y_data.values
print(x_data)
print(y_data)

In [None]:
x2_data = df_test.iloc[:,1:]

x2_data = x2_data.values
print(x2_data)

### Grid Search

### RandomForestClassifier
n_estimators=100, criterion="gini", max_depth=None, min_samples_split=2,
                 min_samples_leaf=1,
                 min_weight_fraction_leaf=0.,
                 max_features="auto",
                 max_leaf_nodes=None,
                 min_impurity_decrease=0.,
                 min_impurity_split=None,
                 bootstrap=True,
                 oob_score=False,
                 n_jobs=None,
                 random_state=None,
                 verbose=0,
                 warm_start=False,
                 class_weight=None,
                 ccp_alpha=0.0,
                 max_samples=None

n_estimators	- 결정트리의 갯수를 지정
- Default = 10
- 무작정 트리 갯수를 늘리면 성능 좋아지는 것 대비 시간이 걸릴 수 있음  

min_samples_split	- 노드를 분할하기 위한 최소한의 샘플 데이터수
→ 과적합을 제어하는데 사용
- Default = 2 → 작게 설정할 수록 분할 노드가 많아져 과적합 가능성 증가  

min_samples_leaf	- 리프노드가 되기 위해 필요한 최소한의 샘플 데이터수
- min_samples_split과 함께 과적합 제어 용도
- 불균형 데이터의 경우 특정 클래스의 데이터가 극도로 작을 수 있으므로 작게 설정 필요  

max_features	- 최적의 분할을 위해 고려할 최대 feature 개수
- Default = 'auto' (결정트리에서는 default가 none이었음)
- int형으로 지정 →피처 갯수 / float형으로 지정 →비중
- sqrt 또는 auto : 전체 피처 중 √(피처개수) 만큼 선정
- log : 전체 피처 중 log2(전체 피처 개수) 만큼 선정  

max_depth	- 트리의 최대 깊이
- default = None
→ 완벽하게 클래스 값이 결정될 때 까지 분할
또는 데이터 개수가 min_samples_split보다 작아질 때까지 분할
- 깊이가 깊어지면 과적합될 수 있으므로 적절히 제어 필요  

max_leaf_nodes	리프노드의 최대 개수

In [None]:
from sklearn.model_selection import GridSearchCV

param_grid = [
  {'n_estimators' : [10, 100], 'max_depth' : [6, 8, 10, 12], 'min_samples_leaf' : [8, 12, 18], 'min_samples_split' : [8, 16, 20]}
]

forest_reg = RandomForestClassifier()

grid_search = GridSearchCV(forest_reg, param_grid, cv=5,
                           scoring='neg_mean_squared_error',
                           return_train_score=True)

grid_search.fit(x_data, y_data)

In [None]:
grid_search.best_params_

In [None]:
cvres = grid_search.cv_results_
for mean_score, params in zip(cvres["mean_test_score"], cvres["params"]):
    print(np.sqrt(-mean_score), params)

In [None]:
forest = RandomForestClassifier(n_estimators=10, max_depth = 8, min_samples_leaf = 8, min_samples_split = 20)
forest.fit(x_data, y_data)

### 테스트

In [None]:
y_predict = forest.predict(x2_data)

In [None]:
y_predict

In [None]:
df_test

### kaggle 제출용 csv 파일 만들기

In [None]:
submission=pd.DataFrame({"PassengerId":df_test["PassengerId"], "Survived":y_predict})

In [None]:
submission.to_csv('submission.csv', index=False)