### 1. 전처리된 파일 불러오기

In [1]:
import pandas as pd
# 같은 위치에 있으므로 파일명만 집어넣으면 된다.
x_train = pd.read_csv("x_train.csv")
y_train = pd.read_csv("y_train.csv")
x_test = pd.read_csv("x_test.csv")


In [2]:
x_train.shape, y_train.shape, x_test.shape

((891, 22), (891, 1), (418, 22))

### 2. 앙상블 모델 사용하기
  - 머신러닝에서 성능이 좋은 모델
  - 여러개의 DecisionTree를 사용하는 모델

#### 2.1 RandomForest모델 사용


In [3]:
from sklearn.ensemble import RandomForestClassifier

In [4]:
# 모델 생성
# n_estimators=100 임. 아무것도 입력 안 하면 100개가 기본임.
forest_model = RandomForestClassifier()

#### 2.2 교차 검증

In [5]:
from sklearn.model_selection import cross_val_score

In [11]:
cross_val_score(forest_model, x_train, y_train, cv=5).mean()

0.8047329106772958

### 3.학습

In [10]:
forest_model.fit(x_train, y_train)

In [8]:
import warnings
warnings.filterwarnings('ignore')
# 워닝을 없앰.

### 4. 평가

In [9]:
# 학습한 모델로 예측
pred = forest_model.predict(x_test)
# 평가 결과 답안지 불러오기.
sub =pd.read_csv('./data/titanic/gender_submission.csv')
# 평가 결과를 답안지에 예측한 값 넣기
sub['Survived'] =pred
# 예측한 값 내보내기 -> kaggle
sub.to_csv('sbg_submission03.csv',index=False)

In [15]:
# 하이퍼 파라미터 튜닝 
# n_estimators를 50 ~ 81까지 바꿔가면서 평과 결과를 확인
for i in range(50,81):
    forest_model1 = RandomForestClassifier(n_estimators=i)
    # 교차 검증으로 평가
    result = cross_val_score(forest_model1,x_train, y_train, cv=5).mean()
    print(f'n_estimators:{i}.score: {result}')

n_estimators:50.score: 0.8024794425961961
n_estimators:51.score: 0.8047266336074321
n_estimators:52.score: 0.8058565061829139
n_estimators:53.score: 0.7923796371853619
n_estimators:54.score: 0.8092147385600402
n_estimators:55.score: 0.8069549934090767
n_estimators:56.score: 0.8092210156299039
n_estimators:57.score: 0.8080848659845584
n_estimators:58.score: 0.8058313979034587
n_estimators:59.score: 0.8125666938673028
n_estimators:60.score: 0.795744146632352
n_estimators:61.score: 0.7991212102190698
n_estimators:62.score: 0.8035967610319503
n_estimators:63.score: 0.8035842068922227
n_estimators:64.score: 0.8047391877471595
n_estimators:65.score: 0.804732910677296
n_estimators:66.score: 0.7946331052664617
n_estimators:67.score: 0.8114556525014123
n_estimators:68.score: 0.8092272926997678
n_estimators:69.score: 0.8069549934090767
n_estimators:70.score: 0.8058439520431862
n_estimators:71.score: 0.8002448057246877
n_estimators:72.score: 0.8024794425961961
n_estimators:73.score: 0.79799133764

In [None]:
# 1.n_estimators를 제한 --> for
for i in range(50,81):  # 30
    # 2. max_depth를 제한 --> for
    for j in range(5,10):  # 5  - 5,6,7,8,9
        # 30번 * 5번 = 총 150번의 반복 과정을 돔.
        
# 최적의 하이퍼파라미터 조합을 찾기 위해서는 여러개의 for문이 필요  ==> 복잡해지고 작업이 번거로워진다.
#  --> 이 문제를 한번에 해결하는 방법
#      : 한번에 여러개의 하이퍼파라미터를 튜닝해주는 함수 있음 --> GridSearchCV() 기술임. (cv =교차 검증)

In [16]:
# 1. 하이퍼 파라미터 튜닝
# gridearchCV(모델, 딕셔너리 형태로 저장했고 사용할 하이퍼 파라미터, cv)


# (1) 관심있는 하이퍼파라미터를 지정해야한다.

# n_estimators =[50,70,90,110,130,150]
# max_depth= [3,4,5,6,7,8]  # 트리 깊이
# max_features =[0.3, 0.4, 0.5, 0.6, 0.7]

# (2) 파라미터를 딕셔너리 형태로 저장해야한다.
param={ 'n_estimators' :[50,70,90,110,130,150],
             'max_depth': [3,4,5,6,7,8],  # 트리 깊이
         'max_features' : [0.3, 0.4, 0.5, 0.6, 0.7] }

### GridSearchCV()불러오기

In [17]:
from sklearn.model_selection import GridSearchCV
grid = GridSearchCV(RandomForestClassifier(),param,cv=5)

In [18]:
#2. 학습
grid.fit(x_train, y_train)

In [19]:
#3. 최적의 파라미터 조합 찾기
grid.best_params_

{'max_depth': 8, 'max_features': 0.7, 'n_estimators': 130}

In [20]:
#4. 최적의 파라미터일 때 best_score_ 찾기.`
grid.best_score_

0.8372606867114432

In [21]:
# 자세하게 찾아보기
param ={'n_estimators':[48,49,50,51,52],
           'max_depth':[6,7,8,9,10],
        'max_features':[0.6, 0.7, 0.8] }

In [22]:
grid1=GridSearchCV(RandomForestClassifier(), param, cv=5)
grid1.fit(x_train, y_train)
print(grid1.best_params_)
print(grid1.best_score_)

{'max_depth': 10, 'max_features': 0.7, 'n_estimators': 48}
0.8361559224154165


In [23]:
# 'max_depth': 8, 'max_features': 0.7, 'n_estimators': 130 ==> 베스트 모델 생성
forest_mode1 = RandomForestClassifier(max_depth = 8, max_features = 0.7, n_estimators = 130)
forest_model1.fit(x_train, y_train)

In [24]:
# 학습한 모델로 예측
pred = forest_model.predict(x_test)
# 평가 결과 답안지 불러오기.
sub =pd.read_csv('./data/titanic/gender_submission.csv')
# 평가 결과를 답안지에 예측한 값 넣기
sub['Survived'] = pred
# 예측한 값 내보내기 -> kaggle
sub.to_csv('sbg_submission04.csv',index=False)