In [1]:
# warnings 출력 X
import warnings
warnings.filterwarnings('ignore')

### 1. 전처리된 파일 불러오기

In [2]:
import pandas as pd
X_train = pd.read_csv('./X_train.csv')
y_train = pd.read_csv('./y_train.csv')
X_test = pd.read_csv('./X_test.csv')

In [3]:
X_train.shape, y_train.shape, X_test.shape

((891, 22), (891, 1), (418, 22))

### 2.1 RandomForest 모델 사용

In [4]:
# 여러 개의 의사결정 나무 결합되어 있는 모델 => 앙상블
from sklearn.ensemble import RandomForestClassifier

In [5]:
# 모델 생성
# n_estimators : 내가 사용할 의사결정나무의 갯수
# 기본적으로 앙상블 모델은 의사결정 나무의 결합이라, 의사결정나무의 하이퍼파라미터 사용가능하다
forest_model = RandomForestClassifier(max_depth=7)

### 2.2 교차검증

In [6]:
from sklearn.model_selection import cross_val_score
cross_val_score(forest_model, X_train, y_train, cv=5)

array([0.80446927, 0.79775281, 0.83146067, 0.80898876, 0.84269663])

### 3.학습

In [7]:
forest_model.fit(X_train, y_train)

### 4. 평가

In [8]:
# 학습한 모델로 예측
pre = forest_model.predict(X_test)
pre
# 평가 결과 답안지 불러오기
sub = pd.read_csv('./data/titanic/gender_submission.csv')
# 평가 결과 답안지에 예측한 값 넣기
sub['Survived'] = pre
sub.to_csv('bjh_submission12.csv', index=False)

# 예측한 값 내보내기 ==> kaggle

In [21]:
# 하이퍼 파라미터 튜닝
# n_estimators를 50~ 250까지 바꿔가면서 결과 확인
result_list = {}
for i in range(50, 61):
    forest_model1 = RandomForestClassifier(n_estimators= i )
    # 교차 검증으로 평가
    result = cross_val_score(forest_model1, X_train, y_train, cv=5).mean()
    result_list[i] = result
    print(f'n_estimators : {i}, score : {result}')
    
# n_estimators : 54, score : 0.8148264390182662 이게 최고 좋은 값

n_estimators : 50, score : 0.7979850605737242
n_estimators : 51, score : 0.8047391877471597
n_estimators : 52, score : 0.8069863787583955
n_estimators : 53, score : 0.8002259745150964
n_estimators : 54, score : 0.8058439520431863
n_estimators : 55, score : 0.8035967610319503
n_estimators : 56, score : 0.7980101688531793
n_estimators : 57, score : 0.8080911430544223
n_estimators : 58, score : 0.8035904839620864
n_estimators : 59, score : 0.808097420124286
n_estimators : 60, score : 0.8047203565375682


0.808097420124286

1. n_estimators를 제한 ==> for
2. max_depth를 제한 ==> for (너무 번거롭다)

### ===> GridSearchCV (그리드서치 교차검증)
- 한 번에 여러개의 하이퍼 파라미터를 튜팅해주는 함수

1) 하이퍼 파라미터 튜닝 : GridSearchCV(모델, 사용할 하이퍼파라미터{딕셔너리형태}, cv)
2) 관심(궁금한)있는 하이퍼파라미터 지정
3) 파라미터를 딕셔너리 형태로 저장

In [22]:
# 1. 하이퍼 파라미터 튜닝
# GridSearchCV
# n_estimators = [50, 70, 90, 110, 130, 150]
# max_depth = [3,4,5,6,7,8]
# max_features = [0.3, 0.4, 0.5, 0.6, 0.7]
param = {'n_estimators' : [50, 70, 90, 110, 130, 150],
         "max_depth" : [3,4,5,6,7,8],
         "max_features" : [0.3, 0.4, 0.5, 0.6, 0.7]}

### GridSearchCV() 불러오기


In [24]:
from sklearn.model_selection import GridSearchCV

grid = GridSearchCV(RandomForestClassifier(), param, cv=5)
grid

In [25]:
# 2. 학습
grid.fit(X_train, y_train)

In [26]:
# 3. 최적의 파라미터 조합 찾기
grid.best_params_

{'max_depth': 7, 'max_features': 0.7, 'n_estimators': 130}

In [27]:
# 4. 최적의 파라미터일때 best_score
grid.best_score_

0.8338961772644529

In [29]:
# 자세하게 찾아보기
param = {'n_estimators' : [128,129,130,131,132],         # 130 근처
         "max_depth" : [5,6,7,8,9],                      # 7 근처
         "max_features" : [0.6, 0.7, 0.8]}               # 0.7 근처
grid1 = GridSearchCV(RandomForestClassifier(), param, cv=5)
grid1.fit(X_train, y_train)

grid1.best_params_, grid1.best_score_
# best model : ({'max_depth': 9, 'max_features': 0.8, 'n_estimators': 130}, 0.8361496453455528)

({'max_depth': 9, 'max_features': 0.8, 'n_estimators': 130},
 0.8361496453455528)

In [30]:
best_forest_model = RandomForestClassifier(max_depth= 9, max_features= 0.8, n_estimators= 130)
best_forest_model.fit(X_train,y_train)

In [34]:
# 학습한 모델로 예측
pre = best_forest_model.predict(X_test)
pre
# 평가 결과 답안지 불러오기
sub = pd.read_csv('./data/titanic/gender_submission.csv')
# 평가 결과 답안지에 예측한 값 넣기
sub['Survived'] = pre
sub.to_csv('bjh_submission_onlyforest.csv', index=False)

# 예측한 값 내보내기 ==> kaggle