In [None]:
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_recall_fscore_support

%matplotlib inline

df = pd.read_csv('dataset_preprocessing.csv', index_col=0)
df.head()

In [None]:
label = df["Survived"]
df = df.drop(["Survived"], axis=1)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(df, label, test_size=0.25, random_state=1234)

### 0. 일반적인 모델 학습

In [None]:
# 모델 초기화
n_estimator = 300
random_state = 1234

model = RandomForestClassifier(n_estimators=n_estimator, random_state=random_state)
# 모델 학습
model.fit(X_train, y_train)
# 테스트 데이터에 대한 예측
y_pred = model.predict(X_test)
# 정확도 계산
accuracy = accuracy_score(y_test, y_pred)
prf = precision_recall_fscore_support(y_test, y_pred, average='binary')

In [None]:
# 정확도 출력
accuracy

In [None]:
prf

### 1. MLflow를 활용한 모델 학습 Tracking
* custom logging (직접 로깅) 을 통한 모델 학습 기록 관리
* auto logging을 활용한 모델 학습 기록 관리
* auto loggine + custom logging

##### 1) Custom logging(직접 로깅)을 통한 모델 학습 기록 관리

In [None]:
import mlflow

'''
	To do
    tracking uri를 셋팅하기 -> local host로 진행 
    experiment 생성하기 -> hellomlflow!
    experiment 셋팅하기 -> hellomlflow!
'''

In [None]:
# To do
# set experiment 

In [None]:
'''
	To do
	mlflow 활용해서 Custom Logging을 진행 
    아래 함수를 이용해 logging을 진행
		1) mlflow.log_param()
			n_estimator
		2) mlflow.log_model()
			save model
    	3) mlflow.log_metric()
			metric -> accuracy, precision, recall, f1score

'''


##### 2) auto logging을 활용한 모델 학습 기록 관리

In [None]:
# Mlflow Sklearn을 활용해서 모델 및 메트릭 자동 기록! 
'''
	To do 
	use autolog() on mlflow 
'''



In [None]:
# 모델 초기화
n_estimator = 77
random_state = 2222

model = RandomForestClassifier(n_estimators=n_estimator, random_state=random_state)
# 모델 학습
model.fit(X_train, y_train)
# 테스트 데이터에 대한 예측
y_pred = model.predict(X_test)
# 정확도 계산
accuracy = accuracy_score(y_test, y_pred)
prf = precision_recall_fscore_support(y_test, y_pred, average='binary')

### 3) auto logging + custom logging을 활용한 모델 학습 관리

In [None]:
'''
	To do
	auto logging에서 수집되지 않는 정보 추가로 logging 하기 
		precision, recall, f1score, accuracy for test data set 

'''




### 2. MLflow를 활용한 모델 최적화 Tracking
* 직접 parameter 변경해가며 모델 최적화
* GridSearch 혹은 RandomSearch를 활용하여 모델 최적화


##### 1) 직접 parameter 변경해가며 모델 최적화

In [None]:
def train_model_with_hyperparameters(n_estimator, max_depth, max_feature):
    with mlflow.start_run():
        model = RandomForestClassifier(n_estimators=n_estimator, max_depth=max_depth, max_features=max_feature)
        model.fit(X_train, y_train)
        y_pred = model.predict(X_test)
        accuracy = accuracy_score(y_test, y_pred)
        prf = precision_recall_fscore_support(y_test, y_pred, average='binary')
        mlflow.log_metric("precision_on_test", prf[0])
        mlflow.log_metric("recall_on_test", prf[1])
        mlflow.log_metric("f1score_on_test", prf[2])
        mlflow.log_metric("accuracy_on_test", accuracy)

In [None]:
n_estimators = [50, 100, 150, 200]
max_depths = [2, 5, 10]
max_features = [5, 8, 10, 13]

'''
    To do
    run model with hyper-parameter combination 
'''


##### 2) GridSearch 혹은 RandomSearch를 활용하여 모델 최적화


In [None]:
from sklearn.model_selection import GridSearchCV


'''
	To do
	run GridSearchCV with mlflow 
'''

