# 학습 알고리즘

- 유저의 행동데이터를 받아와서 기초 알고리즘의 가중치들 수정
- 메인 알고리즘을 작성하여 유저들의 속성과 그 행동 데이터들 만으로 가중치 설정
    - 유저의 향후 행동 데이터를 계속 학습

## 행동 데이터 (유저 선택의 결과)

- schedule_2
- 유저가 일정을 변경하는 버튼을 따로 만들고, 이 버튼(일정 확정)이 푸시 되었을 때와 그 전을 비교해서 가중치에 수정을 가한다
- 유저가 자유롭게 일정을 드래그 & 드롭으로 수정할 수 있게 만들고, 수정된 것에 대한 가중치를 수집한다 (이런 경우엔 세션 종료 시 변경 여부를 가져와서 가중치 수정을 가하는 방법이겠지 ??)
- todo를 루틴과 루틴이 아닌 것으로 구분

- 유저가 많이 수행하는 todo의 카테고리를 잡고, 해당 카테고리에서 벗어나는 카테고리를 주의 카테고리로 설정

### 랜덤 포레스트 모델

#### 초기 모델 생성

In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.ensemble import RandomForestRegressor
import joblib

# 파일 경로 설정
file_path = './refer/output/'

# 1. 초기 모델 생성용 데이터 로드
# 사용자 정보 데이터를 CSV 파일에서 불러옵니다.
user_info = pd.read_csv(f'{file_path}random_user_info.csv')

# 초기 y 값 데이터를 CSV 파일에서 불러옵니다.
schedule_1 = pd.read_csv(f'{file_path}random_schedule_1.csv')

# 2. 초기 y 값 설정
# 초기 y 값으로 schedule_1 데이터를 사용합니다.
y_df = schedule_1.copy()

# 3. 데이터 분할
# X 변수는 사용자 정보의 특정 열들을 선택합니다.
X = user_info[['age', 'gender', 'mbti', 'job']]
# 데이터를 학습용과 테스트용으로 분할합니다.
X_train, X_test, y_train, y_test = train_test_split(X, y_df, test_size=0.2, random_state=42)

# 4. 원-핫 인코딩 및 전처리 파이프라인 설정
# 범주형 변수를 원-핫 인코딩합니다.
categorical_features = ['gender', 'mbti', 'job']
categorical_transformer = OneHotEncoder(handle_unknown='ignore')

# ColumnTransformer를 사용해 범주형 변수 전처리 및 나머지 변수는 그대로 유지합니다.
preprocessor = ColumnTransformer(
    transformers=[
        ('cat', categorical_transformer, categorical_features)
    ],
    remainder='passthrough'
)

# 5. 전처리
# 학습 데이터에 대해 전처리를 수행합니다.
X_train = preprocessor.fit_transform(X_train)
X_test = preprocessor.transform(X_test)

# 6. 모델 파이프라인 구성 및 하이퍼파라미터 조정
# 파라미터 그리드를 설정합니다.
param_grid = {
    'regressor__n_estimators': [100, 200, 300],  # 트리의 개수, 더 많은 트리는 더 나은 성능을 제공할 수 있지만 훈련 시간이 늘어납니다.
    'regressor__max_features': ['auto', 'sqrt', 'log2'],  # 각 노드에서 고려할 최대 특성 수, 'auto'는 모든 특성을 사용함을 의미합니다.
    'regressor__max_depth': [10, 20, 30, None],  # 트리의 최대 깊이, None은 무제한 깊이를 의미합니다.
    'regressor__min_samples_split': [2, 5, 10],  # 내부 노드를 분할하는 데 필요한 최소 샘플 수, 값이 클수록 모델이 더 일반화됩니다.
    'regressor__min_samples_leaf': [1, 2, 4]  # 리프 노드에 있어야 하는 최소 샘플 수, 값이 클수록 모델이 더 일반화됩니다.
}

# 파이프라인을 사용하여 전처리 및 모델을 설정합니다.
model = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', RandomForestRegressor(random_state=42))
])

# GridSearchCV를 사용하여 하이퍼파라미터 튜닝을 수행합니다.
grid_search = GridSearchCV(
    model,
    param_grid,
    cv=3,  # 교차 검증 폴드 수
    n_jobs=-1,  # 사용할 CPU 코어 수, -1은 모든 코어 사용
    scoring='neg_mean_squared_error'  # 평가 기준, 여기서는 음의 평균 제곱 오차
)
grid_search.fit(X_train, y_train)

# 최적의 모델을 저장합니다.
best_model = grid_search.best_estimator_
joblib.dump(best_model, f'{file_path}initial_model.pkl')

print("Initial model created and saved.")


ValueError: 
All the 972 fits failed.
It is very likely that your model is misconfigured.
You can try to debug the error by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
972 fits failed with the following error:
Traceback (most recent call last):
  File "c:\Users\USER\AppData\Local\Programs\Python\Python312\Lib\site-packages\sklearn\utils\__init__.py", line 482, in _get_column_indices
    all_columns = X.columns
                  ^^^^^^^^^
AttributeError: 'csr_matrix' object has no attribute 'columns'

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "c:\Users\USER\AppData\Local\Programs\Python\Python312\Lib\site-packages\sklearn\model_selection\_validation.py", line 895, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "c:\Users\USER\AppData\Local\Programs\Python\Python312\Lib\site-packages\sklearn\base.py", line 1474, in wrapper
    return fit_method(estimator, *args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "c:\Users\USER\AppData\Local\Programs\Python\Python312\Lib\site-packages\sklearn\pipeline.py", line 471, in fit
    Xt = self._fit(X, y, routed_params)
         ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "c:\Users\USER\AppData\Local\Programs\Python\Python312\Lib\site-packages\sklearn\pipeline.py", line 408, in _fit
    X, fitted_transformer = fit_transform_one_cached(
                            ^^^^^^^^^^^^^^^^^^^^^^^^^
  File "c:\Users\USER\AppData\Local\Programs\Python\Python312\Lib\site-packages\joblib\memory.py", line 353, in __call__
    return self.func(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "c:\Users\USER\AppData\Local\Programs\Python\Python312\Lib\site-packages\sklearn\pipeline.py", line 1303, in _fit_transform_one
    res = transformer.fit_transform(X, y, **params.get("fit_transform", {}))
          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "c:\Users\USER\AppData\Local\Programs\Python\Python312\Lib\site-packages\sklearn\utils\_set_output.py", line 295, in wrapped
    data_to_wrap = f(self, X, *args, **kwargs)
                   ^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "c:\Users\USER\AppData\Local\Programs\Python\Python312\Lib\site-packages\sklearn\base.py", line 1474, in wrapper
    return fit_method(estimator, *args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "c:\Users\USER\AppData\Local\Programs\Python\Python312\Lib\site-packages\sklearn\compose\_column_transformer.py", line 906, in fit_transform
    self._validate_column_callables(X)
  File "c:\Users\USER\AppData\Local\Programs\Python\Python312\Lib\site-packages\sklearn\compose\_column_transformer.py", line 496, in _validate_column_callables
    transformer_to_input_indices[name] = _get_column_indices(X, columns)
                                         ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "c:\Users\USER\AppData\Local\Programs\Python\Python312\Lib\site-packages\sklearn\utils\__init__.py", line 484, in _get_column_indices
    raise ValueError(
ValueError: Specifying the columns using strings is only supported for dataframes.


#### 모델 업데이트

In [None]:
import numpy as np
import pandas as pd
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.ensemble import RandomForestRegressor
import joblib

# 파일 경로 설정
file_path = './refer/output/'

# 1. 기존 모델 로드
# 초기 모델을 파일에서 로드합니다.
model = joblib.load(f'{file_path}initial_model.pkl')

# 2. schedule_2에서 업데이트 데이터 로드
# schedule_2에서 최신 데이터를 불러옵니다.
schedule_2 = pd.read_csv(f'{file_path}schedule_2.csv')

# 3. user_info에서 사용자 정보 데이터 로드
# 사용자 정보 데이터를 CSV 파일에서 불러옵니다.
user_info = pd.read_csv(f'{file_path}random_user_info.csv')

# 4. 업데이트할 X, y 설정
# X 업데이트 데이터를 설정합니다.
X_update = user_info[['age', 'gender', 'mbti', 'job']]
# y 업데이트 데이터를 설정합니다.
y_update = schedule_2.iloc[-1].values.reshape(1, -1)

# 5. 원-핫 인코딩 및 전처리 파이프라인 설정
# 범주형 변수를 원-핫 인코딩합니다.
categorical_features = ['gender', 'mbti', 'job']
categorical_transformer = OneHotEncoder(handle_unknown='ignore')

# ColumnTransformer를 사용해 범주형 변수 전처리 및 나머지 변수는 그대로 유지합니다.
preprocessor = ColumnTransformer(
    transformers=[
        ('cat', categorical_transformer, categorical_features)
    ],
    remainder='passthrough'
)

# 6. 파이프라인을 사용하여 전처리 및 모델 설정
# 모델의 전처리 부분을 업데이트합니다.
model.steps[0] = ('preprocessor', preprocessor)

# 7. 모델 업데이트
# X 업데이트 데이터를 전처리합니다.
X_train_update = preprocessor.fit_transform(X_update)
# 모델을 업데이트된 데이터로 재학습시킵니다.
model.named_steps['regressor'].fit(X_train_update, y_update)

# 8. 업데이트된 모델 저장
# 업데이트된 모델을 저장합니다.
joblib.dump(model, f'{file_path}updated_model.pkl')

print("Model updated and saved.")


------------

##### Not for Use

In [9]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.metrics import mean_squared_error

In [10]:
# 가독성을 위해 지수 표현(e) 변환
pd.options.display.float_format = '{:.5f}'.format

In [11]:
file_path = './refer/output/'

In [12]:
# 데이터 로딩
data = pd.read_csv(f'{file_path}survey_data.csv')

# 고객 선택 데이터
user_schedule = pd.read_csv(f'{file_path}user_schedule.csv')

In [13]:
# 범주형 데이터를 원-핫 인코딩
categorical_features = ['gender', 'mbti', 'job']
categorical_transformer = OneHotEncoder(handle_unknown='ignore')

# 전처리 파이프라인 설정
preprocessor = ColumnTransformer(
    transformers=[
        ('cat', categorical_transformer, categorical_features)
    ],
    remainder='passthrough'
)

# 타겟 변수와 피처 분리
X = data[['age', 'gender', 'mbti', 'job']]
y = data[['work', 'edu', 'free_time', 'health', 'chores']]

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 모델 파이프라인 구성
model = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', RandomForestRegressor(n_estimators=100, random_state=42))
])

# 모델 학습
model.fit(X_train, y_train)

# 예측 및 평가
y_pred = model.predict(X_test)

# 예측 결과를 데이터프레임으로 변환
y_pred_df = pd.DataFrame(y_pred, columns=y_test.columns)

# MSE 계산 결과를 데이터프레임으로 변환
mse = mean_squared_error(y_test, y_pred)
mse_df = pd.DataFrame([mse], columns=['MSE'])

# 결과 출력
print(mse_df)
print(y_pred_df)

      MSE
0 0.00000
          edu  free_time  health  chores
0     0.82500    0.80000 0.90000 0.67500
1     0.71875    0.96875 0.96875 0.50000
2     0.71875    0.96875 0.96875 0.50000
3     0.82500    0.80000 0.90000 0.67500
4     0.71875    0.96875 0.96875 0.50000
...       ...        ...     ...     ...
23071 0.71875    0.96875 0.96875 0.50000
23072 0.82500    0.80000 0.90000 0.67500
23073 0.59374    0.56250 0.49998 0.34376
23074 0.71875    0.96875 0.96875 0.50000
23075 0.82500    0.80000 0.90000 0.67500

[23076 rows x 4 columns]


### 그라디언트 부스팅 회귀 모델

#### LightGBM 빌드

#### 초기 모델 빌드

In [None]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from lightgbm import LGBMRegressor
from sklearn.metrics import mean_squared_error
import joblib

# 파일 경로 설정
file_path = 'your/file/path/'

# 1. 초기 모델 생성용 데이터 로드
# 사용자 정보 데이터를 CSV 파일에서 불러옵니다.
user_info = pd.read_csv(f'{file_path}user_info.csv')

# 초기 y 값 데이터를 CSV 파일에서 불러옵니다.
schedule_1 = pd.read_csv(f'{file_path}schedule_1.csv')

# 2. 초기 y 값 설정
# 초기 y 값으로 schedule_1 데이터를 사용합니다.
y_df = schedule_1.copy()

# 3. 데이터 분할
# X 변수는 사용자 정보의 특정 열들을 선택합니다.
X = user_info[['age', 'gender', 'mbti', 'job']]
# 데이터를 학습용과 테스트용으로 분할합니다.
X_train, X_test, y_train, y_test = train_test_split(X, y_df, test_size=0.2, random_state=42)

# 4. 원-핫 인코딩 및 전처리 파이프라인 설정
# 범주형 변수를 원-핫 인코딩합니다.
categorical_features = ['gender', 'mbti', 'job']
categorical_transformer = OneHotEncoder(handle_unknown='ignore')

# ColumnTransformer를 사용해 범주형 변수 전처리 및 나머지 변수는 그대로 유지합니다.
preprocessor = ColumnTransformer(
    transformers=[
        ('cat', categorical_transformer, categorical_features)
    ],
    remainder='passthrough'
)

# 5. 전처리
# 학습 데이터에 대해 전처리를 수행합니다.
X_train = preprocessor.fit_transform(X_train)
X_test = preprocessor.transform(X_test)

# 6. 각 타겟에 대한 모델 훈련 및 저장
# 하이퍼파라미터 그리드를 설정합니다.
param_grid = {
    'n_estimators': [100, 200, 300],  # 부스팅 반복 횟수, 더 많은 반복은 더 나은 성능을 제공할 수 있지만, 훈련 시간이 늘어납니다.
    'learning_rate': [0.01, 0.05, 0.1],  # 학습률, 모델이 업데이트되는 속도를 조절합니다. 작은 값은 더 천천히 학습하지만 더 나은 일반화를 제공합니다.
    'num_leaves': [31, 50, 100],  # 하나의 트리가 가질 수 있는 최대 잎사귀 수, 값이 클수록 모델의 복잡도가 높아집니다.
    'max_depth': [-1, 10, 20, 30],  # 트리의 최대 깊이, -1은 무제한 깊이를 의미합니다.
    'min_child_samples': [20, 50, 100],  # 리프 노드가 되기 위한 최소 데이터 수, 값이 클수록 모델이 더 일반화됩니다.
    'feature_fraction': [0.6, 0.8, 1.0],  # 각 트리마다 사용되는 피처 비율, 0.8은 각 트리가 무작위로 선택된 80%의 피처를 사용함을 의미합니다.
    'bagging_fraction': [0.6, 0.8, 1.0],  # 데이터 샘플링 비율, 0.8은 각 반복에서 무작위로 선택된 80%의 데이터를 사용함을 의미합니다.
    'bagging_freq': [0, 5, 10],  # 배깅 빈도, k번의 반복 후 데이터 샘플링을 수행합니다. 0은 사용하지 않음을 의미합니다.
    'lambda_l1': [0, 0.1, 1.0],  # L1 정규화, 모델의 가중치를 0으로 만들도록 합니다. 과적합을 방지합니다.
    'lambda_l2': [0, 0.1, 1.0]  # L2 정규화, 모델의 가중치를 작게 유지하도록 합니다. 과적합을 방지합니다.
}

# 각 타겟에 대해 모델을 훈련하고 최적의 하이퍼파라미터를 찾습니다.
models = {}
for target in y_df.columns:
    model = LGBMRegressor(random_state=42)  # LightGBM 회귀 모델 초기화
    grid_search = GridSearchCV(
        model,
        param_grid,
        cv=3,  # 교차 검증 폴드 수
        n_jobs=-1,  # 사용할 CPU 코어 수, -1은 모든 코어 사용
        scoring='neg_mean_squared_error'  # 평가 기준, 여기서는 음의 평균 제곱 오차
    )
    grid_search.fit(X_train, y_train[target])
    models[target] = grid_search.best_estimator_

# 7. 모델 저장
joblib.dump(models, f'{file_path}initial_lightgbm_models.pkl')  # 모델 저장
joblib.dump(preprocessor, f'{file_path}preprocessor.pkl')  # 전처리기 저장

print("Initial LightGBM models created and saved.")


#### 모델 업데이트

In [None]:
import numpy as np
import pandas as pd
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from lightgbm import LGBMRegressor
import joblib

# 파일 경로 설정
file_path = 'your/file/path/'

# 1. 기존 모델 로드
# 초기 모델과 전처리기를 파일에서 로드합니다.
models = joblib.load(f'{file_path}initial_lightgbm_models.pkl')
preprocessor = joblib.load(f'{file_path}preprocessor.pkl')

# 2. schedule_2에서 업데이트 데이터 로드
# schedule_2에서 최신 데이터를 불러옵니다.
schedule_2 = pd.read_csv(f'{file_path}schedule_2.csv')

# 3. user_info에서 사용자 정보 데이터 로드
# 사용자 정보 데이터를 CSV 파일에서 불러옵니다.
user_info = pd.read_csv(f'{file_path}user_info.csv')

# 4. 업데이트할 X, y 설정
# X 업데이트 데이터를 설정합니다.
X_update = user_info[['age', 'gender', 'mbti', 'job']]
# y 업데이트 데이터를 설정합니다.
y_update = schedule_2.iloc[-1].values.reshape(1, -1)

# 5. 전처리
# 업데이트 데이터에 대해 전처리를 수행합니다.
X_update = preprocessor.transform(X_update)

# 6. 모델 업데이트
for idx, target in enumerate(schedule_2.columns):
    models[target].fit(X_update, y_update[:, idx])

# 7. 업데이트된 모델 저장
joblib.dump(models, f'{file_path}updated_lightgbm_models.pkl')

print("LightGBM models updated and saved.")


-------------

##### Not for Use

In [24]:
# 라이브러리 로드
import pandas as pd
from sklearn.model_selection import train_test_split
from lightgbm import LGBMRegressor
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.metrics import mean_squared_error

In [26]:
# 데이터 로딩
data = pd.read_csv(f'{file_path}survey_data.csv')

In [29]:
# 범주형 데이터를 원-핫 인코딩
categorical_features = ['gender', 'mbti', 'job']
categorical_transformer = OneHotEncoder(handle_unknown='ignore')

# 전처리 파이프라인 설정
preprocessor = ColumnTransformer(
    transformers=[
        ('cat', categorical_transformer, categorical_features)
    ],
    remainder='passthrough'
)

# 타겟 변수와 피처 분리
X = data[['age', 'gender', 'mbti', 'job']]
y = data[['work', 'edu', 'free_time', 'health', 'chores']]

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 전처리
X_train = preprocessor.fit_transform(X_train)
X_test = preprocessor.transform(X_test)

# 각 타겟에 대한 모델 훈련 및 예측
mse = []
predictions = []
for target in y.columns:
    model = LGBMRegressor(n_estimators=100, random_state=42)
    model.fit(X_train, y_train[target])
    y_pred = model.predict(X_test)
    mse.append(mean_squared_error(y_test[target], y_pred))
    predictions.append(y_pred)

# 예측 결과를 데이터프레임으로 변환
y_pred_df = pd.DataFrame(zip(*predictions), columns=y.columns)

# MSE 결과 출력
for idx, target in enumerate(y.columns):
    print(f'MSE for {target}: {format(mse[idx], ".4f")}')

# 전체 MSE 계산 및 출력
overall_mse = mean_squared_error(y_test, y_pred_df)
print("Overall MSE:", format(overall_mse, ".4f"))

# 예측 결과 데이터프레임 출력, 지수 표현식 없이
print(y_pred_df.to_string(index=False, header=True, float_format="{:0.4f}".format))

[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.000528 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 42
[LightGBM] [Info] Number of data points in the train set: 92304, number of used features: 17
[LightGBM] [Info] Start training from score 0.764643
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.000450 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 42
[LightGBM] [Info] Number of data points in the train set: 92304, number of used features: 17
[LightGBM] [Info] Start training from score 0.712268
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.000806 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, y

In [None]:
# 이 코드 적용해서 하이퍼 파라미터 수정 필요
'''
for target in y.columns:
    model = LGBMRegressor(
        n_estimators=200,  # 트리의 수 증가
        random_state=42,
        max_depth=10,  # 트리의 최대 깊이 증가
        min_data_in_leaf=20,  # 한 리프가 가지는 최소 데이터 수
        learning_rate=0.05  # 학습률 감소
    )
    model.fit(X_train, y_train[target])
    y_pred = model.predict(X_test)
    mse.append(mean_squared_error(y_test[target], y_pred))
    predictions.append(y_pred)
    print(f'MSE for {target}: {format(mean_squared_error(y_test[target], y_pred), ".4f")}')

'''

#### XGBoost 빌드

#### 초기 모델 빌드

In [None]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
import xgboost as xgb
from sklearn.metrics import mean_squared_error
import joblib

# 파일 경로 설정
file_path = 'your/file/path/'

# 1. 초기 모델 생성용 데이터 로드
# 사용자 정보 데이터를 CSV 파일에서 불러옵니다.
user_info = pd.read_csv(f'{file_path}user_info.csv')

# 초기 y 값 데이터를 CSV 파일에서 불러옵니다.
schedule_1 = pd.read_csv(f'{file_path}schedule_1.csv')

# 2. 초기 y 값 설정
# 초기 y 값으로 schedule_1 데이터를 사용합니다.
y_df = schedule_1.copy()

# 3. 데이터 분할
# X 변수는 사용자 정보의 특정 열들을 선택합니다.
X = user_info[['age', 'gender', 'mbti', 'job']]
# 데이터를 학습용과 테스트용으로 분할합니다.
X_train, X_test, y_train, y_test = train_test_split(X, y_df, test_size=0.2, random_state=42)

# 4. 원-핫 인코딩 및 전처리 파이프라인 설정
# 범주형 변수를 원-핫 인코딩합니다.
categorical_features = ['gender', 'mbti', 'job']
categorical_transformer = OneHotEncoder(handle_unknown='ignore')

# ColumnTransformer를 사용해 범주형 변수 전처리 및 나머지 변수는 그대로 유지합니다.
preprocessor = ColumnTransformer(
    transformers=[
        ('cat', categorical_transformer, categorical_features)
    ],
    remainder='passthrough'
)

# 5. 전처리
# 학습 데이터에 대해 전처리를 수행합니다.
X_train = preprocessor.fit_transform(X_train)
X_test = preprocessor.transform(X_test)

# 6. 각 타겟에 대한 모델 훈련 및 저장
# 하이퍼파라미터 그리드를 설정합니다.
param_grid = {
    'n_estimators': [100, 200, 300],  # 부스팅 반복 횟수
    'learning_rate': [0.01, 0.05, 0.1],  # 학습률
    'max_depth': [3, 5, 7],  # 트리의 최대 깊이
    'min_child_weight': [1, 3, 5],  # 자식 노드를 가지기 위한 최소 가중치 합
    'subsample': [0.6, 0.8, 1.0],  # 각 트리마다 사용되는 데이터 샘플 비율
    'colsample_bytree': [0.6, 0.8, 1.0]  # 각 트리마다 사용되는 피처 샘플 비율
}

# 각 타겟에 대해 모델을 훈련하고 최적의 하이퍼파라미터를 찾습니다.
models = {}
for target in y_df.columns:
    model = xgb.XGBRegressor(objective='reg:squarederror', random_state=42)
    grid_search = GridSearchCV(model, param_grid, cv=3, n_jobs=-1, scoring='neg_mean_squared_error')
    grid_search.fit(X_train, y_train[target])
    models[target] = grid_search.best_estimator_

# 7. 모델 저장
joblib.dump(models, f'{file_path}initial_xgboost_models.pkl')
joblib.dump(preprocessor, f'{file_path}preprocessor.pkl')

print("Initial XGBoost models created and saved.")

#### 모델 업데이트

In [None]:
import numpy as np
import pandas as pd
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
import xgboost as xgb
from sklearn.metrics import mean_squared_error
import joblib

# 파일 경로 설정
file_path = 'your/file/path/'

# 1. 기존 모델 로드
# 초기 모델과 전처리기를 파일에서 로드합니다.
models = joblib.load(f'{file_path}initial_xgboost_models.pkl')
preprocessor = joblib.load(f'{file_path}preprocessor.pkl')

# 2. schedule_2에서 업데이트 데이터 로드
# schedule_2에서 최신 데이터를 불러옵니다.
schedule_2 = pd.read_csv(f'{file_path}schedule_2.csv')

# 3. user_info에서 사용자 정보 데이터 로드
# 사용자 정보 데이터를 CSV 파일에서 불러옵니다.
user_info = pd.read_csv(f'{file_path}user_info.csv')

# 4. 업데이트할 X, y 설정
# X 업데이트 데이터를 설정합니다.
X_update = user_info[['age', 'gender', 'mbti', 'job']]
# y 업데이트 데이터를 설정합니다.
y_update = schedule_2.iloc[-1].values.reshape(1, -1)

# 5. 전처리
# 업데이트 데이터에 대해 전처리를 수행합니다.
X_update = preprocessor.transform(X_update)

# 6. 모델 업데이트
for idx, target in enumerate(schedule_2.columns):
    models[target].fit(X_update, y_update[:, idx])

# 7. 업데이트된 모델 저장
joblib.dump(models, f'{file_path}updated_xgboost_models.pkl')

print("XGBoost models updated and saved.")

##### Not for Use

In [22]:
# 라이브러리 로드
import pandas as pd
from sklearn.model_selection import train_test_split
import xgboost as xgb
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.metrics import mean_squared_error

MSE for work: 7.041376330285435e-11
MSE for edu: 8.463449225554134e-11
MSE for free_time: 3.459870447017011e-10
MSE for health: 5.435218861354711e-10
MSE for chores: 7.723942988605882e-11
Overall MSE: 0.0000
  work    edu  free_time  health  chores
0.9500 0.8250     0.8000  0.9000  0.6750
0.6250 0.7187     0.9688  0.9687  0.5000
0.6250 0.7188     0.9687  0.9687  0.5000
0.9500 0.8250     0.8000  0.9000  0.6750
0.6250 0.7188     0.9687  0.9687  0.5000
0.7188 0.5938     0.5625  0.5000  0.3438
0.7188 0.5938     0.5625  0.5000  0.3438
0.9500 0.8250     0.8000  0.9000  0.6750
0.9500 0.8250     0.8000  0.9000  0.6750
0.6250 0.7188     0.9687  0.9687  0.5000
0.9500 0.8250     0.8000  0.9000  0.6750
0.7188 0.5938     0.5625  0.5000  0.3438
0.9500 0.8250     0.8000  0.9000  0.6750
0.7188 0.5938     0.5625  0.5000  0.3438
0.6250 0.7187     0.9687  0.9687  0.5000
0.6250 0.7187     0.9688  0.9687  0.5000
0.9500 0.8250     0.8000  0.9000  0.6750
0.6250 0.7187     0.9688  0.9687  0.5000
0.7188 0.5938

In [None]:
# 데이터 로딩
data = pd.read_csv(f'{file_path}survey_data.csv')

In [None]:
# 범주형 데이터를 원-핫 인코딩
categorical_features = ['gender', 'mbti', 'job']
categorical_transformer = OneHotEncoder(handle_unknown='ignore')

# 전처리 파이프라인 설정
preprocessor = ColumnTransformer(
    transformers=[
        ('cat', categorical_transformer, categorical_features)
    ],
    remainder='passthrough'
)

# 타겟 변수와 피처 분리
X = data[['age', 'gender', 'mbti', 'job']]
y = data[['work', 'edu', 'free_time', 'health', 'chores']]

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 전처리 및 변환
X_train = preprocessor.fit_transform(X_train)
X_test = preprocessor.transform(X_test)

# 각 타겟에 대한 모델 훈련 및 예측 결과 저장
predictions = []
for i, target in enumerate(y.columns):
    model = xgb.XGBRegressor(objective='reg:squarederror', n_estimators=100, random_state=42)
    model.fit(X_train, y_train.iloc[:, i])
    y_pred = model.predict(X_test)
    predictions.append(y_pred)
    print(f'MSE for {target}: {mean_squared_error(y_test.iloc[:, i], y_pred)}')

# 예측 결과를 데이터프레임으로 변환
y_pred_df = pd.DataFrame(predictions).T  # Transpose to align with y_test's shape
y_pred_df.columns = y_test.columns

# 예측 데이터프레임과 실제 데이터프레임의 MSE 계산
mse = mean_squared_error(y_test, y_pred_df)
print("Overall MSE:", format(mse, ".4f"))

# 예측 결과 데이터프레임 출력, 지수 표현식 없이
print(y_pred_df.to_string(index=False, header=True, float_format="{:0.4f}".format))

### 딥러닝 모델

#### TensorFlow 빌드

In [30]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

In [31]:
# 데이터 로딩
data = pd.read_csv(f'{file_path}survey_data.csv')

In [34]:
# 범주형 데이터를 원-핫 인코딩
categorical_features = ['gender', 'mbti', 'job']
categorical_transformer = OneHotEncoder(handle_unknown='ignore')

# 전처리 파이프라인 설정
preprocessor = ColumnTransformer(
    transformers=[
        ('cat', categorical_transformer, categorical_features)
    ],
    remainder='passthrough'
)

# 타겟 변수와 피처 분리
X = data[['age', 'gender', 'mbti', 'job']]
y = data[['work', 'edu', 'free_time', 'health', 'chores']]

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 전처리 및 변환
X_train = preprocessor.fit_transform(X_train)
X_test = preprocessor.transform(X_test)

In [35]:
# 딥러닝 모델 구성
model = Sequential([
    Dense(128, activation='relu', input_dim=X_train.shape[1]),
    Dense(64, activation='relu'),
    Dense(5)  # 출력 레이어: 5개 타겟 변수
])

# 모델 컴파일
model.compile(optimizer='adam', loss='mse')

# 모델 학습
model.fit(X_train, y_train, epochs=50, batch_size=32, validation_split=0.2)

Epoch 1/50


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


[1m2308/2308[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 884us/step - loss: 0.1436 - val_loss: 0.0042
Epoch 2/50
[1m2308/2308[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 914us/step - loss: 0.0041 - val_loss: 0.0041
Epoch 3/50
[1m2308/2308[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 880us/step - loss: 0.0036 - val_loss: 0.0033
Epoch 4/50
[1m2308/2308[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 863us/step - loss: 0.0034 - val_loss: 0.0031
Epoch 5/50
[1m2308/2308[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 876us/step - loss: 0.0029 - val_loss: 0.0026
Epoch 6/50
[1m2308/2308[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 854us/step - loss: 0.0024 - val_loss: 0.0016
Epoch 7/50
[1m2308/2308[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 870us/step - loss: 0.0013 - val_loss: 6.8667e-05
Epoch 8/50
[1m2308/2308[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 851us/step - loss: 6.9414e-05 - val_loss: 5.1433e-06
Epoch 9

<keras.src.callbacks.history.History at 0x164a4481910>

In [37]:
# 예측 및 평가
y_pred = model.predict(X_test)

# MSE 계산
mse = tf.keras.losses.MeanSquaredError()
mse_value = mse(y_test, y_pred).numpy()
print("MSE:", format(mse_value, ".4f"))


[1m722/722[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 700us/step
MSE: 0.0000


----------------

## 시간 슬라이싱

- 딥러닝 모델로 목표에 대한 업무를 중요도와 긴급도를 기준으로 시간 슬라이싱
- 중요도(weight), 긴급도(fire_data, complexity)를 통해 가용 시간 하루 시간 단위로 슬라이싱
- 슬라이싱 된 작은 목표 달성시 계속, 미 달성시(부분 미달성, 전체 미달성) 슬라이싱에 다시 반영

### 딥러닝 모델

#### TensorFlow 빌드

##### 작업 중요도 예측 모델

In [None]:
import numpy as np
import pandas as pd
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.metrics import mean_squared_error

# 데이터 로드 및 전처리
file_path = '/mnt/data/survey_data.csv'
data = pd.read_csv(file_path)
data = data.drop(columns=['Unnamed: 0'])

# 범주형 데이터에 대한 원-핫 인코딩
encoder = OneHotEncoder()
encoded_data = encoder.fit_transform(data[['gender', 'job', 'mbti']]).toarray()

# 인코딩된 데이터와 수치형 데이터를 결합
numeric_data = data[['age', 'work', 'edu', 'free_time', 'health', 'chores']].values
X = np.hstack((encoded_data, numeric_data))

# 데이터 정규화
scaler = StandardScaler()
X = scaler.fit_transform(X)

# 목표 변수 정의 (중요도)
y = data[['work', 'edu', 'free_time', 'health', 'chores']].values

# 데이터를 학습용과 테스트용으로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 하이퍼파라미터 설정
learning_rate = 0.001  # 학습률: 학습 과정에서 가중치가 조정되는 속도를 결정합니다.
batch_size = 32       # 배치 크기: 한 번의 훈련 반복에서 사용되는 샘플의 수입니다.
epochs = 100          # 에포크 수: 전체 데이터셋을 훈련하는 반복 횟수입니다.
hidden_layer1_size = 128  # 첫 번째 은닉층의 노드 수: 모델의 복잡성을 조절합니다.
hidden_layer2_size = 64   # 두 번째 은닉층의 노드 수: 모델의 복잡성을 조절합니다.

# TensorFlow/Keras를 사용하여 신경망 모델 정의
model = Sequential()
model.add(Dense(hidden_layer1_size, input_dim=X_train.shape[1], activation='relu'))
model.add(Dense(hidden_layer2_size, activation='relu'))
model.add(Dense(y_train.shape[1]))

# 모델 컴파일
model.compile(optimizer=tf.keras.optimizers.Adam(learning_rate=learning_rate), loss='mse')

# 모델 학습
model.fit(X_train, y_train, epochs=epochs, batch_size=batch_size, validation_split=0.2)

# 모델 평가
train_loss = model.evaluate(X_train, y_train)
test_loss = model.evaluate(X_test, y_test)
print(f'훈련 손실: {train_loss:.4f}')
print(f'테스트 손실: {test_loss:.4f}')

# 예측 및 평가 (평균 제곱 오차 사용)
y_pred_train = model.predict(X_train)
y_pred_test = model.predict(X_test)
train_mse = mean_squared_error(y_train, y_pred_train)
test_mse = mean_squared_error(y_test, y_pred_test)
print(f'훈련 MSE: {train_mse:.4f}')
print(f'테스트 MSE: {test_mse:.4f}')


##### 작업 긴급도 예측 모델

In [None]:
# 예시를 위한 start_date, end_date 및 complexity에 대한 가상의 데이터 생성
np.random.seed(42)
data['start_date'] = np.random.randint(0, 30, size=len(data))
data['end_date'] = data['start_date'] + np.random.randint(1, 10, size=len(data))
data['complexity'] = np.random.randint(1, 11, size=len(data))

# 긴급도 모델을 위한 입력 데이터 준비
X_urgency = data[['start_date', 'end_date', 'complexity']].values
y_urgency = np.random.rand(len(data), 1)  # 예시를 위한 가상의 긴급도 데이터

# 데이터 정규화
scaler = StandardScaler()
X_urgency = scaler.fit_transform(X_urgency)

# 데이터를 학습용과 테스트용으로 분할
X_train_urgency, X_test_urgency, y_train_urgency, y_test_urgency = train_test_split(X_urgency, y_urgency, test_size=0.2, random_state=42)

# 하이퍼파라미터 설정
learning_rate_urgency = 0.001  # 학습률: 학습 과정에서 가중치가 조정되는 속도를 결정합니다.
batch_size_urgency = 32       # 배치 크기: 한 번의 훈련 반복에서 사용되는 샘플의 수입니다.
epochs_urgency = 100          # 에포크 수: 전체 데이터셋을 훈련하는 반복 횟수입니다.
hidden_layer1_size_urgency = 128  # 첫 번째 은닉층의 노드 수: 모델의 복잡성을 조절합니다.
hidden_layer2_size_urgency = 64   # 두 번째 은닉층의 노드 수: 모델의 복잡성을 조절합니다.

# TensorFlow/Keras를 사용하여 긴급도 예측을 위한 신경망 모델 정의
urgency_model = Sequential()
urgency_model.add(Dense(hidden_layer1_size_urgency, input_dim=X_train_urgency.shape[1], activation='relu'))
urgency_model.add(Dense(hidden_layer2_size_urgency, activation='relu'))
urgency_model.add(Dense(1))

# 모델 컴파일
urgency_model.compile(optimizer=tf.keras.optimizers.Adam(learning_rate=learning_rate_urgency), loss='mse')

# 모델 학습
urgency_model.fit(X_train_urgency, y_train_urgency, epochs=epochs_urgency, batch_size=batch_size_urgency, validation_split=0.2)

# 모델 평가
train_loss_urgency = urgency_model.evaluate(X_train_urgency, y_train_urgency)
test_loss_urgency = urgency_model.evaluate(X_test_urgency, y_test_urgency)
print(f'훈련 긴급도 손실: {train_loss_urgency:.4f}')
print(f'테스트 긴급도 손실: {test_loss_urgency:.4f}')

# 예측 및 평가 (평균 제곱 오차 사용)
y_pred_train_urgency = urgency_model.predict(X_train_urgency)
y_pred_test_urgency = urgency_model.predict(X_test_urgency)
train_mse_urgency = mean_squared_error(y_train_urgency, y_pred_train_urgency)
test_mse_urgency = mean_squared_error(y_test_urgency, y_pred_test_urgency)
print(f'훈련 긴급도 MSE: {train_mse_urgency:.4f}')
print(f'테스트 긴급도 MSE: {test_mse_urgency:.4f}')
