# import lib & data & func

In [1]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns
import warnings 
import os

# 시각화 폰트 설정
if os.name =='posix':
    plt.rc("font", family = "AppleGothic")

else:
    plt.rc("font", family = "Malgun Gothic")

# 경고문자 무시
warnings.filterwarnings(action='ignore')

In [2]:
train_path = '../data/open/train.csv'
test_path = '../data/open/test.csv'
info_path = '../data/open/data_info.csv'
sub_path = '../data/open/sample_submission.csv'
df_train = pd.read_csv(train_path)
df_test = pd.read_csv(test_path)
df_info = pd.read_csv(info_path)
df_sub = pd.read_csv(sub_path)

user_id:	사용자의 고유 식별자

subscription_duration:	사용자가 서비스에 가입한 기간 (월)

recent_login_time:	사용자가 마지막으로 로그인한 시간 (일)

average_login_time: 	사용자의 일반적인 로그인 시간

average_time_per_learning_session:	각 학습 세션에 소요된 평균 시간 (분)

monthly_active_learning_days:	월간 활동적인 학습 일수

total_completed_courses:	완료한 총 코스 수

recent_learning_achievement: 	최근 학습 성취도

abandoned_learning_sessions:	중단된 학습 세션 수

community_engagement_level:	커뮤니티 참여도

preferred_difficulty_level:	선호하는 난이도

subscription_type:	구독 유형

customer_inquiry_history:	고객 문의 이력

payment_pattern	
  사용자의 지난 3개월 간의 결제 패턴을 10진수로 표현한 값.
  - 7: 3개월 모두 결제함
  - 6: 첫 2개월은 결제했으나 마지막 달에는 결제하지 않음
  - 5: 첫 달과 마지막 달에 결제함
  - 4: 첫 달에만 결제함
  - 3: 마지막 2개월에 결제함
  - 2: 가운데 달에만 결제함
  - 1: 마지막 달에만 결제함
  - 0: 3개월 동안 결제하지 않음

target:	사용자가 다음 달에도 구독을 계속할지 (1) 또는 취소할지 (0)를 나타냄


In [3]:
#  최근 학습 성취도 범주화
def ach(x):
    if x>=80:
        x = 1
    elif x >=60 and x <80:
        x = 2
    elif x >=40 and x <60:
        x = 3
    elif x >=20 and x <40:
        x = 4
    elif x < 20:
        x = 5
    return x

# Feature Engineering

## 구독 유형&난이도 스케일링

In [None]:
## Label Encoding
df_train['preferred_difficulty_level'] = pd.factorize(df_train['preferred_difficulty_level'])[0]
df_train['subscription_type'] = pd.factorize(df_train['subscription_type'])[0]

In [5]:
df_train['recent_learning_achievement'] = df_train['recent_learning_achievement'].apply(lambda x: ach(x))    

## 아웃라이어 있는컬럼 모두 스케일링

In [4]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
for col in ['subscription_duration','recent_login_time','average_login_time','average_time_per_learning_session','monthly_active_learning_days','total_completed_courses','recent_learning_achievement']:
    df_train[col] = scaler.fit_transform(df_train[[col]])

## Label Encoding
df_train['preferred_difficulty_level'] = pd.factorize(df_train['preferred_difficulty_level'])[0]
df_train['subscription_type'] = pd.factorize(df_train['subscription_type'])[0]

# Before Modeling

In [5]:
# Delete user_id
df_train = df_train.drop(columns = 'user_id')

# split target
x = df_train[list(df_train.columns[:-1])]
y = df_train['target']

# Modeling

- average_time_per_learning_session : 카테고리화 혹은 아웃라이어 제거후 진행도 해보기 
- 선호하는 난이도와 구독유형만 카테고리화

첫 번째 실험
- 선호하는 난이도와 구독유형만 카테고리화
- catboost & gridsearch cv : 0.50548

## catBoost

### gridSearchCV  포함

In [6]:
from catboost import CatBoostClassifier
from sklearn.model_selection import GridSearchCV, StratifiedKFold
from sklearn.metrics import make_scorer, f1_score
import pandas as pd


# CatBoost 모델 설정
model = CatBoostClassifier(verbose=False)

# 탐색할 하이퍼파라미터 그리드 정의
param_grid = {
    'iterations': [100, 200],
    'learning_rate': [0.01, 0.1],
    'depth': [3, 4, 5]
}

# Macro F1 스코어를 사용하기 위한 스코어러 생성
macro_f1_scorer = make_scorer(f1_score, average='macro')

# GridSearchCV 설정
grid_search = GridSearchCV(model, param_grid, cv=StratifiedKFold(5), scoring=macro_f1_scorer, n_jobs=-1)

# GridSearchCV 실행
grid_search.fit(x, y)

# 결과 출력
print("최적의 파라미터:", grid_search.best_params_)
print("최고 평균 Macro F1 점수:", grid_search.best_score_)

최적의 파라미터: {'depth': 5, 'iterations': 200, 'learning_rate': 0.1}
최고 평균 Macro F1 점수: 0.4180639281423656


In [6]:
from catboost import CatBoostClassifier
from sklearn.model_selection import GridSearchCV, StratifiedKFold
from sklearn.metrics import make_scorer, f1_score
import pandas as pd


# CatBoost 모델 설정
model = CatBoostClassifier(verbose=False)

param_grid = {
    'iterations': [700,800,900,1000],
    'learning_rate': [ 0.05, 0.1, 0.15],
    'depth': [8,9,10,11],

}

# Macro F1 스코어를 사용하기 위한 스코어러 생성
macro_f1_scorer = make_scorer(f1_score, average='macro')

# GridSearchCV 설정
grid_search = GridSearchCV(model, param_grid, cv=StratifiedKFold(5), scoring=macro_f1_scorer, n_jobs=-1)

# GridSearchCV 실행
grid_search.fit(x, y)

# 결과 출력
print("최적의 파라미터:", grid_search.best_params_)
print("최고 평균 Macro F1 점수:", grid_search.best_score_)

KeyboardInterrupt: 

In [23]:
# Label Encoding
df_test['preferred_difficulty_level'] = pd.factorize(df_test['preferred_difficulty_level'])[0]
df_test['subscription_type'] = pd.factorize(df_test['subscription_type'])[0]
df_test['recent_learning_achievement'] = df_test['recent_learning_achievement'].apply(lambda x: ach(x))   

df_test = df_test.drop(columns = 'user_id')
# 최적의 모델 가져오기
best_model = grid_search.best_estimator_
new_x = df_test[list(df_test)]
# 새로운 데이터에 대한 예측 수행
# 최적의 모델 가져오기
best_model = grid_search.best_estimator_
predictions = best_model.predict(new_x)


# 예측값 저장
df_sub['target'] = predictions
df_sub.set_index('user_id').to_csv('csv.csv', encoding="cp949")

## xgBoost

In [9]:
pip install xgboost

Collecting xgboost
  Downloading xgboost-2.0.2-py3-none-win_amd64.whl (99.8 MB)
     --------------------------------------- 99.8/99.8 MB 18.2 MB/s eta 0:00:00
Installing collected packages: xgboost
Successfully installed xgboost-2.0.2
Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 23.1.2 -> 23.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [14]:
import xgboost as xgb
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.metrics import make_scorer, f1_score
from sklearn.datasets import load_iris
import pandas as pd

# 데이터 분할
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

param_grid = {
    'max_depth': [5,7 ,9, 11],
    'learning_rate': [0.1, 0.01, 0.05],
    'n_estimators': [ 200, 300, 400, 500],
    'colsample_bytree': [0.3, 0.7, 0.9]
}

# XGBoost 분류기 초기화
xgb_classifier = xgb.XGBClassifier(use_label_encoder=False, eval_metric='mlogloss')

# Macro F1 스코어를 사용하기 위한 스코어러 생성
macro_f1_scorer = make_scorer(f1_score, average='macro')

# GridSearchCV 설정
grid_search = GridSearchCV(estimator=xgb_classifier, param_grid=param_grid, cv=3, scoring = macro_f1_scorer, n_jobs=-1, verbose=1)

# GridSearchCV 실행
grid_search.fit(x_train, y_train)

# 결과 출력
print("최적의 파라미터:", grid_search.best_params_)
print("최고 평균 정확도:", grid_search.best_score_)

Fitting 3 folds for each of 144 candidates, totalling 432 fits
최적의 파라미터: {'colsample_bytree': 0.7, 'learning_rate': 0.1, 'max_depth': 9, 'n_estimators': 400}
최고 평균 정확도: 0.5016507789540671


In [15]:
# 최적의 모델 가져오기
best_model = grid_search.best_estimator_

# 예측
y_pred = best_model.predict(x_test)
# 정확도 평가
accuracy = accuracy_score(y_test, y_pred)
print(f"Test Set Accuracy: {accuracy}")

Test Set Accuracy: 0.549


In [16]:
# Label Encoding
df_test['preferred_difficulty_level'] = pd.factorize(df_test['preferred_difficulty_level'])[0]
df_test['subscription_type'] = pd.factorize(df_test['subscription_type'])[0]
df_test['recent_learning_achievement'] = df_test['recent_learning_achievement'].apply(lambda x: ach(x))   

df_test = df_test.drop(columns = 'user_id')
# 최적의 모델 가져오기
best_model = grid_search.best_estimator_
new_x = df_test[list(df_test)]
# 최적의 모델 가져오기
best_model = grid_search.best_estimator_
prediction = best_model.predict(new_x)


In [19]:
# 예측값 저장
df_sub['target'] = prediction
df_sub.set_index('user_id').to_csv('csv.csv', encoding="cp949")

# Light GBM

In [14]:
import lightgbm as lgb
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.metrics import make_scorer, f1_score
from sklearn.datasets import load_iris
import pandas as pd


In [15]:
# 데이터 분할
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)
param_grid = {
    'max_depth': [5,7 ,9, 11],
    'learning_rate': [0.1, 0.01, 0.05],
    'n_estimators': [ 200, 300, 400, 500],
    'colsample_bytree': [0.3, 0.7, 0.9],
    'num_leaves': [31, 50, 70],
}
# LightGBM 분류기 초기화
lgb_classifier = lgb.LGBMClassifier()

# Macro F1 스코어를 사용하기 위한 스코어러 생성
macro_f1_scorer = make_scorer(f1_score, average='macro')

# GridSearchCV 설정s
grid_search = GridSearchCV(estimator=lgb_classifier, param_grid=param_grid, cv=3, scoring=macro_f1_scorer, n_jobs=-1, verbose=1)

# GridSearchCV 실행
grid_search.fit(x_train, y_train)

# 결과 출력
print("최적의 파라미터:", grid_search.best_params_)
print("최고 평균 Macro F1 점수:", grid_search.best_score_)

Fitting 3 folds for each of 432 candidates, totalling 1296 fits
최적의 파라미터: {'colsample_bytree': 0.3, 'learning_rate': 0.1, 'max_depth': 7, 'n_estimators': 400, 'num_leaves': 50}
최고 평균 Macro F1 점수: 0.5097357422748049


In [None]:
# 최적의 모델 가져오기
best_model = grid_search.best_estimator_

# 예측
y_pred = best_model.predict(x_test)

# Macro F1 점수 평가
macro_f1 = f1_score(y_test, y_pred, average='macro')
print(f"Test Set Macro F1 Score: {macro_f1}")

# scalling model