In [1]:
# 기본
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 경고 뜨지 않게 설정
import warnings
warnings.filterwarnings('ignore')

# 그래프 설정
sns.set()

# 그래프 기본 설정
plt.rcParams['font.family'] = 'Malgun Gothic'
# plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['figure.figsize'] = 12, 6
plt.rcParams['font.size'] = 14
plt.rcParams['axes.unicode_minus'] = False

# 데이터 전처리 알고리즘
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler

# 학습용과 검증용으로 나누는 함수
from sklearn.model_selection import train_test_split

# 교차 검증
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import cross_validate
from sklearn.model_selection import KFold
from sklearn.model_selection import StratifiedKFold

# 평가함수
# 분류용
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.metrics import roc_auc_score

# 회귀용
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error

# 모델의 최적의 하이퍼 파라미터를 찾기 위한 도구
from sklearn.model_selection import GridSearchCV

# 머신러닝 알고리즘 - 분류
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import GradientBoostingClassifier
from lightgbm import LGBMClassifier
from xgboost import XGBClassifier
from sklearn.ensemble import VotingClassifier

# 머신러닝 알고리즘 - 회귀
from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.linear_model import ElasticNet
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import AdaBoostRegressor
from sklearn.ensemble import GradientBoostingRegressor
from lightgbm import LGBMRegressor
from xgboost import XGBRegressor
from sklearn.ensemble import VotingRegressor

# 학습 모델 저장을 위한 라이브러리
import pickle

In [2]:
# 학습이 완료된 모델을 저장할 파일 이름
best_model_path = '머신러닝/channel_info_classification.dat'

# 교차검증 횟수
cv_count = 2

# 교차 검증
kfold = KFold(n_splits=cv_count, shuffle=True, random_state=1)

# 평가 결과를 담을 리스트
# 필요하다면 다른 것도 만들기
f1_score_list = []

# 학습 모델 이름
model_name_list = []

In [3]:
#추출: 마케팅 정보 및 채널 정보 불러오기
marketing_df = pd.read_csv('train_cleaned6.csv')
channel_df   = pd.read_csv('train_cleaned7.csv')

#계산: 중복 컬럼 제거
channel_df = channel_df.drop(columns=['기준년월','Segment'])

#정의: 병합 키 설정
merge_key = 'ID'

#생성: train_df에 마케팅 정보와 채널 정보 병합
train_df = marketing_df.merge(channel_df, on=merge_key, how='left')

#확인: 병합 결과 출력
display(train_df.head())

Unnamed: 0,기준년월,ID,인입일수_ARS_R6M,인입월수_ARS_R6M,인입횟수_ARS_B0M,이용메뉴건수_ARS_B0M,방문후경과월_PC_R6M,방문후경과월_앱_R6M,방문횟수_PC_B0M,방문일수_PC_B0M,...,방문횟수_앱_R6M_20,방문횟수_앱_R6M_30,방문횟수_앱_R6M_40,방문횟수_앱_R6M_50,방문횟수_앱_R6M_60,방문횟수_앱_R6M_70,방문횟수_앱_R6M_80,컨택건수_이용유도_EM_B0M,컨택건수_이용유도_TM_R6M,컨택건수_이용유도_EM_R6M
0,201807,TRAIN_000000,8,6,2,6,6,6,0,0,...,False,False,False,False,False,False,False,13,3,57
1,201807,TRAIN_000000,8,6,2,6,6,6,0,0,...,False,False,False,False,False,False,False,13,3,59
2,201807,TRAIN_000000,8,6,2,6,6,6,0,0,...,False,False,False,False,False,False,False,13,3,60
3,201807,TRAIN_000000,8,6,2,6,6,6,0,0,...,False,False,False,False,False,False,False,13,3,60
4,201807,TRAIN_000000,8,6,2,6,6,6,0,0,...,False,False,False,False,False,False,False,13,3,59


In [4]:
#추출: 마케팅 정보 및 채널 정보 불러오기
marketing_df1 = pd.read_csv('test_cleaned6.csv')
channel_df1   = pd.read_csv('test_cleaned7.csv')

#계산: 중복 컬럼 제거
channel_df1 = channel_df1.drop(columns=['기준년월','Segment'])

#정의: 병합 키 설정
merge_key = 'ID'

#생성: train_df에 마케팅 정보와 채널 정보 병합
test_df = marketing_df1.merge(channel_df1, on=merge_key, how='left')

#확인: 병합 결과 출력
display(test_df.head())

Unnamed: 0,기준년월,ID,인입일수_ARS_R6M,인입월수_ARS_R6M,인입횟수_ARS_B0M,이용메뉴건수_ARS_B0M,방문후경과월_PC_R6M,방문후경과월_앱_R6M,방문횟수_PC_B0M,방문일수_PC_B0M,...,방문횟수_앱_R6M_20,방문횟수_앱_R6M_30,방문횟수_앱_R6M_40,방문횟수_앱_R6M_50,방문횟수_앱_R6M_60,방문횟수_앱_R6M_70,방문횟수_앱_R6M_80,컨택건수_이용유도_EM_B0M,컨택건수_이용유도_TM_R6M,컨택건수_이용유도_EM_R6M
0,201807,TEST_00000,0,0,0,0,1,6,0,0,...,False,False,False,False,False,False,False,1,0,2
1,201807,TEST_00000,0,0,0,0,1,6,0,0,...,False,False,False,False,False,False,False,1,0,4
2,201807,TEST_00000,0,0,0,0,1,6,0,0,...,False,False,False,False,False,False,False,1,0,4
3,201807,TEST_00000,0,0,0,0,1,6,0,0,...,False,False,False,False,False,False,False,1,0,4
4,201807,TEST_00000,0,0,0,0,1,6,0,0,...,False,False,False,False,False,False,False,1,0,4


In [5]:
train_df = train_df.drop(columns=['ID', '기준년월'])

df1 = train_df

In [6]:
# 입력 변수(X)와 타깃 변수(y)로 데이터를 분리한다.
X = df1.drop('Segment', axis=1)
y = df1['Segment']

# 문자열 -> 숫자
encoder1 = LabelEncoder()
encoder1.fit(y)
y2 = encoder1.transform(y)

# 입력 데이터 표준화
scaler1 = StandardScaler()
scaler1.fit(X)
X2 = scaler1.transform(X)

# 학습용과 검증용으로 나눈다.
train_X = X2
train_y = y2

### LogisticRegression

In [7]:
lr_basic_model = LogisticRegression(multi_class='multinomial')

# 모델 학습 수행
lr_basic_model.fit(train_X, train_y)

In [8]:
# 학습 시 사용한 피처 컬럼명 저장
feature_cols = df1.drop(columns=['Segment']).columns


# test 데이터 ID, 기준년월, Segment 제거 후 학습 컬럼 순서에 맞게 재정렬
test_ids = test_df['ID']
test_features = test_df.drop(columns=['ID', '기준년월', 'Segment'], errors='ignore')
test_features = test_features.loc[:, feature_cols]

# 입력 데이터 스케일링
test_scaled = scaler1.transform(test_features)

In [9]:
# 모델 예측 수행
pred_y_numeric = lr_basic_model.predict(test_scaled)

# 예측 결과 클래스별 분포 확인
unique_vals_num, counts_num = np.unique(pred_y_numeric, return_counts=True)
print(dict(zip(unique_vals_num, counts_num)))

{2: 2206, 3: 71969, 4: 3525825}


In [10]:
# 숫자형 예측 결과를 원래 클래스 레이블로 변환
pred_y = encoder1.inverse_transform(pred_y_numeric)

# 역변환된 예측 결과 분포 출력
unique_vals_str, counts_str = np.unique(pred_y, return_counts=True)
print(dict(zip(unique_vals_str, counts_str)))

{'C': 2206, 'D': 71969, 'E': 3525825}


In [11]:
# 예측 결과를 데이터프레임에 추가하고 중복 ID 제거
submission_df = pd.DataFrame({'ID': test_ids, 'Segment': pred_y})
submission_df = submission_df.drop_duplicates(subset='ID')

In [12]:
# 샘플 제출 파일 불러오기
submit = pd.read_csv('open/sample_submission.csv')

In [13]:
# 예측 결과로 대체
submit['Segment'] = submission_df.set_index('ID').reindex(submit['ID'])['Segment'].values

# 결과를 CSV 파일로 출력
submit.to_csv('lr_submit.csv', index=False)

In [14]:
# 최종 제출 파일 내용 출력
submit

Unnamed: 0,ID,Segment
0,TEST_00000,E
1,TEST_00001,E
2,TEST_00002,E
3,TEST_00003,E
4,TEST_00004,E
...,...,...
99995,TEST_99995,E
99996,TEST_99996,E
99997,TEST_99997,E
99998,TEST_99998,E


### DecisionTree

In [15]:
tree_basic_model = DecisionTreeClassifier()

# 모델 학습 수행
tree_basic_model.fit(train_X, train_y)

In [16]:
# 학습 시 사용한 피처 컬럼명 저장
feature_cols = df1.drop(columns=['Segment']).columns


# test 데이터 ID, 기준년월, Segment 제거 후 학습 컬럼 순서에 맞게 재정렬
test_ids = test_df['ID']
test_features = test_df.drop(columns=['ID', '기준년월', 'Segment'], errors='ignore')
test_features = test_features.loc[:, feature_cols]

# 입력 데이터 스케일링
test_scaled = scaler1.transform(test_features)

In [17]:
# 모델 예측 수행
pred_y_numeric = lr_basic_model.predict(test_scaled)

# 예측 결과 클래스별 분포 확인
unique_vals_num, counts_num = np.unique(pred_y_numeric, return_counts=True)
print(dict(zip(unique_vals_num, counts_num)))

{2: 2206, 3: 71969, 4: 3525825}


In [18]:
# 숫자형 예측 결과를 원래 클래스 레이블로 변환
pred_y = encoder1.inverse_transform(pred_y_numeric)

# 역변환된 예측 결과 분포 출력
unique_vals_str, counts_str = np.unique(pred_y, return_counts=True)
print(dict(zip(unique_vals_str, counts_str)))

{'C': 2206, 'D': 71969, 'E': 3525825}


In [19]:
# 예측 결과를 데이터프레임에 추가하고 중복 ID 제거
submission_df = pd.DataFrame({'ID': test_ids, 'Segment': pred_y})
submission_df = submission_df.drop_duplicates(subset='ID')

In [20]:
# 샘플 제출 파일 불러오기
submit = pd.read_csv('open/sample_submission.csv')

In [21]:
# 예측 결과로 대체
submit['Segment'] = submission_df.set_index('ID').reindex(submit['ID'])['Segment'].values

# 결과를 CSV 파일로 출력
submit.to_csv('tree_submit.csv', index=False)

In [22]:
# 최종 제출 파일 내용 출력
submit

Unnamed: 0,ID,Segment
0,TEST_00000,E
1,TEST_00001,E
2,TEST_00002,E
3,TEST_00003,E
4,TEST_00004,E
...,...,...
99995,TEST_99995,E
99996,TEST_99996,E
99997,TEST_99997,E
99998,TEST_99998,E


### AdaBoost

In [24]:
ada_basic_model = AdaBoostClassifier()

# 모델 학습 수행
ada_basic_model.fit(train_X, train_y)

In [25]:
# 학습 시 사용한 피처 컬럼명 저장
feature_cols = df1.drop(columns=['Segment']).columns


# test 데이터 ID, 기준년월, Segment 제거 후 학습 컬럼 순서에 맞게 재정렬
test_ids = test_df['ID']
test_features = test_df.drop(columns=['ID', '기준년월', 'Segment'], errors='ignore')
test_features = test_features.loc[:, feature_cols]

# 입력 데이터 스케일링
test_scaled = scaler1.transform(test_features)

In [26]:
# 모델 예측 수행
pred_y_numeric = lr_basic_model.predict(test_scaled)

# 예측 결과 클래스별 분포 확인
unique_vals_num, counts_num = np.unique(pred_y_numeric, return_counts=True)
print(dict(zip(unique_vals_num, counts_num)))

{2: 2206, 3: 71969, 4: 3525825}


In [27]:
# 숫자형 예측 결과를 원래 클래스 레이블로 변환
pred_y = encoder1.inverse_transform(pred_y_numeric)

# 역변환된 예측 결과 분포 출력
unique_vals_str, counts_str = np.unique(pred_y, return_counts=True)
print(dict(zip(unique_vals_str, counts_str)))

{'C': 2206, 'D': 71969, 'E': 3525825}


In [28]:
# 예측 결과를 데이터프레임에 추가하고 중복 ID 제거
submission_df = pd.DataFrame({'ID': test_ids, 'Segment': pred_y})
submission_df = submission_df.drop_duplicates(subset='ID')

In [29]:
# 샘플 제출 파일 불러오기
submit = pd.read_csv('open/sample_submission.csv')

In [30]:
# 예측 결과로 대체
submit['Segment'] = submission_df.set_index('ID').reindex(submit['ID'])['Segment'].values

# 결과를 CSV 파일로 출력
submit.to_csv('ada_submit.csv', index=False)

In [31]:
# 최종 제출 파일 내용 출력
submit

Unnamed: 0,ID,Segment
0,TEST_00000,E
1,TEST_00001,E
2,TEST_00002,E
3,TEST_00003,E
4,TEST_00004,E
...,...,...
99995,TEST_99995,E
99996,TEST_99996,E
99997,TEST_99997,E
99998,TEST_99998,E


### LGBM

In [32]:
lgbm_basic_model = LGBMClassifier(verbose=-1)

# 모델 학습 수행
lgbm_basic_model.fit(train_X, train_y)

In [33]:
# 학습 시 사용한 피처 컬럼명 저장
feature_cols = df1.drop(columns=['Segment']).columns


# test 데이터 ID, 기준년월, Segment 제거 후 학습 컬럼 순서에 맞게 재정렬
test_ids = test_df['ID']
test_features = test_df.drop(columns=['ID', '기준년월', 'Segment'], errors='ignore')
test_features = test_features.loc[:, feature_cols]

# 입력 데이터 스케일링
test_scaled = scaler1.transform(test_features)

In [34]:
# 모델 예측 수행
pred_y_numeric = lr_basic_model.predict(test_scaled)

# 예측 결과 클래스별 분포 확인
unique_vals_num, counts_num = np.unique(pred_y_numeric, return_counts=True)
print(dict(zip(unique_vals_num, counts_num)))

{2: 2206, 3: 71969, 4: 3525825}


In [35]:
# 숫자형 예측 결과를 원래 클래스 레이블로 변환
pred_y = encoder1.inverse_transform(pred_y_numeric)

# 역변환된 예측 결과 분포 출력
unique_vals_str, counts_str = np.unique(pred_y, return_counts=True)
print(dict(zip(unique_vals_str, counts_str)))

{'C': 2206, 'D': 71969, 'E': 3525825}


In [36]:
# 예측 결과를 데이터프레임에 추가하고 중복 ID 제거
submission_df = pd.DataFrame({'ID': test_ids, 'Segment': pred_y})
submission_df = submission_df.drop_duplicates(subset='ID')

In [37]:
# 샘플 제출 파일 불러오기
submit = pd.read_csv('open/sample_submission.csv')

In [38]:
# 예측 결과로 대체
submit['Segment'] = submission_df.set_index('ID').reindex(submit['ID'])['Segment'].values

# 결과를 CSV 파일로 출력
submit.to_csv('lgbm_submit.csv', index=False)

In [39]:
# 최종 제출 파일 내용 출력
submit

Unnamed: 0,ID,Segment
0,TEST_00000,E
1,TEST_00001,E
2,TEST_00002,E
3,TEST_00003,E
4,TEST_00004,E
...,...,...
99995,TEST_99995,E
99996,TEST_99996,E
99997,TEST_99997,E
99998,TEST_99998,E


### XGBoost

In [40]:
xgboost_basic_model = XGBClassifier(verbose=-1, silent=True, tree_method='gpu_hist')

# 모델 학습 수행
xgboost_basic_model.fit(train_X, train_y)

In [41]:
# 학습 시 사용한 피처 컬럼명 저장
feature_cols = df1.drop(columns=['Segment']).columns


# test 데이터 ID, 기준년월, Segment 제거 후 학습 컬럼 순서에 맞게 재정렬
test_ids = test_df['ID']
test_features = test_df.drop(columns=['ID', '기준년월', 'Segment'], errors='ignore')
test_features = test_features.loc[:, feature_cols]

# 입력 데이터 스케일링
test_scaled = scaler1.transform(test_features)

In [42]:
# 모델 예측 수행
pred_y_numeric = lr_basic_model.predict(test_scaled)

# 예측 결과 클래스별 분포 확인
unique_vals_num, counts_num = np.unique(pred_y_numeric, return_counts=True)
print(dict(zip(unique_vals_num, counts_num)))

{2: 2206, 3: 71969, 4: 3525825}


In [43]:
# 숫자형 예측 결과를 원래 클래스 레이블로 변환
pred_y = encoder1.inverse_transform(pred_y_numeric)

# 역변환된 예측 결과 분포 출력
unique_vals_str, counts_str = np.unique(pred_y, return_counts=True)
print(dict(zip(unique_vals_str, counts_str)))

{'C': 2206, 'D': 71969, 'E': 3525825}


In [44]:
# 예측 결과를 데이터프레임에 추가하고 중복 ID 제거
submission_df = pd.DataFrame({'ID': test_ids, 'Segment': pred_y})
submission_df = submission_df.drop_duplicates(subset='ID')

In [45]:
# 샘플 제출 파일 불러오기
submit = pd.read_csv('open/sample_submission.csv')

In [46]:
# 예측 결과로 대체
submit['Segment'] = submission_df.set_index('ID').reindex(submit['ID'])['Segment'].values

# 결과를 CSV 파일로 출력
submit.to_csv('xg_submit.csv', index=False)

In [47]:
# 최종 제출 파일 내용 출력
submit

Unnamed: 0,ID,Segment
0,TEST_00000,E
1,TEST_00001,E
2,TEST_00002,E
3,TEST_00003,E
4,TEST_00004,E
...,...,...
99995,TEST_99995,E
99996,TEST_99996,E
99997,TEST_99997,E
99998,TEST_99998,E


### RandomForest

In [48]:
rf_basic_model = RandomForestClassifier()

# 모델 학습 수행
rf_basic_model.fit(train_X, train_y)

In [49]:
# 학습 시 사용한 피처 컬럼명 저장
feature_cols = df1.drop(columns=['Segment']).columns


# test 데이터 ID, 기준년월, Segment 제거 후 학습 컬럼 순서에 맞게 재정렬
test_ids = test_df['ID']
test_features = test_df.drop(columns=['ID', '기준년월', 'Segment'], errors='ignore')
test_features = test_features.loc[:, feature_cols]

# 입력 데이터 스케일링
test_scaled = scaler1.transform(test_features)

In [50]:
# 모델 예측 수행
pred_y_numeric = lr_basic_model.predict(test_scaled)

# 예측 결과 클래스별 분포 확인
unique_vals_num, counts_num = np.unique(pred_y_numeric, return_counts=True)
print(dict(zip(unique_vals_num, counts_num)))

{2: 2206, 3: 71969, 4: 3525825}


In [51]:
# 숫자형 예측 결과를 원래 클래스 레이블로 변환
pred_y = encoder1.inverse_transform(pred_y_numeric)

# 역변환된 예측 결과 분포 출력
unique_vals_str, counts_str = np.unique(pred_y, return_counts=True)
print(dict(zip(unique_vals_str, counts_str)))

{'C': 2206, 'D': 71969, 'E': 3525825}


In [52]:
# 예측 결과를 데이터프레임에 추가하고 중복 ID 제거
submission_df = pd.DataFrame({'ID': test_ids, 'Segment': pred_y})
submission_df = submission_df.drop_duplicates(subset='ID')

In [53]:
# 샘플 제출 파일 불러오기
submit = pd.read_csv('open/sample_submission.csv')

In [54]:
# 예측 결과로 대체
submit['Segment'] = submission_df.set_index('ID').reindex(submit['ID'])['Segment'].values

# 결과를 CSV 파일로 출력
submit.to_csv('rf_submit.csv', index=False)

In [55]:
# 최종 제출 파일 내용 출력
submit

Unnamed: 0,ID,Segment
0,TEST_00000,E
1,TEST_00001,E
2,TEST_00002,E
3,TEST_00003,E
4,TEST_00004,E
...,...,...
99995,TEST_99995,E
99996,TEST_99996,E
99997,TEST_99997,E
99998,TEST_99998,E
