# 🚀 머신러닝 실습 : 고객 구매 데이터로 성별 예측 모델링 (분류 문제)
- 주어진 데이터는 백화점 고객의 1년 간 구매 데이터입니다.
- 고객 3,500명에 대한 학습용 데이터(y.csv, X.csv)를 이용하여 성별예측 모형을 만들어보세요.
- 모델의 성능은 자유롭게 측정해봅니다!

### [실습 프로세스]
- 데이터 불러오기
- 데이터 탐색
- 데이터 전처리
- 학습/테스트 데이터 분리
- 모델 선택 및 학습
- 예측 및 평가

# 라이브러리 불러오기

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings(action='ignore')

## 1. 데이터 불러오기
데이터를 가져와서 과정을 준비합시다.
인코딩 방식은 'euc-kr' 을 활용하세요.

데이터 출처 : 한국데이터산업진흥원 빅데이터분석기사 실기 공개 예시 문항

독립 변수 데이터셋 : ./data/X.csv

종속 변수 데이터셋 : ./data/y.csv

데이터 파일을 불러옵니다. 보통 CSV 파일을 pandas로 읽어옵니다.

In [2]:
import os
# 노트북 파일이 있는 폴더로 이동 (예시)
os.chdir(r'C:\githome\hipython_rep')

# 변경 후 확인
print("변경 후:", os.getcwd())

변경 후: c:\githome\hipython_rep


In [3]:
X = pd.read_csv('./data1/X.csv', encoding='euc-kr')
y = pd.read_csv('./data1/y.csv', encoding='euc-kr')

## 2. 데이터 탐색하기
데이터를 이해할 수 있도록 탐색과정을 수행해봅시다.
데이터의 상위 몇 개 행을 출력하여 전체 구조를 미리 확인합니다.

데이터의 요약 정보나 통계 정보를 출력해 변수들의 유형과 분포를 확인합니다.

데이터의 요약 정보나 통계 정보를 출력해 변수들의 유형과 분포를 확인합니다.

In [4]:
X.head(5)

Unnamed: 0,cust_id,총구매액,최대구매액,환불금액,주구매상품,주구매지점,내점일수,내점당구매건수,주말방문비율,구매주기
0,0,68282840,11264000,6860000.0,기타,강남점,19,3.894737,0.527027,17
1,1,2136000,2136000,300000.0,스포츠,잠실점,2,1.5,0.0,1
2,2,3197000,1639000,,남성 캐주얼,관악점,2,2.0,0.0,1
3,3,16077620,4935000,,기타,광주점,18,2.444444,0.318182,16
4,4,29050000,24000000,,보석,본 점,2,1.5,0.0,85


In [5]:
y.head(5)

Unnamed: 0,cust_id,gender
0,0,0
1,1,0
2,2,1
3,3,1
4,4,0


In [6]:
X.describe()

Unnamed: 0,cust_id,총구매액,최대구매액,환불금액,내점일수,내점당구매건수,주말방문비율,구매주기
count,3500.0,3500.0,3500.0,1205.0,3500.0,3500.0,3500.0,3500.0
mean,1749.5,91919250.0,19664240.0,24078220.0,19.253714,2.834963,0.307246,20.958286
std,1010.507298,163506500.0,31992350.0,47464530.0,27.174942,1.912368,0.289752,24.748682
min,0.0,-52421520.0,-2992000.0,5600.0,1.0,1.0,0.0,0.0
25%,874.75,4747050.0,2875000.0,2259000.0,2.0,1.666667,0.027291,4.0
50%,1749.5,28222700.0,9837000.0,7392000.0,8.0,2.333333,0.25641,13.0
75%,2624.25,106507900.0,22962500.0,24120000.0,25.0,3.375,0.44898,28.0
max,3499.0,2323180000.0,706629000.0,563753000.0,285.0,22.083333,1.0,166.0


In [7]:
y.describe()

Unnamed: 0,cust_id,gender
count,3500.0,3500.0
mean,1749.5,0.376
std,1010.507298,0.484449
min,0.0,0.0
25%,874.75,0.0
50%,1749.5,0.0
75%,2624.25,1.0
max,3499.0,1.0


In [8]:
X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3500 entries, 0 to 3499
Data columns (total 10 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   cust_id  3500 non-null   int64  
 1   총구매액     3500 non-null   int64  
 2   최대구매액    3500 non-null   int64  
 3   환불금액     1205 non-null   float64
 4   주구매상품    3500 non-null   object 
 5   주구매지점    3500 non-null   object 
 6   내점일수     3500 non-null   int64  
 7   내점당구매건수  3500 non-null   float64
 8   주말방문비율   3500 non-null   float64
 9   구매주기     3500 non-null   int64  
dtypes: float64(3), int64(5), object(2)
memory usage: 273.6+ KB


In [9]:
y.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3500 entries, 0 to 3499
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype
---  ------   --------------  -----
 0   cust_id  3500 non-null   int64
 1   gender   3500 non-null   int64
dtypes: int64(2)
memory usage: 54.8 KB


## 3. 데이터 전처리
- 전처리 과정을 통해서 머신러닝에 사용할 수 있는 형태의 데이터 준비
필요한 라이브러리를 불러옵니다.

- 인코딩 : LabelEncoder
- 데이터 표준화 : StandardScaler
- 단순히 1부터의 숫자를 부여한 'cust_id'를 수치형 변수로 받아들이면, 결과가 왜곡될 수 있으니 컬럼을 제거합니다.
- 데이터에 결측치가 있는지 확인해보세요
- 결측치에 0으로 채워 넣어 모델 학습에 지장이 없도록 합니다.
문자형 범주 데이터를 숫자로 바꾸기 위한 인코딩을 수행합니다.

각 데이터에 표준화를 적용하여 데이터의 스케일(크기 차이)을 맞춰줍니다.

- 평균을 0, 표준편차를 1로 맞춰서 → 데이터가 정규 분포 형태로 변환되도록 하세요

In [42]:
import pandas as pd

from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.base import BaseEstimator

In [10]:
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.model_selection import train_test_split

In [50]:
# 삭제할 열들의 이름을 리스트로 묶어 한 번에 전달
X_df = X.drop(['cust_id'], axis=1)
y_df = y.drop(['cust_id'], axis=1)

In [16]:
X_df['환불금액'].fillna(0,inplace=True)

In [17]:
# 1. 데이터 타입에 따라 열 이름 분리
numeric_cols = X_df.select_dtypes(include=['int64', 'float64']).columns
categorical_cols = X_df.select_dtypes(include=['object']).columns

# 2. 범주형 데이터에 LabelEncoder 적용
# 원본 데이터에 바로 적용하면 경고가 발생할 수 있으므로, 복사본을 만들어 사용합니다.
X_encoded = X_df.copy()
for col in categorical_cols:
    le = LabelEncoder()
    X_encoded[col] = le.fit_transform(X_encoded[col])


# 3. 숫자형 데이터에 StandardScaler 적용
scaler = StandardScaler()
# 스케일링을 적용할 숫자형 열만 선택하여 fit_transform을 수행합니다.
# 결과는 numpy 배열이므로 다시 DataFrame으로 만들어줍니다.
scaled_features = scaler.fit_transform(X_encoded[numeric_cols])
X_encoded[numeric_cols] = scaled_features


# 4. 최종 결과 확인
print("--- 최종 전처리 완료된 데이터 (LabelEncoder + StandardScaler) ---")
print(X_encoded.head())

print("\n--- 전처리 후 데이터 통계 ---")
# 숫자형 열의 평균이 0, 표준편차가 1에 가까워졌는지 확인합니다.
print(X_encoded.describe())

--- 최종 전처리 완료된 데이터 (LabelEncoder + StandardScaler) ---
       총구매액     최대구매액      환불금액  주구매상품  주구매지점      내점일수   내점당구매건수    주말방문비율  \
0 -0.144580 -0.262608 -0.047505      5      0 -0.009338  0.554247  0.758623   
1 -0.549190 -0.547967 -0.265461     21     19 -0.635003 -0.698168 -1.060530   
2 -0.542700 -0.563504 -0.275429      6      1 -0.635003 -0.436675 -1.060530   
3 -0.463911 -0.460465 -0.275429      5      2 -0.046142 -0.204236  0.037746   
4 -0.384561  0.135544 -0.275429     15      8 -0.635003 -0.698168 -1.060530   

       구매주기  
0 -0.159962  
1 -0.806554  
2 -0.806554  
3 -0.200374  
4  2.588052  

--- 전처리 후 데이터 통계 ---
               총구매액         최대구매액          환불금액        주구매상품        주구매지점  \
count  3.500000e+03  3.500000e+03  3.500000e+03  3500.000000  3500.000000   
mean  -3.349701e-17 -4.263256e-17  3.248195e-17    14.612000    10.734286   
std    1.000143e+00  1.000143e+00  1.000143e+00    13.019947     5.636480   
min   -8.829091e-01 -7.082781e-01 -2.754289e-01     0.00

## 5-1. 모델링 - LogisticRegression
- 본격적으로 모델을 선언하고 학습시킵니다.
필요한 라이브러리를 불러옵니다.

모델을 선언하여 객체화시킵니다.

모델을 학습 데이터에 맞춰 학습시킵니다.

In [51]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
x_train, x_test, y_train, y_test = train_test_split(X_encoded,y_df, test_size=0.2, random_state=11)

In [52]:
LR_m = LogisticRegression(random_state=11)
LR_m.fit(x_train, y_train)
pred = LR_m.predict(x_test)
acc =accuracy_score(y_test, pred)
acc

0.6242857142857143

## 6-1. 예측 성능 확인해보기 - LogisticRegression
- 학습된 모델로 테스트 데이터에 대한 예측을 수행합니다.
- 학습시킨 모델의 성능을 알아봅니다
- 각 평가지표로 모델의 성능을 수치화하여 확인합니다.
- 필요한 라이브러리를 import 하고 성능을 확인해보세요 (정확도, 정밀도, 재현율, f1, confusion_matrix)

In [53]:
print(classification_report(y_test,pred))
confusion_matrix(y_test,pred)

              precision    recall  f1-score   support

           0       0.64      0.93      0.76       439
           1       0.48      0.10      0.17       261

    accuracy                           0.62       700
   macro avg       0.56      0.52      0.46       700
weighted avg       0.58      0.62      0.54       700



array([[410,  29],
       [234,  27]])

## 5-2. 모델링 - DecisionTreeClassifier
- 본격적으로 모델을 선언하고 학습시킵니다.
필요한 라이브러리를 불러옵니다.

모델을 선언하여 객체화시킵니다.

모델을 학습 데이터에 맞춰 학습시킵니다.

In [76]:
from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier
dt_clf2 = DecisionTreeClassifier(random_state=121)
params = {'max_depth':[1,2,3], 'min_samples_split':[2,3]}
grid_dtree = GridSearchCV(dt_clf2, param_grid=params, cv=3, refit=True)
gd = grid_dtree.fit(x_train,y_train)
pred_dt = gd.predict(x_test)
dt_acc = accuracy_score(y_test, pred_dt)
dt_acc

0.6485714285714286

## 6-2. 예측 성능 확인해보기 - DecisionTreeClassifier
- 학습된 모델로 테스트 데이터에 대한 예측을 수행합니다.
- 학습시킨 모델의 성능을 알아봅니다
- 각 평가지표로 모델의 성능을 수치화하여 확인합니다.
- 필요한 라이브러리를 import 하고 성능을 확인해보세요 (정확도, 정밀도, 재현율, f1, confusion_matrix)

In [77]:
print(classification_report(y_test,pred_dt))
confusion_matrix(y_test,pred_dt)

              precision    recall  f1-score   support

           0       0.67      0.86      0.75       439
           1       0.56      0.29      0.38       261

    accuracy                           0.65       700
   macro avg       0.61      0.58      0.57       700
weighted avg       0.63      0.65      0.61       700



array([[379,  60],
       [186,  75]])

## 5-3. 모델링 - RandomForestClassifier
- 본격적으로 모델을 선언하고 학습시킵니다.
필요한 라이브러리를 불러옵니다.

모델을 선언하여 객체화시킵니다.

모델을 학습 데이터에 맞춰 학습시킵니다.

In [66]:
from sklearn.ensemble import RandomForestClassifier
rf_clf = RandomForestClassifier(random_state=0, max_depth=8)
rf_clf.fit(x_train, y_train)
rf_pred = rf_clf.predict(x_test)
accuracy_score(y_test, rf_pred)

0.6471428571428571

## 6-3. 예측 성능 확인해보기 - RandomForestClassifier
- 학습된 모델로 테스트 데이터에 대한 예측을 수행합니다.
- 학습시킨 모델의 성능을 알아봅니다
- 각 평가지표로 모델의 성능을 수치화하여 확인합니다.
- 필요한 라이브러리를 import 하고 성능을 확인해보세요 (정확도, 정밀도, 재현율, f1, confusion_matrix)

In [67]:
print(classification_report(y_test,rf_pred))
confusion_matrix(y_test,rf_pred)

              precision    recall  f1-score   support

           0       0.67      0.85      0.75       439
           1       0.55      0.31      0.39       261

    accuracy                           0.65       700
   macro avg       0.61      0.58      0.57       700
weighted avg       0.63      0.65      0.62       700



array([[373,  66],
       [181,  80]])

## 5-4. 모델링 - XGBoost
- 본격적으로 모델을 선언하고 학습시킵니다.
필요한 라이브러리를 불러옵니다.

모델을 선언하여 객체화시킵니다.

모델을 학습 데이터에 맞춰 학습시킵니다.

In [74]:
from xgboost import XGBClassifier

# 1. 모델 선언 및 객체화
# 주요 하이퍼파라미터를 설정하여 모델을 선언합니다.
xgb_clf = XGBClassifier(n_estimators=100,      # 부스팅 라운드(트리의 개수)
                        learning_rate=0.1,    # 학습률
                        max_depth=3,          # 트리의 최대 깊이
                        random_state=11,      # 재현성을 위한 시드
                        eval_metric='logloss' # 평가 지표
                       )


# 2. 모델 학습
# 훈련 데이터에 맞춰 모델을 학습시킵니다.
xgb_clf.fit(x_train, y_train)
pred_xgb = xgb_clf.predict(x_test)
xgb_acc = accuracy_score(y_test, pred_xgb)
xgb_acc

0.6628571428571428

## 6-4. 예측 성능 확인해보기 - XGBoost
- 학습된 모델로 테스트 데이터에 대한 예측을 수행합니다.
- 학습시킨 모델의 성능을 알아봅니다
- 각 평가지표로 모델의 성능을 수치화하여 확인합니다.
- 필요한 라이브러리를 import 하고 성능을 확인해보세요 (정확도, 정밀도, 재현율, f1, confusion_matrix)

In [73]:
print(confusion_matrix(y_test, pred_xgb))
print(classification_report(y_test, pred_xgb))

[[381  58]
 [178  83]]
              precision    recall  f1-score   support

           0       0.68      0.87      0.76       439
           1       0.59      0.32      0.41       261

    accuracy                           0.66       700
   macro avg       0.64      0.59      0.59       700
weighted avg       0.65      0.66      0.63       700



## 7. 위 4가지 모델의 학습 & 예측 & 평가 결과를 확인하고 최고 성능을 내는 모델을 찾아봅시다!
- 어떤 모델이 가장 성능이 좋은가요 ?

In [80]:
print('Rogistic Regression 모델의 결과')
print(classification_report(y_test,pred))
print(confusion_matrix(y_test,pred))

print('DecisionTreeClassifier 모델의 결과')
print(classification_report(y_test,pred_dt))
print(confusion_matrix(y_test,pred_dt))

print('RandomForestClassifier 모델의 결과')
print(classification_report(y_test,rf_pred))
print(confusion_matrix(y_test,rf_pred))

print('XGBoost의 모델의 결과')
print(confusion_matrix(y_test, pred_xgb))
print(classification_report(y_test, pred_xgb)) 

Rogistic Regression 모델의 결과
              precision    recall  f1-score   support

           0       0.67      0.86      0.75       439
           1       0.56      0.29      0.38       261

    accuracy                           0.65       700
   macro avg       0.61      0.58      0.57       700
weighted avg       0.63      0.65      0.61       700

[[379  60]
 [186  75]]
DecisionTreeClassifier 모델의 결과
              precision    recall  f1-score   support

           0       0.67      0.86      0.75       439
           1       0.56      0.29      0.38       261

    accuracy                           0.65       700
   macro avg       0.61      0.58      0.57       700
weighted avg       0.63      0.65      0.61       700

[[379  60]
 [186  75]]
RandomForestClassifier 모델의 결과
              precision    recall  f1-score   support

           0       0.67      0.85      0.75       439
           1       0.55      0.31      0.39       261

    accuracy                           0.65      

### 4가지 모델의 정확도가 전부 65%~66%대로 도출됨 


In [83]:
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint # 파라미터 범위 지정을 위한 라이브러리

# 각 모델별로 탐색할 하이퍼파라미터 '범위' 정의
# --------------------------------------------------------------------------

# Logistic Regression 파라미터 (값의 후보가 적어 그대로 사용)
lr_params = {
    'penalty': ['l2'],
    'C': [0.1, 1, 10, 100]
}

# Decision Tree 파라미터 범위
dt_dist = {
    'max_depth': randint(3, 20),
    'min_samples_split': randint(2, 20),
    'min_samples_leaf': randint(1, 20)
}

# Random Forest 파라미터 범위
rf_dist = {
    'n_estimators': randint(100, 500),
    'max_depth': randint(5, 30),
    'min_samples_split': randint(2, 20),
    'min_samples_leaf': randint(1, 20)
}

# XGBoost 파라미터 범위
xgb_dist = {
    'n_estimators': randint(100, 500),
    'learning_rate': [0.01, 0.05, 0.1, 0.2],
    'max_depth': randint(3, 10)
}


# 3. 모델과 파라미터 묶기
# --------------------------------------------------------------------------
models = [
    # Logistic Regression은 후보가 적어 GridSearchCV를 사용해도 무방합니다.
    ('LogisticRegression', LogisticRegression(solver='liblinear', random_state=11), lr_params), 
    ('DecisionTree', DecisionTreeClassifier(random_state=11), dt_dist),
    ('RandomForest', RandomForestClassifier(random_state=11, n_jobs=-1), rf_dist),
    ('XGBoost', XGBClassifier(random_state=11, use_label_encoder=False, eval_metric='logloss'), xgb_dist)
]


# 4. 반복문을 통해 각 모델의 RandomizedSearchCV 실행
# --------------------------------------------------------------------------
best_models_random = {}

for name, model, params in models:
    print(f"====== {name} 하이퍼파라미터 튜닝 시작 ======")
    
    # RandomizedSearchCV 객체 생성.
    random_search = RandomizedSearchCV(estimator=model,
                                     param_distributions=params,
                                     n_iter=20, # 20개의 조합을 테스트합니다.
                                     cv=5,
                                     n_jobs=-1,
                                     verbose=1,
                                     random_state=11)
    
    # 랜덤 서치 학습
    random_search.fit(x_train, y_train)
    
    # 결과 저장 및 출력
    best_models_random[name] = random_search.best_estimator_
    print(f"\n최적 하이퍼파라미터: {random_search.best_params_}")
    print(f"최고 교차 검증 정확도: {random_search.best_score_:.4f}")
    print("-" * 50)

print("\n\n모든 모델의 최적 파라미터 탐색(Randomized)이 완료되었습니다.")
print("최적 모델 확인:", best_models_random)

Fitting 5 folds for each of 4 candidates, totalling 20 fits

최적 하이퍼파라미터: {'penalty': 'l2', 'C': 0.1}
최고 교차 검증 정확도: 0.6346
--------------------------------------------------
Fitting 5 folds for each of 20 candidates, totalling 100 fits

최적 하이퍼파라미터: {'max_depth': 3, 'min_samples_leaf': 16, 'min_samples_split': 2}
최고 교차 검증 정확도: 0.6443
--------------------------------------------------
Fitting 5 folds for each of 20 candidates, totalling 100 fits

최적 하이퍼파라미터: {'max_depth': 8, 'min_samples_leaf': 2, 'min_samples_split': 18, 'n_estimators': 231}
최고 교차 검증 정확도: 0.6514
--------------------------------------------------
Fitting 5 folds for each of 20 candidates, totalling 100 fits

최적 하이퍼파라미터: {'learning_rate': 0.01, 'max_depth': 6, 'n_estimators': 348}
최고 교차 검증 정확도: 0.6461
--------------------------------------------------


모든 모델의 최적 파라미터 탐색(Randomized)이 완료되었습니다.
최적 모델 확인: {'LogisticRegression': LogisticRegression(C=0.1, random_state=11, solver='liblinear'), 'DecisionTree': DecisionTreeClassif

# 결과
고객 데이터를 이용해 성별을 예측하는 머신러닝 모델 구축을 목적으로 본 프로젝트를 하게 되었습니다.
로지스틱 회귀, 의사결정나무, 랜덤 포레스트, XGBoost 모델을 적용했으나, 4가지의 모델의 성능이 비슷하여 
RandomizedSearchCV를 통해 모델별 최적의 하이퍼파라미터를 탐색을 추가로 적용하였고,
RandomForestClassfire 모델이 Cross Validation에서 약 65%의 정확도로 가장 높은 정확도로 최종 모델로 선정되었습니다.
제가 분석한 최적의 파라미터는 max_depth = 8, n_estimators = 231로 확인되었습니다. 

### 최종적으로 Random Forest 모델이 고객 성별 예측에 가장 적합한 모델임을 확인하였습니다 