# 🚀 머신러닝 실습 : 고객 구매 데이터로 성별 예측 모델링 (분류 문제)

* 주어진 데이터는 백화점 고객의 1년 간 구매 데이터입니다.
* 고객 3,500명에 대한 학습용 데이터(y.csv, X.csv)를 이용하여 성별예측 모형을 만들어보세요.
* 모델의 성능은 자유롭게 측정해봅니다!

## [실습 프로세스]
1. 데이터 불러오기  
2. 데이터 탐색
3. 데이터 전처리  
4. 학습/테스트 데이터 분리  
5. 모델 선택 및 학습  
6. 예측 및 평가  


<br/>

---

<br/>
<br/>

# 0. 라이브러리 불러오기

* 라이브러리를 가져와서 과정을 준비합니다

In [124]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings(action='ignore')

<br/>

---

<br/>
<br/>

# 1. 데이터 불러오기
* 데이터를 가져와서 과정을 준비합시다.
- 인코딩 방식은 'euc-kr' 을 활용하세요.
- 데이터 출처 : 한국데이터산업진흥원 빅데이터분석기사 실기 공개 예시 문항

- 독립 변수 데이터셋 : ./data/X.csv
- 종속 변수 데이터셋 : ./data/y.csv


데이터 파일을 불러옵니다. 보통 CSV 파일을 pandas로 읽어옵니다.

In [125]:
import os
# 노트북 파일이 있는 폴더로 이동 (예시)
os.chdir(r'C:\gitmain\hipython_rep')

# 변경 후 확인
print("변경 후:", os.getcwd())

변경 후: C:\gitmain\hipython_rep


In [126]:
X = pd.read_csv('./data1/X.csv', encoding='euc-kr')
y = pd.read_csv('./data1/y.csv', encoding='euc-kr')

<br/>

---

<br/>
<br/>

# 2. 데이터 탐색하기
* 데이터를 이해할 수 있도록 탐색과정을 수행해봅시다.


데이터의 상위 몇 개 행을 출력하여 전체 구조를 미리 확인합니다.


데이터의 요약 정보나 통계 정보를 출력해 변수들의 유형과 분포를 확인합니다.


데이터의 요약 정보나 통계 정보를 출력해 변수들의 유형과 분포를 확인합니다.

In [127]:

X
y
y.describe()
X.describe()


Unnamed: 0,cust_id,총구매액,최대구매액,환불금액,내점일수,내점당구매건수,주말방문비율,구매주기
count,3500.0,3500.0,3500.0,1205.0,3500.0,3500.0,3500.0,3500.0
mean,1749.5,91919250.0,19664240.0,24078220.0,19.253714,2.834963,0.307246,20.958286
std,1010.507298,163506500.0,31992350.0,47464530.0,27.174942,1.912368,0.289752,24.748682
min,0.0,-52421520.0,-2992000.0,5600.0,1.0,1.0,0.0,0.0
25%,874.75,4747050.0,2875000.0,2259000.0,2.0,1.666667,0.027291,4.0
50%,1749.5,28222700.0,9837000.0,7392000.0,8.0,2.333333,0.25641,13.0
75%,2624.25,106507900.0,22962500.0,24120000.0,25.0,3.375,0.44898,28.0
max,3499.0,2323180000.0,706629000.0,563753000.0,285.0,22.083333,1.0,166.0


<br/>

---

<br/>
<br/>

# 3. 데이터 전처리
* 전처리 과정을 통해서 머신러닝에 사용할 수 있는 형태의 데이터 준비


필요한 라이브러리를 불러옵니다.
- 인코딩 : LabelEncoder
- 데이터 표준화 : StandardScaler

* 단순히 1부터의 숫자를 부여한 'cust_id'를 수치형 변수로 받아들이면, 결과가 왜곡될 수 있으니 컬럼을 제거합니다.

In [128]:
from sklearn.preprocessing import LabelEncoder
y = y.drop(columns=['cust_id'])
X = X.drop(columns=['cust_id'])
X.isnull().sum()
X = X.fillna(0)

In [111]:
X = X.drop(columns=['환불금액'])

In [112]:
X.isnull().sum()
X.columns

Index(['총구매액', '최대구매액', '주구매상품', '주구매지점', '내점일수', '내점당구매건수', '주말방문비율', '구매주기'], dtype='object')

- 데이터에 결측치가 있는지 확인해보세요


- 결측치에 0으로 채워 넣어 모델 학습에 지장이 없도록 합니다.


문자형 범주 데이터를 숫자로 바꾸기 위한 인코딩을 수행합니다.

각 데이터에 표준화를 적용하여 데이터의 스케일(크기 차이)을 맞춰줍니다.
- 평균을 0, 표준편차를 1로 맞춰서 → 데이터가 정규 분포 형태로 변환되도록 하세요

In [113]:
from sklearn.preprocessing import StandardScaler


scaler = StandardScaler()

X = pd.get_dummies(X, drop_first=True)

X_numeric = X.select_dtypes(include=[np.number])
scaled_data = scaler.fit_transform(X_numeric)


# 숫자형 데이터만 골라서 표준화

scaled_data

array([[-0.14458009, -0.26260786, -0.00933767,  0.55424743,  0.75862274,
        -0.15996211],
       [-0.54918957, -0.54796686, -0.63500336, -0.69816782, -1.06053002,
        -0.80655356],
       [-0.5426996 , -0.56350404, -0.63500336, -0.43667453, -1.06053002,
        -0.80655356],
       ...,
       [-0.56179637, -0.61239772, -0.67180723, -0.95966112, -1.06053002,
        -0.84696552],
       [-0.55078606, -0.58348042, -0.63500336, -0.95966112, -1.06053002,
         0.72910114],
       [ 1.04709431,  0.46792117,  0.68993576, -0.21646965,  0.55277658,
        -0.5236698 ]], shape=(3500, 6))

<br/>

---

<br/>
<br/>

# 5-1. 모델링 - LogisticRegression

* 본격적으로 모델을 선언하고 학습시킵니다.


필요한 라이브러리를 불러옵니다.

모델을 선언하여 객체화시킵니다.


모델을 학습 데이터에 맞춰 학습시킵니다.

In [114]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.metrics import precision_score, recall_score
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [129]:
def get_clf_eval(y_test, pred):
    confusion = confusion_matrix(y_test, pred)
    accuracy = accuracy_score(y_test, pred)
    precision = precision_score(y_test, pred)
    recall = recall_score(y_test, pred)

    print(confusion)
    print('*'*20)
    print(accuracy, precision, recall)

<br/>

---

<br/>
<br/>

# 6-1. 예측 성능 확인해보기 - LogisticRegression

- 학습된 모델로 테스트 데이터에 대한 예측을 수행합니다.

In [130]:
lr_clf = LogisticRegression(max_iter=10000)
lr_clf.fit(X_train, y_train)
pred = lr_clf.predict(X_test)

#정확도, 정밀도, 재현율
get_clf_eval(y_test, pred)
print(classification_report(y_test, pred))

[[427   0]
 [273   0]]
********************
0.61 0.0 0.0
              precision    recall  f1-score   support

           0       0.61      1.00      0.76       427
           1       0.00      0.00      0.00       273

    accuracy                           0.61       700
   macro avg       0.30      0.50      0.38       700
weighted avg       0.37      0.61      0.46       700



- 학습시킨 모델의 성능을 알아봅니다
- 각 평가지표로 모델의 성능을 수치화하여 확인합니다.
- 필요한 라이브러리를 import 하고 성능을 확인해보세요 (정확도, 정밀도, 재현율, f1, confusion_matrix)


<br/>

---

<br/>
<br/>

# 5-2. 모델링 - DecisionTreeClassifier

* 본격적으로 모델을 선언하고 학습시킵니다.


필요한 라이브러리를 불러옵니다.

모델을 선언하여 객체화시킵니다.

모델을 학습 데이터에 맞춰 학습시킵니다.

In [117]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix
# Train/Test 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 모델 선언 및 학습
tree_clf = DecisionTreeClassifier(max_depth=5, random_state=42)  # max_depth는 조절 가능!
tree_clf.fit(X_train, y_train)



<br/>
<br/>

# 6-2. 예측 성능 확인해보기 - DecisionTreeClassifier

- 학습된 모델로 테스트 데이터에 대한 예측을 수행합니다.

In [131]:

#) 예측 및 평가
pred = tree_clf.predict(X_test)
print("정확도:", accuracy_score(y_test, pred))
print("혼동행렬:\n", confusion_matrix(y_test, pred))
print(classification_report(y_test, pred))


정확도: 0.6314285714285715
혼동행렬:
 [[349  78]
 [180  93]]
              precision    recall  f1-score   support

           0       0.66      0.82      0.73       427
           1       0.54      0.34      0.42       273

    accuracy                           0.63       700
   macro avg       0.60      0.58      0.57       700
weighted avg       0.61      0.63      0.61       700



# 6-2. 예측 성능 확인해보기 - DecisionTreeClassifier
 - 학습된 모델로 테스트 데이터에 대한 예측을 수행합니다.
  - 학습시킨 모델의 성능을 알아봅니다
  - 각 평가지표로 모델의 성능을 수치화하여 확인합니다.
  - 필요한 라이브러리를 import 하고 성능을 확인해보세요 (정확도, 정밀도, 재현율, f1, confusion_matrix)

In [132]:
#) 예측 및 평가
pred = tree_clf.predict(X_test)
print("정확도:", accuracy_score(y_test, pred))
print("혼동행렬:\n", confusion_matrix(y_test, pred))
print(classification_report(y_test, pred))

정확도: 0.6314285714285715
혼동행렬:
 [[349  78]
 [180  93]]
              precision    recall  f1-score   support

           0       0.66      0.82      0.73       427
           1       0.54      0.34      0.42       273

    accuracy                           0.63       700
   macro avg       0.60      0.58      0.57       700
weighted avg       0.61      0.63      0.61       700




<br/>

---

<br/>
<br/>

# 5-3. 모델링 - RandomForestClassifier

* 본격적으로 모델을 선언하고 학습시킵니다.


In [133]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix

rf_clf = RandomForestClassifier(random_state=100, max_depth=100)
rf_clf.fit(X_train, y_train)
rf_pred = rf_clf.predict(X_test)
accuracy_score(y_test, rf_pred)
print("정확도:", accuracy_score(y_test, rf_pred))
print("혼동 행렬:\n", confusion_matrix(y_test, rf_pred))
print(classification_report(y_test, pred))

정확도: 0.6328571428571429
혼동 행렬:
 [[347  80]
 [177  96]]
              precision    recall  f1-score   support

           0       0.66      0.82      0.73       427
           1       0.54      0.34      0.42       273

    accuracy                           0.63       700
   macro avg       0.60      0.58      0.57       700
weighted avg       0.61      0.63      0.61       700




필요한 라이브러리를 불러옵니다.

모델을 선언하여 객체화시킵니다.

모델을 학습 데이터에 맞춰 학습시킵니다.



<br/>
<br/>

# 6-3. 예측 성능 확인해보기 - RandomForestClassifier

- 학습된 모델로 테스트 데이터에 대한 예측을 수행합니다.

- 학습시킨 모델의 성능을 알아봅니다
- 각 평가지표로 모델의 성능을 수치화하여 확인합니다.
- 필요한 라이브러리를 import 하고 성능을 확인해보세요 (정확도, 정밀도, 재현율, f1, confusion_matrix)

In [134]:
rf_pred = rf_clf.predict(X_test)
accuracy_score(y_test, rf_pred)
print("정확도:", accuracy_score(y_test, rf_pred))
print("혼동 행렬:\n", confusion_matrix(y_test, rf_pred))
print(classification_report(y_test, pred))

정확도: 0.6328571428571429
혼동 행렬:
 [[347  80]
 [177  96]]
              precision    recall  f1-score   support

           0       0.66      0.82      0.73       427
           1       0.54      0.34      0.42       273

    accuracy                           0.63       700
   macro avg       0.60      0.58      0.57       700
weighted avg       0.61      0.63      0.61       700




<br/>

---

<br/>
<br/>

# 5-4. 모델링 - XGBoost

* 본격적으로 모델을 선언하고 학습시킵니다.



필요한 라이브러리를 불러옵니다.

모델을 선언하여 객체화시킵니다.

모델을 학습 데이터에 맞춰 학습시킵니다.

In [135]:
import xgboost
from xgboost import XGBClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix

print(xgboost.__version__)


# Train/Test 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# XGBClassifier 모델 정의 및 학습
xgb_clf = XGBClassifier(n_estimators=100, learning_rate=0.1, max_depth=5, random_state=42)
xgb_clf.fit(X_train, y_train)


1.6.2


ValueError: DataFrame.dtypes for data must be int, float, bool or category.  When
categorical type is supplied, DMatrix parameter `enable_categorical` must
be set to `True`. Invalid columns:주구매상품, 주구매지점



<br/>
<br/>

# 6-4. 예측 성능 확인해보기 - XGBoost

- 학습된 모델로 테스트 데이터에 대한 예측을 수행합니다.

- 학습시킨 모델의 성능을 알아봅니다
- 각 평가지표로 모델의 성능을 수치화하여 확인합니다.
- 필요한 라이브러리를 import 하고 성능을 확인해보세요 (정확도, 정밀도, 재현율, f1, confusion_matrix)

In [123]:
# 예측 및 평가
pred = xgb_clf.predict(X_test)
print("정확도:", accuracy_score(y_test, pred))
print("혼동행렬:\n", confusion_matrix(y_test, pred))
print(classification_report(y_test, pred))

정확도: 0.6485714285714286
혼동행렬:
 [[346  81]
 [165 108]]
              precision    recall  f1-score   support

           0       0.68      0.81      0.74       427
           1       0.57      0.40      0.47       273

    accuracy                           0.65       700
   macro avg       0.62      0.60      0.60       700
weighted avg       0.64      0.65      0.63       700



<br/>

---


<br/>

## 7.  위 4가지 모델의 학습 & 예측 & 평가 결과를 확인하고 최고 성능을 내는 모델을 찾아봅시다!

- 어떤 모델이 가장 성능이 좋은가요 ?
-  
Logistic
0,61


DecisionTreeClassifier
0.625


ramdomForest
0.645

XGXboost
0.641로  XGBOOST가 성능이 가장 좋다.