# 🚀 머신러닝 실습 : 고객 구매 데이터로 성별 예측 모델링 (분류 문제)

* 주어진 데이터는 백화점 고객의 1년 간 구매 데이터입니다.
* 고객 3,500명에 대한 학습용 데이터(y.csv, X.csv)를 이용하여 성별예측 모형을 만들어보세요.
* 모델의 성능은 자유롭게 측정해봅니다!

## [실습 프로세스]
1. 데이터 불러오기  
2. 데이터 탐색
3. 데이터 전처리  
4. 학습/테스트 데이터 분리  
5. 모델 선택 및 학습  
6. 예측 및 평가  


<br/>

---

<br/>
<br/>

# 0. 라이브러리 불러오기

* 라이브러리를 가져와서 과정을 준비합니다

In [104]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings(action='ignore')

<br/>

---

<br/>
<br/>

# 1. 데이터 불러오기
* 데이터를 가져와서 과정을 준비합시다.
- 인코딩 방식은 'euc-kr' 을 활용하세요.
- 데이터 출처 : 한국데이터산업진흥원 빅데이터분석기사 실기 공개 예시 문항

- 독립 변수 데이터셋 : ./data/X.csv
- 종속 변수 데이터셋 : ./data/y.csv


데이터 파일을 불러옵니다. 보통 CSV 파일을 pandas로 읽어옵니다.

In [105]:
import os
# 노트북 파일이 있는 폴더로 이동 (예시)
os.chdir(r'C:\githome\hipython_rep')

# 변경 후 확인
print("변경 후:", os.getcwd())

변경 후: c:\githome\hipython_rep


In [106]:
X = pd.read_csv('./data1/X.csv', encoding='euc-kr')
y = pd.read_csv('./data1/y.csv', encoding='euc-kr')
X, y

(      cust_id       총구매액     최대구매액       환불금액   주구매상품 주구매지점  내점일수   내점당구매건수  \
 0           0   68282840  11264000  6860000.0      기타   강남점    19  3.894737   
 1           1    2136000   2136000   300000.0     스포츠   잠실점     2  1.500000   
 2           2    3197000   1639000        NaN  남성 캐주얼   관악점     2  2.000000   
 3           3   16077620   4935000        NaN      기타   광주점    18  2.444444   
 4           4   29050000  24000000        NaN      보석  본  점     2  1.500000   
 ...       ...        ...       ...        ...     ...   ...   ...       ...   
 3495     3495    3175200   3042900        NaN      골프  본  점     1  2.000000   
 3496     3496   29628600   7200000  6049600.0    시티웨어  부산본점     8  1.625000   
 3497     3497      75000     75000        NaN    주방용품   창원점     1  1.000000   
 3498     3498    1875000   1000000        NaN     화장품  본  점     2  1.000000   
 3499     3499  263101550  34632000  5973000.0      기타  본  점    38  2.421053   
 
         주말방문비율  구매주기  
 0     0.52702

<br/>

---

<br/>
<br/>

# 2. 데이터 탐색하기
* 데이터를 이해할 수 있도록 탐색과정을 수행해봅시다.


데이터의 상위 몇 개 행을 출력하여 전체 구조를 미리 확인합니다.


데이터의 요약 정보나 통계 정보를 출력해 변수들의 유형과 분포를 확인합니다.


데이터의 요약 정보나 통계 정보를 출력해 변수들의 유형과 분포를 확인합니다.

In [107]:
X.info(), y.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3500 entries, 0 to 3499
Data columns (total 10 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   cust_id  3500 non-null   int64  
 1   총구매액     3500 non-null   int64  
 2   최대구매액    3500 non-null   int64  
 3   환불금액     1205 non-null   float64
 4   주구매상품    3500 non-null   object 
 5   주구매지점    3500 non-null   object 
 6   내점일수     3500 non-null   int64  
 7   내점당구매건수  3500 non-null   float64
 8   주말방문비율   3500 non-null   float64
 9   구매주기     3500 non-null   int64  
dtypes: float64(3), int64(5), object(2)
memory usage: 273.6+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3500 entries, 0 to 3499
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype
---  ------   --------------  -----
 0   cust_id  3500 non-null   int64
 1   gender   3500 non-null   int64
dtypes: int64(2)
memory usage: 54.8 KB


(None, None)

In [108]:
X.head(), y.head()

(   cust_id      총구매액     최대구매액       환불금액   주구매상품 주구매지점  내점일수   내점당구매건수  \
 0        0  68282840  11264000  6860000.0      기타   강남점    19  3.894737   
 1        1   2136000   2136000   300000.0     스포츠   잠실점     2  1.500000   
 2        2   3197000   1639000        NaN  남성 캐주얼   관악점     2  2.000000   
 3        3  16077620   4935000        NaN      기타   광주점    18  2.444444   
 4        4  29050000  24000000        NaN      보석  본  점     2  1.500000   
 
      주말방문비율  구매주기  
 0  0.527027    17  
 1  0.000000     1  
 2  0.000000     1  
 3  0.318182    16  
 4  0.000000    85  ,
    cust_id  gender
 0        0       0
 1        1       0
 2        2       1
 3        3       1
 4        4       0)

<br/>

---

<br/>
<br/>

# 3. 데이터 전처리
* 전처리 과정을 통해서 머신러닝에 사용할 수 있는 형태의 데이터 준비


필요한 라이브러리를 불러옵니다.
- 인코딩 : LabelEncoder
- 데이터 표준화 : StandardScaler

In [None]:
from sklearn.preprocessing import LabelEncoder, StandardScaler

* 단순히 1부터의 숫자를 부여한 'cust_id'를 수치형 변수로 받아들이면, 결과가 왜곡될 수 있으니 컬럼을 제거합니다.

In [None]:
X2 = X.drop('cust_id', axis=1)
y2 = y.drop('cust_id', axis=1)
X2, y2

(           총구매액     최대구매액       환불금액   주구매상품 주구매지점  내점일수   내점당구매건수    주말방문비율  \
 0      68282840  11264000  6860000.0      기타   강남점    19  3.894737  0.527027   
 1       2136000   2136000   300000.0     스포츠   잠실점     2  1.500000  0.000000   
 2       3197000   1639000        NaN  남성 캐주얼   관악점     2  2.000000  0.000000   
 3      16077620   4935000        NaN      기타   광주점    18  2.444444  0.318182   
 4      29050000  24000000        NaN      보석  본  점     2  1.500000  0.000000   
 ...         ...       ...        ...     ...   ...   ...       ...       ...   
 3495    3175200   3042900        NaN      골프  본  점     1  2.000000  1.000000   
 3496   29628600   7200000  6049600.0    시티웨어  부산본점     8  1.625000  0.461538   
 3497      75000     75000        NaN    주방용품   창원점     1  1.000000  0.000000   
 3498    1875000   1000000        NaN     화장품  본  점     2  1.000000  0.000000   
 3499  263101550  34632000  5973000.0      기타  본  점    38  2.421053  0.467391   
 
       구매주기  
 0       17 

- 데이터에 결측치가 있는지 확인해보세요


In [None]:
X2.isnull().values.any(), y.isnull().values.any()

(np.True_, np.False_)

- 결측치에 0으로 채워 넣어 모델 학습에 지장이 없도록 합니다.

In [None]:
X2 = X2.fillna(0)
X2

Unnamed: 0,총구매액,최대구매액,환불금액,주구매상품,주구매지점,내점일수,내점당구매건수,주말방문비율,구매주기
0,68282840,11264000,6860000.0,기타,강남점,19,3.894737,0.527027,17
1,2136000,2136000,300000.0,스포츠,잠실점,2,1.500000,0.000000,1
2,3197000,1639000,0.0,남성 캐주얼,관악점,2,2.000000,0.000000,1
3,16077620,4935000,0.0,기타,광주점,18,2.444444,0.318182,16
4,29050000,24000000,0.0,보석,본 점,2,1.500000,0.000000,85
...,...,...,...,...,...,...,...,...,...
3495,3175200,3042900,0.0,골프,본 점,1,2.000000,1.000000,0
3496,29628600,7200000,6049600.0,시티웨어,부산본점,8,1.625000,0.461538,40
3497,75000,75000,0.0,주방용품,창원점,1,1.000000,0.000000,0
3498,1875000,1000000,0.0,화장품,본 점,2,1.000000,0.000000,39



문자형 범주 데이터를 숫자로 바꾸기 위한 인코딩을 수행합니다.

In [None]:
for col in X2.select_dtypes(include='object').columns:
    le = LabelEncoder()
    X2[col] = le.fit_transform(X2[col])

cust_id    1.0
gender     NaN
구매주기       NaN
내점당구매건수    NaN
내점일수       NaN
주구매상품      NaN
주구매지점      NaN
주말방문비율     NaN
총구매액       NaN
최대구매액      NaN
환불금액       NaN
dtype: float64


In [None]:
# object type 없는 거 확인 완료 
X2.dtypes

총구매액         int64
최대구매액        int64
환불금액       float64
주구매상품        int64
주구매지점        int64
내점일수         int64
내점당구매건수    float64
주말방문비율     float64
구매주기         int64
dtype: object

각 데이터에 표준화를 적용하여 데이터의 스케일(크기 차이)을 맞춰줍니다.
- 평균을 0, 표준편차를 1로 맞춰서 → 데이터가 정규 분포 형태로 변환되도록 하세요

In [None]:
scaler = StandardScaler()
X_scaled =  pd.DataFrame(scaler.fit_transform(X2), columns=X2.columns)

<br/>

---

<br/>
<br/>

# 5-1. 모델링 - LogisticRegression

* 본격적으로 모델을 선언하고 학습시킵니다.


필요한 라이브러리를 불러옵니다.

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_scaled, y2, test_size=0.2, random_state=42)


모델을 선언하여 객체화시킵니다.

In [None]:
model = LogisticRegression()



모델을 학습 데이터에 맞춰 학습시킵니다.

In [None]:
model.fit(X_train, y_train)


<br/>

---

<br/>
<br/>

# 6-1. 예측 성능 확인해보기 - LogisticRegression

- 학습된 모델로 테스트 데이터에 대한 예측을 수행합니다.

- 학습시킨 모델의 성능을 알아봅니다
- 각 평가지표로 모델의 성능을 수치화하여 확인합니다.
- 필요한 라이브러리를 import 하고 성능을 확인해보세요 (정확도, 정밀도, 재현율, f1, confusion_matrix)

In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix

In [None]:
y_pred = model.predict(X_test)

acc = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
conf_mat = confusion_matrix(y_test, y_pred)

print("정확도 (Accuracy):", acc)
print("정밀도 (Precision):", precision)
print("재현율 (Recall):", recall)
print("F1-score:", f1)
print("Confusion Matrix:\n", conf_mat)

정확도 (Accuracy): 0.6171428571428571
정밀도 (Precision): 0.5471698113207547
재현율 (Recall): 0.10622710622710622
F1-score: 0.17791411042944785
Confusion Matrix:
 [[403  24]
 [244  29]]



<br/>

---

<br/>
<br/>

# 5-2. 모델링 - DecisionTreeClassifier

* 본격적으로 모델을 선언하고 학습시킵니다.


필요한 라이브러리를 불러옵니다.

In [None]:
from sklearn.tree import DecisionTreeClassifier

모델을 선언하여 객체화시킵니다.

In [None]:
dt_model = DecisionTreeClassifier(random_state=42)

모델을 학습 데이터에 맞춰 학습시킵니다.

In [None]:
dt_model.fit(X_train, y_train)



<br/>
<br/>

# 6-2. 예측 성능 확인해보기 - DecisionTreeClassifier

- 학습된 모델로 테스트 데이터에 대한 예측을 수행합니다.

- 학습시킨 모델의 성능을 알아봅니다
- 각 평가지표로 모델의 성능을 수치화하여 확인합니다.
- 필요한 라이브러리를 import 하고 성능을 확인해보세요 (정확도, 정밀도, 재현율, f1, confusion_matrix)

In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix


In [None]:
# 테스트 데이터 또는 학습 데이터로 예측
y_pred_dt = dt_model.predict(X_test)

acc = accuracy_score(y_test, y_pred_dt)
precision = precision_score(y_test, y_pred_dt)
recall = recall_score(y_test, y_pred_dt)
f1 = f1_score(y_test, y_pred_dt)
conf_mat = confusion_matrix(y_test, y_pred_dt)

print("정확도 (Accuracy):", acc)
print("정밀도 (Precision):", precision)
print("재현율 (Recall):", recall)
print("F1-score:", f1)
print("Confusion Matrix:\n", conf_mat)

정확도 (Accuracy): 0.56
정밀도 (Precision): 0.4339622641509434
재현율 (Recall): 0.42124542124542125
F1-score: 0.4275092936802974
Confusion Matrix:
 [[277 150]
 [158 115]]



<br/>

---

<br/>
<br/>

# 5-3. 모델링 - RandomForestClassifier

* 본격적으로 모델을 선언하고 학습시킵니다.



필요한 라이브러리를 불러옵니다.

모델을 선언하여 객체화시킵니다.

모델을 학습 데이터에 맞춰 학습시킵니다.

In [None]:
from sklearn.ensemble import RandomForestClassifier

rf_model = RandomForestClassifier(random_state=42)
rf_model.fit(X_train, y_train)




<br/>
<br/>

# 6-3. 예측 성능 확인해보기 - RandomForestClassifier

- 학습된 모델로 테스트 데이터에 대한 예측을 수행합니다.

- 학습시킨 모델의 성능을 알아봅니다
- 각 평가지표로 모델의 성능을 수치화하여 확인합니다.
- 필요한 라이브러리를 import 하고 성능을 확인해보세요 (정확도, 정밀도, 재현율, f1, confusion_matrix)

In [None]:
y_pred_rf = rf_model.predict(X_test)
acc = accuracy_score(y_test, y_pred_rf)
precision = precision_score(y_test, y_pred_rf)
recall = recall_score(y_test, y_pred_rf)
f1 = f1_score(y_test, y_pred_rf)
conf_mat = confusion_matrix(y_test, y_pred_rf)

print("정확도 (Accuracy):", acc)
print("정밀도 (Precision):", precision)
print("재현율 (Recall):", recall)
print("F1-score:", f1)
print("Confusion Matrix:\n", conf_mat)

정확도 (Accuracy): 0.6357142857142857
정밀도 (Precision): 0.5511363636363636
재현율 (Recall): 0.3553113553113553
F1-score: 0.43207126948775054
Confusion Matrix:
 [[348  79]
 [176  97]]



<br/>

---

<br/>
<br/>

# 5-4. 모델링 - XGBoost

* 본격적으로 모델을 선언하고 학습시킵니다.



필요한 라이브러리를 불러옵니다.

모델을 선언하여 객체화시킵니다.

모델을 학습 데이터에 맞춰 학습시킵니다.

In [None]:
from xgboost import XGBClassifier


In [None]:
xgb_model = XGBClassifier(use_label_encoder=False, eval_metric='logloss', random_state=42)
xgb_model.fit(X_train, y_train)




<br/>
<br/>

# 6-4. 예측 성능 확인해보기 - XGBoost

- 학습된 모델로 테스트 데이터에 대한 예측을 수행합니다.

- 학습시킨 모델의 성능을 알아봅니다
- 각 평가지표로 모델의 성능을 수치화하여 확인합니다.
- 필요한 라이브러리를 import 하고 성능을 확인해보세요 (정확도, 정밀도, 재현율, f1, confusion_matrix)

In [None]:
y_pred_xgb = xgb_model.predict(X_test)
acc = accuracy_score(y_test, y_pred_xgb)
precision = precision_score(y_test, y_pred_xgb)
recall = recall_score(y_test, y_pred_xgb)
f1 = f1_score(y_test, y_pred_xgb)
conf_mat = confusion_matrix(y_test, y_pred_xgb)

print("정확도 (Accuracy):", acc)
print("정밀도 (Precision):", precision)
print("재현율 (Recall):", recall)
print("F1-score:", f1)
print("Confusion Matrix:\n", conf_mat)

정확도 (Accuracy): 0.61
정밀도 (Precision): 0.5
재현율 (Recall): 0.4139194139194139
F1-score: 0.4529058116232465
Confusion Matrix:
 [[314 113]
 [160 113]]


<br/>

---


<br/>

## 7.  위 4가지 모델의 학습 & 예측 & 평가 결과를 확인하고 최고 성능을 내는 모델을 찾아봅시다!

- 어떤 모델이 가장 성능이 좋은가요 ?

| 모델                         | 정확도 (Accuracy) | 정밀도 (Precision) | 재현율 (Recall) | F1-score   | Confusion Matrix            |
| -------------------------- | -------------- | --------------- | ------------ | ---------- | --------------------------- |
| **LogisticRegression**     | 0.6171         | 0.5472          | 0.1062       | 0.1779     | \[\[403, 24], \[244, 29]]   |
| **DecisionTreeClassifier** | 0.5600         | 0.4340          | 0.4212       | 0.4275     | \[\[277, 150], \[158, 115]] |
| **RandomForestClassifier** | **0.6357**     | **0.5511**      | 0.3553       | 0.4321     | \[\[348, 79], \[176, 97]]   |
| **XGBoost**                | 0.6100         | 0.5000          | **0.4139**   | **0.4529** | \[\[314, 113], \[160, 113]] |



- XGBoost는 F1-score(0.4529)와 Recall(0.4139)이 가장 높아 정밀도와 재현율의 균형이 가장 우수   
- 반면, RandomForest는 정확도는 높지만 F1-score는 낮고, Logistic은 Recall이 매우 낮아 불균형   
- 따라서 XGBoost가 성별 분류에 가장 적합한 모델   