# 🚀 고객 구매 데이터로 성별 예측 모델링 (분류 문제)

* 주어진 데이터는 백화점 고객의 1년 간 구매 데이터입니다.
* 고객 3,500명에 대한 학습용 데이터(y.csv, X.csv)를 이용하여 성별예측 모형을 만들었습니다

## [실습 프로세스]
1. 데이터 불러오기  
2. 데이터 탐색
3. 데이터 전처리  
4. 특성공학
5. 학습/테스트 데이터 분리  
6. 모델 선택 및 학습  
7. 예측 및 평가  


<br/>

---

<br/>
<br/>

# 라이브러리 불러오기

* 라이브러리를 가져와서 과정을 준비합니다

In [67]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

#전처리 인코딩 및 스케일링
from sklearn.preprocessing import StandardScaler , LabelEncoder #스케일링, 인코딩 


# 데이터 분리
from sklearn.model_selection import train_test_split

# 모델
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier

#최적의 모델 찾기
from sklearn.model_selection import GridSearchCV

#성능평가
from sklearn.metrics import accuracy_score

# 검증 
from sklearn.metrics import confusion_matrix
from sklearn.metrics import precision_score, recall_score

def get_clf_eval(Y_test, pred):
    confusion = confusion_matrix(Y_test, pred)
    accuracy = accuracy_score(Y_test, pred) # 전체 샘플 중에서 예측을 맞춘 비율
    precision = precision_score(Y_test, pred) # 모델이 1이라고 예측한 것들 중 실제로 1인 비율
    recall = recall_score(Y_test, pred) #실제로 1인 것들 중에 모델이 1이라고 맞춘 비율

    print(confusion)
    print('',20)
    print(accuracy, precision, recall)


import os

import warnings
warnings.filterwarnings(action='ignore')



# 최적 모델 도출 (ing)

In [68]:
X = X1[['내점일수','내점당구매건수','주구매상품encoded'
        ,'방문당평균구매액','환불비율','잠재고객충성도']]
Y = y[['gender']]

X_train, X_test, Y_train, Y_test = train_test_split(X, Y,                 # 데이터프레임 기준
                                                    test_size=0.2,        # 테스트셋 비율 (20%)
                                                    random_state=3        # 재현 가능성 유지
                                                    )

lomodel = LogisticRegression(max_iter=3000)
lomodel.fit(X_train, Y_train)
pred = lomodel.predict(X_test)
acc = accuracy_score(Y_test, pred)
print(f'acc = {acc}')

acc = 0.6642857142857143


In [69]:

np.isinf(X_train).sum().sum(), np.isnan(X_train).sum().sum() # 특성공학 무한대 값 없애기

(np.int64(0), np.int64(0))

In [70]:
Sc_x = StandardScaler()
Sc_x.fit(X_train)
x_train_sc = Sc_x.transform(X_train)
x_test_sc = Sc_x.transform(X_test)

In [71]:
# 랜덤포레스트 모델 생성 및 학습 평가 
rd_model = RandomForestClassifier(random_state=18, max_depth=12)
rd_model.fit(x_train_sc, Y_train)
rd_pred = rd_model.predict(x_test_sc)
rd_acc = accuracy_score(Y_test,rd_pred)
rd_acc

0.6385714285714286

In [72]:
# 최적의 모델 찾기 
params = {'max_depth':[9,10,11], 'min_samples_split':[4,7,8], 'n_estimators':[300]}
grid_tree = GridSearchCV(rd_model, param_grid=params, cv=3, refit=True)
grid_tree.fit(x_train_sc, Y_train)

In [73]:
# 최적의 모델 값
grid_tree.best_params_

{'max_depth': 11, 'min_samples_split': 7, 'n_estimators': 300}

In [74]:
# 최적의 모델을 통해 나온 값
best_rf = grid_tree.best_estimator_
rd_pred_pa = best_rf.predict(x_test_sc)
accuracy_score(Y_test,rd_pred_pa)

0.6542857142857142

<br/>

---

<br/>
<br/>

# 1. 데이터 불러오기
* 데이터를 가져와서 과정을 준비합시다.
- 인코딩 방식은 'euc-kr' 을 활용하세요.
- 데이터 출처 : 한국데이터산업진흥원 빅데이터분석기사 실기 공개 예시 문항

- 독립 변수 데이터셋 : ./data/X.csv
- 종속 변수 데이터셋 : ./data/y.csv


데이터 파일을 불러옵니다. 보통 CSV 파일을 pandas로 읽어옵니다.

In [75]:
import os
# 노트북 파일이 있는 폴더로 이동 (예시)
os.chdir(r'C:\githome\hipython_rep')

# 변경 후 확인
print("변경 후:", os.getcwd())

변경 후: C:\githome\hipython_rep


In [76]:
X_orgin = pd.read_csv('./data1/X.csv', encoding='euc-kr')
y = pd.read_csv('./data1/y.csv', encoding='euc-kr')

FileNotFoundError: [Errno 2] No such file or directory: './data1/X.csv'

<br/>

---

<br/>
<br/>

# 2. 데이터 탐색하기
* 데이터를 이해할 수 있도록 탐색과정을 수행해봅시다.


데이터의 상위 몇 개 행을 출력하여 전체 구조를 미리 확인합니다.


데이터의 요약 정보나 통계 정보를 출력해 변수들의 유형과 분포를 확인합니다.


데이터의 요약 정보나 통계 정보를 출력해 변수들의 유형과 분포를 확인합니다.

In [None]:
X.head() # 고객 ID/ 총구매액, 최대구매액, 환불금액(float64), 주구매상품(object) ,주구매지점(object), 내점일수, 내점당 구매건수(float64), 주말방문비율(float64), 구매주기
y.head() # 고객 ID / 성별 
X.info() # 총 인덱스 3500개 환불금액만 결측치 존재 
y.info() # 총 인덱스 3500개 결측치 없음 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3500 entries, 0 to 3499
Data columns (total 10 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   cust_id  3500 non-null   int64  
 1   총구매액     3500 non-null   int64  
 2   최대구매액    3500 non-null   int64  
 3   환불금액     1205 non-null   float64
 4   주구매상품    3500 non-null   object 
 5   주구매지점    3500 non-null   object 
 6   내점일수     3500 non-null   int64  
 7   내점당구매건수  3500 non-null   float64
 8   주말방문비율   3500 non-null   float64
 9   구매주기     3500 non-null   int64  
dtypes: float64(3), int64(5), object(2)
memory usage: 273.6+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3500 entries, 0 to 3499
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype
---  ------   --------------  -----
 0   cust_id  3500 non-null   int64
 1   gender   3500 non-null   int64
dtypes: int64(2)
memory usage: 54.8 KB


<br/>

---

<br/>
<br/>

# 3. 데이터 전처리
* 전처리 과정을 통해서 머신러닝에 사용할 수 있는 형태의 데이터 준비


필요한 라이브러리를 불러옵니다.
- 인코딩 : LabelEncoder
- 데이터 표준화 : StandardScaler

* 단순히 1부터의 숫자를 부여한 'cust_id'를 수치형 변수로 받아들이면, 결과가 왜곡될 수 있으니 컬럼을 제거합니다.

In [None]:
from sklearn.preprocessing import StandardScaler , LabelEncoder
X1= X_orgin.drop('cust_id', axis=1,inplace=False)




- 데이터에 결측치가 있는지 확인해보세요


- 결측치에 0으로 채워 넣어 모델 학습에 지장이 없도록 합니다.

In [None]:
X1['환불금액'].fillna(0, inplace=True) # 결측치값 채우기


문자형 범주 데이터를 숫자로 바꾸기 위한 인코딩을 수행합니다.

각 데이터에 표준화를 적용하여 데이터의 스케일(크기 차이)을 맞춰줍니다.
- 평균을 0, 표준편차를 1로 맞춰서 → 데이터가 정규 분포 형태로 변환되도록 하세요

In [None]:
le = LabelEncoder() # 인코더 객체 생성
li = X1.select_dtypes(include='object').columns.tolist()
li



['주구매상품', '주구매지점']

In [None]:
# 인코더 적용
for i in li:
    X1[i+'encoded'] = le.fit_transform(X1[i])
print(X1)

           총구매액     최대구매액       환불금액   주구매상품 주구매지점  내점일수   내점당구매건수    주말방문비율  \
0      68282840  11264000  6860000.0      기타   강남점    19  3.894737  0.527027   
1       2136000   2136000   300000.0     스포츠   잠실점     2  1.500000  0.000000   
2       3197000   1639000        0.0  남성 캐주얼   관악점     2  2.000000  0.000000   
3      16077620   4935000        0.0      기타   광주점    18  2.444444  0.318182   
4      29050000  24000000        0.0      보석  본  점     2  1.500000  0.000000   
...         ...       ...        ...     ...   ...   ...       ...       ...   
3495    3175200   3042900        0.0      골프  본  점     1  2.000000  1.000000   
3496   29628600   7200000  6049600.0    시티웨어  부산본점     8  1.625000  0.461538   
3497      75000     75000        0.0    주방용품   창원점     1  1.000000  0.000000   
3498    1875000   1000000        0.0     화장품  본  점     2  1.000000  0.000000   
3499  263101550  34632000  5973000.0      기타  본  점    38  2.421053  0.467391   

      구매주기  주구매상품encoded  주구매지점encoded 

# 4. 특성공학 (파생변수 생성)

In [None]:
# 파생 변수 생성
X1["방문당평균구매액"] = X1["총구매액"] / X1["내점일수"]
X1["환불비율"] = X1["환불금액"] / X1["총구매액"]
X1["총구매건수"] = X1["내점일수"] * X1["내점당구매건수"]
X1["잠재고객충성도"] = X1["구매주기"] * X1["내점일수"]
X1["주말총방문수"] = X1["주말방문비율"] * X1["내점일수"]

X1.replace([np.inf, -np.inf], np.nan, inplace=True)
X1['환불비율'].fillna(0, inplace=True)

In [None]:
X1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3500 entries, 0 to 3499
Data columns (total 14 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   총구매액          3500 non-null   int64  
 1   최대구매액         3500 non-null   int64  
 2   환불금액          3500 non-null   float64
 3   내점일수          3500 non-null   int64  
 4   내점당구매건수       3500 non-null   float64
 5   주말방문비율        3500 non-null   float64
 6   구매주기          3500 non-null   int64  
 7   주구매상품encoded  3500 non-null   int64  
 8   주구매지점encoded  3500 non-null   int64  
 9   방문당평균구매액      3500 non-null   float64
 10  환불비율          3500 non-null   float64
 11  총구매건수         3500 non-null   float64
 12  잠재고객충성도       3500 non-null   int64  
 13  주말총방문수        3500 non-null   float64
dtypes: float64(7), int64(7)
memory usage: 382.9 KB


In [None]:
#오브젝트 값 삭제
X1.drop('주구매상품',axis=1,inplace=True)
X1.drop('주구매지점',axis=1,inplace=True)

KeyError: "['주구매상품'] not found in axis"

In [None]:
X = X1[['내점일수','내점당구매건수','주구매상품encoded'
        ,'방문당평균구매액','환불비율','잠재고객충성도']]
Y = y[['gender']]

X_train, X_test, Y_train, Y_test = train_test_split(X, Y,                 # 데이터프레임 기준
                                                    test_size=0.2,        # 테스트셋 비율 (20%)
                                                    random_state=3        # 재현 가능성 유지
                                                    )

lomodel = LogisticRegression(max_iter=3000)
lomodel.fit(X_train, Y_train)
pred = lomodel.predict(X_test)
acc = accuracy_score(Y_test, pred)
print(f'acc = {acc}')

acc = 0.6642857142857143


In [None]:
# 무한, 결측치 없음 
np.isinf(X_train).sum().sum(), np.isnan(X_train).sum().sum() # 특성공학 무한대 값 없애기

(np.int64(0), np.int64(0))

In [None]:
# 스케일링

Sc_x = StandardScaler()
Sc_x.fit(X_train)
x_train_sc = Sc_x.transform(X_train)
x_test_sc = Sc_x.transform(X_test)

<br/>

---

<br/>
<br/>

# 5-1. 모델링 - LogisticRegression

* 본격적으로 모델을 선언하고 학습시킵니다.


필요한 라이브러리를 불러옵니다.

모델을 선언하여 객체화시킵니다.


모델을 학습 데이터에 맞춰 학습시킵니다.

In [None]:
lomodel = LogisticRegression()
lomodel.fit(x_train_sc, Y_train)
lo_pred = lomodel.predict(x_test_sc)
acc = accuracy_score(Y_test, lo_pred)
print(f'acc = {acc}')

acc = 0.6442857142857142


<br/>

---

<br/>
<br/>

# 6-1. 예측 성능 확인해보기 - LogisticRegression

- 학습된 모델로 테스트 데이터에 대한 예측을 수행합니다.

- 학습시킨 모델의 성능을 알아봅니다
- 각 평가지표로 모델의 성능을 수치화하여 확인합니다.
- 필요한 라이브러리를 import 하고 성능을 확인해보세요 (정확도, 정밀도, 재현율, f1, confusion_matrix)

In [None]:
def get_clf_eval(Y_test, pred):
    confusion = confusion_matrix(Y_test, pred)
    accuracy = accuracy_score(Y_test, pred) # 전체 샘플 중에서 예측을 맞춘 비율
    precision = precision_score(Y_test, pred) # 모델이 1이라고 예측한 것들 중 실제로 1인 비율
    recall = recall_score(Y_test, pred) #실제로 1인 것들 중에 모델이 1이라고 맞춘 비율

    print(confusion)
    print(accuracy, precision, recall)

In [None]:
get_clf_eval(Y_test, lo_pred)

[[386  77]
 [172  65]]
0.6442857142857142 0.45774647887323944 0.2742616033755274



<br/>

---

<br/>
<br/>

# 5-2. 모델링 - DecisionTreeClassifier

* 본격적으로 모델을 선언하고 학습시킵니다.


필요한 라이브러리를 불러옵니다.

모델을 선언하여 객체화시킵니다.

모델을 학습 데이터에 맞춰 학습시킵니다.

In [78]:
from sklearn.tree import DecisionTreeClassifier

de_model = DecisionTreeClassifier()
de_model.fit(x_train_sc, Y_train)
de_pred = de_model.predict(x_test_sc)
acc = accuracy_score(Y_test, de_pred)
acc

0.5757142857142857



<br/>
<br/>

# 6-2. 예측 성능 확인해보기 - DecisionTreeClassifier

- 학습된 모델로 테스트 데이터에 대한 예측을 수행합니다.

- 학습시킨 모델의 성능을 알아봅니다
- 각 평가지표로 모델의 성능을 수치화하여 확인합니다.
- 필요한 라이브러리를 import 하고 성능을 확인해보세요 (정확도, 정밀도, 재현율, f1, confusion_matrix)

In [79]:

get_clf_eval(Y_test, de_pred)

[[296 167]
 [130 107]]
 20
0.5757142857142857 0.3905109489051095 0.45147679324894513



<br/>

---

<br/>
<br/>

# 5-3. 모델링 - RandomForestClassifier

* 본격적으로 모델을 선언하고 학습시킵니다.



필요한 라이브러리를 불러옵니다.

모델을 선언하여 객체화시킵니다.

모델을 학습 데이터에 맞춰 학습시킵니다.

In [80]:
from sklearn.ensemble import RandomForestClassifier
rd_model = RandomForestClassifier(random_state=20, max_depth=8)
rd_model.fit(x_train_sc, Y_train)
rd_pred = rd_model.predict(x_test_sc)
rd_acc = accuracy_score(Y_test,rd_pred)
rd_acc

0.6628571428571428

In [81]:
from sklearn.model_selection import GridSearchCV
params = {'max_depth':[4,5,6], 'min_samples_split':[1,2,3], 'n_estimators':[300]}
grid_tree = GridSearchCV(rd_model, param_grid=params, cv=3, refit=True)
grid_tree.fit(x_train_sc, Y_train)

In [None]:
grid_tree.best_params_

{'max_depth': 5, 'min_samples_split': 3, 'n_estimators': 300}

In [None]:
best_rf = grid_tree.best_estimator_
rd_pred_pa = best_rf.predict(x_test_sc)
accuracy_score(Y_test,rd_pred_pa)

0.6585714285714286



<br/>
<br/>

# 6-3. 예측 성능 확인해보기 - RandomForestClassifier

- 학습된 모델로 테스트 데이터에 대한 예측을 수행합니다.

- 학습시킨 모델의 성능을 알아봅니다
- 각 평가지표로 모델의 성능을 수치화하여 확인합니다.
- 필요한 라이브러리를 import 하고 성능을 확인해보세요 (정확도, 정밀도, 재현율, f1, confusion_matrix)

In [106]:
def get_clf_eval(Y_test, pred):
    confusion = confusion_matrix(Y_test, pred)
    accuracy = accuracy_score(Y_test, pred) # 전체 샘플 중에서 예측을 맞춘 비율
    precision = precision_score(Y_test, pred) # 모델이 1이라고 예측한 것들 중 실제로 1인 비율
    recall = recall_score(Y_test, pred) #실제로 1인 것들 중에 모델이 1이라고 맞춘 비율

    print(confusion)
    print(accuracy, precision, recall)

get_clf_eval(Y_test, rd_pred_pa)

[[375  88]
 [154  83]]
0.6542857142857142 0.4853801169590643 0.350210970464135



<br/>

---

<br/>
<br/>

# 5-4. 모델링 - XGBoost

* 본격적으로 모델을 선언하고 학습시킵니다.



필요한 라이브러리를 불러옵니다.

모델을 선언하여 객체화시킵니다.

모델을 학습 데이터에 맞춰 학습시킵니다.

In [82]:

import xgboost
from sklearn.preprocessing import LabelEncoder

In [83]:
from xgboost import XGBClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from sklearn.metrics import accuracy_score

# 모델 생성 및 학습
xg_model = XGBClassifier(use_label_encoder=False, eval_metric='mlogloss')
xg_model.fit(x_train_sc, Y_train)

# 예측 및 평가
xg_pred = xg_model.predict(x_test_sc)
print("정확도:", accuracy_score(Y_test, xg_pred))


정확도: 0.6128571428571429




<br/>
<br/>

# 6-4. 예측 성능 확인해보기 - XGBoost

- 학습된 모델로 테스트 데이터에 대한 예측을 수행합니다.

- 학습시킨 모델의 성능을 알아봅니다
- 각 평가지표로 모델의 성능을 수치화하여 확인합니다.
- 필요한 라이브러리를 import 하고 성능을 확인해보세요 (정확도, 정밀도, 재현율, f1, confusion_matrix)

In [84]:
get_clf_eval(Y_test, xg_pred)

[[340 123]
 [148  89]]
 20
0.6128571428571429 0.419811320754717 0.3755274261603376


<br/>

---


<br/>

## 7.  위 4가지 모델의 학습 & 예측 & 평가 결과를 확인하고 최고 성능을 내는 모델을 찾아봅시다!

- 어떤 모델이 가장 성능이 좋은가요 ?

In [85]:
from sklearn.model_selection import GridSearchCV


model = {
            'log' : lomodel,
            'de'  : de_model,
            'rd'  : rd_model
            # 'xgb' : xg_model
}

for i, md in model.items():
    params = {'max_depth':[1,2,3], 'min_samples_split':[1,2,3], 'n_estimators':[200]}
    grid_tree = GridSearchCV(md, param_grid=params, cv=3, refit=True)
    grid_tree.fit(x_train_sc, Y_train)

ValueError: Invalid parameter 'max_depth' for estimator LogisticRegression(max_iter=3000). Valid parameters are: ['C', 'class_weight', 'dual', 'fit_intercept', 'intercept_scaling', 'l1_ratio', 'max_iter', 'multi_class', 'n_jobs', 'penalty', 'random_state', 'solver', 'tol', 'verbose', 'warm_start'].

In [None]:
get_clf_eval(Y_test, lo_pred) #로지스틱회귀 
get_clf_eval(Y_test, de_pred) #선택나무
get_clf_eval(Y_test, rd_pred_pa) # 랜덤포레스트 파라미터
get_clf_eval(Y_test, xg_pred) #xgboost

[[386  77]
 [172  65]]
 20
0.6442857142857142 0.45774647887323944 0.2742616033755274
[[303 160]
 [147  90]]
 20
0.5614285714285714 0.36 0.379746835443038
[[378  85]
 [152  85]]
 20
0.6614285714285715 0.5 0.35864978902953587
[[330 133]
 [164  73]]
 20
0.5757142857142857 0.35436893203883496 0.3080168776371308


# 재현율이 너무 낮아 임계치 조정 필요

In [107]:
pred_proba =  rd_model.predict_proba(x_test_sc)
pos_proba = pred_proba[:,1] #양성클래스일 확률

threshold = 0.47 #임계치
custom_proba = (pos_proba>=threshold).astype(int) #임계치보다 크면 1
confusion_matrix(Y_test, custom_proba)
get_clf_eval(Y_test,custom_proba)

[[345 118]
 [134 103]]
0.64 0.4660633484162896 0.4345991561181435
