# 🚀 머신러닝 실습 : 고객 구매 데이터로 성별 예측 모델링 (분류 문제)
- 주어진 데이터는 백화점 고객의 1년 간 구매 데이터입니다.
- 고객 3,500명에 대한 학습용 데이터(y.csv, X.csv)를 이용하여 성별예측 모형을 만들어보세요.
- 모델의 성능은 자유롭게 측정해봅니다!

## [실습 프로세스]
1. 데이터 불러오기
2. 데이터 탐색
3. 데이터 전처리
4. 학습/테스트 데이터 분리
5. 모델 선택 및 학습
6. 예측 및 평가

---

# 0. 라이브러리 불러오기
- 라이브러리를 가져와서 과정을 준비합니다

In [3]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, auc, classification_report, confusion_matrix
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, VotingClassifier, BaggingClassifier, StackingClassifier
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings(action='ignore')

---

# 1. 데이터 불러오기
- 데이터를 가져와서 과정을 준비합시다.
- 인코딩 방식은 'euc-kr' 을 활용하세요.

- 데이터 출처 : 한국데이터산업진흥원 빅데이터분석기사 실기 공개 예시 문항

- 독립 변수 데이터셋 : ./data/X.csv

- 종속 변수 데이터셋 : ./data/y.csv

데이터 파일을 불러옵니다. 보통 CSV 파일을 pandas로 읽어옵니다.

In [5]:
X = pd.read_csv('X.csv', encoding='euc-kr')
y = pd.read_csv('y.csv', encoding='euc-kr')

---

# 2. 데이터 탐색하기
- 데이터를 이해할 수 있도록 탐색과정을 수행해봅시다.
- 데이터의 상위 몇 개 행을 출력하여 전체 구조를 미리 확인합니다.

- 데이터의 요약 정보나 통계 정보를 출력해 변수들의 유형과 분포를 확인합니다.

- 데이터의 요약 정보나 통계 정보를 출력해 변수들의 유형과 분포를 확인합니다.

---

# 3. 데이터 전처리
- 전처리 과정을 통해서 머신러닝에 사용할 수 있는 형태의 데이터 준비   

필요한 라이브러리를 불러옵니다.   

- 인코딩 : LabelEncoder
- 데이터 표준화 : StandardScaler
- 단순히 1부터의 숫자를 부여한 'cust_id'를 수치형 변수로 받아들이면, 결과가 왜곡될 수 있으니 컬럼을 제거합니다.
- 데이터에 결측치가 있는지 확인해보세요
- 결측치에 0으로 채워 넣어 모델 학습에 지장이 없도록 합니다.
문자형 범주 데이터를 숫자로 바꾸기 위한 인코딩을 수행합니다.

각 데이터에 표준화를 적용하여 데이터의 스케일(크기 차이)을 맞춰줍니다.

- 평균을 0, 표준편차를 1로 맞춰서 → 데이터가 정규 분포 형태로 변환되도록 하세요

---

# 5-1. 모델링 - LogisticRegression
- 본격적으로 모델을 선언하고 학습시킵니다.   

필요한 라이브러리를 불러옵니다.

모델을 선언하여 객체화시킵니다.

모델을 학습 데이터에 맞춰 학습시킵니다.

---

# 6-1. 예측 성능 확인해보기 - LogisticRegression
- 학습된 모델로 테스트 데이터에 대한 예측을 수행합니다.
- 학습시킨 모델의 성능을 알아봅니다
- 각 평가지표로 모델의 성능을 수치화하여 확인합니다.
- 필요한 라이브러리를 import 하고 성능을 확인해보세요 (정확도, 정밀도, 재현율, f1, confusion_matrix)


---

# 5-2. 모델링 - DecisionTreeClassifier
- 본격적으로 모델을 선언하고 학습시킵니다.   

필요한 라이브러리를 불러옵니다.

모델을 선언하여 객체화시킵니다.

모델을 학습 데이터에 맞춰 학습시킵니다.

---

# 6-2. 예측 성능 확인해보기 - DecisionTreeClassifier
- 학습된 모델로 테스트 데이터에 대한 예측을 수행합니다.
- 학습시킨 모델의 성능을 알아봅니다
- 각 평가지표로 모델의 성능을 수치화하여 확인합니다.
- 필요한 라이브러리를 import 하고 성능을 확인해보세요 (정확도, 정밀도, 재현율, f1, confusion_matrix)

---

# 5-3. 모델링 - RandomForestClassifier
- 본격적으로 모델을 선언하고 학습시킵니다.   

필요한 라이브러리를 불러옵니다.

모델을 선언하여 객체화시킵니다.

모델을 학습 데이터에 맞춰 학습시킵니다.

---

# 6-3. 예측 성능 확인해보기 - RandomForestClassifier
- 학습된 모델로 테스트 데이터에 대한 예측을 수행합니다.
- 학습시킨 모델의 성능을 알아봅니다
- 각 평가지표로 모델의 성능을 수치화하여 확인합니다.
- 필요한 라이브러리를 import 하고 성능을 확인해보세요 (정확도, 정밀도, 재현율, f1, confusion_matrix)

---

# 5-4. 모델링 - XGBoost
- 본격적으로 모델을 선언하고 학습시킵니다.   

필요한 라이브러리를 불러옵니다.

모델을 선언하여 객체화시킵니다.

모델을 학습 데이터에 맞춰 학습시킵니다.

---

# 6-4. 예측 성능 확인해보기 - XGBoost
- 학습된 모델로 테스트 데이터에 대한 예측을 수행합니다.
- 학습시킨 모델의 성능을 알아봅니다
- 각 평가지표로 모델의 성능을 수치화하여 확인합니다.
- 필요한 라이브러리를 import 하고 성능을 확인해보세요 (정확도, 정밀도, 재현율, f1, confusion_matrix)

---

# 7. 위 4가지 모델의 학습 & 예측 & 평가 결과를 확인하고 최고 성능을 내는 모델을 찾아봅시다!
- 어떤 모델이 가장 성능이 좋은가요 ?