### 백화점 고객의 1년 간 구매 데이터를 활용해
- 데이터 전처리
- Feature Engineering
- 모델링 (분류 알고리즘 사용)
- 하이퍼파라미터 튜닝 (초매개변수 최적화)
- 모형 앙상블
- csv제출

### 유의사항
- 수험번호.csv 파일이 만들어지도록 코드를 제출함
- 제출한 모델의 성능은 ROC-AUC 평가지표에 따라 채점함

### 데이터 출처 및 연결
- data 출처: https://www.dataq.or.kr/ - 공지사항 - 759번 제2회 빅데이터분석기사 실기 안내 - 첨부파일

### 데이터셋 업로드
- 데이터셋 프라이빗 업로드 : https://youtu.be/BZlEQ5JwLiA
    - Datasets - new dataset - (drag&drop) - Create / 반드시 Private
- 작업형2 예시: https://youtu.be/_GIBVt5-khk

- 아래 코드는 베이스라인 예시입니다

# 라이브러리 및 데이터 불러오기

In [5]:
import pandas as pd 

path ='../input/private-data/'
x = pd.read_csv(path + "X_train.csv", encoding="euc-kr") # 구름 IDE환경에서는 encoding="euc-kr"가 없어도 됨
y = pd.read_csv(path + "y_train.csv")
test = pd.read_csv(path + "X_test.csv", encoding="euc-kr")

In [11]:
#데이터 확인

print(x.shape, y.shape, test.shape)
print(x.info())
print(x.isnull().sum())
print(test.isnull().sum())
# object = '주구매지점','주구매상품'
print(x.describe())

In [12]:
#결측치 처리

x['환불금액'] = x['환불금액'].fillna(0)
test['환불금액'] = test['환불금액'].fillna(0)
print(x)

In [14]:
# 문자형 변수 예측에 필요한 변수이니 숫자형으로 타입변경
from sklearn.preprocessing import LabelEncoder
cols = ['주구매상품','주구매지점']
for col in cols:
    le = LabelEncoder()
    x[col] = le.fit_transform(x[col])
    test[col] = le.fit_transform(test[col])

In [17]:
x = x.drop('cust_id', axis = 1)
cust_id = test.pop('cust_id')

In [20]:
print(y)

In [24]:
# 머신러닝 진행

from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier(n_estimators = 42, max_depth =5, random_state = 2021)
model.fit(x,y['gender'])
pred = model.predict_proba(test)[:,1]

In [26]:
pd.DataFrame({'cust_id': cust_id, 'gender': pred}).to_csv('003001510.csv', index=False)

In [27]:
pd.read_csv('./003001510.csv')

In [28]:
# 라이브러리
import pandas as pd

In [39]:
# 데이터 불러오기
path ='../input/private-data/'
X = pd.read_csv(path + "X_train.csv", encoding="euc-kr") # 구름 IDE환경에서는 encoding="euc-kr"가 없어도 됨
y = pd.read_csv(path + "y_train.csv")
test = pd.read_csv(path + "X_test.csv", encoding="euc-kr")

# 간단EDA

In [40]:
# EDA
X.shape, y.shape, test.shape

In [41]:
X.head()

In [42]:
y.head()

In [43]:
# 결측치 확인
X.isnull().sum()

In [44]:
# X_train 데이터 기초통계 
X.describe()

In [45]:
X.describe(include='object')

In [46]:
# X_test 데이터 기초통계 
test.describe()

In [47]:
X.describe(include='object')

In [48]:
# label값 확인 
y['gender'].value_counts()

# 데이터 전처리

In [49]:
# 결측치처리
X = X.fillna(0) # 환불금액 0값으로 채움
test = test.fillna(0)

In [50]:
X = X.drop(['cust_id'], axis=1)
cust_id = test.pop('cust_id')

# 피처엔지니어링

In [51]:
# Label Encoding (범주형 변수 레이블인코딩)
from sklearn.preprocessing import LabelEncoder
cols = ['주구매상품', '주구매지점']
for col in cols:
    le = LabelEncoder()
    X[col] = le.fit_transform(X[col])
    test[col] = le.fit_transform(test[col])

X.head()

# 모델링 & 하이퍼파라미터 튜닝

In [52]:
# 모델링 & 하이퍼파라미터 튜닝 & 앙상블
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=2022)
model.fit(X, y['gender'])
print(model.score(X, y['gender']))
predictions = model.predict_proba(test)

In [53]:
predictions[:,1]

In [54]:
# csv생성
output = pd.DataFrame({'cust_id': cust_id, 'gender': predictions[:,1]})

In [55]:
output.head()

In [56]:
output.to_csv("123456789.csv", index=False)

# csv확인

In [57]:
pd.read_csv("123456789.csv")