## **T2. Exercise (Tutorial) Baseline**

백화점 고객의 1년 간 구매 데이터를 활용해
- 데이터 전처리
- Feature Engineering
- 모델링 (분류 알고리즘 사용)
- 하이퍼파라미터 튜닝 (초매개변수 최적화)
- 모형 앙상블
- csv제출

유의사항
- 수험번호.csv 파일이 만들어지도록 코드를 제출함
- 제출한 모델의 성능은 ROC-AUC 평가지표에 따라 채점함

데이터 출처 및 연결
- data 출처: https://www.dataq.or.kr/ - 공지사항 - 759번 제2회 빅데이터분석기사 실기 안내 - 첨부파일

데이터셋 업로드
- 데이터셋 프라이빗 업로드 : https://youtu.be/BZlEQ5JwLiA
  - Datasets - new dataset - (drag&drop) - Create / 반드시 Private
- 작업형2 예시: https://youtu.be/_GIBVt5-khk

In [203]:
# 데이터 불러오기
import pandas as pd

X_train = pd.read_csv('data/X_train.csv', encoding='euc-kr') # 구름 환경에서는 encoding='euc-kr' 생략 가능
X_test = pd.read_csv('data/X_test.csv', encoding='euc-kr')
y_train = pd.read_csv('data/y_train.csv', encoding='euc-kr')

print(X_train.head())
print('----------------------------------------------------------')
print(X_test.head())
print('----------------------------------------------------------')
print(y_train.head())

   cust_id      총구매액     최대구매액       환불금액   주구매상품 주구매지점  내점일수   내점당구매건수  \
0        0  68282840  11264000  6860000.0      기타   강남점    19  3.894737   
1        1   2136000   2136000   300000.0     스포츠   잠실점     2  1.500000   
2        2   3197000   1639000        NaN  남성 캐주얼   관악점     2  2.000000   
3        3  16077620   4935000        NaN      기타   광주점    18  2.444444   
4        4  29050000  24000000        NaN      보석  본  점     2  1.500000   

     주말방문비율  구매주기  
0  0.527027    17  
1  0.000000     1  
2  0.000000     1  
3  0.318182    16  
4  0.000000    85  
----------------------------------------------------------
   cust_id       총구매액     최대구매액        환불금액 주구매상품 주구매지점  내점일수    내점당구매건수  \
0     3500   70900400  22000000   4050000.0    골프  부산본점    13   1.461538   
1     3501  310533100  38558000  48034700.0   농산물   잠실점    90   2.433333   
2     3502  305264140  14825000  30521000.0  가공식품  본  점   101  14.623762   
3     3503    7594080   5225000         NaN  주방용품  부산본점     5   2.

### **데이터 전처리**

In [204]:
# 결측치
X_train['환불금액'] = X_train['환불금액'].fillna(0)
X_test['환불금액'] = X_test['환불금액'].fillna(0)
print(X_train.head())
print('----------------------------------------------------------')
print(X_test.head())

   cust_id      총구매액     최대구매액       환불금액   주구매상품 주구매지점  내점일수   내점당구매건수  \
0        0  68282840  11264000  6860000.0      기타   강남점    19  3.894737   
1        1   2136000   2136000   300000.0     스포츠   잠실점     2  1.500000   
2        2   3197000   1639000        0.0  남성 캐주얼   관악점     2  2.000000   
3        3  16077620   4935000        0.0      기타   광주점    18  2.444444   
4        4  29050000  24000000        0.0      보석  본  점     2  1.500000   

     주말방문비율  구매주기  
0  0.527027    17  
1  0.000000     1  
2  0.000000     1  
3  0.318182    16  
4  0.000000    85  
----------------------------------------------------------
   cust_id       총구매액     최대구매액        환불금액 주구매상품 주구매지점  내점일수    내점당구매건수  \
0     3500   70900400  22000000   4050000.0    골프  부산본점    13   1.461538   
1     3501  310533100  38558000  48034700.0   농산물   잠실점    90   2.433333   
2     3502  305264140  14825000  30521000.0  가공식품  본  점   101  14.623762   
3     3503    7594080   5225000         0.0  주방용품  부산본점     5   2.

In [205]:
# 필요없는 칼럼 제거
X_train.drop(['cust_id'], axis=1)
X_test.drop(['cust_id'], axis=1)
print(X_train.head())

   cust_id      총구매액     최대구매액       환불금액   주구매상품 주구매지점  내점일수   내점당구매건수  \
0        0  68282840  11264000  6860000.0      기타   강남점    19  3.894737   
1        1   2136000   2136000   300000.0     스포츠   잠실점     2  1.500000   
2        2   3197000   1639000        0.0  남성 캐주얼   관악점     2  2.000000   
3        3  16077620   4935000        0.0      기타   광주점    18  2.444444   
4        4  29050000  24000000        0.0      보석  본  점     2  1.500000   

     주말방문비율  구매주기  
0  0.527027    17  
1  0.000000     1  
2  0.000000     1  
3  0.318182    16  
4  0.000000    85  


### **피처엔지니어링**

In [206]:
# Label Encoding
from sklearn.preprocessing import LabelEncoder

cols = ['주구매상품', '주구매지점']
le = LabelEncoder()

for col in cols:
    X_train[col] = le.fit_transform(X_train[col])
    X_test[col] = le.fit_transform(X_test[col])

print(X_train.head())
print(X_test.head())

   cust_id      총구매액     최대구매액       환불금액  주구매상품  주구매지점  내점일수   내점당구매건수  \
0        0  68282840  11264000  6860000.0      5      0    19  3.894737   
1        1   2136000   2136000   300000.0     21     19     2  1.500000   
2        2   3197000   1639000        0.0      6      1     2  2.000000   
3        3  16077620   4935000        0.0      5      2    18  2.444444   
4        4  29050000  24000000        0.0     15      8     2  1.500000   

     주말방문비율  구매주기  
0  0.527027    17  
1  0.000000     1  
2  0.000000     1  
3  0.318182    16  
4  0.000000    85  
   cust_id       총구매액     최대구매액        환불금액  주구매상품  주구매지점  내점일수    내점당구매건수  \
0     3500   70900400  22000000   4050000.0      3      9    13   1.461538   
1     3501  310533100  38558000  48034700.0      9     19    90   2.433333   
2     3502  305264140  14825000  30521000.0      0      8   101  14.623762   
3     3503    7594080   5225000         0.0     31      9     5   2.000000   
4     3504    1795790   1411200        

### **모델링 & 하이퍼파라미터 튜닝**

In [207]:
# 모델링 & 하이퍼파라미터 튜닝 & 앙상블
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=2022)
model.fit(X_train, y_train['gender'])
print(model.score(X_train, y_train['gender']))

pred = model.predict_proba(X_test)
print(pred[:,1])

0.6888571428571428
[0.38207695 0.20224844 0.19169683 ... 0.43517797 0.40677066 0.4805443 ]


In [208]:
# csv 생성
cust_id = X_test.pop('cust_id')
output = pd.DataFrame({'cust_id' : cust_id, 'gender' : pred[:,1]})
output.to_csv('csv/T2_exercise.csv', index=False)

In [209]:
# csv 확인
print(pd.read_csv('csv/T2_exercise.csv'))

      cust_id    gender
0        3500  0.382077
1        3501  0.202248
2        3502  0.191697
3        3503  0.450763
4        3504  0.449631
...       ...       ...
2477     5977  0.472368
2478     5978  0.475424
2479     5979  0.435178
2480     5980  0.406771
2481     5981  0.480544

[2482 rows x 2 columns]


## **T2-1. 타이타닉(Titanic) Simple Baseline**

### 생존여부 예측모델 만들기

학습용 데이터 (X_train, y_train)을 이용하여 생존 예측 모형을 만든 후,
이를 평가용 데이터(X_test)에 적용하여 얻은 예측값을 다음과 같은 형식의 CSV파일로 생성하시오
(제출한 모델의 성능은 accuracy 평가지표에 따라 채점)

(가) 제공 데이터 목록

- y_train: 생존여부(학습용)
- X_trian, X_test : 승객 정보 (학습용 및 평가용)

(나) 데이터 형식 및 내용

- y_trian (712명 데이터)

시험환경 세팅은 예시문제와 동일한 형태의 X_train, y_train, X_test 데이터를 만들기 위함임

유의사항
- 성능이 우수한 예측모형을 구축하기 위해서는 적절한 데이터 전처리, 피처엔지니어링, 분류알고리즘, 하이퍼파라미터 튜닝, 모형 앙상블 등이 수반되어야 한다.
- 수험번호.csv파일이 만들어지도록 코드를 제출한다.
- 제출한 모델의 성능은 accuracy로 평가함

csv 출력형태

<center><img src = 'pic/T2-1.png'></center>

In [210]:
# 시험환경 세팅 (코드 변경 X)
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

def exam_data_load(df, target, id_name="", null_name=""):
    if id_name == "":
        df = df.reset_index().rename(columns={"index": "id"})
        id_name = 'id'
    else:
        id_name = id_name

    if null_name != "":
        df[df == null_name] = np.nan

    X_train, X_test = train_test_split(df, test_size=0.2, random_state=2021)

    y_train = X_train[[id_name, target]]
    X_train = X_train.drop(columns=[target])


    y_test = X_test[[id_name, target]]
    X_test = X_test.drop(columns=[target])
    return X_train, X_test, y_train, y_test

df = pd.read_csv("data/T2-1/X_train.csv")
X_train, X_test, y_train, y_test = exam_data_load(df, target='Survived', id_name='PassengerId')

In [212]:
# 데이터 전처리
y = y_train['Survived']

features = ['Pclass', 'Sex', 'SibSp', 'Parch']
x = pd.get_dummies(X_train[features]) # Sex만 One-Hot Encoding
test = pd.get_dummies(X_test[features])

print(x.head())
print(y.head())
print(test.head())

     Pclass  SibSp  Parch  Sex_female  Sex_male
90        3      0      0           0         1
103       3      0      0           0         1
577       1      1      0           1         0
215       1      1      0           1         0
191       2      0      0           0         1
90     0
103    0
577    1
215    1
191    0
Name: Survived, dtype: int64
     Pclass  SibSp  Parch  Sex_female  Sex_male
210       3      0      0           0         1
876       3      0      0           0         1
666       2      0      0           0         1
819       3      3      2           0         1
736       3      1      3           1         0


In [213]:
# 모델 및 평가
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(n_estimators=200, max_depth=7, random_state=2021)
model.fit(x, y)
pred = model.predict(test)
print(model.score(x, y))

0.8356741573033708


In [214]:
output = pd.DataFrame({'PassengerId' : X_test.PassengerId, 'Survived' : pred})
print(output)

     PassengerId  Survived
210          211         0
876          877         0
666          667         0
819          820         0
736          737         0
..           ...       ...
494          495         0
871          872         1
530          531         1
157          158         0
45            46         0

[179 rows x 2 columns]
