### 암기 없이 파이썬 키워드 찾는 방법!

**1. 모듈명 찾기**
- dir 키워드 사용

In [1]:
import sklearn

# sklearn 패키지 모듈 확인하기
print(dir(sklearn))

['__SKLEARN_SETUP__', '__all__', '__builtins__', '__cached__', '__check_build', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__path__', '__spec__', '__version__', '_config', '_distributor_init', 'base', 'clone', 'config_context', 'exceptions', 'externals', 'get_config', 'logger', 'logging', 'os', 'random', 'set_config', 'setup_module', 'show_versions', 'sys', 'utils']


**2. 함수명 찾기**

In [3]:
import sklearn.preprocessing

# preprocessing 모듈에 있는 함수명 확인하기
print(dir(sklearn.preprocessing))

['Binarizer', 'FunctionTransformer', 'KBinsDiscretizer', 'KernelCenterer', 'LabelBinarizer', 'LabelEncoder', 'MaxAbsScaler', 'MinMaxScaler', 'MultiLabelBinarizer', 'Normalizer', 'OneHotEncoder', 'OrdinalEncoder', 'PolynomialFeatures', 'PowerTransformer', 'QuantileTransformer', 'RobustScaler', 'SplineTransformer', 'StandardScaler', '__all__', '__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__path__', '__spec__', '_csr_polynomial_expansion', '_data', '_discretization', '_encoders', '_function_transformer', '_label', '_polynomial', 'add_dummy_feature', 'binarize', 'label_binarize', 'maxabs_scale', 'minmax_scale', 'normalize', 'power_transform', 'quantile_transform', 'robust_scale', 'scale']


**3. 함수의 파라미터 확인하기**
- help 키워드 사용

In [4]:
from sklearn.preprocessing import StandardScaler

# StandardScaler 함수에 대한 자세한 내용 확인하기
print(help(StandardScaler))

Help on class StandardScaler in module sklearn.preprocessing._data:

class StandardScaler(sklearn.base._OneToOneFeatureMixin, sklearn.base.TransformerMixin, sklearn.base.BaseEstimator)
 |  StandardScaler(*, copy=True, with_mean=True, with_std=True)
 |  
 |  Standardize features by removing the mean and scaling to unit variance.
 |  
 |  The standard score of a sample `x` is calculated as:
 |  
 |      z = (x - u) / s
 |  
 |  where `u` is the mean of the training samples or zero if `with_mean=False`,
 |  and `s` is the standard deviation of the training samples or one if
 |  `with_std=False`.
 |  
 |  Centering and scaling happen independently on each feature by computing
 |  the relevant statistics on the samples in the training set. Mean and
 |  standard deviation are then stored to be used on later data using
 |  :meth:`transform`.
 |  
 |  Standardization of a dataset is a common requirement for many
 |  machine learning estimators: they might behave badly if the
 |  individual fea

## 1. 데이터 분석 연습하기

### 1.1 데이터 탐색하기

#### Data load

In [136]:
import pandas as pd

x_train = pd.read_csv('bigData-main/x_train.csv', encoding='cp949')
x_test  = pd.read_csv('bigData-main/x_test.csv', encoding='cp949')
y_train = pd.read_csv('bigData-main/y_train.csv', encoding='cp949')

print(x_train.head(), x_test.head(), y_train.head())

   cust_id      총구매액     최대구매액       환불금액   주구매상품 주구매지점  내점일수   내점당구매건수  \
0        0  68282840  11264000  6860000.0      기타   강남점    19  3.894737   
1        1   2136000   2136000   300000.0     스포츠   잠실점     2  1.500000   
2        2   3197000   1639000        NaN  남성 캐주얼   관악점     2  2.000000   
3        3  16077620   4935000        NaN      기타   광주점    18  2.444444   
4        4  29050000  24000000        NaN      보석  본  점     2  1.500000   

     주말방문비율  구매주기  
0  0.527027    17  
1  0.000000     1  
2  0.000000     1  
3  0.318182    16  
4  0.000000    85      cust_id       총구매액     최대구매액        환불금액 주구매상품 주구매지점  내점일수    내점당구매건수  \
0     3500   70900400  22000000   4050000.0    골프  부산본점    13   1.461538   
1     3501  310533100  38558000  48034700.0   농산물   잠실점    90   2.433333   
2     3502  305264140  14825000  30521000.0  가공식품  본  점   101  14.623762   
3     3503    7594080   5225000         NaN  주방용품  부산본점     5   2.000000   
4     3504    1795790   1411200         NaN   수산품

### tips) 말줄임표로 확인이 어려운 데이터 확인하는 방법
1. transpose() 함수를 통해 데이터의 방향을 행에서 열 방향으로 바꾸기

In [137]:
x_train.head().T

Unnamed: 0,0,1,2,3,4
cust_id,0,1,2,3,4
총구매액,68282840,2136000,3197000,16077620,29050000
최대구매액,11264000,2136000,1639000,4935000,24000000
환불금액,6860000.0,300000.0,,,
주구매상품,기타,스포츠,남성 캐주얼,기타,보석
주구매지점,강남점,잠실점,관악점,광주점,본 점
내점일수,19,2,2,18,2
내점당구매건수,3.894737,1.5,2.0,2.444444,1.5
주말방문비율,0.527027,0.0,0.0,0.318182,0.0
구매주기,17,1,1,16,85


2. 전체 컬럼을 출력하는 옵션 설정하기

In [138]:
pd.options.display.max_columns = None

x_train.head()

Unnamed: 0,cust_id,총구매액,최대구매액,환불금액,주구매상품,주구매지점,내점일수,내점당구매건수,주말방문비율,구매주기
0,0,68282840,11264000,6860000.0,기타,강남점,19,3.894737,0.527027,17
1,1,2136000,2136000,300000.0,스포츠,잠실점,2,1.5,0.0,1
2,2,3197000,1639000,,남성 캐주얼,관악점,2,2.0,0.0,1
3,3,16077620,4935000,,기타,광주점,18,2.444444,0.318182,16
4,4,29050000,24000000,,보석,본 점,2,1.5,0.0,85


#### 행/열 확인하기

In [139]:
print(x_train.shape, x_test.shape, y_train.shape)

(3500, 10) (2482, 10) (3500, 2)


#### 요약정보 확인하기

- 결측치 확인
- 각 컬럼의 데이터타입 확인

In [140]:
print(x_train.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3500 entries, 0 to 3499
Data columns (total 10 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   cust_id  3500 non-null   int64  
 1   총구매액     3500 non-null   int64  
 2   최대구매액    3500 non-null   int64  
 3   환불금액     1205 non-null   float64
 4   주구매상품    3500 non-null   object 
 5   주구매지점    3500 non-null   object 
 6   내점일수     3500 non-null   int64  
 7   내점당구매건수  3500 non-null   float64
 8   주말방문비율   3500 non-null   float64
 9   구매주기     3500 non-null   int64  
dtypes: float64(3), int64(5), object(2)
memory usage: 273.6+ KB
None


In [141]:
print(x_test.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2482 entries, 0 to 2481
Data columns (total 10 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   cust_id  2482 non-null   int64  
 1   총구매액     2482 non-null   int64  
 2   최대구매액    2482 non-null   int64  
 3   환불금액     871 non-null    float64
 4   주구매상품    2482 non-null   object 
 5   주구매지점    2482 non-null   object 
 6   내점일수     2482 non-null   int64  
 7   내점당구매건수  2482 non-null   float64
 8   주말방문비율   2482 non-null   float64
 9   구매주기     2482 non-null   int64  
dtypes: float64(3), int64(5), object(2)
memory usage: 194.0+ KB
None


#### 기초통계량 확인

- 데이터 건수, 평균, 최소/최대값, 중위값 등

In [142]:
display(x_train.describe())
print('- 값들 간의 차이가 보이므로 스케일링 필요')

Unnamed: 0,cust_id,총구매액,최대구매액,환불금액,내점일수,내점당구매건수,주말방문비율,구매주기
count,3500.0,3500.0,3500.0,1205.0,3500.0,3500.0,3500.0,3500.0
mean,1749.5,91919250.0,19664240.0,24078220.0,19.253714,2.834963,0.307246,20.958286
std,1010.507298,163506500.0,31992350.0,47464530.0,27.174942,1.912368,0.289752,24.748682
min,0.0,-52421520.0,-2992000.0,5600.0,1.0,1.0,0.0,0.0
25%,874.75,4747050.0,2875000.0,2259000.0,2.0,1.666667,0.027291,4.0
50%,1749.5,28222700.0,9837000.0,7392000.0,8.0,2.333333,0.25641,13.0
75%,2624.25,106507900.0,22962500.0,24120000.0,25.0,3.375,0.44898,28.0
max,3499.0,2323180000.0,706629000.0,563753000.0,285.0,22.083333,1.0,166.0


- 값들 간의 차이가 보이므로 스케일링 필요


### 1.2 전처리하기

#### 불필요한 컬럼 삭제 (cust_id)

- 당장에 예측하는 데이터 분석 과정에서는 해당 컬럼이 불필요하므로 삭제 처리 수행
- 추후 테스트 데이터의 cust_id 칼럼 값은 최종 제출하는 결과 파일에 포함되어야 하므로 변수에 별도 저장하여 관리

In [144]:
x_test_cust_id = x_test['cust_id']

# 삭제 수행 (x_train, x_test, y_train)
x_train.drop(columns = 'cust_id', inplace = True)
x_test.drop(columns = 'cust_id', inplace = True)
y_train.drop(columns = 'cust_id', inplace = True)

In [146]:
x_train.head(), x_test.head(), y_train.head()

(       총구매액     최대구매액       환불금액   주구매상품 주구매지점  내점일수   내점당구매건수    주말방문비율  구매주기
 0  68282840  11264000  6860000.0      기타   강남점    19  3.894737  0.527027    17
 1   2136000   2136000   300000.0     스포츠   잠실점     2  1.500000  0.000000     1
 2   3197000   1639000        NaN  남성 캐주얼   관악점     2  2.000000  0.000000     1
 3  16077620   4935000        NaN      기타   광주점    18  2.444444  0.318182    16
 4  29050000  24000000        NaN      보석  본  점     2  1.500000  0.000000    85,
         총구매액     최대구매액        환불금액 주구매상품 주구매지점  내점일수    내점당구매건수    주말방문비율  \
 0   70900400  22000000   4050000.0    골프  부산본점    13   1.461538  0.789474   
 1  310533100  38558000  48034700.0   농산물   잠실점    90   2.433333  0.369863   
 2  305264140  14825000  30521000.0  가공식품  본  점   101  14.623762  0.083277   
 3    7594080   5225000         NaN  주방용품  부산본점     5   2.000000  0.000000   
 4    1795790   1411200         NaN   수산품  청량리점     3   2.666667  0.125000   
 
    구매주기  
 0    26  
 1     3  
 2     3  
 3   

#### 결측치 처리하기

In [147]:
print(x_train.isnull().sum()) # 환불금액 컬럼 2295 개 결측치 확인

총구매액          0
최대구매액         0
환불금액       2295
주구매상품         0
주구매지점         0
내점일수          0
내점당구매건수       0
주말방문비율        0
구매주기          0
dtype: int64


In [148]:
# 환불금액 NaN 인 경우 환불 이력 없다고 보고 결측치 0으로 처리
x_train['환불금액'] = x_train['환불금액'].fillna(0)
x_test['환불금액'] = x_test['환불금액'].fillna(0)

# 결측치 제거되었는지 확인
print(x_train['환불금액'].isnull().sum(), x_test['환불금액'].isnull().sum())

0 0


#### 범주형 변수 인코딩
- dtype 이 object 인 주구매상품, 주구매지점 변수 인코딩 필요

In [149]:
# 데이터 값들과 개수 확인
print(x_train['주구매상품'].nunique(), x_train['주구매상품'].unique())
print(x_train['주구매지점'].nunique(), x_train['주구매지점'].unique())

42 ['기타' '스포츠' '남성 캐주얼' '보석' '디자이너' '시티웨어' '명품' '농산물' '화장품' '골프' '구두' '가공식품'
 '수산품' '아동' '차/커피' '캐주얼' '섬유잡화' '육류' '축산가공' '젓갈/반찬' '액세서리' '피혁잡화' '일용잡화'
 '주방가전' '주방용품' '건강식품' '가구' '주류' '모피/피혁' '남성 트랜디' '셔츠' '남성정장' '생활잡화'
 '트래디셔널' '란제리/내의' '커리어' '침구/수예' '대형가전' '통신/컴퓨터' '식기' '소형가전' '악기']
24 ['강남점' '잠실점' '관악점' '광주점' '본  점' '일산점' '대전점' '부산본점' '분당점' '영등포점' '미아점'
 '청량리점' '안양점' '부평점' '동래점' '포항점' '노원점' '창원점' '센텀시티점' '인천점' '대구점' '전주점'
 '울산점' '상인점']


In [150]:
print(x_test['주구매상품'].nunique(), x_test['주구매상품'].unique())  # label 값이 하나 적음
print(x_test['주구매지점'].nunique(), x_test['주구매지점'].unique())

41 ['골프' '농산물' '가공식품' '주방용품' '수산품' '화장품' '기타' '스포츠' '디자이너' '시티웨어' '구두' '캐주얼'
 '명품' '건강식품' '남성정장' '커리어' '남성 캐주얼' '축산가공' '식기' '피혁잡화' '모피/피혁' '섬유잡화'
 '트래디셔널' '차/커피' '육류' '가구' '아동' '셔츠' '액세서리' '젓갈/반찬' '대형가전' '일용잡화' '통신/컴퓨터'
 '생활잡화' '주방가전' '란제리/내의' '남성 트랜디' '보석' '주류' '침구/수예' '악기']
24 ['부산본점' '잠실점' '본  점' '청량리점' '분당점' '일산점' '대전점' '강남점' '동래점' '영등포점' '부평점'
 '대구점' '노원점' '광주점' '관악점' '미아점' '창원점' '인천점' '안양점' '상인점' '포항점' '울산점' '전주점'
 '센텀시티점']


위의 경우, 각각 42개, 24개의 데이터가 존재하기 때문에 ohe 보다는 le 로 진행

In [151]:
from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()
x_train['주구매상품'] = encoder.fit_transform(x_train['주구매상품'])
x_test['주구매상품']  = encoder.transform(x_test['주구매상품']) # label 개수가 달라서 x_train 으로 fit_transform 한 encoder 사용

encoder.classes_, encoder.classes_.size

(array(['가공식품', '가구', '건강식품', '골프', '구두', '기타', '남성 캐주얼', '남성 트랜디', '남성정장',
        '농산물', '대형가전', '디자이너', '란제리/내의', '명품', '모피/피혁', '보석', '생활잡화',
        '섬유잡화', '셔츠', '소형가전', '수산품', '스포츠', '시티웨어', '식기', '아동', '악기',
        '액세서리', '육류', '일용잡화', '젓갈/반찬', '주류', '주방가전', '주방용품', '차/커피',
        '축산가공', '침구/수예', '캐주얼', '커리어', '통신/컴퓨터', '트래디셔널', '피혁잡화', '화장품'],
       dtype=object),
 42)

In [152]:
print(x_train['주구매상품'].head(), x_test['주구매상품'].head())

0     5
1    21
2     6
3     5
4    15
Name: 주구매상품, dtype: int32 0     3
1     9
2     0
3    32
4    20
Name: 주구매상품, dtype: int32


In [153]:
encoder2 = LabelEncoder()

x_train['주구매지점'] = encoder2.fit_transform(x_train['주구매지점'])
x_test['주구매지점']  = encoder2.transform(x_test['주구매지점'])

encoder2.classes_ , encoder2.classes_.size

(array(['강남점', '관악점', '광주점', '노원점', '대구점', '대전점', '동래점', '미아점', '본  점',
        '부산본점', '부평점', '분당점', '상인점', '센텀시티점', '안양점', '영등포점', '울산점', '인천점',
        '일산점', '잠실점', '전주점', '창원점', '청량리점', '포항점'], dtype=object),
 24)

In [154]:
print(x_train['주구매지점'].head(), x_test['주구매지점'].head())

0     0
1    19
2     1
3     2
4     8
Name: 주구매지점, dtype: int32 0     9
1    19
2     8
3     9
4    22
Name: 주구매지점, dtype: int32


#### 파생변수 만들기

In [155]:
x_train.iloc[0]['환불금액']

6860000.0

In [156]:
# x_train.head()  >> 환불금액 != 0 : 1 , or not 0

def cond_new(x) :
    if x > 0 :
        return 1
    else :
        return 0

# cond = x_train['환불금액'] > 0

# x_train.loc[cond, '환불금액_new'] = 1
# x_train.loc[~cond, '환불금액_new'] = 0

x_train['환불금액_new'] = x_train['환불금액'].apply(lambda x: cond_new(x))

print(x_train[['환불금액', '환불금액_new']].head(10))

         환불금액  환불금액_new
0   6860000.0         1
1    300000.0         1
2         0.0         0
3         0.0         0
4         0.0         0
5    462000.0         1
6   4582000.0         1
7  29524000.0         1
8         0.0         0
9         0.0         0


In [157]:
%%time
# x_test 도 진행

# x_test.loc[cond, '환불금액_new'] = 1
# x_test.loc[~cond, '환불금액_new'] = 0

x_test['환불금액_new'] = x_test['환불금액'].apply(lambda x: cond_new(x))

print(x_test[['환불금액', '환불금액_new']].head(10))

         환불금액  환불금액_new
0   4050000.0         1
1  48034700.0         1
2  30521000.0         1
3         0.0         0
4         0.0         0
5         0.0         0
6  39566000.0         1
7         0.0         0
8         0.0         0
9  23062000.0         1
Wall time: 4.99 ms


In [158]:
# 기존 컬럼 (환불금액) 삭제
x_train.drop(columns = '환불금액', inplace=True)
x_test.drop(columns = '환불금액', inplace=True)

#### 표준화 크기로 변경하기

- 변수 간의 범위가 10e+07 정도로 차이가 나는 것 확인
- 종속변수가 범주형이므로 표준화 크기변환 외에 로버스트 크기변환 수행해도 OK

In [159]:
display(x_train.describe().T)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
총구매액,3500.0,91919250.0,163506500.0,-52421520.0,4747050.0,28222700.0,106507900.0,2323180000.0
최대구매액,3500.0,19664240.0,31992350.0,-2992000.0,2875000.0,9837000.0,22962500.0,706629000.0
주구매상품,3500.0,14.612,13.01995,0.0,5.0,9.0,22.0,41.0
주구매지점,3500.0,10.73429,5.63648,0.0,8.0,9.0,15.0,23.0
내점일수,3500.0,19.25371,27.17494,1.0,2.0,8.0,25.0,285.0
내점당구매건수,3500.0,2.834963,1.912368,1.0,1.666667,2.333333,3.375,22.08333
주말방문비율,3500.0,0.3072463,0.2897516,0.0,0.0272909,0.2564103,0.4489796,1.0
구매주기,3500.0,20.95829,24.74868,0.0,4.0,13.0,28.0,166.0
환불금액_new,3500.0,0.3442857,0.4752027,0.0,0.0,0.0,1.0,1.0


In [160]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

x_train = pd.DataFrame(scaler.fit_transform(x_train), columns = x_train.columns)
x_test  = pd.DataFrame(scaler.transform(x_test), columns = x_test.columns) # x_train 으로 수행한 scaler 그대로 적용

In [161]:
display(x_train.describe().T)
print('>> 각 변수의 평균값이 0에 가깝고 표준편차는 1에 근접한 값으로 변환')

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
총구매액,3500.0,-4.4091710000000005e-17,1.000143,-0.882909,-0.533218,-0.389621,0.089237,13.64826
최대구매액,3500.0,-4.838986e-17,1.000143,-0.708278,-0.524864,-0.307219,0.10311,21.475852
주구매상품,3500.0,-6.236281e-17,1.000143,-1.122438,-0.738357,-0.431093,0.567518,2.027026
주구매지점,3500.0,-8.333017000000001e-17,1.000143,-1.904703,-0.485175,-0.307733,0.756913,2.176441
내점일수,3500.0,2.518303e-16,1.000143,-0.671807,-0.635003,-0.41418,0.211486,9.78049
내점당구매건수,3500.0,-2.28817e-16,1.000143,-0.959661,-0.611003,-0.262346,0.282432,10.066639
주말방문비율,3500.0,9.192647e-17,1.000143,-1.06053,-0.966329,-0.175472,0.489224,2.391196
구매주기,3500.0,-1.220294e-16,1.000143,-0.846966,-0.685318,-0.32161,0.28457,5.861421
환불금액_new,3500.0,3.445498e-16,1.000143,-0.724606,-0.724606,-0.724606,1.38006,1.38006


>> 각 변수의 평균값이 0에 가깝고 표준편차는 1에 근접한 값으로 변환


#### 상관관계 확인
- '금액' 이라는 의미가 포함된 '총구매액', '최대구매액', '환불금액_new' 간의 상관성 확인 필요

In [162]:
display(x_train[['총구매액','최대구매액','환불금액_new']].corr())
print('>> 총구매액과 최대구매액 간에 약 70%의 상관관계 확인 > 최대구매액 컬럼 drop')
print('    - 상관계수 0.6 이상인 경우 강한 상관관계 존재한다고 할 수 있으므로 다중공선성을 이유로 삭제 진행')

Unnamed: 0,총구매액,최대구매액,환불금액_new
총구매액,1.0,0.70008,0.403357
최대구매액,0.70008,1.0,0.330687
환불금액_new,0.403357,0.330687,1.0


>> 총구매액과 최대구매액 간에 약 70%의 상관관계 확인 > 최대구매액 컬럼 drop
    - 상관계수 0.6 이상인 경우 강한 상관관계 존재한다고 할 수 있으므로 다중공선성을 이유로 삭제 진행


In [163]:
x_train = x_train.drop(columns = '최대구매액')
x_test  = x_test.drop(columns = '최대구매액')

### tips) 데이터의 중간 결과 수시로 백업(backup)하기

- 데이터의 분석 방향이 잘못된 경우, 과거에 저장한 결과를 불러와서 다시 데이터 분석 시작 가능
- copy() 함수 사용
- 만약 copy() 없이 단순 등호로 사용한다면 x_train_backup 에도 x_train의 변경 내용이 같이 적용되는 꼴이 되므로 주의!

In [164]:
x_train_backup = x_train.copy()
x_test_backup = x_test.copy()

### 1.3 학습 & 평가

#### 데이터 학습시키기

- predict() 함수로 추출된 결과는 데이터프레임 형태가 아니므로 반드시 pd.DataFrame() 함수 사용하여 데이터 타입 변경해야 함

In [172]:
# DecisionTreeClassifier, RandomForestClassifier 사용
from sklearn.tree     import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

dt_model = DecisionTreeClassifier()
rf_model = RandomForestClassifier()

dt_model.fit(x_train, y_train)
y_test_pred_dt = dt_model.predict(x_test)

rf_model.fit(x_train, y_train.gender)
y_test_pred_rf = rf_model.predict(x_test)

print(pd.DataFrame(y_test_pred_dt, columns = y_train.columns).head())
print(pd.DataFrame(y_test_pred_rf, columns = y_train.columns).head())

   gender
0       1
1       0
2       0
3       1
4       1
   gender
0       1
1       0
2       0
3       0
4       0


#### Hyper parameter tuning

- DecisionTree : max_depth, criterion 등
    - max_depth : 트리의 깊이 제한, default = 제한없음
    - criterion : 트리 노드 분기하는 조건, default = gini

In [173]:
model_dt_hpt = DecisionTreeClassifier(max_depth = 10, criterion = 'entropy', random_state = 42)

model_dt_hpt.fit(x_train, y_train)
y_test_pred_dt_hpt = model_dt_hpt.predict(x_test)

print(pd.DataFrame(y_test_pred_dt_hpt, columns = y_train.columns).head())

   gender
0       1
1       0
2       0
3       0
4       0


- 하이퍼 파라미터 튜닝으로 최적의 파라미터를 찾기 위해 GridSearchCV() 를 통해 비교하면 좋지만, 시험 환경상 1분 내로 제한되어 있기 때문에 사용이 어려움
- 알고 있는 파라미터만 사용하거나, 그냥 하이퍼 파라미터 입력하지 않고 데이터 학습시켜도 괜찮을 듯!

### plus) GridSearchCV() 함수로 하이퍼 파라미터 튜닝해보기

In [174]:
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline   # 병렬 처리 위한 함수 import

In [175]:
# 모델을 대상으로 학습시키는 경우에 활용할 것이므로 model__ 접두사 사용

param = {'model__max_depth' : [3,4,5,6],
        'model__criterion' : ['gini', 'entropy']}

In [177]:
# 표준화 크기 변환과 의사결정나무 분류기 동시 수행을 위한 파이프라인 모델 생성
pipeline_model = Pipeline([('scaler', StandardScaler()),
                          ('model', DecisionTreeClassifier())])

# GridSearchCV 함수 사용한 모델 생성
grid_model = GridSearchCV(pipeline_model, param_grid = param, cv = 3)

In [178]:
# grid_model 로 학습 진행 > 스케일링과 학습 동시 진행되므로 데이터 스케일링 작업 불필요
print(grid_model.fit(x_train, y_train))

GridSearchCV(cv=3,
             estimator=Pipeline(steps=[('scaler', StandardScaler()),
                                       ('model', DecisionTreeClassifier())]),
             param_grid={'model__criterion': ['gini', 'entropy'],
                         'model__max_depth': [3, 4, 5, 6]})


In [179]:
# 최적 파라미터 확인 및 최상의 모델 변수에 저장
best_model = grid_model.best_estimator_
best_model

Pipeline(steps=[('scaler', StandardScaler()),
                ('model', DecisionTreeClassifier(max_depth=3))])

In [180]:
# best_model 로 x_test 세트에 대응되는 y_test 예측값 계산
y_test_pred_grid = best_model.predict(x_test)
print(pd.DataFrame(y_test_pred_grid, columns = y_train.columns))

      gender
0          0
1          0
2          0
3          0
4          0
...      ...
2477       1
2478       0
2479       0
2480       0
2481       1

[2482 rows x 1 columns]


#### 결과 예측하기

- 문제에서 요구한 값이 성별에 대한 확률값이므로 predict 가 아닌 predict_proba() 사용

In [181]:
y_test_dt_hpt_proba = model_dt_hpt.predict_proba(x_test)

# 종속변수 0, 1에 대한 확률 확인
print(pd.DataFrame(y_test_dt_hpt_proba).head())

          0         1
0  0.200000  0.800000
1  1.000000  0.000000
2  1.000000  0.000000
3  0.548837  0.451163
4  0.548837  0.451163


최종적으로 구해야 하는 확률은 남성이므로, [1] 코드로 남성 성별로 분류된 확률 확인

In [184]:
print(pd.DataFrame(y_test_dt_hpt_proba)[1])

0       0.800000
1       0.000000
2       0.000000
3       0.451163
4       0.451163
          ...   
2477    0.462312
2478    0.451163
2479    0.560000
2480    0.000000
2481    0.512821
Name: 1, Length: 2482, dtype: float64


In [None]:
# result 변수에 저장
result = pd.DataFrame()