In [None]:
import pandas as pd
import numpy as np

In [None]:
# 훈련 데이터, 테스트 데이터를 읽어온다
data_path = '~/.kaggle/competitions/porto-seguro-safe-driver-prediction/'
trn = pd.read_csv(data_path + 'train.csv', na_values=['-1','-1.0'])
tst = pd.read_csv(data_path + 'test.csv', na_values=['-1','-1.0'])

## 기초 통계로 데이터 살펴 보기

In [None]:
# 데이터의 크기를 확인한다
print(trn.shape, tst.shape)

In [None]:
# 데이터 첫 5줄을 확인한다
trn.head()

In [None]:
# 데이터프레임에 대한 메타 정보를 확인한다
trn.info()

In [None]:
# 타겟 변수의 고유값과 타겟==1의 비율을 계산한다
print(np.unique(trn['target']))
print(1.0 * sum(trn['target'])/trn.shape[0])

In [None]:
# 그 외 기초 통계 기법

# 변수의 최대값, 최소값 등을 확인한다
trn.describe()

# 변수의 결측값을 확인한다
trn.isnull().sum(axis=0)
tst.isnull().sum(axis=0)

## 시각화로 데이터 살펴 보기

In [None]:
# 훈련 데이터와 테스트 데이터를 통합한다
tst['target'] = np.nan
df = pd.concat([trn, tst], axis=0)

In [None]:
# 시각화 관련 라이브러리를 불러온다
import matplotlib
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

In [None]:
# 시각화 관련 함수를 미리 정의한다
def bar_plot(col, data, hue=None):
    f, ax = plt.subplots(figsize=(10, 5))
    sns.countplot(x=col, hue=hue, data=data, alpha=0.5)
    plt.show()
    
def dist_plot(col, data):
    f, ax = plt.subplots(figsize=(10, 5))
    sns.distplot(data[col].dropna(), kde=False, bins=10)
    plt.show()
    
def bar_plot_ci(col, data):
    f, ax = plt.subplots(figsize=(10, 5))
    sns.barplot(x=col, y='target', data=data)
    plt.show()

In [None]:
# 분석의 편의를 위해 변수 유형별로 구분한다
# 이진 변수
binary = ['ps_ind_06_bin', 'ps_ind_07_bin', 'ps_ind_08_bin', 'ps_ind_09_bin', 'ps_ind_10_bin', 'ps_ind_11_bin',
          'ps_ind_12_bin', 'ps_ind_13_bin', 'ps_ind_16_bin', 'ps_ind_17_bin', 'ps_ind_18_bin', 'ps_calc_15_bin', 
          'ps_calc_16_bin', 'ps_calc_17_bin', 'ps_calc_18_bin', 'ps_calc_19_bin', 'ps_calc_20_bin']
# 범주형 변수
category = ['ps_ind_02_cat', 'ps_ind_04_cat', 'ps_ind_05_cat', 'ps_car_01_cat', 'ps_car_02_cat', 'ps_car_03_cat', 
            'ps_car_04_cat', 'ps_car_05_cat', 'ps_car_06_cat', 'ps_car_07_cat', 'ps_car_08_cat', 'ps_car_09_cat', 
            'ps_car_10_cat', 'ps_car_11_cat']
# 정수형 변수
integer = ['ps_ind_01', 'ps_ind_03', 'ps_ind_14', 'ps_ind_15', 'ps_calc_04', 'ps_calc_05', 'ps_calc_06', 
           'ps_calc_07', 'ps_calc_08', 'ps_calc_09', 'ps_calc_10', 'ps_calc_11', 'ps_calc_12', 'ps_calc_13', 
           'ps_calc_14', 'ps_car_11']
# 소수형 변수
floats = ['ps_reg_01', 'ps_reg_02', 'ps_reg_03', 'ps_calc_01', 'ps_calc_02', 'ps_calc_03', 'ps_car_12', 'ps_car_13',
          'ps_car_14', 'ps_car_15']

### 단일 변수 히스토그램

In [None]:
for col in binary + category + integer:
    bar_plot(col, df)

### 변수간 상관관계

In [None]:
# 전체 데이터에 대한 상관관계 HeatMap 시각화
corr = df.corr()
cmap = sns.color_palette("Blues")
f, ax = plt.subplots(figsize=(10, 7))
sns.heatmap(corr, cmap=cmap)

In [None]:
# 일부 변수만 선별
features = ['ps_ind_06_bin', 'ps_ind_07_bin', 'ps_ind_08_bin', 'ps_ind_09_bin', 
          'ps_ind_12_bin', 'ps_ind_13_bin', 'ps_ind_16_bin', 'ps_ind_17_bin', 'ps_ind_18_bin',
          'ps_ind_02_cat', 'ps_ind_04_cat', 'ps_ind_05_cat', 'ps_car_01_cat', 'ps_car_02_cat', 'ps_car_03_cat', 
          'ps_car_04_cat', 'ps_car_05_cat', 'ps_car_06_cat', 'ps_car_07_cat', 'ps_car_08_cat', 'ps_car_09_cat', 
          'ps_car_11_cat', 'ps_ind_01', 'ps_ind_03', 'ps_ind_14', 'ps_ind_15', 'ps_car_11',
          'ps_reg_01', 'ps_reg_02', 'ps_reg_03', 'ps_car_12', 'ps_car_13',
          'ps_car_14', 'ps_car_15']

corr_sub = df[features].corr()
f, ax = plt.subplots(figsize=(10, 7))
sns.heatmap(corr_sub, cmap=cmap)

### 단일 변수 vs 타겟 변수

In [None]:
for col in (binary + category + integer):
    bar_plot_ci(col, df)

### 훈련 데이터 vs 테스트 데이터

In [None]:
df['is_tst'] = df['target'].isnull()
for col in binary + category + integer:
    bar_plot(col, df, 'is_tst')