# クロス集計を使ったデータの分析

決定木モデルの作成をする前のデータ分析としてクロス集計を行う

目的変数が0か1のラベルであるため、データ分布を見るのにクロス集計が有効となる

## 対象データ

ここではSIGNATEの[【練習問題】銀行の顧客ターゲティングデータ](https://signate.jp/competitions/1/data)を使用している

### train.csv（学習データ）

* 説明変数：marital（未婚/既婚）
* 目的変数：y（定額預金申し込み有無）

### test.csv（評価データ）

* 説明変数：marital（未婚/既婚）

## ビニング

* 数値データを特定のグループに集約する処理
* 年齢を10代、20代、30代…に分ける場合などに使用する
* 数値データをクロス集計する場合にもビニングを用いる

## データの準備

ライブラリのインポート

In [12]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
%matplotlib inline

CSVデータの読み込み

In [13]:
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')
sample = pd.read_csv('submit_sample.csv', header=None)

## データの確認
* [基本的なデータの確認](https://github.com/junichitashiro/Technical-Notes/blob/master/MachineLearning/basic_modeling_process/02-データ分析の事前準備.md)をする

## クロス集計によるデータ分析

口座を開設した顧客が何人いるか確認する

In [14]:
train['y'].value_counts()

0    23954
1     3174
Name: y, dtype: int64

marital列と目的変数でクロス集計する

In [15]:
pd.crosstab(train['marital'], train['y'], margins=True)

y,0,1,All
marital,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
divorced,2691,364,3055
married,14744,1667,16411
single,6519,1143,7662
All,23954,3174,27128


クロス集計で年齢（age）の分布を見る

  age列の値を確認する

In [16]:
train['age'].describe()

count    27128.000000
mean        40.951010
std         10.608542
min         18.000000
25%         33.000000
50%         39.000000
75%         48.000000
max         95.000000
Name: age, dtype: float64

age列は数値データであるためクロス集計するにはビニングをする必要がある

ビニングした値を変数に格納する

In [17]:
age_bining = pd.cut(train['age'], [0, 20, 30, 40, 50, 60, 100])

ビニングしたage列と目的変数でクロス集計する

In [18]:
pd.crosstab(age_bining, train['y'], margins=True)

y,0,1,All
age,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"(0, 20]",39,21,60
"(20, 30]",3486,655,4141
"(30, 40]",9488,1111,10599
"(40, 50]",6117,602,6719
"(50, 60]",4416,488,4904
"(60, 100]",408,297,705
All,23954,3174,27128


poutcome列と目的変数でクロス集計する

In [19]:
pout = pd.crosstab(train['poutcome'], train['y'], margins=True)

集計結果の確認

In [20]:
pout

y,0,1,All
poutcome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
failure,2578,391,2969
other,950,173,1123
success,312,574,886
unknown,20114,2036,22150
All,23954,3174,27128


poutに割合を示す新たなカラムrateを追加してクロス集計する

In [21]:
pout['rate'] = pout[1] / pout['All']

In [22]:
pout

y,0,1,All,rate
poutcome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
failure,2578,391,2969,0.131694
other,950,173,1123,0.154052
success,312,574,886,0.647856
unknown,20114,2036,22150,0.091919
All,23954,3174,27128,0.117001
