# 第3回：データ集計・可視化
* データ分析を進める上では、対象のデータの特徴を把握することが重要です。
* データサイエンス総論Ⅱの最終的な分析では、顧客が定期預金するかの予測を行いますが、より有効な分析のためにもデータを理解することは重要です。
* ここではデータ理解の方法として、グラフ化による直感的な理解方法と、平均値や最大値、最小値などの定量的な集計方法について説明します。

# 1. データ読み込み

* 前回同様に、実行したいセルを選択して「Shift」+「Enter」でプログラムを実行できます。

In [None]:
# ライブラリ（様々な機能を簡単に使えるもの）のインポート
# このセルは、実行してもセルの下になにも表示されません
import pandas as pd             # pandasは表形式のデータ操作ライブラリ
import matplotlib.pyplot as plt # matplotlibはグラフ描画ライブラリ
import seaborn as sns           # seabornもグラフ描画ライブラリ（matplotlibより高度なグラフを描画可能）

In [None]:
data = pd.read_csv("bank-full.csv")  # csvファイルを読み込み、dataという名前で保管

In [None]:
data.head() # 読み込んだデータを確認

# 2. データの可視化（１変数ごとの確認）
* まずは、読み込んだデータをグラフで可視化して傾向を見てみましょう。

### 各列の意味
* age・・・年齢（数値）  
* job・・・職種（カテゴリ：12種類）  
* marital・・・結婚しているか（カテゴリ：既婚、離婚、単身の3種類）  
* education・・・教育水準（カテゴリ：初等教育、中等教育、高等教育、不明の4種類）  
* default・・・クレジットカードの債務不履行有無（カテゴリ：2種類）
* balance・・・年間の平均残高（ユーロ）（数値）
* housing・・・住宅ローンの有無（カテゴリ：2種類）
* loan・・・個人ローンの有無（カテゴリ：2種類）
* contact・・・連絡先（カテゴリ：不明、電話、携帯電話の3種類）
* day・・・最後に連絡した日（数値）
* month・・・最後に連絡した月（カテゴリ：12種類）
* duration・・・最後に連絡した際の通話時間（秒）
* campaign・・・今回のキャンペーン期間中に顧客に連絡した回数（数値）
* pdays・・・前回のキャンペーン以降に最後に連絡した日からの経過日数（数値：-1は以前の接触がない状態）
* previous・・・今回のキャンペーンの前までに顧客へ連絡した回数（数値）
* poutcome・・・前回のキャンペーンの結果（カテゴリ：不明、その他、失敗、成功の4種類）
* y・・・定期預金の購読有無（カテゴリ：2種類）（**予測対象列**）

#### グラフをきれいに見せる設定

In [None]:
sns.set() # グラフのデザインをSeabornライブラリのデフォルトスタイルに変更
sns.set_context('talk') # グラフの字の大きさを調整

## 2-1. 目的変数の確認（棒グラフ）
* データサイエンス総論Ⅱの演習では、顧客が定期預金をするかしないかを予測することが最終目標です。
* まずは、予測対象となる顧客の定期預金有無（y列）の傾向を確認しましょう。
* 棒グラフで、定期預金をした人としていない人がどのくらいの人数なのかを確認します。

In [None]:
sns.countplot(x='y', data=data)  # dataというデータの'y'列（「yes」と「no」が存在）のデータ件数棒グラフを作成

* ほとんどのデータが"no"、つまり定期預金をしていないことがわかります。
* このように、予測対象（目的変数）に偏りがある場合は、機械学習で予測モデルを作成する際に偏りを考慮する必要があることもあります。

## 2-2. 数値変数の確認（ヒストグラム）
* 続いて、ほかの列のデータも確認していきましょう。
* ageなどの数値データの列の分布を確認するために、ヒストグラムを描画してみます。
* ヒストグラムとは、横軸に階級（範囲）、縦軸に度数（該当の範囲にあるデータの個数）をグラフ化したものです。
* 数値データがどこを中心にどのように値がバラついているのかを確認することができます。

#### age（年齢）のヒストグラム

In [None]:
# sns. でseabornの機能を呼び出し
# distplotでヒストグラムを描画
# data['age']で年齢列を抽出し、distplotでヒストグラムを描画
sns.distplot(data['age'], kde=False, bins=10, hist_kws = {'alpha': 1}) 

* 30代～40代が最も多いことがわかります。

#### balance（平均残高）のヒストグラム

In [None]:
sns.distplot(data['balance'], kde=False, bins=30, hist_kws = {'alpha': 1}) 

* ほとんどのデータが0～3000に分布し、ごく一部のデータが大きな値をとっていることがわかります。

#### day（日付）のヒストグラム

In [None]:
sns.distplot(data['day'], kde=False,  bins=31, hist_kws = {'alpha': 1}) 

* 10日、20日付近のみ件数が少ないことがわかります。

#### duration（通話時間）のヒストグラム

In [None]:
sns.distplot(data['duration'], kde=False, rug=False, bins=25, hist_kws = {'alpha': 1}) 

* 半分程度が200秒（3分強）以内で通話終了してることがわかります。

#### campaign（キャンペーン期間中の連絡回数）のヒストグラム

In [None]:
sns.distplot(data['campaign'], kde=False, rug=False, bins=20, hist_kws = {'alpha': 1}) 

* 0付近のデータがほとんどであることがわかります。

#### pdays（最後に連絡した日からの日数）のヒストグラム

In [None]:
sns.distplot(data['pdays'], kde=False, rug=False, bins=30, hist_kws = {'alpha': 1}) 

* 0付近（正確には-1）のデータがほとんどであることがわかります。

#### previous（顧客への連絡回数）のヒストグラム

In [None]:
sns.distplot(data['previous'], kde=False, rug=False, bins=30, hist_kws = {'alpha': 1}) 

* ほとんどのデータが0であることがわかります。

## 2-3. 数値変数の確認（箱ひげ図）
* 数値データ（age）について、箱ひげ図も描画してみましょう。

In [None]:
plt.figure(figsize=(2,4))
sns.boxplot(y='age', data=data) # boxplotで箱ひげ図を描画

## 2-4. 数値変数の統計値による確認<br>（個数、平均、標準偏差、最小値、25%, 50%, 75%パーセント点、最大値）

* ここまではグラフで数値変数を見てきましたが、describe関数を使うことで統計量で確認することできます。

In [None]:
round(data.describe(), 1) # describeで一気に集計を実施、見やすくなるように round で四捨五入

+ 上の行から順番に、個数、平均、標準偏差、最小値、25%, 50%, 75%パーセント点、最大値です。
* 表を見ると、列にによって数値の範囲やバラつきが大きく異なることがわかります。
* 特に、"pdays" と "previous" は75%まで同じデータであることから、ほとんどが同じ値で一部のデータのみ大きな値をとっていることがわかります。

## 2-5. カテゴリデータのグラフ化
* カテゴリ変数について、どのようなカテゴリがありデータ数がどのくらいなのかを確認してみましょう。
* 各列に対して毎回グラフ描画処理を記述すると手間がかかるので、ここでは各列についてグラフ描画処理を繰り返す処理（forループ文）を記述しています。

In [None]:
# カテゴリ変数の列名を category_columns という名前で保存
category_columns = ['job', 'marital', 'education', 'default', 'housing', 'loan', 'contact', 'month', 'poutcome']

# カテゴリデータ列ごとに、for文でカテゴリ個数をグラフ化する処理を繰り返し
for col in category_columns: 
    # カテゴリ数が多い場合は、横幅を広げてグラフ化
    if data[col].nunique() >= 6: 
        plt.figure(figsize=(20,6)) # グラフを描くための設定
    # カテゴリ数が少ない場合は通常のグラフサイズ
    else:
        plt.figure()
    # countplotで各カテゴリのデータ数を棒グラフで表示
    sns.countplot(x=col, data=data)

# 3. データの可視化（目的変数への影響確認）

* １変数ごとの確認が終わったら次に各変数の目的変数への影響を確認していきます

## 3-1. 数値変数の目的変数への影響確認（箱ひげ図）
* 最終的な分析では、顧客が定期預金するかの予測を行います。
* 予測に向けて、定期預金をするかしないか（y列が0なら預金しない、1なら預金する）によって各データの傾向に違いがあるのかを確認してみましょう。

#### 先ほどヒストグラムで表示した6項目について、定期預金有無別に箱ひげ図を表示

In [None]:
# グラフを表示する列名を num_columns という名前で保存
num_columns = ['age', 'balance', 'day', 'campaign', 'pdays', 'previous', 'duration']

# num_columns は6項目あるので、各項目についてグラフ描画
# for で繰り返し処理を実行。num_columns の6項目でグラフ描画処理を繰り返し
for col in num_columns:
    plt.figure() # グラフを描くための設定
    sns.boxplot(x='y', y=col, data=data) # boxplotで箱ひげ図を描画

* 箱上部は上位25%点、箱中央の線は中央値、箱下部は下位25%点を表します。
* durationが200秒（3分強）以下の場合は勧誘失敗に終わるケースが多いようです。今回は定期預金の勧誘なので短い場合は話を切られている場合が多いので当然と言えます。
* pdaysは定期預金をする顧客（'yes'）の人としない顧客（'no'）で傾向に違いがありそうです。

### 【ポイント】duration列は本来は事前に知りえない情報（リーク）
* 予測のための説明変数（特徴量）に本来事前には知りえない情報が入っていると、予測モデル作成時には高い精度のモデルができても、いざ実運用しようとしたときにデータがない、ということが起こりえます。
* 今回はduration（通話時間）は電話先のお客様の事情次第で変わる数値であり、通話前にはわからない情報です。
* duration（通話時間）予測モデルを作成する前に説明変数から除外しておく必要があります（クレンジング時に実施します）

## 3-2. カテゴリ変数の目的変数への影響確認
* 続いて、marital（結婚有無）などのカテゴリデータと目的変数の関係も可視化してみましょう。
* カテゴリ変数は job, marital, education, default, housing, loan, contact, month, poutcome の9種類です。
* たとえば、結婚有無別に定期預金数をグラフ化し、既婚者と未婚者では定期預金のしやすさに差があるのかを確認してみます。
* 箱ひげ図の描画と同様に、一気にグラフ化してみましょう。
* 各カテゴリごとに、全体を1としたときの定期預金をしたデータとしていないデータの割合を縦軸にしています。

In [None]:
# categoty_columns に入っている列名に対して、それぞれグラフ描画処理を繰り返す
for col in category_columns:
    # カテゴリ別にグラフ化するためにデータを加工
    count_data = (data.groupby(col)['y'] # 集計対象の列でグループ化
                  .value_counts(normalize=True) # 割合算出
                  .rename('percentage') 
                  .reset_index())
    
    sns.catplot(x='y', y='percentage', col=col, kind='bar', data=count_data) # catplotで棒グラフを描画

* 上から2番目のmaritalに関するグラフをみると、結婚状況は定期預金のしやすさに影響しないように見えます。  
ほかの多くのカテゴリ変数も、定期預金のしやすさに対する影響は少なそうです。
* 一方、一番下のpoutcomeについてのグラフをみると、poutcomeが "success" の顧客は定期預金をしやすい傾向にあることがわかります。  
また、グラフが小さく見えにくいですが、下から2番目のmonthに関するグラフも傾向の違いがありそうです。