# タイタニックデータの可視化
英国の客船，処女航海の1912年に北大西洋上で氷山に接触し沈没した。犠牲者が多数出た。映画で何度か上映されたため，世界的に非常に有名となった。この乗客に生存に関するデータがある。

In [None]:
# -*- coding: utf-8 -*-
import numpy as np
import pandas as pd
#import seaborn as sns

import matplotlib
import matplotlib.pyplot as plt
%matplotlib inline

FLAG_fig = False

In [None]:
titanic_url = "http://s3.amazonaws.com/assets.datacamp.com/course/Kaggle/train.csv" #トレニーングデータ読込み
df = pd.read_csv(titanic_url) # df; DataFrame　の略
# df.to_csv('titanic_train.csv') # 読込んだデータの出力
df.head()

Ageは，幾つか欠損している。csvファイルでは空欄となっている。欠損レコードを省くとデータ数が激減するので，補完する。補完の考え方は幾つかあり，ここでは，中央値を採用する。

In [None]:
print(' type(df) is ',type(df),'\n','len(df) =',len(df))

In [None]:
df['Age'].fillna(df.Age.median(), inplace=True) #inplace=True は，処理軽減のため，元データを処理する

In [None]:
hist = df['Age'].hist(bins=16)
# matplotlibを用いた plt.hist(df['Age'],  bins=16)とほぼ同じ

if FLAG_fig: plt.savefig('fig_PLT_Titanic_hist_01.png')
plt.show()

乗客の年齢構成を見る

In [None]:
age1 = (df['Age'] < 15).sum()
age2 = ( (df['Age'] >= 15) & (df['Age'] < 60) ).sum()
age3 = (df['Age'] >= 60).sum()
print(age1, age2, age3, (age1+age2+age3))

In [None]:
series = pd.Series([age1, age2, age3], index=['Child', 'Adult', 'Elderly'], name='Age')
series.plot.pie(figsize=(4, 4))

if FLAG_fig: plt.savefig('fig_PLT_Titanic_pie_01.png')
plt.show()

男女別に生存のクロス集計（cross tabulation）を見る

In [None]:
cross_01 = df.pivot_table(index=['Survived'], columns=['Sex'],  \
                          values=['PassengerId'],aggfunc='count', fill_value=0)
print(cross_01)

この棒グラフを見る

In [None]:
cross_01.plot(kind='bar')

if FLAG_fig: plt.savefig('fig_PLT_Titanic_cross_01_hist.png')
plt.show()

船室のクラス（Pclass）と生存のクロス集計を見る

In [None]:
cross_02 = df.pivot_table(index=['Survived'], columns=['Pclass'], \
                 values=['PassengerId'], aggfunc='count', fill_value=0)
cross_02

In [None]:
cross_02.plot(kind='bar')

if FLAG_fig: plt.savefig('fig_PLT_Titanic_cross_02_hist.png')
plt.show()

上記の棒グラフを積み上げ方式に変換する

In [None]:
cross_02.plot(kind='bar', stacked=True)

if FLAG_fig: plt.savefig('fig_PLT_Titanic_cross_01_hist_stack.png')
plt.show()

columnsの階層化
Sexの分類のもとにPclassの分類を階層化する

In [None]:
cross_03_1 = df.pivot_table(index=['Survived'], columns=['Sex', 'Pclass'], values=['PassengerId'], aggfunc='count', fill_value=0)
cross_03_1

ここまでのクロス集計は'count'であるから，valuesは何を指定してもよい。ただし，indexとcolumnsを指定したラベルは省く。

In [None]:
cross_03_2 = df.pivot_table(index=['Survived'], columns=['Sex', 'Pclass'], values=['Name'], aggfunc='count', fill_value=0)
cross_03_2

valuesを外すと，sexの上に，他の全てのラベルが階層化される

In [None]:
cross_04 = df.pivot_table(index=['Survived'], columns=['Sex'], aggfunc='count', fill_value=0)
cross_04