### ----------------------------------------------------------------------------------------------------------
# 可視化 演習
###京都大学 社会変革型 医療データサイエンティスト育成プログラム(KD DHIEP Program)
### Ver0.7(β版) 2019/6/8 Akira Izumi
### ----------------------------------------------------------------------------------------------------------

#データのダウンロード
## ■ピマインディアンの糖尿病データ
https://github.com/niharikagulati/diabetesprediction/blob/master/diabetes.csv

###遷移先の画面で「Row」ボタンを押して、「別名で保存」でデータを保存



# 0.演習準備

In [0]:
#0-1.環境準備

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import io

In [0]:
#0-2.Colaboratoryファイルアップロード

from google.colab import files
uploaded = files.upload()
df = pd.read_csv(io.StringIO(uploaded['diabetes.csv'].decode('utf-8')), header=0)
df.head()

In [0]:
# 0-2.jupyter用

# filename = "diabetes.csv"
# df = pd.read_csv(filename, sep=',' )

# df.head()

#データの内容

| column # | 日本語 |variables |
|:---------|:----------|:----------|
| Pregnancies | 妊娠回数 | Number of times pregnant |
| Glucose | 経口耐糖能検査に於ける血清血糖値 | Plasma glucose concentration a 2 hours in an oral glucose tolerance test [mg/dL] |
| BloodPressure | 拡張期血圧 |  Diastolic blood pressure [mm/Hg] |
| SkinThickness |三頭筋皮下脂肪厚（mm）|  Triceps skins fold thickness [mm] |
| Insulin | インシュリン値 | 2-hour serum insulin [mu U/ml] |
| BMI | 体格指数 |  Body Mass Index |
| DiabetesPedigreeFunction| 糖尿病家系関数 |  Diabetes pedigree function |
| Age| 年齢 | Age [years] |
|Outcome | 糖尿病の有無 | Outcome:  Class Variable {0, 1} where '1' denotes patient having diabetes | 

# 演習１

In [0]:
# 1-1．データの概要を把握

#データの行数・列数を見る
df.@@

In [0]:
#1.2データの情報を見る
df.@@

In [0]:
#1-3.データの要約統計量を見る
df.@@

In [0]:
#1-4.データの欠損値を見る別の方法

df.isnull().sum(axis=0)

# 各列にNullが何個あるか確認します。
# メソッドisnullは、各要素が欠損値(NaN)であればTrue, そうでなければFalseを出力します
# メソッドsumは、値の合計を出力します。オプションのaxis=0で行の合計、axis=1で列の合計を出力します
# また、Trueは1、Falseは0と等価であることに注意してください
# 結果から、欠損値はNaN以外で表現されていることが分かります

In [0]:
#1-5.データ・セット全体の「０」の個数を確認
(@@).sum(axis=0)

In [0]:
#1-6.「0」が不適切な列の個数を確認

#入力されて不適切な列を列挙(Glucose、BloodPressure、SkinThickness、Insulin、BMI)
imputer_cols = @@

# 各列において、0の個数を確認します
(df[imputer_cols] == 0).sum(axis=0)

In [0]:
#1-7.平均値による欠損値の補完 

correct_df = df.copy()
for i in imputer_cols:
    correct_df[i] = correct_df[i].mask(df[i]==0, df[i].mean())

correct_df.head()

In [0]:
#1-8. 比較用
df.@@

In [0]:
#1-9. 各列において、0の個数を再確認します
(correct_df[imputer_cols] == 0).sum(axis=0)

In [0]:
#1-10. アウトカムごとに基本統計量の違いを見ます

correct_df_group_describe = correct_df.groupby('@@').describe()
correct_df_group_describe


In [0]:
#1-11. 変数ごとにグループにまとめて表示します

for col in correct_df.columns[:-1]:
     print(col + ":\n" + str(correct_df_group_describe[col].T) + "\n") 

In [0]:
#1-12. 平均だけグループにまとめて表示します

correct_df_group_mean = correct_df.groupby('Outcome').@@
correct_df_group_mean.T


In [0]:
#1-12. 平均だけグループにまとめて表示します

sns.pairplot(correct_df, hue = 'Outcome', diag_kind='hist', height= 1.8)

# 演習２

In [0]:
#2-1.簡単なプロット
data = np.arange(10)

# plt.figure() -> 明示的に宣言する必要はない
plt.figure(figsize=[6,4])
plt.plot(data)             # プロット
plt.xlabel('x軸です')            # x軸ラベル
plt.title('testグラフ')          # タイトル
plt.legend(['data'])       # レジェンド。plt.legend('data')ではないことに留意
plt.show()

In [0]:
#2-2.サブプロット

fig = plt.figure()
ax1 = fig.add_subplot(1,1,1)


ax1.plot(data)
plt.show()

In [0]:
#2-3.ヒストグラムの作成

# ageデータを使用して、ヒストグラムを作成します


In [0]:
# 2-4.ビジュアルの調整

bins = np.linspace(21,81,20)

plt.hist(data_age,
         bins=bins,         # bin widthの調整
         color='gray',    # 色の調整
         edgecolor='black'  # 枠線の調整
        ) 
plt.xlabel('age')
plt.ylabel('count')
plt.show()

In [0]:
#2-5.outcome毎のヒストグラム

data_age_pos = correct_df[correct_df['Outcome']==1]['Age']
data_age_neg = correct_df[correct_df['Outcome']==0]['Age']

fig = plt.figure(figsize=[15,5])
ax1 = fig.add_subplot(1,3,1)
ax2 = fig.add_subplot(1,3,2)
ax3 = fig.add_subplot(1,3,3)

ax1.hist(data_age,bins=bins, color='gray', edgecolor='black')
ax2.hist(data_age_neg,bins=bins, color='blue', edgecolor='black')
ax3.hist(data_age_pos,bins=bins, color='orange', edgecolor='black')


ax.set_title('ALL')
ax2.set_title('Negative')
ax3.set_title('Positive')

ax1.set_xlabel('age')
ax1.set_ylabel('count')

# 分布曲線による可視化
# seabornを使用すると楽に描けるので、ここではseabornを使用しますplt.show()

In [0]:
#2-6.分布曲線による可視化

# seabornを使用すると分布が楽に描けるので、ここではseabornを使用します
#サブプロットも少し効率的な書き方をしてみますがやっている事は上と同じです
fig,ax = plt.subplots(1,3,figsize=(15,5))

sns.distplot(data_age,ax=ax[0],color='gray',bins=bins)
sns.distplot(data_age_pos,ax=ax[1], color='orange',bins=bins)
sns.distplot(data_age_neg,ax=ax[2], color='blue' ,bins=bins)

plt.show()

In [0]:
#2-7（参考）.ヒストグラムを並べる

fig, ax = plt.subplots(1,1,figsize=(15,5))
ax.hist([data_age,data_age_neg,data_age_pos],bins=bins, color=['gray', 'blue', 'orange'],edgecolor='black',label=['ALL','Positive','Negative'])
ax.legend()
plt.show()

In [0]:
#2-8.BMIデータを分割し、カウントします

#ここでは、WHOでは国際的な基準で30以上が肥満のため、30で分けました。
data_BMI = correct_df['BMI']
normal = len(data_BMI[data_BMI<30])
obesity = len(data_BMI[data_BMI>=30])

print('normal:',normal, 'obesity:',obesity, normal + obesity)

In [0]:
#2-9.円グラフをプロットします

@@,
        labels=['BMI<30','BMI>=30'], # ラベルの指定
        startangle=90,               # 開始点を12時の方向に合わせる
        counterclock=False,         # なぜかdefaultではTrueになっている
        autopct="%1.1f%%",
       )
plt.title('Percentages of obesity in pima indians')

# 円グラフがつぶれるのを防ぐ
# グラフの形を正方形にして円が楕円になるのを防ぐ。
plt.axis('equal')

plt.show()

In [0]:
#2-10.Outcome毎に円グラフを作成

df_pos = correct_df[correct_df['Outcome']==1]
df_neg = correct_df[correct_df['Outcome']==0]

normal_pos = df_pos[df_pos['BMI']<30].shape[0]
obesity_pos = df_pos[df_pos['BMI']>=30].shape[0]

normal_neg = df_neg[df_neg['BMI']<30].shape[0]
obesity_neg = df_neg[df_neg['BMI']>=30].shape[0]

print('Positive:',normal_pos,obesity_pos,'\t', 'Negative:',normal_neg, obesity_neg)

fig = plt.figure(figsize=(10,5))
ax1 = fig.add_subplot(1,2,1)
ax2 = fig.add_subplot(1,2,2)

# Outcomeがpositive
ax1.pie([normal_pos,obesity_pos],
              labels=['BMI<30','BMI>=30'],
              startangle=90, 
              counterclock=False,          
              autopct="%1.1f%%",
              )
ax1.set_title('Positive')
ax1.axis('equal')

# Outcomeがnegative
ax2.pie([normal_neg,obesity_neg],
              startangle=90, 
              counterclock=False,          
              autopct="%1.1f%%",
              )
ax2.set_title('Negative')
ax2.axis('equal')

plt.show()

In [0]:
#2-11.AgeとBMIの関係をプロット

plt.scatter(data_age,data_BMI)
plt.xlabel('age')
plt.ylabel('BMI')

plt.show()

In [0]:
#2-12.ビジュアルの調整

plt.scatter(data_age,data_BMI,
            marker='v',          # マーカーの形の変更
            c='orange',          # マーカーの色の変更
            s=10                 # マーカーのサイズの変更
           )
plt.show()

In [0]:
#2-13.Outcome毎に分けてプロット
# あとで再利用するので、関数として定義しておきます

def plot_scatter(df_pos,df_neg,cols=['Age','BMI'],dsize=10):
    plt.scatter(df_pos[cols[0]],df_pos[cols[1]],
                c='orange',
                s=dsize,
                label='positive',
               )
    plt.scatter(df_neg[cols[0]],df_neg[cols[1]],
                c='blue',
                s=dsize,
                label='negative',
                alpha=0.3, # そのままだとドットが重なって見にくいため、透明度を調整
               )

    plt.xlabel(cols[0])
    plt.ylabel(cols[1])

    # legendを可視化
    plt.legend()

# 作成した関数を用いてプロット
plt.figure(figsize=(8,8))
plot_scatter(df_pos,df_neg)
plt.show()

In [0]:
#2-13.Outcome毎に分けてプロット
# あとで再利用するので、関数として定義しておきます

def plot_scatter(df_pos,df_neg,cols=['Age','BMI'],dsize=10):
    plt.scatter(df_pos[cols[0]],df_pos[cols[1]],
                c='orange',
                s=dsize,
                label='positive',
               )
    plt.scatter(df_neg[cols[0]],df_neg[cols[1]],
                c='blue',
                s=dsize,
                label='negative',
                alpha=0.3, # そのままだとドットが重なって見にくいため、透明度を調整
               )

    plt.xlabel(cols[0])
    plt.ylabel(cols[1])

    # legendを可視化
    plt.legend()

# 作成した関数を用いてプロット
plt.figure(figsize=(8,8))
plot_scatter(df_pos,df_neg)
plt.show()

In [0]:
#2-14（再掲）.散布図行列

sns.pairplot(correct_df, hue = 'Outcome', diag_kind='hist', height= 1.8,markers=[".", "+"])

In [0]:
# 2-15.上で描いたscatter plotのデータを利用してヒートマップを描画

# ヒートマップを作成するためには、2次元平面をグリッド状に分割し
# 各領域に対して何らかの値を定義する必要がある。
# ここでは、単純に各領域に含まれる人数をカウント

heatmap, xedges, yedges = np.histogram2d(data_age, data_BMI, bins=15)
# edgesは、データを15個のビンで切った際、切れ目部分に相当する数値を有している

extent = [xedges[0], xedges[-1], yedges[0], yedges[-1]]
# 16個の切れ目のうち、最小値と最大値の情報を保存
# 後でheatmapを作成する際、各軸の範囲を指定するのに使用する

# print(heatmap.T)
# print('\n')
print(extent)

In [0]:
#2-1６.matplotlibのimshow関数を使用

plt.imshow(heatmap.T,       # np.histogram2dのoutput行列を転置
           extent=extent,   # 軸の範囲を指定
           origin='lower',  # defaultは'upper'であり、そのままだとy軸が反転してしまう
          )

plt.xlabel('age')
plt.ylabel('BMI')
plt.show()

In [0]:
#2-17.ビジュアルの調整

plt.imshow(heatmap.T, 
           extent=extent, 
           origin='lower',
           cmap='hot'       # カラーマップの変更 (デフォルトは'viridis')
          )

plt.xlabel('age')
plt.ylabel('BMI')
cb = plt.colorbar() # カラーバーの追加
cb.set_label('counts') # カラーバーの数値にラベルを追加
plt.show()

In [0]:
#2-18（参考）. seaborn.kdeplotによるdensity map
sns.kdeplot(data_age, data_BMI, shade=True, cmap='Reds')
plt.show()

In [0]:
#2-19. 各変数間の相関をヒートマップで表します

# 画像サイズの設定
plt.figure(figsize=(12, 9))

# 相関係数行列のヒートマップ
# AgeとPregnanciesに比較的高い相関がある等、確認できます
sns.heatmap(df.corr(), cmap='bwr', annot=True)

# 演習問題

###今回2変数間の関係性や比較では、AgeとBMIの組み合わせを使用しました。
###「2-14（再掲）.散布図行列」
###「2-19. 各変数間の相関」
###なども参考にしながら、Outcomeである糖尿病の有無を説明するのに、他の「良さそうな」組み合わせを、今回学んだデータ可視化の手法を用いて探してみてください。