# 第3部　記述統計


## 5章　多変量データの統計量

### 5-1 実装：分析の準備

In [None]:
# 数値計算に使うライブラリ
import numpy as np
import pandas as pd

### 5-2 実装：分析対象となるデータの用意

In [None]:
import io
import pandas as pd
from google.colab import files
uploaded = files.upload()

In [None]:
# データの読み込み
# cov_data = pd.read_csv('3-5-1-cov.csv')

cov_data = pd.read_csv(io.BytesIO(uploaded['3-5-1-cov.csv']))
print(cov_data)

### 5-5 実装：共分散

In [None]:
# データの取り出し
x = cov_data['x']
y = cov_data['y']

# サンプルサイズ
n = len(cov_data)

# 標本平均
x_bar = np.mean(x)
y_bar = np.mean(y)

In [None]:
# 共分散
cov = sum((x - x_bar) * (y - y_bar)) / n
round(cov, 3)

### 5-6 実装：分散共分散行列

In [None]:
# 分散の計算
s2_x = np.var(x, ddof=0)
s2_y = np.var(y, ddof=0)

print('xの標本分散：', round(s2_x, 3))
print('yの標本分散：', round(s2_y, 3))

In [None]:
# 共分散
np.cov(x, y, ddof=0)

### 5-9 実装：ピアソンの積率相関係数

In [None]:
# 相関係数
rho = cov / np.sqrt(s2_x * s2_y)
round(rho, 3)

In [None]:
# 相関行列
np.corrcoef(x, y)

### 5-12 実装：クロス集計表

#### 12-A 度数をカウントする事例

In [None]:
import io
import pandas as pd
from google.colab import files
uploaded = files.upload()

In [None]:
# disease = pd.read_csv('3-5-2-cross.csv')

disease = pd.read_csv(io.BytesIO(uploaded['3-5-2-cross.csv']))
print(disease.head())

In [None]:
# クロス集計
cross_1 = pd.crosstab(
    disease['sunlight'],
    disease['disease']
)
print(cross_1)

#### 12-B クロス集計表の作成

In [None]:
import io
import pandas as pd
from google.colab import files
uploaded = files.upload()

In [None]:
# shoes = pd.read_csv('3-5-3-cross2.csv')

shoes = pd.read_csv(io.BytesIO(uploaded['3-5-3-cross2.csv']))
print(shoes)

In [None]:
cross_2 = pd.pivot_table(
    data=shoes,
    values='sales',
    aggfunc='sum',
    index='store',
    columns='color'
)
print(cross_2)

## 6章　層別分析

### 6-5 実装：分析の準備

In [None]:
# 数値計算に使うライブラリ
import numpy as np
import pandas as pd

# 複雑な統計処理を行うライブラリ
from scipy import stats

# グラフを描画するライブラリ
from matplotlib import pyplot as plt
import seaborn as sns
sns.set()

In [None]:
# 表示設定(書籍本文のレイアウトと合わせるためであり、必須ではありません)
np.set_printoptions(linewidth=60)
pd.set_option('display.width', 60)

### 6-6 実装：分析対象となるデータの用意

In [None]:
import io
import pandas as pd
from google.colab import files
uploaded = files.upload()

In [None]:
# fish_multi = pd.read_csv('3-6-1-fish_multi.csv')

fish_multi = pd.read_csv(io.BytesIO(uploaded['3-6-1-fish_multi.csv']))
print(fish_multi.head(3))

In [None]:
# サンプルサイズ
len(fish_multi)

In [None]:
# 魚の種類
fish_multi['species'].value_counts()

In [None]:
# 標本平均
np.mean(fish_multi['length'])

### 6-7 実装：グループ別の統計量の計算

#### 7-A グループ別の平均値

In [None]:
# 魚の種類ごとの集計
group = fish_multi.groupby('species')
print(group.mean())

In [None]:
# 1行でまとめて記載
print(fish_multi.groupby('species').mean())

#### 7-B グループ別の要約統計量

In [None]:
# 要約統計量
print(group.describe())

#### 7-C pandas以外の関数を使う

In [None]:
print(group.agg(stats.mode))

### 6-8 実装：ペンギンデータの読み込み

#### 8-A データの読み込み

In [None]:
# seaborn組み込みのペンギンのデータを取得
penguins = sns.load_dataset('penguins')
print(penguins.head(n=2))

#### 8-B データのチェック

In [None]:
# 鳥の種類の分布
penguins['species'].value_counts()

In [None]:
# Torgersen島のデータだけを抽出
penguins.query('island == "Torgersen"')['species'].value_counts()

In [None]:
# Biscoe島のデータだけを抽出
penguins.query('island == "Biscoe"')['species'].value_counts()

In [None]:
# Torgersen島のデータだけを抽出
penguins.query('island == "Dream"')['species'].value_counts()

### 6-9 実装：ペンギンデータの層別分析

In [None]:
# ベンギンの種別・性別の集計
group_penguins = penguins.groupby(['species', 'sex'])
print(group_penguins.mean()['body_mass_g'])

In [None]:
# ベンギンの種別・島別・性別の集計
group_penguins = penguins.groupby(['species', 'island', 'sex'])
print(group_penguins.mean()['body_mass_g'])

### 6-10 実装：欠損値の扱いに注意

#### 10-A 欠測値

In [None]:
# body_mass_gの４番目の値は欠測
print(penguins[['species','body_mass_g']].head(n = 4))

In [None]:
# 参考：欠損データの抽出（教科書には載っていないコードです）
# Adelie種のペンギンでbody_mass_gが欠測であるのは１データのみです
penguins[penguins.isnull().any(axis=1)]

#### 10-B 欠測値に対する挙動

In [None]:
# 種別でグループ分けしてbody_mass_gのサンプルサイズを調べる
group_sp = penguins.groupby(['species'])
print(group_sp.count()['body_mass_g'])

In [None]:
# サンプルサイズを151と考えて平均値を計算
round(group_sp.sum()['body_mass_g'].Adelie / 151, 3)

In [None]:
# 層別に平均値を計算
round(group_sp.mean()['body_mass_g'].Adelie, 3)

### 6-11 実装：単純なヒストグラム

In [None]:
bins = np.arange(2,11,1)
bins

In [None]:
sns.histplot(x='length',      # x軸
             data=fish_multi, # データ
             bins=bins,       # bins
             color='gray')  # 色の指定(グレースケール)

### 6-12 実装：グループ別のヒストグラム

In [None]:
sns.histplot(x='length',      # x軸
             hue='species',   # 色分けの対象
             data=fish_multi, # データ
             bins=bins,       # bins
             palette='gray')  # 色の指定(グレースケール)

#### （以下は参考）層別のカーネル密度推定も、ヒストグラムと同様に実行可能です

In [None]:
# 単純なカーネル密度推定の結果(書籍には載っていないコードです)
sns.kdeplot(data=fish_multi, # データ
             x='length',     # x軸
             color='gray')   # 色の指定(グレースケール)

In [None]:
# グループ別にしたカーネル密度推定の結果(書籍には載っていないコードです)
sns.kdeplot(data=fish_multi,  # データ
             x='length',      # x軸
             hue='species',   # 色分けの対象
             palette='gray')  # 色の指定(グレースケール)

## 7章　グラフの活用

### 7-1 実装：分析の準備

In [None]:
# 数値計算に使うライブラリ
import numpy as np
import pandas as pd

# グラフを描画するライブラリ
from matplotlib import pyplot as plt
import seaborn as sns
sns.set()

In [None]:
# 表示設定(書籍本文のレイアウトと合わせるためであり、必須ではありません)
np.set_printoptions(linewidth=60)
pd.set_option('display.width', 60)

from matplotlib.pylab import rcParams
rcParams['figure.figsize'] = 8, 4

### 7-3 実装：分析対象となるデータの読み込み

#### 3-A 2つの数量データ

In [None]:
import io
import pandas as pd
from google.colab import files
uploaded = files.upload()

In [None]:
# 2つの数量データ
# cov_data = pd.read_csv('3-5-1-cov.csv')

cov_data = pd.read_csv(io.BytesIO(uploaded['3-5-1-cov.csv']))
print(cov_data.head(3))

In [None]:
import io
import pandas as pd
from google.colab import files
uploaded = files.upload()

In [None]:
# 折れ線グラフのためのデータ(2つの数量データ)
# lineplot_df = pd.read_csv('3-7-1-lineplot-data.csv')

lineplot_df = pd.read_csv(io.BytesIO(uploaded['3-7-1-lineplot-data.csv']))
print(lineplot_df.head(3))

#### 3-B 数量データとカテゴリーデータが混ざったデータ

In [None]:
import io
import pandas as pd
from google.colab import files
uploaded = files.upload()

In [None]:
# 数量データとカテゴリーデータが混ざったデータ
# fish_multi = pd.read_csv('3-6-1-fish_multi.csv')

fish_multi = pd.read_csv(io.BytesIO(uploaded['3-6-1-fish_multi.csv']))
print(fish_multi.head(3))

In [None]:
# seaborn組み込みのペンギンのデータを取得
penguins = sns.load_dataset('penguins')
print(penguins.head(3))

### 7-4 実装：散布図

In [None]:
sns.scatterplot(x='x', y='y', data=cov_data, color='black')

In [None]:
# 参考：相関係数(書籍には載っていないコードです)
np.corrcoef(cov_data['x'], cov_data['y'])

### 7-5 実装：グラフの装飾と保存

#### 5-A 日本語を表記する準備

In [None]:
# グラフの日本語表記
from matplotlib import rcParams
rcParams['font.family'] = 'sans-serif'
rcParams['font.sans-serif'] = 'Meiryo'

#### 5-B グラフの装飾と保存

In [None]:
# 散布図
sns.scatterplot(x='x', y='y', data=cov_data, color='black')

# 装飾
plt.title('seabornによる散布図') # グラフタイトル
plt.xlabel('xラベル')            # X軸ラベル
plt.ylabel('yラベル')            # Y軸ラベル

# グラフの保存
plt.savefig('散布図の例.jpeg')

### 7-6 実装：折れ線グラフ

In [None]:
sns.lineplot(x='x', y='y', data=lineplot_df, color='black')

### 7-7 実装：棒グラフ

In [None]:
sns.barplot(x='species', y='length',
            data=fish_multi, color='gray')

### 7-8 実装：箱ひげ図

In [None]:
# 箱髭図
sns.boxplot(x='species', y='length',
            data=fish_multi, color='gray')

In [None]:
print(fish_multi.groupby("species").describe())

### 7-9 実装：バイオリンプロット

In [None]:
sns.violinplot(x='species', y='length',
            data=fish_multi, color='gray')

### 7-10 補足するPythonコード

ここでは、本文を補足するPythonコードを実装しています。<br>
**本文中には記載のないコード**ですので注意してください。

#### 散布図の例

In [None]:
# 散布図
sns.relplot(kind='scatter',
            x='x', y='y', data=cov_data,
            color='black')

#### 分布の可視化

In [None]:
bins = np.arange(2,11,1)
bins

In [None]:
# figure-level関数

# ヒストグラム
sns.displot(kind='hist',
            x='length',      # x軸
            hue='species',   # 色分けの対象
            data=fish_multi, # データ
            bins=bins,       # bins
            palette='gray',
            height=3,
            aspect=2)

# カーネル密度推定
sns.displot(kind='kde',
            x='length',      # x軸
            hue='species',   # 色分けの対象
            data=fish_multi, # データ
            palette='gray',
            height=3,
            aspect=2)

#### 数量データ同士のグラフ

In [None]:
# figure-level関数

# 散布図
sns.relplot(kind='scatter',
            x='x',
            y='y',
            data=cov_data,
            color='gray',
            height=3,
            aspect=2)

# 折れ線グラフ
sns.relplot(kind='line',
            x='x',
            y='y',
            data=cov_data,
            color='gray',
            height=3,
            aspect=2)

#### カテゴリーデータと数量データのグラフ

In [None]:
# figure-level関数

# 棒グラフ
sns.catplot(kind='bar',
            x='species',
            y='length',
            data=fish_multi,
            palette='gray',
            height=3,
            aspect=2)

# 箱ひげ図
sns.catplot(kind='box',
            x='species',
            y='length',
            data=fish_multi,
            palette='gray',
            height=3,
            aspect=2)

# バイオリンプロット
sns.catplot(kind='violin',
            x='species',
            y='length',
            data=fish_multi,
            palette='gray',
            height=3,
            aspect=2)

### 7-11 実装：種別・性別のバイオリンプロット

In [None]:
# axis-level関数

# 描画オブジェクトを生成
fig, ax = plt.subplots(figsize=(8, 4))

# バイオリンプロットの描画
sns.violinplot(x='species', y='body_mass_g', hue='sex',
               data=penguins, palette='gray',
               ax=ax)

### 7-12 実装：種別・性別・島別のバイオリンプロット

In [None]:
# figure-level関数
sns.catplot(kind='violin',
            x='species', y='body_mass_g',
            hue='sex', col='island',
            data=penguins, palette='gray',
            height=4, aspect=0.7)

In [None]:
# 参考（本文には記載していません）
# 実装難易度がやや高いので、飛ばして大丈夫です

# グラフタイトルなどのつけ方など、より詳細なグラフの装飾の方法を解説します。

# 参考資料
# https://seaborn.pydata.org/generated/seaborn.catplot.html
# https://seaborn.pydata.org/generated/seaborn.FacetGrid.html#seaborn.FacetGrid
# http://seaborn.pydata.org/generated/seaborn.plotting_context.html
# https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.suptitle.html

# グラフのフォントを全体的に大きくする。
with sns.plotting_context('talk'):
    # figure-level関数でバイオリンプロットを描く
    g = sns.catplot(kind='violin',
                    x='species', y ='body_mass_g',
                    hue='sex', col='island',
                    data=penguins, palette='gray',
                    height=6, aspect=0.8)

    # X軸ラベル
    g.set_xlabels('ペンギンの種類')
    g.set_xticklabels(['アデリー', 'ヒゲ', 'ジェンツー']) # Adélie=アデリーペンギン、Chinstrap=ヒゲペンギン、Gentoo=ジェンツーペンギン

    # Y軸ラベル
    g.set_ylabels('ペンギンの体重(g)')

    # グラフごとのタイトル
    g.set_titles(col_template='{col_name} 島', size=15)

    # グラフ全体のタイトル
    g.fig.suptitle('種別・性別・島別のペンギン体重のバイオリンプロット', y=1.1, size=30)

    # 凡例のタイトル
    g.legend.set_title('性別')

### 7-13 実装：ペア・プロット

In [None]:
# ペアプロット
sns.pairplot(hue='species', data=penguins, palette='gray')