# 統計解析
Scipyを用いた各種統計検定・推定、Scikit-Learnを用いた機械学習について触れ、ゲノム解析にどの様に活用出来るのかを学ぶ。

## Contents

### Introduction
* [今回からの実習内容](#0.1)

### Scipyによる基礎的な統計処理
1. [データセットを読み込む](#1.1)
1. [基本統計量を算出する](#1.2)
1. [基本的な統計検定を行う](#1.3)
1. [ゲノムデータにおける検定の利用](#1.4)

### Scikit-Learn(sklearn)による回帰分析
1. [(重)回帰分析](#1.5)
1. [ゲノムデータにおける(重)回帰分析](#1.6)

## Introduction

これまで、Pythonの基本的な書き方を学び、データをどの様に読み込むのか、<br>
どの様にデータを抽出するのかといった、データの基本的な扱い方を学びました。

ここからの実習では、実際に扱える様になったデータセットを活用し、簡単な推測や予測を行っていきたいと思います。<br>

具体的には、
* [Scipy](https://docs.scipy.org/doc/scipy/reference/)ライブラリを利用した、基本的な統計処理、統計的推定  
* [Scikit-Learn](https://scikit-learn.org/stable/)ライブラリを利用した、基本的な機械学習手法を用いた予測

を行っていきます。

### 本日の実習内容<a name="0.1"></a>

* [Scipy](https://docs.scipy.org/doc/scipy/reference/)ライブラリを利用し、基本的な統計検定を実装する。
* [Scikit-Learn](https://scikit-learn.org/stable/)ライブラリを利用し、(重)回帰分析を行う。
* 上記の手法をゲノム解析に応用する。

#### 次回以降の実習内容
* 統計学と機械学習の違いを学ぶ
* 機械学習の基本的な流れを学ぶ
* 問題点など
* いくつか代表的な機械学習の手法を試す
* ディープラーニングなどの紹介

## Scipyによる統計処理
### サンプルデータ

まずは、基本的な統計処理を実装するためのサンプルとして、Irisデータセットを利用します。<br>
このデータセットには、“setosa”, “versicolor”, “virginica” という3種類の品種のアヤメのデータが含まれており、<br>
がく片(Sepal)、花弁(Petal)の幅および長さを計測したデータが用意されています。<br>

データは150件、アヤメの3品種のデータがそれぞれ50件ずつ準備されています。

### 1. Irisデータセットを読み込む<a name="1.1"></a>

In [None]:
"""
＊重要＊
最初にこのセルを実行してください。
サンプルデータをダウンロードします。
"""

#--- 必要なライブラリを読み込む  ---
import pandas as pd
import numpy as np
import math
import scipy.stats
import matplotlib.pyplot as plt

#--- irisデータセットを読み込む ---
#--- header=Noneにより列名なし、names=[...]によって列名を指定する。
iris = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data', 
                 header=None, names=['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class'])
#--- データを表示
iris

In [None]:
# 種毎のsepal_widthのデータを取得
setosa = iris[iris['class'] == 'Iris-setosa'].sepal_width         # Iris setosa(ヒオウギアヤメ)
virginica = iris[iris['class'] == 'Iris-virginica'].sepal_width   # Iris virginica
versicolor = iris[iris['class'] == 'Iris-versicolor'].sepal_width # Iris versicolor
setosa

# グラフでsetosaを表示
# plt.hist(setosa)
# plt.show()

### 2. 基本統計量を算出する<a name="1.2"></a>

In [None]:
# 平均や分散など、基本的な統計量を算出

##### setosaのsepal_width一覧 #####
setosa

##### setosaのsepal_widthの最大値 #####
# max_value = setosa.max()
# print("sepal_width_max:", max_value)

##### setosaのsepal_widthの最小値 #####
# min_value = setosa.min()
# print("sepal_width_min:", min_value)

##### setosaのsepal_widthの平均値 #####
# mean_value = setosa.mean()
# print("sepal_width_mean:", mean_value)

##### setosaのsepal_widthの不偏分散 #####
# var_value = setosa.var()
# print("sepal_width_var:", var_value)

##### setosaのsepal_widthの標本分散 #####
# sample_var = setosa.var(ddof=False)
# print("sepal_width_sample_var:", sample_var)

##### setosaのsepal_widthの不偏標準偏差 #####
# std_value = setosa.std()
# print("sepal_width_std:", std_value)

##### setosaのsepal_widthの標本標準偏差 #####
# sample_std = setosa.std(ddof=False)
# print("sepal_width_sample_std:", sample_std)

#### (参考)平均値の信頼区間を求める
\begin{align}
\bar{X}-t_{\frac{a}{2}(n-1)}\sqrt{\frac{s^2}{n}} < \mu < \bar{X}+t_{\frac{a}{2}(n-1)}\sqrt{\frac{s^2}{n}}
\end{align}

In [None]:
##### (参考)平均値の信頼区間を求める(t分布)
n = len(setosa) #個体数                                    
interval = scipy.stats.t.interval(alpha=0.95,                        # 有意水準
                                  df=n-1,                            # 自由度 
                                  loc=setosa.mean(),                 # 平均
                                  scale=math.sqrt(setosa.var() / n)) # 標準偏差
print("平均値の信頼区間(95%):", interval)

##### (参考)平均値±範囲で表したい場合、ppfは％点関数(t分布表の値を取得する関数)。
# mean_value = setosa.mean()
# under = scipy.stats.t.ppf(0.025, df=n-1) * math.sqrt(setosa.var() / n)
# upper = scipy.stats.t.ppf(0.975, df=n-1) * math.sqrt(setosa.var() / n)
# print("平均値の信頼区間(95%):", mean_value, "±", upper)

##### (参考)平均値の信頼区間を求める(正規分布)
##### ※nが大きくなるほど、t分布は正規分布に近付く
# interval = scipy.stats.norm.interval(alpha=0.95,                        # 有意水準
#                                      loc=setosa.mean(),                 # 平均
#                                      scale=math.sqrt(setosa.var() / n)) # 標準偏差
# print("平均値の信頼区間(95%, nが大きい時):", interval)

In [None]:
##### 各iris種のsepal_widthに関する統計量をまとめる
data = {
        "species":["setosa", "virginica", "versicolor"],
        "max": [setosa.max(), virginica.max(), versicolor.max()],
        "min": [setosa.min(), virginica.min(), versicolor.min()],
        "mean": [setosa.mean(), virginica.mean(), versicolor.mean()],
        "unbiased variance":[setosa.var(), virginica.var(), versicolor.var()],
        "standard deviation":[setosa.std(), virginica.std(), versicolor.std()],
       }
pd.DataFrame(data)

### 3. 基本的な統計検定を行う<a name="1.3"></a>

* setosaの母平均は3.5と仮定できるか？ → 母平均の仮説検定

\begin{align}
H_0:\mu_0 = 3.5 \quad H_1:\mu_0 \neq 3.5 \quad t_0 = \frac{\bar{X}-\mu_0}{\sqrt{\frac{s^2}{n}}} \quad t_0 > t(df, α=0.05)で棄却
\end{align}

* versicolorとvirginicaの平均値には差があると言って良いのか？ → 母平均の差の仮説検定　　(※等分散でない場合自由度$df=\upsilon$を用いる)

\begin{align}
H_0:\mu_X - \mu_Y = 0 \quad H_1:\mu_X - \mu_Y \neq 0
\end{align}

\begin{align}
s^2 = \frac{(n_X - 1)s^2_X+(n_Y - 1)s^2_Y}{n_X+n_Y-2} \quad t_0 = \frac{\bar{X}-\bar{Y}}{s\sqrt{\frac{1}{n_X} + \frac{1}{n_Y}}} \quad \upsilon=\frac{(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2})^2}{\frac{(\frac{s_1^2}{n_1})^2}{n_1-1}+\frac{(\frac{s_2^2}{n_2})^2}{n_2-1}} \quad t_0 > t(df, α=0.05)で棄却
\end{align}

In [None]:
##### 母平均の仮説検定 #####
mu_0 = 3.5
scipy.stats.ttest_1samp(setosa, popmean=mu_0) 

### t統計量、p値の順で表示される。
### p値が0.05以上なので、有意水準のもとでμ=3.5は棄却されない。


##### 母平均の差の仮説検定 ~等分散を仮定した場合~ #####
# scipy.stats.ttest_ind(versicolor, virginica)

### t統計量、p値の順で表示される。
### p値が0.05以下なのでμ_X - μ_Y = 0は有意水準0.05のもとで棄却される。


##### 分散比のF検定 #####
# f = versicolor.var() / virginica.var() 
# dfx = 50 - 1
# dfy = 50 - 1
# scipy.stats.f.cdf(f, dfx, dfy)

### p値が0.05以上なので、有意水準のもとで分散が等しいという帰無仮説は棄却されない


##### (参考) 母平均の差の仮説検定 ~分散が異なると仮定した場合~ #####
# scipy.stats.ttest_ind(versicolor, virginica, equal_var=False)

### t統計量、p値の順で表示される。
### p値が0.05以下なのでμ_X - μ_Y = 0は有意水準0.05のもとで棄却される。

#### (参考)他にも、対応のあるt検定や適合度の検定、独立性の検定など様々な統計検定の関数が用意されている。

* 適合度の検定の例

サイコロの各目の出る確率は1/6という仮説に従っているか？→適合度のカイ二乗検定

|サイコロの目|1|2|3|4|5|6|計|
|--------|---|-|-|-|-|-|-|
|観測度数f |10|7|8|11|6|8|50|
|期待度数 |50/6|50/6|50/6|50/6|50/6|50/6|50|

\begin{align}
H_0: p_i=1/6 \quad(i=1...6) \quad H_1:p_i \neq 1/6 \quad \chi^2 = \sum_{i} \frac{(f_i - np_i)^2}{np_i} \quad \chi^2 > \chi^2(df, α=0.05)で棄却
\end{align}

In [None]:
scipy.stats.chisquare([10, 7, 8, 11, 6, 8], f_exp=[50/6, 50/6, 50/6, 50/6, 50/6, 50/6])
### カイ二乗値とp値の順で表示される
### p値が0.05以上なので、有意水準のもとでp=1/6は棄却されない。

* 独立性の検定の例

喫煙とある病気の発症には関係があるのか？→独立性のカイ二乗検定

||非喫煙者(non-smoker)|喫煙者(smoker)|計|
|--------|---|-|-|
|患者(bad)|117|54|171|
|健康者(good)|954|148|1102|
|計|1071|202|1273|

\begin{align}
\chi^2=\sum_i \sum_j \frac{(nf_{ij}-f_{i \cdot}f_{\cdot j})^2}{nf_{i \cdot}f_{\cdot j}} \quad \chi^2 > \chi^2(df, α=0.05)で棄却
\end{align}

In [None]:
# 検定したいデータセットの作成
smoking_df = pd.DataFrame({
    'non-smoker': [117, 954],
    'smoker': [54, 148]
}, index=['bad', 'good'])

print(smoking_df)

scipy.stats.chi2_contingency(smoking_df)
### カイ二乗値、P値、自由度、期待度数の順で表示される。
### p値が0.05以下なので、有意水準のもとで2つの属性が独立しているという仮定が棄却される。

### 4. ゲノム解析で用いると<a name="1.4"></a>

#### 4_1 データセット

サンプルデータとして、200個体分の葉の幅、葉の長さ、病気の有無、及び10番染色体上に存在する10個の塩基の情報を利用する。

In [None]:
###### 塩基配列と形質値・病気抵抗性
gene_data = pd.read_csv("data/gene_data.csv", index_col=0)
gene_data

#### 4_2 塩基が変化することによる量的形質への影響

ある塩基を持つか持たないかにより、形質値に変化があるのかをt検定してみる<br>
chr10_1の塩基がGからAに変化することで、葉の長さに影響はあるか？
<img src="data/compare.png" alt="compare" width="50%" height="50%">

In [None]:
###### chr10_1がGの個体の葉の長さ、Aの個体の葉の長さをそれぞれ取得 #####
G_data = gene_data[gene_data["chr10_1"] == "G"].LeafLength
A_data = gene_data[gene_data["chr10_1"] == "A"].LeafLength
gene_data[gene_data["chr10_1"] == "G"]

###### 箱ひげ図で表示してみる ######
# plt.title("Leaf Length")
# plt.boxplot((G_data, A_data))
# plt.xticks([1, 2], ["G", "A"])
# plt.xlabel("chr10_1")
# plt.show()

###### 平均値の差をt検定 ######
# scipy.stats.ttest_ind(G_data, A_data, equal_var=False)

### chr10_1の位置の遺伝子に、葉の長さを調整する機能があるのかもしれない。

#### 4_3 塩基が変化することによる質的形質への影響

ある塩基を持つか持たないかにより、病気の抵抗性に変化があるのかを独立性の検定をする。<br>
chr10_2の塩基がGからAに変化することで、病気の抵抗性に影響はあるか？
<img src="data/compare2.png" alt="compare2" width="50%" height="50%">

In [None]:
###### chr10_2と病気の各条件の個体数を取得
G_True = gene_data[(gene_data["chr10_2"] == "G") & (gene_data["disease"] == True)].shape[0]
G_False = gene_data[(gene_data["chr10_2"] == "G") & (gene_data["disease"] == False)].shape[0]
A_True = gene_data[(gene_data["chr10_2"] == "A") & (gene_data["disease"] == True)].shape[0]
A_False = gene_data[(gene_data["chr10_2"] == "A") & (gene_data["disease"] == False)].shape[0]

disease_df = pd.DataFrame({
    'G': [G_True, G_False],
    'A': [A_True, A_False]
}, index=['True', 'False'])

print(disease_df)

scipy.stats.chi2_contingency(disease_df)

### chr10_2の位置の遺伝子に、病気抵抗性に関連する機能があるのかもしれない。

### 検定による手法の限界・問題点

* 実際には遺伝子は更に沢山あり((ex)イネの場合約30,000遺伝子)、たった1つの遺伝子(座)が影響を及ぼしているとは思えない。

　→　複数の遺伝子の影響を考慮する必要がある。<br>
　→　t検定や独立性の検定では前提条件・多重検定等の問題をクリアできない

* 形質に影響を及ぼしているのは、遺伝子だけではなく、環境や生育条件など、他にも様々な要因が影響している。

　→　遺伝子以外の他要因を考慮できる分析モデルが必要。

## Scikit-Learn(sklearn)による回帰分析
### 1. (重)回帰分析<a name="1.5"></a>

複数の要因を考慮可能な手法として、最も簡易な線形回帰がまず挙げられる。<br>
これは、説明変数の値から目的変数の値を予測するモデルである。<br>
<img src="data/regression_base.png" alt="reg_base" width="50%" height="50%">
まず１要因のみを考慮する単回帰分析を説明したのち、複数の要因を考慮に入れた重回帰分析を説明する。<br>

#### 単回帰分析
例としてirisデータセットのsepal_lengthをsepal_widthデータでどれだけ説明できるか、回帰分析を行う。<br>

$ Y(sepal\_length) = \beta * X(sepal\_width) + e \quad →\beta$と$e$を求める。

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
##### irisデータセットを読み込む ######
iris = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data', 
                 header=None, names=['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class'])
setosa = iris[iris['class'] == 'Iris-setosa']
setosa.head()

$ Y(sepal\_length) = \beta * X(sepal\_width) + e$

In [None]:
# sklearnライブラリを読み込む
from sklearn import linear_model

# まずはモデルを選択
clf = linear_model.LinearRegression()

# 説明変数に "sepal_width" を利用
X = setosa[["sepal_width"]]

# 目的変数に "sepal_length" を利用
Y = setosa[["sepal_length"]]

# 予測モデルを作成
clf.fit(X, Y)
 
# 回帰係数
print(clf.coef_)
 
# 切片 (誤差)
print(clf.intercept_)
 
# 決定係数
print(clf.score(X, Y))

つまり、回帰式は以下の様に表される。<br>
$ Y(sepal\_length) = 0.6908544 × X(sepal\_width) + 2.64465968$

また、決定係数は以下の式で計算され、目的変数の予測値が、実際の目的変数の値とどのくらい一致しているかを表している指標です。<br>
\begin{align}
R^{2}= 1-{\sum _{i}(y_{i}-f_{i})^{2} \over \sum _{i}(y_{i}-{\bar {y}})^{2}} \quad 0 \leqq R^2 \leqq 1
\end{align}

In [None]:
# 可視化
plt.scatter(X, Y, color="black")
 
# Xの最小値から最大値まで0.1刻み、モデルに合わせてYの値を出力
# [:,np.newaxis]で2次元データに変換する
px = np.arange(X.min(), X.max(), 0.1)[:,np.newaxis]
# 学習したモデルでpyを出力
py = clf.predict(px)
 
# 回帰直線
plt.plot(px, py, color="b")
 
plt.title("Relationship Width & Length")
plt.xlabel("Sepal Width")
plt.ylabel("Sepal Length")
plt.show()

# 実測値と予測値の比較
# predict_value = clf.predict(X)
# plt.plot(range(len(Y)), Y, color="b")
# plt.plot(range(len(Y)), predict_value, color="r")
 
# plt.title("Measured value vs Prediction")
# plt.xlabel("n")
# plt.ylabel("Sepal Length")
# plt.show()

続いて、重回帰分析を行う。<br>

今度は全種のsepal_lengthをsepal_width, petal_length, petal_widthによって説明する回帰分析を行う。<br>

$Y(sepal\_length) = \beta_1*X_1(sepal\_width) + \beta_2*X_2(petal\_length) + \beta_3*X_3(petal\_width) + e$

In [None]:
# モデルを選択
clf = linear_model.LinearRegression()

# 説明変数に "sepal_width" を利用
X = iris[["sepal_width", "petal_length", "petal_width"]]

# 目的変数に "sepal_length" を利用
Y = iris[["sepal_length"]]

# 予測モデルを作成
clf.fit(X, Y)
 
# 回帰係数
print(clf.coef_)
 
# 切片 (誤差)
print(clf.intercept_)
 
# 決定係数
print(clf.score(X, Y))

つまり、回帰式は以下の様に表される。<br>
$ Y(sepal\_length) = 0.65486424 × X(sepal\_width) + 0.71106291 × X(petal\_length) + -0.56256786 × X(petal\_width) + 1.8450608$

In [None]:
# 実測値と予測値の比較
predict_value = clf.predict(X)
plt.figure(figsize=(15, 8), dpi=50)

plt.plot(range(len(Y)), Y, color="b")
plt.plot(range(len(Y)), predict_value, color="r")

plt.title("Measured value vs Prediction")
plt.xlabel("n")
plt.ylabel("Sepal Length")
plt.show()

##### <参考>  (重)回帰分析の最小二乗法の解法について

\begin{align}
y = \beta_1x_1 + \beta_2x_2 + \beta_2x_2 + \beta_3x_3... + \beta_kx_k + e \\
\end{align}<br>

と回帰式を表すとき、全個体のデータは以下の様に表せる。

\begin{align}
\boldsymbol{y} = \boldsymbol{X} \boldsymbol{\beta} + \boldsymbol{e}
\end{align}

\begin{align}
\boldsymbol{y} = \left[\begin{array}{c}
            y_1 \\
            y_2 \\
            ... \\
            y_n \\
        \end{array}\right] \quad
\boldsymbol{X} = \left[\begin{array}{c}
            x_{11} & x_{21} & x_{31} & ... & x_{k1} \\
            x_{12} & x_{22} & x_{32} & ... & x_{k2} \\
            ... & ... & ... & ... & ...\\
            x_{1n} & x_{2n} & x_{3n} & ... & x_{kn} \\
        \end{array}\right] \quad
\boldsymbol{\beta} = \left[\begin{array}{c}
            \beta_1 \\
            \beta_2 \\
            ... \\
            \beta_k \\
        \end{array}\right] \quad
\boldsymbol{e} = \left[\begin{array}{c}
            e_1 \\
            e_2 \\
            ... \\
            e_n \\
        \end{array}\right]
\end{align}

この時、$\boldsymbol{y} - \boldsymbol{X} \boldsymbol{\beta} = \boldsymbol{e}$となり、この$\boldsymbol{e}(e_1,e_2...e_n)$の二乗和$\sum{e_i^2}$が最小となる様な$\boldsymbol{\beta}$の値を求めることになる。<br><br>
各個体の$y_i$の推定値$\hat{y_i} = \boldsymbol{X_i} \boldsymbol{\beta}$とすると、$E = \sum{e_i^2} = \sum{(\hat{y_i} - y_i)^2}$より$\boldsymbol{e}$の二乗和を求め、各$\beta$に関して偏微分を行うと、<br><br>
$E$を最小とする$\boldsymbol{\beta}$は$\boldsymbol{X'}\boldsymbol{X}\boldsymbol{\beta} = \boldsymbol{X'}\boldsymbol{y}$を計算することによって得られることがわかる。

### 2. ゲノムデータにおける(重)回帰分析<a name="1.6"></a>
ゲノムデータを用いて重回帰分析を行う場合、気をつける点がある。

\begin{align}
y = \beta_1x_1 + \beta_2x_2 + \beta_2x_2 + \beta_3x_3... + \beta_kx_k + e 
\end{align}

\begin{align}
y(形質値) = gene_1の効果 * x_1 + gene_2の効果 * x_2 + gene_3の効果 * x_3 + ...
\end{align}

といった形で表したい訳だが、ゲノムデータは基本的に量的ではなく質的であるという点に気をつける。<br>
これはカテゴリカルデータとも呼ばれ、回帰分析に用いるにはデータを少し変換する必要がある。
<img src="data/categorical.png" alt="categorical" width="30%" height="30%">

##### カテゴリカルデータの扱い方の一例

ある一塩基の効果を回帰式によって調べたい場合
<img src="data/categorical2.png" alt="categorical2" width="75%" height="75%">

このような変換は、pandasの`get_dummies()`という関数で行える。<br>

In [None]:
###### 塩基配列と形質値
gene_data = pd.read_csv("data/gene_data.csv", index_col=0)
gene_data.head()

In [None]:
convert_gene_data = pd.get_dummies(gene_data, drop_first=True)
convert_gene_data.head()

In [None]:
# モデル選択
clf = linear_model.LinearRegression()

# 説明変数にchr10の塩基データ(４列目以降)を利用
X = convert_gene_data.iloc[:, 3:]

# 目的変数に "LeafWidth" を利用
Y = convert_gene_data.loc[:, "LeafWidth"]

# 予測モデルを作成
clf.fit(X, Y)

# 回帰係数
print(clf.coef_)
 
# 切片 (誤差)
print(clf.intercept_)
 
# 決定係数
print(clf.score(X, Y))

In [None]:
# 実測値と予測値の比較
predict_value = clf.predict(X)
plt.figure(figsize=(15, 8), dpi=50)

plt.plot(range(len(Y)), Y, color="b")
plt.plot(range(len(Y)), predict_value, color="r")

plt.title("Measured value vs Prediction")
plt.xlabel("n")
plt.ylabel("Sepal Width")
plt.show()

##### 重回帰分析の結果…

回帰式は<br>

$y = 0.016 * x_1 + 0.002 * x_2 + -0.493 * x_3 + ... + 2.96$

となる。決定係数は0.978...と非常に高くLeafWidthをかなりうまく説明していることになる。<br>

決定係数の非常に高い回帰式は、ゲノムデータの様な変数の数が非常に大きな(超高次元データ)において線形回帰するとよく見られる。<br>

それでは果たしてこのような回帰式は現実に即した結果と言えるものだろうか？<br>

実際には大きな問題を含んでいる。次回はこの点から。