<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2019/images/lec_title.png?raw=true" alt="2019年度ゲノム情報解析入門" height="100px" align="middle">

# Pythonライブラリを使う - 基礎 - [課題]

実習テキストは [こちら](https://colab.research.google.com/github/CropEvol/lecture/blob/master/textbook_2019/L06_python_libraries.ipynb)

## 課題で使うデータセット
　実習と同じく、この課題でもアヤメデータセットを使います。このアヤメデータは、3種のアヤメ *Iris setosa* と *I. versicolor*、*I. virginica* 各50個体（計150個体）の外花被片と内花被片の長さ・幅を測定したデータセットです。

- sepal_length: 外花被片の長さ
- sepal_width: 外花被片の幅
- petal_length: 内花被片の長さ
- petal_width: 内花被片の幅
- species: 種名このデータセットの詳しい解説は、実習テキストを参照してください。

<img src="http://suruchifialoke.com/img/ML/iris.png" alt="iris_flower" height="200px">

<small>画像は [Classification of Iris Varieties](http://suruchifialoke.com/2016-10-13-machine-learning-tutorial-iris-classification/) から引用 </small>

　下記のコードを実行して、このアヤメデータのファイル「iris.csv」をダウンロードしてください。 

In [0]:
# アヤメデータをダウンロードする
# ダウンロードファイル: iris.csv
!wget https://raw.githubusercontent.com/CropEvol/lecture/master/textbook_2019/dataset/iris.csv -O iris.csv

## データセットの読み込み例

In [0]:
# 使用するライブラリ
import pandas as pd

# pandasでデータセットを読み込む
df = pd.read_csv("iris.csv", sep=",", header=0)

# データ確認: 先頭5行のみ
df.head(10)

## 課題内容
- 課題1: 列同士の計算をする
- 課題2: 条件にあったデータを抽出する
- 課題3: ヒストグラムを描く
- 課題4: 平均値の差の検定（ウェルチの$t$検定）をする
- 課題の提出方法

### 課題1: 列同士の計算をする

　外花被片の長さと幅の比（sepal_ratio）、内花被片の長さと幅の比（petal_ratio）をそれぞれ求めて、新しい列として加えてください。

- 外花被片の長さと幅の比 $sepal\_ratio = \frac{sepal\_length}{sepal\_width}$
- 内花被片の長さと幅の比 $petal\_ratio = \frac{petal\_length}{petal\_width}$

In [0]:
# ライブラリ準備＆データセットを読み込み
import pandas as pd
df = pd.read_csv("iris.csv", sep=",", header=0)

# /// 以降に追記してください。 ///



#### 解答例

In [0]:
# 使用するライブラリ
import pandas as pd
# pandasでデータセットを読み込む
df = pd.read_csv("iris.csv", sep=",", header=0)

# 新しい列を追加する
df["sepal_ratio"] = df["sepal_length"] / df["sepal_width"]  # 外花被片の長さと幅の比
df["petal_ratio"] = df["petal_length"] / df["petal_width"]  # 内花被片の長さと幅の比

# 確認
df.head(5)

### 課題2: 条件にあったデータを抽出する

　種名（speciesの列）が `Iris-versicolor` のデータのみを抽出して、新しい変数に代入してください。同様に、`Iris-virginica` のデータのみを抽出して、別の新しい変数に代入してください。

In [0]:
# /// 以降に追記してください。 ///



#### 解答例

In [0]:
# Iris versicolor のデータを抽出
# 書き方: df[ (条件式) ]
versicolor = df[df["species"] == "Iris-versicolor"]

# Iris virginica のデータを抽出
virginica = df[df["species"] == "Iris-virginica"]


# 確認
versicolor
virginica

### 課題3: ヒストグラムを描く

　*Iris versicolor* と *I. virginica* の `sepal_ratio`（課題1で算出） のヒストグラムを "一つのグラフ"として描画してください。その際、それぞれのデータには次のオプションを付けてください。
- *I. versicolor*: 赤色 `color="red"`、透明度50% `alpha=0.5`、ラベル `label="versicolor"`
- *I. virginica*: 　青色 `color="blue"`、透明度50% `alpha=0.5`、ラベル `label="virginica"` 

In [0]:
# Matplotlibのpyplot機能を準備
import matplotlib.pyplot as plt

# /// 以降に追記してください。 ///



#### 解答例

In [0]:
# Matplotlibのpyplot機能を準備
import matplotlib.pyplot as plt


# 描画するデータ
x1 = versicolor["sepal_ratio"]
x2 = virginica["sepal_ratio"]

# グラフ描画
plt.hist(x2, color="blue", label="virginica", alpha=0.5)   # virginicaのヒストグラム
plt.hist(x1, color="red", label="versicolor", alpha=0.5)  # versicolorのヒストグラム
plt.xlabel("sepal ratio")       # x軸ラベル
plt.ylabel("No. of samples")  # y軸ラベル
plt.legend()  #　凡例
plt.show()  # 表示

### 課題4: 平均値の差の検定（ウェルチの$t$検定）をする

　*Iris versicolor* と *I. virginica* の `sepal_ratio`（課題1で算出） の平均値には差があるか？ ウェルチの$t$検定をおこなって調べてください。

In [0]:
# SciPyライブラリのstatsを準備
from scipy import stats

# /// 以降に追記してください。 ///



（検定結果から言えることをこのテキストセルに記述してください。）




#### 解答例 

In [0]:
# SciPyライブラリのstatsを準備
from scipy import stats

# ウェルチのt検定
t, p = stats.ttest_ind(versicolor["sepal_ratio"], virginica["sepal_ratio"], equal_var=False)
print("t-value:", t)
print("p-value:", p)

　帰無仮説「*Iris versicolor* と *I. virginica* のsepal_ratioの平均値に差がない」確率は p>0.05 であるため、帰無仮説を棄却できない。したがって、2種のsepal_ratioの平均値には有意な差がない。

#### 補足
```
正規性を前提にした検定（t検定）で調べても良いのか？
```

　なんでもかんでも $t$ 検定をすれば良いわけではありません。

　上の問題のそれぞれの分布は、実際には正規分布にしたがっていません（下記コード「Shapiro-Wilk test」を参照）。したがって、$t$ 検定で調べるべき問題ではありません。悪い統計検定の例です。

　ここでは、正規分布に従わない場合の検定「ウィルコクソン順位和検定(Wilcoxon rank-sum test)」をおこなうのが適切でしょう。

In [0]:
#/// Shapiro-Wilk test (正規性の検定) ///
# 帰無仮説: 正規分布にしたがっている
# 対立仮説: 正規分布にしたがっていない

from scipy import stats

# データ
x1 = versicolor["sepal_ratio"]
x2 = virginica["sepal_ratio"]

# 検定
w1, p1 = stats.shapiro(x1)
w2, p2 = stats.shapiro(x2)

# p-valueを表示
print('versicolor:', p1)
print('virginica:', p2)

In [0]:
#/// Wilcoxon rank-sum test (正規性の検定) ///
# 2つのデータ間の中央値に差があるかどうかを検定する
# 帰無仮説: 中央値に差がない
# 対立仮説: 中央値に差がある

from scipy import stats

# データ
x1 = versicolor["sepal_ratio"]
x2 = virginica["sepal_ratio"]

# 検定
T, p = stats.wilcoxon(x1, x2)

# p-valueを表示
print(p)

## 課題の提出方法
1. 課題を終えたノートブックをダウンロードする
  - ダウンロード方法: 「ファイル」 > 「.ipynb をダウンロード」
1. メールで課題を提出する
  - 提出先メールアドレス: cropevol@gmail.com
  - メール件名: HW[課題番号(2桁)]+SID[学籍番号(4桁-2桁-４桁)]（**すべて半角英数**） にする
    - 課題番号: 06
    - 例: HW06+1234-56-7890
  - メール本文: 未入力でも構いません
  - 添付ファイル: ダウンロードしたノートブックファイル（.ipynb）を添付する
  - 提出締切: 11月18日（月）

<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2019/images/submit_homework_L06.png?raw=true" alt="課題提出" height="400px" align="middle">