<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2019/images/lec_title.png?raw=true" alt="2019年度ゲノム情報解析入門" height="100px" align="middle">

# Pythonライブラリを使う - 基礎 - (1)


## はじめに
　
 研究などで得られたデータの解析をおこなうとき、**ライブラリ**と 言われる追加パッケージを利用して解析を進めるのが一般的です。Pythonには、多数のライブラリがあります。今回の実習では、生物学でよく利用するライブラリの基礎を学びます。

　今回の実習では、次の3つのライブラリを扱います。
 1. pandas
 2. Matplotlib
 3. SciPy
 



## 今回の実習内容と使用するデータ
　最初に、「アヤメ属植物の花の形態データ（アヤメデータ; irisデータ）」を扱います。pandasで、irisデータファイルを読み込み、データ処理方法や基本統計量の取得方法を学びます。その後、Matplotlibで、アヤメデータのグラフを描きます。また、SciPyを使って 、統計処理（種間の形態データには差があるか）をおこないます。　

<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2019/images/data_analysis_flow.png?raw=true" alt="data_analysis_flow" height="300px">

### アヤメデータ（Irisデータ）

　アヤメの花には、外花被片（がく片; sepal）と内花被片（花弁; petal）があり、その内側に雄蕊、雌蕊があります。

<img src="http://suruchifialoke.com/img/ML/iris.png" alt="iris_flower" height="200px">

<small>画像は [Classification of Iris Varieties](http://suruchifialoke.com/2016-10-13-machine-learning-tutorial-iris-classification/) から引用 </small>

　使用するアヤメデータは、3種のアヤメ *Iris setosa* と *I. versicolor*、*I. virginica* 各50個体（計150個体）の外花被片と内花被片の長さ・幅を測定したデータセットです。

- sepal_length: 外花被片の長さ
- sepal_width: 外花被片の幅
- petal_length: 内花被片の長さ
- petal_width: 内花被片の幅
- species: 種名
 
| sepal_length | sepal_width | petal_length | petal_width | species |
|:---:|:---:|:---:|:---:|:---:|
|5.1|3.5|1.4|0.2|Iris-setosa|
|4.9|3.0|1.4|0.2|Iris-setosa|
|4.7|3.2|1.3|0.2|Iris-setosa|
|.....|.....|.....|.....|.....|
|7.0|3.2|4.7|1.4|Iris-versicolor|
|6.4|3.2|4.5|1.5|Iris-versicolor|
|6.9|3.1|4.9|1.5|Iris-versicolor|
|.....|.....|.....|.....|.....|
|6.5|3.0|5.2|2.0|Iris-virginica|
|6.2|3.4|5.4|2.3|Iris-virginica|
|5.9|3.0|5.1|1.8|Iris-virginica|

　下記のコードを実行して、このアヤメデータのファイルをダウンロードしてください。 

In [0]:
# アヤメデータをダウンロードする
# ダウンロードファイル: iris.csv
!wget https://raw.githubusercontent.com/CropEvol/lecture/master/textbook_2019/dataset/iris.csv -O iris.csv

　ダウンロードされるファイルは、単なる**テキストファイル**です。ダウンロード時に表示されるURLをクリックして、テキストファイルの中身を確認してください。

　ファイルの中身をみると、各行には1個体分のデータがあり、形質値と種名が**カンマ（`,`）** で区切られて書かれています。このように、カンマを **区切り文字** に使ったテキストファイルを **カンマ区切りファイル** と言います。


## 1. pandas [<img src="https://dev.pandas.io/static/img/pandas.svg" alt="pandas" height="40px" align="right">](https://pandas.pydata.org/index.html)

　**pandas** は、アヤメデータのようなテーブル状のデータセットを処理・解析するためのライブラリです。Pythonでのデータ解析には、ほぼ必須のライブラリです。

### テキストファイルの読み込み

　早速、先ほどダウンロードしたアヤメデータファイル（iris.csv）をpandasで読み込んでみましょう。重要なポイントは3点です。
- pandasライブラリを使える状態にする  
- pandasでカンマ区切りファイルを読み込む
- 読み込んだデータを確認する

In [0]:
# pandasを使える状態にする
import pandas as pd

# カンマ区切りファイルを読み込む
df = pd.read_csv("iris.csv", sep=",", header=0)

# データを確認する
df

#### `import pandas as pd` の解説

　`import ライブラリ` で、ライブラリを呼び出して使える状態にします。また、`as 略称` により、ライブラリの略称を設定できます。略称の設定は任意です。設定した場合、以降の解析で、ライブラリ名の代わりに、略称を使って、そのライブラリの様々な機能を使用できるようになります。  

```python
# pandasのread_csv機能を使う
# 略称なし
import pandas
pandas.read_csv(......)
# 略称「pd」
import pandas as pd
pd.read_csv(......)
# 略称「ku」
import pandas as ku
ku.read_csv(......)
```

#### `df = pd.read_csv("iris.csv", sep=",", header=0)` の解説

　左辺の `df` は変数です。右辺で実行した結果を変数 `df` に入れています。
 
　右辺では、pandasのread_csv機能を使って、テキストファイルを読み込んでいます。import時にpandasの略称「pd」を設定したため、`pd.read_csv()`と書いています。この内部には3つの情報を書いています。
 
```python
pandas.read_csv(ファイル名, sep=区切り文字, header=ヘッダー行番号)
```

- 今回読み込んだ「iris.csv」はカンマ区切りファイルです。
- 使われている区切り文字を `read_csv` に教えるために`sep=","`と書いています。
- このファイルの一番上の行（Pythonは数のカウントを0から始めるため「0行目」）が各列の名前（**ヘッダー**）であることを指示しています。

　なお、pandasで読み込まれたデータを、**pandasデータフレーム（以下、データフレーム）** と呼ぶことが多いです。

データフレームの各部の名称:
- 先頭の太字で表示される行は、**列名（ヘッダー）**です。
- 左の太字で表示される列は、**行名（インデックス）**です。
- 行と列で指定される１個分の区画のことを**セル**と言います。

<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2019/images/pandas_dataframe.png?raw=true" alt="pandas_dataframe" height="250px">

#### `df` の解説

　print関数を使っていませんが、データの中身を表示できています。この表示には、Google Colaboratoryノートブック自体の機能を使っています。変数名を書くだけで、そこに入っているデータ（ここではデータフレーム）を表示できます。ただし、表示できるデータは、プログラムとして最後に実行されるデータのみです。

In [0]:
# 変数設定
a = 1
b = 2
c = 3
d = 4

# プログラムとして最後に実行されるデータのみ表示可能
a   # これは表示されない
b   # これは表示されない
c   # 表示される
#d  # これはコメント行なので表示されない

### 任意の列のデータを取り出す
　1列分のデータを取り出してみましょう。
 
```python
# 書き方
データフレーム["列名"]
```

In [0]:
# 「外花被片の長さ」の列データを取り出す
df["sepal_length"]

　複数列をまとめて取り出す場合は、次のように書きます。

```python
# 書き方
データフレーム.loc[:, ["列名1", "列名2"]]
データフレーム.loc[:, "開始列名":"終点列名"] # 範囲指定
データフレーム.loc[:, "開始列名":]  # 範囲指定（開始列から最後の列まで）
データフレーム.loc[:, :"終点列名"]  # 範囲指定（最初の列から終点列まで）
``` 

　なお、loc内は、行を指定する場所（カンマの左）と列を指定する場所（カンマの右）に分かれています。今回、行に関しては全ての行を取り出したいので、最初の行から最後の行までを意味するコロン（`:`）のみが書かれています。
 
```python
loc[行名, 列名]
``` 

In [0]:
# df.loc[:, ["sepal_length", "petal_length"]]
# df.loc[:, "sepal_length":"petal_length"]
# df.loc[:, "sepal_length":]
df.loc[:, :"petal_length"]

### 実習1

　次の4列をまとめて取り出してください。 
- 外花被片の長さ（sepal_length）
- 外花被片の幅（sepal_width）
- 内花被片の長さ（petal_length）
- 内花被片の幅（petal_width）

#### 解答例

In [0]:
df.loc[:, "sepal_length":"petal_width"]

### 任意の行のデータを取り出す

　　任意の行を取り出したいとき、 `loc` を使います。

```python
# 書き方
データフレーム.loc[行名]
　または
データフレーム.loc[行名, :]
```

　また、範囲指定で取り出す場合も `loc` を使います。

```python
# 書き方
データフレーム.loc[開始行名:終点行名]
　または
データフレーム.loc[開始行名:終点行名, :]
```

In [0]:
df.loc[0]

In [0]:
df.loc[0:6]

### 任意のセルのデータを取り出す

　「任意の列を取り出す」と「任意の行を取り出す」の応用です。
 
```python
df.loc[行名, 列名]
```

In [0]:
df.loc[0, "sepal_length"]

### 2つの列データの要素同士の計算をする

　列データの要素同士の数値計算も、簡単におこなえます。
 
　以下のコードは、各個体の外花被片（sepal）のおおよその面積を求めて、その結果を新しい列 `sepal_area` としてデータフレームに追加しています。
 
 $$ sepal\_area = sepal\_length \times sepal\_width $$

In [0]:
# 2つの列の数値計算: sepal_length x sepal_width
df["sepal_area"] = df["sepal_length"] * df["sepal_width"] 

# 確認
df

### 実習2

　各個体の内花被片（petal）のおおよその面積を求めて、その結果を新しい列 petal_area としてデータフレームに追加してください。

$$ petal\_area = petal\_length \times petal\_width $$


#### 解答例

In [0]:
# petal_length x petal_width
df["petal_area"] = df["petal_length"] * df["petal_width"] 

# 確認
df

### 条件に合った行データを取り出す

　条件に合った一部のデータをデータフレームから取り出してみましょう。
 
```python
# 書き方
# 条件式が一つの場合、丸括弧()は省略可能です
データフレーム[ (条件式)]

# 条件2つ（AND条件）
データフレーム[ (条件式1) & (条件式2)]
# 条件2つ（OR条件）
データフレーム[ (条件式1) | (条件式2)]
```

　以下のコードでは、	種名（species）が `Iris-setosa` のデータを取り出して、変数`setosa`に代入しています。また、`Iris-versicolor`のデータも取り出して、変数 `versicolor`に代入しています。

In [0]:
setosa = df[ df["species"]=="Iris-setosa" ]
versicolor = df[ df["species"]=="Iris-versicolor" ]

setosa # 確認
#versicolor # 確認

### 実習3

　種名（species）が `Iris-virginica`のデータを取り出して、変数`virginica`に代入してください。

#### 解答例

In [0]:
virginica = df[ df["species"]=="Iris-virginica" ]

virginica # 確認

### 基本統計量を調べる

　「条件に合った行データを取り出す」で *Iris setosa* や *Iris versicolor* のデータを取り出しました。ここでは、`setosa`データの各列の基本統計量（最大値、最小値、平均値、中央値など）を得てみましょう。
 
```python
# 書き方
データフレーム.describe()
```

In [0]:
setosa.describe()

　*Iris versicolor* （データフレーム `versicolor`）の基本統計量も調べてみましょう。

In [0]:
versicolor.describe()

　*Iris setosa* と　*Iris versicolor* の基本統計量を見比べると、4つの形質データそれぞれ種間で明らかに異なった統計量が得られます。


### 実習4

　実習3で取り出した*Iris virginica* データ（データフレーム `virginica`）の基本統計量を調べてください。

#### 解答例

In [0]:
virginica.describe()

## 2. Matplotlib [<img src="https://matplotlib.org/3.1.0/_images/sphx_glr_logos2_003.png" alt="matplotlib" height="30px" align="right">](https://matplotlib.org/)

　**Matplotlib** は、グラフを描くためのライブラリです。グラフ描画方法の基本は次のとおりです。

```
透明なシート（レイヤー）を重ねて、ひとつのグラフを作っていく
```

<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2019/images/drawing_graph.png?raw=true" alt="basis_of_matplotlib_drawing" height="300px">

　ここでは、散布図（scatter plot）とヒストグラム（histgram）を描きます。

### グラフ用のデータを準備する
　「1. pandas」からの続きで実習をおこなう場合、ここをスキップしても構いません。


　ここからスタートする場合、以下のコードセルを実行して、グラフ用のデータを準備してください。

In [0]:
# アヤメデータ（iris.csv）をダウンロードする
!wget https://raw.githubusercontent.com/CropEvol/lecture/master/textbook_2019/dataset/iris.csv -O iris.csv
  
# pandasライブラリをインポートする
import pandas as pd

# アヤメデータを読み込む
df = pd.read_csv("iris.csv", sep=",", header=0)

# 3種のデータをそれぞれ別々の変数に代入する
setosa = df[ df["species"]=="Iris-setosa" ]
versicolor = df[ df["species"]=="Iris-versicolor" ]
virginica = df[ df["species"]=="Iris-virginica" ]

# 確認（最初の5行のみ）
setosa.head(5)
#versicolor.head(5)
#virginica.head(5)

### 散布図

　*Iris setosa* と *Iris versicolor* の外花被片の長さ（`sepal_length`）と幅（`sepal_width`）の散布図を描いてみましょう。
 
- x軸方向の値: 外花被片の長さ（`sepal_length`）
- y軸方向の値: 外花被片の幅（`sepal_width`）
- *Iris setosa* のデータを青色の点で表示
- *Iris versicolor* のデータを赤色の点で表示


```python
# 散布図
import matplotlib.pyplot as plt
plt.scatter(x, y)
```

　まずは、下のコードを実行して、setosaの散布図（青色の点）が描かれることを確認してください。  
　さらに、x軸ラベルや、y軸ラベル、versicolorの散布図（青色の点）、凡例が描かれるように、ハッシュ記号を消して実行してください。

In [0]:
# Matplotlibのpyplot機能を使えるように準備する
import matplotlib.pyplot as plt

# x軸データを準備する
x1 = setosa["sepal_length"]
x2 = versicolor["sepal_length"]

# y軸データを準備する
y1 = setosa["sepal_width"]
y2 = versicolor["sepal_width"]

# グラフ描画
plt.scatter(x1, y1, color="blue", label="setosa")         # setosaの散布図（青色）
#plt.xlabel("sepal length (cm)")  # x軸ラベル
#plt.ylabel("sepal width (cm)")   # y軸ラベル
#plt.scatter(x2, y2, color="red", label="versicolor")  # versicolorの散布図（赤色）
#plt.legend()  #　凡例
plt.show()  # 表示（省略可能）

### 実習5

　下のコードセルには、*Iris setosa* の内花被片の長さ（petal_length）と幅（petal_width）の散布図を描くコードが書かれています。　この散布図に *Iris versicolor* と *Iris virginica* のデータを追加してください。

- x軸方向の値: 内花被片の長さ（petal_length）
- y軸方向の値: 内花被片の幅（petal_width）
- Iris setosa のデータを青色（`color="blue"`）の点で表示
- Iris versicolor のデータを赤色（`color="red"`）の点で表示
- Iris virginica のデータを緑色（`color="green"`）の点で表示


In [0]:
# ライブラリ
import matplotlib.pyplot as plt

# Iris setosa のx軸、y軸データ
x1 = setosa["petal_length"]
y1 = setosa["petal_width"]
# Iris versicolor のx軸、y軸データ
x2 = versicolor["petal_length"]
y2 = versicolor["petal_width"]
# Iris virginica のx軸、y軸データ
x3 = virginica["petal_length"]
y3 = virginica["petal_width"]

# グラフ描画
plt.scatter(x1, y1, color="blue", label="setosa")      # setosa（青色）

plt.xlabel("petal length (cm)")  # x軸ラベル
plt.ylabel("petal width (cm)")   # y軸ラベル
plt.legend()  #　凡例
plt.show()  # 表示

#### 解答例

In [0]:
# ライブラリ
import matplotlib.pyplot as plt

# x軸データ
x1 = setosa["petal_length"]
x2 = versicolor["petal_length"]
x3 = virginica["petal_length"]

# y軸データ
y1 = setosa["petal_width"]
y2 = versicolor["petal_width"]
y3 = virginica["petal_width"]

# グラフ描画
plt.scatter(x1, y1, color="blue", label="setosa")      # setosa（青色）
plt.scatter(x2, y2, color="red", label="versicolor")   # versicolor（赤色）
plt.scatter(x3, y3, color="green", label="virginica")  # virginica（緑色）
plt.xlabel("petal length (cm)")  # x軸ラベル
plt.ylabel("petal width (cm)")   # y軸ラベル
plt.legend()  #　凡例
plt.show()    # 表示

### ヒストグラム

　*Iris setosa* と *Iris versicolor* の外花被片の長さ（`sepal_length`）の [ヒストグラム](https://ja.wikipedia.org/wiki/%E3%83%92%E3%82%B9%E3%83%88%E3%82%B0%E3%83%A9%E3%83%A0) を作ってみましょう。
 
```python
# ヒストグラム
import matplotlib.pyplot as plt
plt.hist(x)
```


In [0]:
# Matplotlibのpyplot機能を使えるように準備する
import matplotlib.pyplot as plt

# データを準備する
x1 = setosa["sepal_length"]
x2 = versicolor["sepal_length"]

# グラフ描画
plt.hist(x1, color="blue", label="setosa", alpha=0.5)         # setosa（青色）, 透明度50%
plt.hist(x2, color="red", label="versicolor", alpha=0.5)      # versicolor（赤色）, 透明度50%
plt.xlabel("sepal length (cm)")  # x軸ラベル
plt.ylabel("No. of individuals")  # y軸ラベル
plt.legend()  #　凡例
plt.show()  # 表示（省略可能）

### 他にどんなグラフを描けるか

参考ページ: [Matplotlib Examples](https://matplotlib.org/3.1.1/gallery/index.html)

### グラフ描画用の他のライブラリ

　Pythonでグラフを描く方法は多数あります。この実習テキストではMatplotlibを使ってグラフを描きましたが、そのほかに **seaborn** や **Plotly**、**Bokeh** といったグラフ描画用のライブラリを使う方法があります。Matplotlibよりも見た目に優れたグラフを簡単に描けるため、これらのライブラリを利用する人も多いです。

公式ページへのリンク
- [seaborn](https://seaborn.pydata.org/)
- [Plotly](https://plot.ly/python/)
- [Bokeh](https://bokeh.pydata.org/en/latest/index.html)

In [0]:
# Plotlyを使った散布図
import plotly.express as px
iris = px.data.iris()
fig = px.scatter(df, x="sepal_width", y="sepal_length", color="species")
fig.show()

## 3. SciPy [<img src="https://docs.scipy.org/doc/_static/img/scipy_org_logo.png" alt="scipy" height="30px" align="right">](https://www.scipy.org/)

　**SciPy** は、多くの高度な科学計算（統計解析、クラスタリング解析、積分、線形代数など）をおこなえるライブラリです。ここでは、SciPyを使って簡単な統計解析をおこないます。

### グラフ用のデータを準備する
　「1. pandas」または「2. Matplotlib」からの続きで実習をおこなう場合、ここをスキップしても構いません。


　ここからスタートする場合、以下のコードセルを実行して、解析用のデータを準備してください。

In [0]:
# アヤメデータ（iris.csv）をダウンロードする
!wget https://raw.githubusercontent.com/CropEvol/lecture/master/textbook_2019/dataset/iris.csv -O iris.csv
  
# pandasライブラリをインポートする
import pandas as pd

# アヤメデータを読み込む
df = pd.read_csv("iris.csv", sep=",", header=0)

# 3種のデータをそれぞれ別々の変数に代入する
setosa = df[ df["species"]=="Iris-setosa" ]
versicolor = df[ df["species"]=="Iris-versicolor" ]
virginica = df[ df["species"]=="Iris-virginica" ]

# 確認（最初の5行のみ）
setosa.head(5)
#versicolor.head(5)
#virginica.head(5)

### $t$ 検定（ウェルチの検定）

　「2. Matplotlib」のヒストグラムで見たように、*Iris setosa* と *I. versicolor* の外花被片の長さ（sepal_length）は、分布が重なっている部分はあるものの、全体的に種間で違いがあるように思えます。
 
 　このような直感的（主観的）な判断は、判断基準が人によって異なるため、結果の解釈も異なってきます。科学の世界では、データ解析の結果を出来るだけ客観的に評価するために、確率を使った評価（統計学的な検定など）をおこなうのが一般的です。
 
　ここでは、上述2種の外花被片の長さに関して、**ウェルチ $t$ 検定（等分散を仮定しない $t$  検定）** をおこない、種間で平均値に差があるかを調べてみましょう。
 
```python
# ウェルチのt検定
# equal_var=False（等分散を仮定しない）　のオプションは必須
from scipy import stats
stats.ttest_ind(データA, データB, equal_var=False)
```

　_なお、スチューデント $t$ 検定（等分散を仮定した $t$ 検定）をおこないたい場合、`equal_var=True`にします。_


In [0]:
# SciPyライブラリのstatsを準備
from scipy import stats

# ウェルチのt検定
t, p = stats.ttest_ind(setosa["sepal_length"], versicolor["sepal_length"], equal_var=False)
print("t-value:", t)
print("p-value:", p)

#### 検定結果の解釈

　$t$ 検定の結果、 $t$ 値と $p$ 値の2つの値が得られました。結果の解釈には $p$ 値の方をみます（ $t$ 値については、統計学の本などで勉強してください）。
 
　$p$ 値は「3.746742613983842e-17」です。「e-17」の部分は10のマイナス17乗を表しており、この $p$ 値は非常に小さい値であることがわかります。

　今回の検定では、2種間の外花被片の長さ（sepal_length）の平均値に差があるかを調べるために、「平均値に差がない」という仮説を検定しています。
- 帰無仮説: 2つのデータの平均値に差がない
- 対立仮説: 2つのデータの平均値に差がある

　$p$ 値は、帰無仮説の確率（2つのデータの平均値に差がない確率）を表しています。一般的に、$p$ = 0.05 (確率 5%) を下回る場合には、帰無仮説を棄却して（採用せずに）、対立仮説を採用します。したがって、今回の場合、「2種間の外花被片の長さの平均値は差がある」とみなされます。
 

### 実習6

　ウェルチ $t$ 検定により、*I. setosa* と *I. versicolor* の間で、内花被片の長さ（petal_length）の平均値に差があるかを調べてください。

In [0]:
# SciPyライブラリのstatsを準備
from scipy import stats

# ウェルチのt検定
t, p = stats.ttest_ind()
print("t-value:", t)
print("p-value:", p)

#### 解答例

In [0]:
# SciPyライブラリのstatsを準備
from scipy import stats

# ウェルチのt検定
t, p = stats.ttest_ind(setosa["petal_length"], versicolor["petal_length"], equal_var=False)
print("t-value:", t)
print("p-value:", p)

# 差があるかどうか
if p < 0.05:
  print("Different")
else:
  print("Not Different")

---

## まとめ
- **pandas** を使うと、テーブル状のデータ処理（データ抽出、基本統計量の算出など）をおこなえる。
- **Matplotlib** を使うと、様々なグラフを描画できる。
- **SciPy**　を使うと、統計解析をおこなえる。