<img src="https://lh3.googleusercontent.com/pw/ACtC-3fFHZrzKpHGWl0vYz7Sr8FX8QqLQ_tc8XHBSwqQnM4hgsIOjtjaOde1M9oHSAfe1Fs2SwVORlapit4-JOz0mjP8Tnz6HetkLZDZb8CifSd0uoSp1Nj3wG_wh1sEQlKXXzvEA9Y9HnQqu2Ecv2igmInb=w1097-h235-no?authuser=0" alt="2020年度ゲノム情報解析入門" height="100px" align="middle">

# Pythonライブラリを使う - Matplotlib -[<img src="https://matplotlib.org/3.1.0/_images/sphx_glr_logos2_003.png" alt="matplotlib" height="30px" align="right">](https://matplotlib.org/)


## はじめに
　
 Pythonには多数の追加パッケージ（**ライブラリ**）があります。研究などで得られたデータを解析するとき、その都度、適切なライブラリを利用すると、より快適に解析をおこなえます。

　今回は、グラフ描画ライブラリ **Matplotlib**の使い方を勉強しましょう。



### サンプルデータの概要

　**カンマ区切りファイル**の[サンプルデータ](https://raw.githubusercontent.com/CropEvol/lecture/master/data/pandas_sample_mini.txt) を pandas で読み込んだデータセットを使います。

<img src="https://lh3.googleusercontent.com/pw/ACtC-3eDcYu-05A4ltNxlrW6i7Kd1EvLyG5olajJlRfzkIWgrGWWt3FF1T7Plbpdv-nsO91mv4psK-SKaUGFOmcyvspjFRs3JQnUjycNBduc-bmVoT7ssTOFAurKWyKyoWQmjiooQH2Izy0XR8myupkOR7lC=w1489-h1029-no?authuser=0" alt="sample_dataset" height="350px">


### サンプルデータのダウンロードと読み込み


　次のコードセルを実行して、[サンプルデータ](https://raw.githubusercontent.com/CropEvol/lecture/master/data/pandas_sample_mini.txt)をGoogle Colab上にダウンロードしてください。「pandas_sample_mini.txt」という名前のテキストファイルがダウンロードされます。

In [None]:
"""
＊重要＊
最初にこのセルを実行してください。
この実習で使うサンプルファイルをダウンロードします。
"""
# 例題用サンプルファイルのダウンロード
!wget -nv -O pandas_sample_mini.txt https://raw.githubusercontent.com/CropEvol/lecture/master/data/pandas_sample_mini.txt

　また、次のコードセルを実行して、グラフ用のデータを準備してください。

　元データに加えて、次の３つの列データがデータフレーム`df`に追加されます。
- `Total_reads`: 各SNP座の総リード数
- `Freq_REF`: REFと同じ塩基のリードの割合
- `Freq_ALT`: ALTと同じ塩基のリードの割合

In [None]:
# 例題用サンプルファイルの読み込み
import pandas as pd
df = pd.read_csv("pandas_sample_mini.txt", sep=",", header=0)

# 各SNP座の総リード数
df["Total_reads"] = df["N_REF"] + df["N_ALT"]
# 各SNPリードの割合
df["Freq_REF"] = df["N_REF"] / df["Total_reads"]
df["Freq_ALT"] = 1 - df["Freq_REF"]

df

## 今回の実習内容
0. Matplotlibグラフ描画の基礎
1. ヒストグラム（頻度分布図）
1. 折れ線グラフ
1. 散布図

---

## 0. Matplotlibグラフ描画の基礎

　**Matplotlib** は、グラフを描くためのライブラリです。

　次の基本を覚えておくと、Matplotlibを使ったグラフ描画のプログラムを理解しやすいです。
```
グラフの部品が描かれた透明なシート（レイヤー）を重ねて、ひとつのグラフを作っていく
```

<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2019/images/drawing_graph.png?raw=true" alt="basis_of_matplotlib_drawing" height="300px">

　ここでは、次の3つのグラフを描いて、matplotlibに慣れましょう。
- ヒストグラム（histgram; 頻度分布図）
- 折れ線グラフ（line plot）
- 散布図（scatter plot）

## 1. ヒストグラム（頻度分布図）

　まずは簡単な例として、各SNP座の総リード数のヒストグラムを描いてみましょう。

```python
# ヒストグラム
import matplotlib.pyplot as plt
plt.hist(<データ>, <オプション（任意）>)
```

In [None]:
# matplotlib.pyplotの読み込み
import matplotlib.pyplot as plt 

# グラフ用データ
d = df["Total_reads"]

# ヒストグラムを描画する
plt.hist(d)

　グラフの横軸はリード数で、縦軸は出現数です。総リード数10以下のSNP座が最も多くあり、総リード数が30を超えるSNP座は少ないことがわかります。

　グラフ用データを準備するコードを含めると、たった3行でヒストグラムを描くことができました。

　次は、`plt.hist()`に次の2つのオプションを加えて、グラフの見た目を変更してみましょう。
- `bins=数字`: 区画数を変更（デフォルトは10）
- `color="色の名前"`: ヒストグラムの色を変更


In [None]:
# ヒストグラムを描画する
plt.hist(d, bins=5, color="orange")

### 実習1

　次のコードセルの`plt.hist()`にオプション`density=True`を加えて、y軸の目盛りの値が変わることを確認してください。

In [None]:
# ヒストグラムを描画する
plt.hist(d)

#### 解答例

　`plt.hist()`にオプション`density=True`を加えると、y軸の目盛りは、絶対値から相対値（総リード数の総和で割った値）に変更されます。

In [None]:
# ヒストグラムを描画する
plt.hist(d, density=True)

## 2. 折れ線グラフ

　今度は、各SNP座の総リード数の推移を表す折れ線グラフを描いてみましょう。

- x軸座標の値: 染色体上のSNPの位置（`POS`）
- y軸座標の値: 各SNP座の総リード数（`Total_reads`）


```python
# 折れ線グラフ
import matplotlib.pyplot as plt
plt.plot(<x軸データ>, <y軸データ>, <オプション（任意）>)
```

　次のコードセルを実行してみてください。

　なお、グラフ描画のいくつかのコードはコメントアウトされています。コメントアウトされているコードの`#`を消して、グラフがどう変わるかを確認してみてください。

In [None]:
# matplotlib.pyplotの読み込み
#（他のコードセルで実行していれば省略可能）
import matplotlib.pyplot as plt 

# x軸の座標のデータ
x = df["POS"]
# y軸の座標のデータ
y = df["Total_reads"]

# グラフ描画
#plt.figure(figsize=[8, 4])                  # グラフエリアの設定（省略可能）
plt.plot(x, y, color="gray", label="Total reads") # 折れ線グラフ
#plt.xlabel("Position")            # x軸ラベル
#plt.ylabel("Number of reads")   # y軸ラベル
#plt.legend()                     #　凡例
#plt.show()                      # 表示（省略可能）

　同じグラフ上に、`N_REF`の推移を表す折れ線グラフを追加してみましょう。

In [None]:
# x軸の座標のデータ
x = df["POS"]
# y軸の座標のデータ
y  = df["Total_reads"] # Total_reads
y1 = df["N_REF"]      # N_REF

# グラフ描画
plt.figure(figsize=[8, 4])                  # グラフエリアの設定（省略可能）
plt.plot(x, y,  color="gray", label="Total reads") # 折れ線グラフ(Total_reads)
plt.plot(x, y1, color="red", label="REF")       # 折れ線グラフ(N_REF)
plt.xlabel("Position")            # x軸ラベル
plt.ylabel("Number of reads")   # y軸ラベル
plt.legend()                     #　凡例
plt.show()                      # 表示（省略可能）

### 実習2

　次のコードセルを実行すると、`Total_reads`と`N_REF`のゲノム上の推移を表す折れ線グラフが描かれます。

　同じグラフ上に、`N_ALT`の推移を表す「青色（`blue`）の折れ線グラフ」を追加してください。

In [None]:
# x軸の座標のデータ
x = df["POS"]
# y軸の座標のデータ
y  = df["Total_reads"] # Total_reads
y1 = df["N_REF"]      # N_REF
y2 = df["N_ALT"]      # N_ALT

# グラフ描画
plt.figure(figsize=[8, 4])                  # グラフエリアの設定（省略可能）
plt.plot(x, y,  color="gray", label="Total reads") # 折れ線グラフ(Total_reads)
plt.plot(x, y1, color="red", label="REF")       # 折れ線グラフ(N_REF)
plt.xlabel("Position")            # x軸ラベル
plt.ylabel("Number of reads")   # y軸ラベル
plt.legend()                     #　凡例
plt.show()                      # 表示（省略可能）

#### 解答例

In [None]:
# x軸の座標のデータ
x = df["POS"]
# y軸の座標のデータ
y  = df["Total_reads"] # Total_reads
y1 = df["N_REF"]      # N_REF
y2 = df["N_ALT"]      # N_ALT

# グラフ描画
plt.figure(figsize=[8, 4])                  # グラフエリアの設定（省略可能）
plt.plot(x, y,  color="gray", label="Total reads") # 折れ線グラフ(Total_reads)
plt.plot(x, y1, color="red",  label="REF")        # 折れ線グラフ(N_REF)
plt.plot(x, y2, color="blue", label="ALT")        # 折れ線グラフ(N_ALT)
plt.xlabel("position")            # x軸ラベル
plt.ylabel("Number of reads")   # y軸ラベル
plt.legend()                     #　凡例
plt.show()                      # 表示（省略可能）

## 3. 散布図

　3つ目のグラフ描画例として、散布図を描いてみましょう。

- x軸座標の値: 染色体上のSNPの位置（`POS`）
- y軸座標の値: 各SNP座のREFリードの割合（`Freq_REF`）

```python
# 散布図
import matplotlib.pyplot as plt
plt.scatter(<x軸データ>, <y軸データ>, <オプション（任意）>)
```

In [None]:
# matplotlib.pyplotの読み込み
#（他のコードセルで実行していれば省略可能）
import matplotlib.pyplot as plt 

# x軸の座標のデータ
x = df["POS"]
# y軸の座標のデータ
f1 = df["Freq_REF"]   # N_REF

# グラフ描画
plt.figure(figsize=[8, 4])                   # グラフエリアの設定（省略可能）
plt.scatter(x, f1, color="red", label="REF") # 折れ線グラフ(N_REF)
plt.xlabel("Position")            # x軸ラベル
plt.ylabel("SNP Frequency")     # y軸ラベル
plt.legend()                     #　凡例
plt.show()                      # 表示（省略可能）

### 実習3



In [None]:
# x軸の座標のデータ
x = df["POS"]
# y軸の座標のデータ
f1 = df["Freq_REF"]   # REFリードの割合
f2 = df["Freq_ALT"]   # ALTリードの割合

# グラフ描画
plt.figure(figsize=[8, 4])                   # グラフエリアの設定（省略可能）
plt.scatter(x, f1, color="red", label="REF") # 散布図(Freq_REF)
plt.xlabel("Position")            # x軸ラベル
plt.ylabel("SNP Frequency")     # y軸ラベル
plt.legend()                     #　凡例
plt.show()                      # 表示（省略可能）

#### 解答例

<small>※ このデータでは、`Freq_REF`と`Freq_ALT`の合計は必ず1.0です。そのため、y=0.5の軸に対して上下対称な散布図が得られます。</small>

In [None]:
# x軸の座標のデータ
x = df["POS"]
# y軸の座標のデータ
f1 = df["Freq_REF"]   # REFリードの割合
f2 = df["Freq_ALT"]   # ALTリードの割合

# グラフ描画
plt.figure(figsize=[8, 4])                   # グラフエリアの設定（省略可能）
plt.scatter(x, f1, color="red", label="REF")  # 散布図(Freq_REF)
plt.scatter(x, f2, color="blue", label="ALT") # 散布図(Freq_ALT)
plt.xlabel("Position")            # x軸ラベル
plt.ylabel("SNP Frequency")     # y軸ラベル
plt.legend()                     #　凡例
plt.show()                      # 表示（省略可能）

## 他にどんなグラフを描けるか

 Matplotlibは他にも多種多様なグラフを描けます。[Matplotlib Examples](https://matplotlib.org/3.1.1/gallery/index.html) などをご覧ください。

## グラフ描画用の他のライブラリ

　Pythonでグラフを描く方法は多数あります。この実習テキストではMatplotlibを使ってグラフを描きましたが、そのほかに **seaborn** や **Plotly**、**Bokeh** といったグラフ描画用のライブラリを使う方法があります。Matplotlibよりも見た目に優れたグラフを簡単に描けるため、これらのライブラリを利用する人も多いです。

公式ページへのリンク
- [seaborn](https://seaborn.pydata.org/)
- [Plotly](https://plot.ly/python/)
- [Bokeh](https://bokeh.pydata.org/en/latest/index.html)

In [None]:
# Plotlyを使った散布図
import plotly.graph_objs as go
import plotly.offline as offline

# 散布図(Freq_REF)
g1 = go.Scatter(x=df["POS"], y=df["Freq_REF"], 
                mode="markers", marker=dict(color="red"), name="REF")

# 散布図(Freq_ALT)
g2 = go.Scatter(x=df["POS"], y=df["Freq_ALT"], 
                mode="markers", marker=dict(color="blue"), name="ALT")

# レイアウト
layout = go.Layout(xaxis=dict(title="Position"), yaxis=dict(title="SNP Frequency"))
fig = dict(data=[g1, g2], layout=layout)
offline.iplot(fig)

---
## まとめ

　グラフ描画は、データ解析の中心ではありませんが、データを要約し、データを理解するための必須の技術です。今回、グラフ描画ライブラリ **Matplotlib** でグラフを描く方法を勉強しました。

　グラフ描画の基本をもう一度復習しておきます。
```
グラフの部品が描かれた透明なシート（レイヤー）を重ねて、ひとつのグラフを作っていく
```
<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2019/images/drawing_graph.png?raw=true" alt="basis_of_matplotlib_drawing" height="150px">

この基本を念頭に、次の3つのグラフを描きました。
- ヒストグラム（頻度分布図）
- 折れ線グラフ
- 散布図

　ここで学んだことは、グラフ描画のごく一部です。実際のゲノム解析では、Matplotlibよりも上位のライブラリ**seaborn**なども使って、解析結果をグラフ化します（例えば、遺伝子発現データのクラスタリング解析（下記コード））。

　今後の実習でも、グラフ描画をたびたびおこないます。徐々に慣れていってください。


In [None]:
# 50個の遺伝子発現データのクラスタリング解析
# ライブラリ読み込み
import pandas as pd
import seaborn as sns

# サンプルファイル読み込み
!wget -nv -O gene_expression.txt https://raw.githubusercontent.com/CropEvol/lecture/master/textbook_2019/dataset/gene_expression.csv
dataset = pd.read_csv("gene_expression.txt", sep=",", header=0)
dataset = dataset.iloc[:, 1:]

# ヒートマップとデンドログラム（樹形図）の描画
g = sns.clustermap(dataset.corr(), figsize=(16, 16), cmap="vlag")
g.ax_row_dendrogram.remove()