# ニワゼキショウ：白花と紫花の遺伝子発現比較

## 背景
- ニワゼキショウ
  - 一年生植物。まれに多年生
  - 四倍体
- 白花と紫花の違いは、一遺伝子座により決定されている（Yamaguchi and Hirai, 1987）。
- 白花が顕性（優性; dominant）形質である（Yamaguchi and Hirai, 1987）。
- 白花と紫花の違いを決定している遺伝子は同定されていない。

## 目的
- 白花と紫花の違いを生み出している遺伝子を特定する

## 調べること
- 白花と紫花のあいだで遺伝子発現量に違いがある遺伝子はどのぐらいあるのか？
- 白花と紫花のあいだの違いを決定していそうな遺伝子は何か？
  - その遺伝子はどちらで多く発現しているのか？
  - どういう機能をもっているのか？

## サンプル

集団情報: 
- CEL_W: 白花10個体@栽培植物起原学研究室
- FUK_W: 白花4個体@福西公園
- NIS_W: 白花10個体@西竹の里町
- KAT_W: 白花20個体@桂キャンパス
- KUR_P: 紫花5個体@物集女車塚古墳
- FUK_P: 紫花9個体@福西公園
- ONO_P: 紫花10個体@大原野灰方町
- KAT_P: 紫花20個体@桂キャンパス

各個体の花のつぼみを集めて、集団ごとに1サンプルとした。

サンプリング地点:  
https://www.google.com/maps/d/u/0/edit?mid=1vQLtjaIn89F35jzfvA0PuKAxKQ6cbfkx&usp=sharing

## 使用データ
- 各遺伝子の発現量と比較解析結果のテーブル  
https://raw.githubusercontent.com/qqep685d/ilas2021_niwazekisho/master/DE_result.with_BLAST.txt
- 各遺伝子の発現量と比較解析結果のテーブル（Google Spreadsheet）
https://docs.google.com/spreadsheets/d/15o9cw0lttiJxepZwxqydzt5Dk3sKpUvpU4AqROBlKFw/edit?usp=sharing
- 遺伝子配列データ（発現量に差があった遺伝子のみ）  
https://raw.githubusercontent.com/qqep685d/ilas2021_niwazekisho/master/DEGs.fasta  


In [None]:
### 発現量と比較解析結果のテーブル
!wget -O 'DE_result.with_BLAST.txt' https://raw.githubusercontent.com/qqep685d/ilas2021_niwazekisho/master/DE_result.with_BLAST.txt

## 「各遺伝子発現量と比較解析結果のテーブル」を読み込む

In [None]:
import pandas as pd
df = pd.read_csv("DE_result.with_BLAST.txt", sep="\t", header=0, index_col=0)
df

#### 読み込んだテーブルの見方（重要な列の説明）


- Unnamed: 0: 遺伝子配列のID
- CEL_W〜KAT_P: 各地点の遺伝子発現量
  - CEL_W: 白花10個体@栽培植物起原学研究室
  - FUK_W: 白花4個体@福西公園
  - NIS_W: 白花10個体@西竹の里町
  - KAT_W: 白花20個体@桂キャンパス
  - KUR_P: 紫花5個体@物集女車塚古墳
  - FUK_P: 紫花9個体@福西公園
  - ONO_P: 紫花10個体@大原野灰方町
  - KAT_P: 紫花20個体@桂キャンパス
- logFC: 白花と紫花の発現量の対数比
  - 0より大きいとき: 白花で多く発現
  - 0より小さいとき: 紫花で多く発現
- FDR: False Discovery Rate（偽陽性確率）
  - 白花と紫花のあいだで、その遺伝子の発現量に差があるかどうかを判定する指標
  - 一般的に、0.05より小さいとき「差がある」と判定する
- BLASTX_short / BLASTX_full
  - 配列が似ている既知タンパク質名
  - [Uniprot](https://www.uniprot.org/)というデータベースに検索をかけた結果

## 調べた遺伝子の総数

In [None]:
len(df)

## 発現量に差がなかった遺伝子の個数
- 条件: FDR >= 0.05

In [None]:
### 発現量に差がなかった遺伝子を抽出
nosig = df[df["FDR"] >= 0.05]

### 発現量に差がなかった遺伝子数
print(nosig.shape[0])

### 発現量に差がなかった遺伝子のデータフレーム
nosig

## [練習1] 白花と紫花のあいだで、発現量に差があった遺伝子の個数を調べる
- 条件: FDR < 0.05

In [None]:
### 発現量に差があった遺伝子を抽出
sig = 

### 発現量に差があった遺伝子数
print(sig.shape[0])

### 発現量に差があった遺伝子のデータフレーム
sig

## [ 例 ] 発現量に差があった遺伝子のうち、白花で多く発現している遺伝子の個数を調べる
- 条件: (FDR < 0.05) かつ (logFC > 0)

　または

- 条件: sigデータフレームで、logFC > 0 

In [None]:
### 発現量に差があり、白花で多く発現していた遺伝子を抽出
sig_w = df[(df["FDR"] < 0.05) & (df["logFC"] > 0)]
### 遺伝子数
print(sig_w.shape[0])
### データフレーム
sig_w

## [練習2] 発現量に差があった遺伝子のうち、紫花で多く発現している遺伝子の個数を調べる
- 条件: (FDR < 0.05) かつ (logFC < 0)

　または

- 条件: sigデータフレームで、logFC < 0 


In [None]:
### 発現量に差があり、紫花で多く発現していた遺伝子を抽出
sig_p = 
### 遺伝子数
print(sig_p.shape[0])
### データフレーム
sig_p

## 調べた遺伝子数の情報を円グラフにする

In [None]:
### 発現に差がなかった遺伝子の個数
n_nosig = nosig.shape[0]
print(n_nosig)

### 白花で多く発現している遺伝子の個数
### （コードや調べた値を入力してください）
n_white = sig_w.shape[0]
print(n_white)

### 紫花で多く発現している遺伝子の個数
### （コードや調べた値を入力してください）
n_purple = 500
print(n_purple)

### 発現に差があった遺伝子の個数
n_sig = n_white + n_purple
print(n_sig)

In [None]:
# 必要なライブラリの準備
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

# グラフの見栄え変更
sns.set()
sns.set_style("whitegrid", {'grid.linestyle': '--'})

fig = plt.figure(figsize=[12, 4]) #グラフのサイズ
plt.subplots_adjust()            #グラフ間のスペース調整
plt.rcParams['font.size'] = 16   #フォントサイズ

# 左図: 「差がない遺伝子」と「差がある遺伝子」の割合
x = ['Not significant\n('+str(n_nosig)+' genes)', 'Significant\n('+str(n_sig)+' genes)'] #ラベル
y = np.array([n_nosig, n_sig]) #グラフに使う数値
c = ['tab:blue', 'tab:orange'] #色指定

# 左図描画
ax = fig.add_subplot(1, 2, 1)
ax.pie(y, labels=x, colors=c, autopct="%1.1f%%", textprops={'fontsize': 16})

# 右図: 差がある遺伝子のうち、「白花で高発現」と「紫花で高発現」の割合
x = ['white\n('+str(n_white)+' genes)', 'purple\n('+str(n_purple)+' genes)'] #ラベル
y = np.array([n_white, n_purple]) #グラフに使う数値
c = ['silver', 'tab:purple'] #色指定

# 左図描画
ax = fig.add_subplot(1, 2, 2)
ax.pie(y, labels=x, colors=c, autopct="%1.1f%%", textprops={'fontsize': 16})

plt.show()

## ひとつの遺伝子の発現量を棒グラフにする

In [None]:
# グラフ描画する遺伝子のデータを取り出す
one_gene = df.loc["TRINITY_DN0_c0_g1", 
                  ["CEL_W",	"FUK_W",	"NIS_W",	"KAT_W",	"KUR_P",	"FUK_P",	"ONO_P",	"KAT_P"]]
one_gene

In [None]:
# 必要なライブラリの準備
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
sns.set()
sns.set_style("whitegrid", {'grid.linestyle': '--'})

# 白花データ
x1 = one_gene.index[:4]
y1 = one_gene[:4]
# 紫花データ
x2 = one_gene.index[4:]
y2 = one_gene[4:]

# グラフ描画
fig = plt.figure()
ax = fig.add_subplot(1, 1, 1)
ax.bar(x1, y1, color="silver", label='white')
ax.bar(x2, y2, color="tab:purple", label='purple')
ax.set_xticklabels(one_gene.index, rotation=90)
ax.set_xlabel('Samples')
ax.set_ylabel('Gene expression\n(TMM normalization)')
ax.legend()
fig.show()

## 遺伝子配列を得る

In [None]:
### 遺伝子配列データ
!wget -q -O 'DEGs.fasta' https://raw.githubusercontent.com/qqep685d/ilas2021_niwazeki/master/DEGs.fasta

### Biopythonをインストール
!pip install biopython

In [None]:
### 取り出したい遺伝子ID
gene_id = "TRINITY_DN10087_c0_g1"

### Biopythonを準備する
from Bio import SeqIO

### 'DEGs.fasta'を読み込む
get_records = []
for record in SeqIO.parse('DEGs.fasta', 'fasta'):
  # 目的の遺伝子IDがみつかったとき、保存する
  if gene_id in record.id:
    get_records.append(record)
    print(record.format("fasta"))

### 'DEGs.fasta'を出力する
with open("%s.fasta" % gene_id, "w") as output_handle:
  SeqIO.write(get_records, output_handle, "fasta")  

---
# 発表でまとめることの例
- 研究の目的や背景
  - 研究したサンプルについての基本情報
  - 白花と紫花の違いについて知られていること、知られていないこと
  - 研究の目的（何を明らかにするか）
- 研究の手法
  - 遺伝子発現とは？
  - 遺伝子発現はどうやって調べたのか？
- 結果と考察
  - 調べた遺伝子数の情報
  - 白花と紫花のあいだで遺伝子発現量に違いがある遺伝子はどのぐらい見られたか？
  - 白花と紫花のあいだの違いを決定していそうな遺伝子はあったか？
  - もしあった場合、その遺伝子はどちらで多く発現していたか？
  - どういう機能をもっていそうか？


# 検討事項
- 植物の色素合成に関係する遺伝子はどのようなものがあるのか？
- 植物の色素分解に関係する遺伝子はどのようなものがあるのか？
- それら遺伝子は、今回調べたニワゼキショウのサンプルでは発現していたのか？