# ニワゼキショウ： 遺伝的多様性解析1

## 背景
- ニワゼキショウ
  - 一年生植物。まれに多年生
  - 四倍体
  - 種内に二つの花色（白花と紫花）がある
- 日本のニワゼキショウの遺伝的多様性は調べられていない。

## 目的
- ニワゼキショウの遺伝的多様性を明らかにする

## 調べること
- それぞれのサンプルの遺伝的多様性はどのぐらいか？
- サンプル間で、遺伝的多様性に大きな違いがあるか？
- 白花と紫花の間で、遺伝的多様性に違いがあるか？


## サンプル

サンプル情報: 
- CEL_W: 白花10個体@栽培植物起原学研究室
- FUK_W: 白花4個体@福西公園
- NIS_W: 白花10個体@西竹の里町
- KAT_W: 白花20個体@桂キャンパス
- KUR_P: 紫花5個体@物集女車塚古墳
- FUK_P: 紫花9個体@福西公園
- ONO_P: 紫花10個体@大原野灰方町
- KAT_P: 紫花20個体@桂キャンパス

複数個体の花のつぼみをプールし、1サンプルとした。

サンプリング地点:  
https://www.google.com/maps/d/u/0/edit?mid=1vQLtjaIn89F35jzfvA0PuKAxKQ6cbfkx&usp=sharing

## 使用データ
- SNPデータセット
https://raw.githubusercontent.com/qqep685d/ilas2021_niwazekisho/master/SNP_dataset.txt
  - Gene_ID: 遺伝子名
  - Transcript_ID: 転写配列名（1遺伝子に対して、1から数個の転写配列がある）
  - POS: 転写配列中のSNPの位置
  - Allele1: 転写配列の塩基（以下、A1アリル）
  - Allele2: 転写配列とは異なる塩基（A2アリル）
  - CEL_W_A1: CEL_WサンプルにおけるA1アリルの個数
  - CEL_W_A2: CEL_WサンプルにおけるA2アリルの個数
  - :
  - KAT_P_A1: KAT_PサンプルにおけるA1アリルの個数
  - KAT_P_A2: KAT_PサンプルにおけるA2アリルの個数
  - Length: 転写配列の長さ（塩基数）



In [None]:
### データをダウンロード
!wget -O 'SNP_dataset.txt' https://raw.githubusercontent.com/qqep685d/ilas2021_niwazekisho/master/SNP_dataset.txt

## データを読み込む

In [None]:
import pandas as pd
df = pd.read_csv("SNP_dataset.txt", sep="\t", header=0)
df

## 使用する遺伝子数とSNP数

In [None]:
# 遺伝子数
df.groupby('Gene_ID').count().shape[0]

In [None]:
# SNP数
df.shape[0]

## [ 例 ] CEL_Wの多様性を調べる

　例として、CEL_W（白花10個体@栽培植物起原学研究室）の遺伝的多様性を調べてみる。

　多様性の指標を算出するには、SNPアリル頻度が必要である。

- SNPアリルの割合（SNPアリル頻度）
  - CEL_W_A1の割合 = CEL_W_A1 / (CEL_W_A1 + CEL_W_A2)
  - CEL_W_A2の割合 = CEL_W_A2 / (CEL_W_A1 + CEL_W_A2) = 1 - (CEL_W_A1の割合)

　それらSNPアリル頻度を使って、多様性の指標（**ヘテロ接合度**）を求められる。  
- ヘテロ接合度 = 2 * (CEL_W_A1の割合) * (CEL_W_A2の割合)


In [None]:
# アリルA1の割合
freqA1 = df["CEL_W_A1"]/(df["CEL_W_A1"] + df["CEL_W_A2"])
# アリルA2の割合
freqA2 = 1 - freqA1
# ヘテロ接合度
df["CEL_W_het"] = 2 * freqA1 * freqA2

# ヘテロ接合度の平均値
print("CEL_W: ", df["CEL_W_het"].mean())

## [ 例 ] FUK_W、NIS_W、KAT_Wの多様性を調べる

対象集団:
- FUK_W（白花4個体@福西公園）
- NIS_W（白花10個体@西竹の里町）
- KAT_W（白花20個体@桂キャンパス）

In [None]:
### FUK_W
freqA1 = df["FUK_W_A1"]/(df["FUK_W_A1"] + df["FUK_W_A2"])
freqA2 = 1 - freqA1
df["FUK_W_het"] = 2 * freqA1 * freqA2
print("FUK_W: ", df["FUK_W_het"].mean())

### NIS_W
freqA1 = df["NIS_W_A1"]/(df["NIS_W_A1"] + df["NIS_W_A2"])
freqA2 = 1 - freqA1
df["NIS_W_het"] = 2 * freqA1 * freqA2
print("NIS_W: ", df["NIS_W_het"].mean())

### KAT_W
freqA1 = df["KAT_W_A1"]/(df["KAT_W_A1"] + df["KAT_W_A2"])
freqA2 = 1 - freqA1
df["KAT_W_het"] = 2 * freqA1 * freqA2
print("KAT_W: ", df["KAT_W_het"].mean())

## [練習1] KUR_P、FUK_P、ONO_P、KAT_Pの多様性を調べる

対象集団:
- KUR_P（紫花5個体@物集女車塚古墳）
- FUK_P（紫花9個体@福西公園）
- ONO_P（紫花10個体@大原野灰方町）
- KAT_P（紫花20個体@桂キャンパス）


In [None]:
### KUR_P
freqA1 = 
freqA2 = 
df["KUR_P_het"] = 
print("KUR_P: ", df["KUR_P_het"].mean())

### FUK_P
freqA1 = 
freqA2 = 
df["FUK_P_het"] = 
print("FUK_P: ", df["FUK_P_het"].mean())

### ONO_P
freqA1 = 
freqA2 = 
df["ONO_P_het"] = 
print("ONO_P: ", df["ONO_P_het"].mean())

### KAT_P
freqA1 = 
freqA2 = 
df["KAT_P_het"] = 
print("KAT_P: ", df["KAT_P_het"].mean())

## サンプル間の遺伝的多様性を比較する

In [None]:
### 使用するデータ
gdf = df.loc[:, "CEL_W_het":"KAT_P_het"]
gdf

## 調べた遺伝的多様性を棒グラフにする

In [None]:
import numpy as np
import matplotlib.pyplot as plt

### （各サンプルの多様性の平均値: 得られたデータを入力する）
y = [0.3, 0.3, 0.3, 0.3, 0.6, 0.6, 0.6, 0.6]    #y軸の高さ       

### データ
x    = ["CEL_W", "FUK_W", "NIS_W", "KAT_W", "KUR_P", "FUK_P", "ONO_P", "KAT_P"] #x軸ラベル
color = ["silver","silver","silver","silver","tab:purple","tab:purple","tab:purple","tab:purple"]  #色
yerr = gdf.std(ddof=1) #標準偏差

### グラフ
plt.figure()
plt.bar(x=x, height=y, yerr=yerr, color=color, ecolor="black", capsize=5)
plt.xticks(rotation=90)
plt.show()

---
# 発表でまとめることの例
- 研究の目的や背景
  - 研究したサンプルについての基本情報
  - すでに知られていること、知られていないこと
  - 研究の目的（何を明らかにするか）
- 研究の手法
  - SNPとは何か？
  - 遺伝的多様性とは何か？
  - データからどうやって遺伝的多様性を求めたか？
- 結果と考察
  - 調べた遺伝子数やSNP数の情報
  - それぞれのサンプルの遺伝的多様性はどのぐらいであったか？
  - サンプル間で、遺伝的多様性に大きな違いがあったか？


# 検討事項
- 上では、サンプルごとの遺伝的多様性を調べた。
 - ニワゼキショウ全体や白色ニワゼキショウ、紫色ニワゼキショウの遺伝的多様性は、どのように調べればよいか？
 - 白花と紫花の間で、遺伝的多様性に違いがあるのか？

- 得られた遺伝的多様性の値は、小さいのか、大きいのか？ どうすれば評価できるか？