# Human TTN遺伝子上のmotif配列の統計および可視化

### human_motif_comb.ipynbの内容
複数個の塩基を組み合わせた配列を作成し、それらの各イントロン領域における出現頻度を解析

### 準備
```
gbk = Seq_count() # クラスのインスタンス化
gbk.read_gbk('data/gbk/human_ttn.gb')　# gbkファイルの読み込み
```

### 特定のイントロン領域の組み合わせ配列の統計をデータフレームで返す
イントロン88のの配列の統計情報
組み合わせ配列の塩基数:4
```
gbk.intron_motif_stats(intron=88, n=4)
```

### 指定したインロンの配列を返す
```
gbk.intron_seq(77) # 77番目のイントロン配列を取得
```


## 準備

In [None]:
# オリジナルモジュールのインポート
from lib.introngap import PileUp
from lib.gbkparse import Seq_count

# モジュールのインポート
import itertools
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

In [None]:
# クラスのインスタンス化
gbk = Seq_count()

# gbkファイルの読み込み
gbk.read_gbk('../data/gbk/human_ttn.gb')

In [None]:
# 登録されているmRNAのIDを取得
for i in gbk.get_mrna_ids():
    gbk.set_mrna_id(i)
    print(i,gbk.intron_num())

In [None]:
# トランスクリプトバリアントの設定
gbk.set_mrna_id('NM_001267550.2')

## n個の塩基の組み合わせ配列を作成、イントロン内のそれぞれの配列の個数を可視化

In [None]:
# n個の塩基の組み合わせ配列を作成
# intron_motif_stats関数で、すべてイントロン領域の配列の個数をカウント
# その後、カウントした個数を全体の個数で割ることで、頻度を算出
n = 4
df = gbk.intron_motif_stats(intron=1, n=n) 
df.columns = ['intron_1']
for i in range(gbk.intron_num()-1):
    tmp_df = gbk.intron_motif_stats(intron=i+2, n=n)
    tmp_df.columns = [f'intron_{i+2}']
    df = pd.merge(df, tmp_df, left_index=True, right_index=True)
ndf = df/df.sum(axis=0)

In [None]:
# ヒートマップで各イントロンの組み合わせ配列の頻度を可視化
tndf = ndf.T
fig = px.imshow(tndf, text_auto=True)
fig.update_layout(width=800, height=800)
fig.layout.coloraxis.showscale = False
fig.show()

In [None]:
# クラスタリングを実施
g = sns.clustermap(tndf)
reordered_index = tndf.index[g.dendrogram_row.reordered_ind]
reordered_columns = tndf.columns[g.dendrogram_col.reordered_ind]
clustered_tndf = tndf.loc[reordered_index, reordered_columns]
clustered_tndf

# クラスタリング後のヒートマップを可視化
fig = px.imshow(clustered_tndf, text_auto=True)
fig.update_layout(width=800, height=800)
fig.layout.coloraxis.showscale = False
fig.show()

## 特定のイントロン領域の配列を表示

In [None]:
# イントロン172,181,190,203の配列を取得
ls = [172, 181, 190, 203]
ls.sort()
for i in ls:
    print(i, gbk.intron_seq(i))


In [None]:
# イントロン176,178,185,187,194,196の配列を取得
ls = [176, 178, 185, 187, 194, 196]
for i in ls:
    print(i, gbk.intron_seq(i))

In [None]:
# イントロン169,170,198,199,200,201,202の配列を取得
ls = [169, 170, 198, 199, 200, 201, 202]
ls.sort()
for i in ls:
    print(i, gbk.intron_seq(i))

In [None]:
# イントロン235,245,290,297,299,314,323,355の配列を取得
ls = [235, 245, 290, 297, 299, 314, 323, 355]
ls.sort()
for i in ls:
    print(i, gbk.intron_seq(i))