<img src="https://github.com/CropEvol/lecture/blob/master/ILAS_2022/01/images/banner.png?raw=true" alt="ILASセミナー「ゲノム博物学入門」" height="100px" align="middle">

# RNA-seq解析：Pythonプログラミング入門

<div align="right"><a href="https://github.com/CropEvol/lecture#section1">実習表ページに戻る</a></div>

## はじめに

　このテキストでは、RNA-seq遺伝子発現解析で得られるデータを使って、Pythonプログラミングを勉強していきます。



### プログラミング

　コンピュータに何らかのデータ処理をおこなわせるには**プログラム（または、コード）**と呼ばれる指示書を作成する必要があります。そのプログラムを書くことを**プログラミング**や**コーディング**と言います。

### Python

　プログラミングをおこなうための言語にはいくつか種類があります。**Python**はそのうちのひとつです。

　Pythonは、統計解析やグラフ描画、機械学習（Machine Learning）といった各種データ解析でよく使われており、最近ではゲノム解析でも使われています。

### 勉強する内容
1. Pythonの基礎（変数と関数）
1. データの読み込み
1. 条件に合うデータの絞り込み
1. グラフ描画

## サンプルデータ

　RNA-seqリードをアライメントし、遺伝子発現解析をおこなうと下図のような遺伝発現解析結果のデータが得られます。データの中身については後ほど説明します。

<img src="https://github.com/CropEvol/lecture/blob/master/ILAS_2022/RNAseq_intro/sample_dataset.png?raw=true" height="200px" align="middle">

　このテキストでは、この遺伝発現解析結果のデータを扱って、Pythonプログラミングを勉強していきます。

<img src="https://github.com/CropEvol/lecture/blob/master/ILAS_2022/RNAseq_intro/gene_expression_dataset.png?raw=true" align="middle">







### サンプルデータのダウンロード

In [None]:
!wget -O "dataset.txt" https://raw.githubusercontent.com/CropEvol/lecture/master/data/ILAS_GEdataset.csv

## 1. Pythonの基礎（変数と関数）

　最初に、簡単なプログラミングをおこなってみましょう。

　すぐ下の灰色枠（コードセル）に二行のプログラムが書かれています。このプログラムを実行してみましょう。

実行方法: コードセルの左にある「▶︎マーク」をクリックする

In [None]:
dna = "AGATCG"
print(dna)

### 変数

　上のコードセルの一行目のコードは、`"AGATCG"`の文字列を`dna`という名前の**変数**に代入しています。

　変数は、データを一時的に保存できる箱のようなものです。今回の場合、`dna`がその変数の名前です。変数の名前は、基本的には自由に設定できます。

　変数には、様々なデータを保存できます。上のコード例では、文字列`"AGATCG"`を変数に入れています。

<img src="https://github.com/CropEvol/lecture/blob/master/ILAS_2022/RNAseq_intro/variable_example.png?raw=true" height="150px" align="middle">

　変数に収めたデータは、変数名を指定することで何度でも中身のデータを呼び出せます。上のコード例では、二行目で変数名を使って、変数の中身のデータ`"AGATCG"`を取り出しています。

### print関数

　二行目で`print`関数と呼ばれる**関数**を使用しています。

　関数は、あらかじめ指定された動作をおこなうツールのことです。`print`関数は、この関数にデータを与えると、それを画面に表示する機能をもっています。今回の場合、`print`関数に変数`dna`を与えているため、`dna`の中身のデータが画面に表示されています。

　Pythonには、他にも様々な関数があります（例えば、文字数やデータ数を調べる`len`関数など）。プログラミングは関数を組み合わせて、一連の動作をおこなうプログラムを作っていく作業です。

<img src="https://github.com/CropEvol/lecture/blob/master/ILAS_2022/RNAseq_intro/functions_example.png?raw=true" height="350px" align="middle">

### 実習1-1

　次のプログラムには、別々の数字が入った二つの変数と、それら変数を使った四則計算の結果を表示するコードが書かれています。

　変数の数字を変更して、計算結果が変わることを確認してください。

In [None]:
### 実習1-1
x = 25
y = 100

print(x + y)
print(x - y)
print(x * y)
print(x / y)

### 実習1-2

　次のプログラムには、2種類のDNA配列（`GAATTC`、`TTAA`）が書かれています。

　このプログラムを編集して、変数を使ったプログラムにしてください。

In [None]:
print("GAATTC")
print("TTAA")
print("TTAA")
print("GAATTC")

#### 解答例

In [None]:
x = "GAATTC"
y = "TTAA"

print(x)
print(y)
print(y)
print(x)

## 2. データの読み込み

　ファイルに書かれたデータを使って解析をおこなうには、そのファイルをPythonで読み込む必要があります。

　ダウンロードしたサンプルデータをPythonで読み込んでみましょう。テーブル状のテキストデータを読み込むには、pandasと呼ばれる表計算解析用ライブラリ（追加機能）の`read_csv`関数を利用します。

　`pandas.read_csv`関数で読み込まれたデータは、**データフレーム**と呼ばれるデータ形式で変数に一時保存されます。

```python
# ライブラリ（追加機能）の準備
import pandas
# データの読み込み
データフレーム変数 = pandas.read_csv("<ファイル名>")
# 表示
データフレーム変数
```

In [None]:
# ライブラリ（追加機能）の準備
import pandas

# データの読み込み
df = pandas.read_csv("dataset.txt")

# 表示
df

　このデータセットには、1行に1件（1遺伝子）分のデータが入っています。

　各列には以下の情報が書かれています。
- `GeneID`: 遺伝子名
- `SMP1_Count`: サンプル1の発現量（リードカウント）
- `SMP2_Count`: サンプル2の発現量（リードカウント）
- `logFC`: サンプル1の発現量に対するサンプル2の発現量の比
  - logFC<0: サンプル1のほうが発現量が大きい
  - logFC>0: サンプル2のほうが発現量が大きい
- `logCPM`: 発現量の大きさを表す指標
- `PValue`: サンプル1とサンプル2の発現量の間に、統計的に差があるかどうかの指標
- `FDR`: 偽陽性の確率
- `GeneSeq`: 遺伝子の塩基配列


### 列データの取り出し方

　pandasデータフレームでデータ処理をおこなうとき、任意の列データを取り出すことがよくあります。列データの取り出し方は次のとおりです。

```python
データフレーム変数["列名"]
　または
データフレーム変数.列名
```

In [None]:
df["GeneID"]

In [None]:
df.GeneID

### 実習2-1

　データフレーム`df`から「GeneSeq」の列データを取り出してください。

#### 解答例

In [None]:
df["GeneSeq"]

### 列データの使い方の一例

　次のプログラムは、取り出した1列分のデータの使い方の一例です。例のように、1列分のデータに対する不等式を書くことで、条件に合っている（`True`）/合っていない（`False`）のリスト状データを作ることができます。

In [None]:
df["logFC"] > 0

### 実習2-2

　「`FDR`列が0.05より小さいかどうか」を表すリスト状データを作ってください。

#### 解答例

In [None]:
df["FDR"] < 0.05

## 3. 条件に合うデータを取り出す

　サンプルデータには1000行のデータが入っています。ここから必要なデータのみを残す（条件に合うデータを取り出す）方法を学びましょう。

　条件に合ったデータの取り出すには、次のようなコードを書きます。条件式の部分は、さきほどの「列データの使い方の一例」で勉強した不等式のコードが入ります。

```python
# データの絞り込み
新しい変数 = データフレーム変数[条件式]
# 表示
新しい変数
```

In [None]:
# データの絞り込み
df2 = df[df["logFC"] > 0]

# 表示
df2

### 実習3

　「FDR」が0.05よりも小さいデータを取り出して、新しいデータフレーム`df2`を作ってください。

※ 遺伝子発現解析では、「FDR < 0.05」のときに発現量に差がある遺伝子とみなすことが多いです。

In [None]:
# データの絞り込み
df2 = df

# 表示
df2

#### 解答例

In [None]:
# データの絞り込み
df2 = df[df["FDR"] < 0.05]

# 表示
df2

## 4. グラフ描画

　Pythonでは、データの情報を元にして、様々なグラフを描画できます。

　ここでは、「logFC」が0より小さい遺伝子（サンプル2の方が発現量が大きい遺伝子）と、「logFC」が0より大きい遺伝子（サンプル1の方が発現量が大きい遺伝子）のそれぞれ個数を棒グラフにしてみましょう。

グラフ描画の手順:
1. 目的のグラフを描くために、「logFC < 0かどうか」のデータを準備する
  ```python
  # logFC < 0かどうか
  # 真ならTrue、偽ならFalseのリスト状データが得られる
  df["logFC"] < 0
  ```
1. 1のデータをデータフレームの1列として追加する（データフレームにカテゴリーデータ列を作る）
  ```python
  # 新しい列として追加する
  df["新しい列名"] = df["logFC"] < 0
  ```
1. Seabornライブラリの`countplot`関数を使って棒グラフを描画する
  ```python
  # 棒グラフを描く
  import seaborn
  seaborn.countplot(data=データフレーム変数, x="カテゴリーデータの列名")

  ```

In [None]:
# （復習） 「logFC < 0」かどうか
# 真ならTrue、偽ならFalseのリスト状データが得られる
df["logFC"] < 0

In [None]:
# 新しい列として追加する
df["logFC_neg"] = df["logFC"] < 0

# 表示
df

In [None]:
# 棒グラフを描く
import seaborn
seaborn.countplot(data=df, x="logFC_neg")

### 実習4

　「FDR < 0.05」のデータ（発現量に差があるとみなせる遺伝子）とそうでないデータ（差がないとみなせるる遺伝子）の個数を、棒グラフで描いて比較してください。


In [None]:
# # 「FDR < 0.05」かどうかを、新しい列として追加
df["sig"] = 

# 棒グラフの描画
import seaborn
seaborn.countplot()

#### 解答例

In [None]:
# 「FDR < 0.05」かどうかを、新しい列として追加
df["sig"] = df["FDR"] < 0.05

# 棒グラフの描画
import seaborn
seaborn.countplot(data=df, x="sig")

---

## 今回勉強したこと

　今回、以下の事柄の勉強をおこないました。
- Pythonの基礎（**変数**と**関数**）
- データの読み込み
- 条件に合ったデータの取り出し
- グラフ描画

　Pythonを使って、RNA-seq遺伝子発現解析データの読み込みをおこない、統計的に有意とみなせる遺伝子（`FDR` < 0.05）のリストを作れるようになりました。また、グラフを作成してデータを視覚化する方法についても少し勉強しました。

　このILASセミナーでは、Pythonプログラミングを覚えることが目的ではありませんので、今日おこなったプログラミングを覚えてもらう必要はありません。実際の研究では、このようなツールを使ってRNA-seq解析をおこなっているのだなと理解してもらえればOKです。


## 別の教材

　このテキストでは、Pythonの基礎の大部分を省略しました。もう詳しくPython
プログラミングを学びたい人向けに、以下の教材も用意しています。

- [Python基礎](https://colab.research.google.com/github/CropEvol/lecture/blob/master/ILAS_2022/01/L01_python_basis.ipynb)
- [Pythonデータ解析基礎](https://colab.research.google.com/github/CropEvol/lecture/blob/master/ILAS_2022/02/L02_python_analysis.ipynb)
- [ゲノム情報解析入門](https://github.com/CropEvol/lecture#section2)（全14回）

<div align="right"><a href="https://github.com/CropEvol/lecture#section1">実習表ページに戻る</a></div>

## チャレンジ問題

　「FDR < 0.05」のデータ（統計的に有意な差があるとみなせる遺伝子データ）について、Sample1のほうが発現量が多いデータの個数とSample2のほうが発現量が多いデータの個数を調べてください。

　また、調べた個数を棒グラフとして表現してください。

ヒント:
1.  「FDR < 0.05」を満たすデータのみの抽出したデータフレームを用意する
1. Sample1のほうが発現量が多いデータは「logFC > 0」を満たすデータ