<img src="https://github.com/CropEvol/lecture/blob/master/ILAS_2020/01/images/banner.png?raw=true" alt="ILASセミナー「ゲノム博物学入門」" height="100px" align="middle">

# データ解析入門 - Python基礎 -


## Pythonとは

　**Python** は、数値計算（ベクトルや行列の計算）や統計解析、グラフ描画、機械学習（Machine Learning）など、様々なデータ解析をおこなえるプログラミング言語です。近年では、ゲノム解析にもよく使われています。

## DNA配列

　生物のゲノム情報はDNAに書き込まれています。DNAは、アデニン（A）、シトシン（C）、グアニン（G）、チミン（T）の4つの塩基で構成されています。人がゲノム情報を取り扱う時には、DNAをA,C,G,Tの4つの文字の並び（**文字列**）で表すのが一般的です。

　ここでは、Pythonで、DNA配列を表示したり、つなげたり、DNA配列の中身をチェックしたりしながら、Pythonの"基礎"を学んでいきます。

## 実習内容

1. DNA配列を表示する
1. DNA配列に名前をつける
1. DNA配列を繋げる
1. DNA配列の長さを調べる
1. DNA配列の一部を取り出す
1. DNA配列を順番に読み上げる
1. DNA配列を精査する

---

## 1. DNA配列の表示
　最初に、DNA配列（文字列）を表示する方法を学びます。文字列を表示するには、**print関数** というものを使います。
 
```python
# 書き方
# 「値」には、表示したい文字列が入ります。
print(値)
```

In [0]:
print("AAGCTCATCGTCCATA")

### 「関数」とは  

　特定の機能を持ったコードのことを **関数** と言います。 print関数は、「文字列や数値などの値が渡されると、それを画面に表示する」機能を持ったものです。Pythonには、print関数以外にも多くの関数があります。また、自分で関数を作成することも可能です。
 
<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2019/images/function.png?raw=true" alt="colab_server" height="200px">

In [0]:
# 自作関数: 与えられた数字を二乗する関数 square
# （下記コードを現段階で完全に理解する必要はありません。）

# 関数を定義（作成）する
def square(x):
  print(x**2)  # xの2乗を表示

# 関数を使用する
square(3)

### 引数

　print関数の括弧 `()` 内に入れる値のことを **引数** と言います。上の例では、`"AAGCTCATCGTCCATA"`が引数です。

　関数によっては、2つ以上の引数を受け取ることが可能な場合があります。

In [0]:
print("AAGC", "TCAT", "CGTC", "CATA")

### クオテーション

　　Pythonでは、文字列は必ずクオテーションで挟む必要があります。

　基本的に、**シングルクオテーション**（`'`） と **ダブルクオテーション**（`"`）のどちらを使っても構いません。ただし、ひとつの文字列に使うクオテーションは同じものでなければなりません。


In [0]:
# どちらも同じ
print('ACGT')  # シングルクオテーション
print("TGCA") # ダブルクオテーション

In [0]:
# シングルとダブルの併用はNG（エラーが発生します）
print('ACGT")

### プログラム中のコメント

　上述のプログラムの例でも使用してきましたが、プログラムの中にコメント（説明文）などを差し込むことが可能です。ハッシュ記号（`#`）を使うと、その行中のハッシュ記号以降の部分はプログラムとして認識されなくなります。

In [0]:
# print("ACGT")  # 次の一行はプログラムとして実行されません。
print("TGCA")  # これはプログラムとして実行されます

### 実習1

　print関数を使って、次のDNA配列（文字列）を画面に表示させてください。
 
```
GAATTC
```

#### 解答例

In [0]:
print("GAATTC")

## 2. DNA配列に名前をつける

　DNA配列（例では、`AAGCTCATCGTCCATA`）をプログラム中で何度か呼び出す必要がある場合、その度に`AAGCTCATCGTCCATA`を書くのは無駄が多いです。また、別のDNA配列に一括で変更したい場合にはなおさらです。

```python
# 各行の"AAGCTCATCGTCCATA"を"AAAAAAA"に
# 変更したい場合、全部の行を書き換える必要がある。
print("AAGCTCATCGTCCATA")
print("AAGCTCATCGTCCATA")
print("AAGCTCATCGTCCATA")
print("AAGCTCATCGTCCATA")
print("AAGCTCATCGTCCATA")
print("AAGCTCATCGTCCATA")
print("AAGCTCATCGTCCATA")
print("AAGCTCATCGTCCATA")
print("AAGCTCATCGTCCATA")
print("AAGCTCATCGTCCATA")
```

　このような時、DNA配列に任意の「呼び出し名」をつけると、非常に便利です。この呼び出し名のことをプログラミング用語では **変数** と言います。また、呼び出し名をつけることを、**変数に代入する** と言います。

　変数に代入した文字列は、変数名で再度呼び出すことが可能です。

```python
# 書き方
変数 = "文字列"
# 変数名で登録した文字列を取り出す
print(変数)
```

　ここでひとつ注意すべきことは、変数に代入する際には、イコール記号`=`を使う点です。この記号は、「左辺と右辺が等しい」という意味で使われていません。「右辺の文字列を左辺の変数に代入（格納）する」といった意味合いで使われています。


In [0]:
dna = "AAGCTCATCGTCCATA"
print(dna)
print(dna)
print(dna)
print(dna)
print(dna)
print(dna)
print(dna)
print(dna)
print(dna)
print(dna)

　変数名は、好きな名前をつけることができます。ただし、ピリオド`.`やハイフン（マイナス）`-`, 空白 ` `は、変数の名前に使用できません。また、数字から始まる名前も使用不可です。

　使える文字と記号は、基本的には、半角英数字`A〜Z`や`a〜z`, `0〜9`、 アンダーバー`_`です。 

```python
# 使用できない変数名
dna1.0 = "ATGC"  # ピリオドが入っているため不可
rice-dna = "ATGC"  # ハイフン（マイナス）が入っているため不可
rice dna = "ATGC"  # 空白が入っているため不可
123dna = "ATGC"  # 数字から始まるため不可
# 使用できる変数名
dna1_0 = "ATGC"
rice_dna = "ATGC"
dna123 = "ATGC"
```

### 実習2

　次のプログラムには、2種類のDNA配列が書かれています（`GAATTC`と`TTAA`）。変数を使ったプログラムを書き換えてください。変数名は自由に設定してください。

In [0]:
print("GAATTC")
print("TTAA")
print("TTAA")
print("GAATTC")
print("GAATTC", "TTAA")

#### 解答例

In [0]:
kyoto = "GAATTC"
osaka = "TTAA"
print(kyoto)
print(osaka)
print(osaka)
print(kyoto)
print(kyoto, osaka)

## 3. DNA配列を繋げる

　次に、2つのDNA配列を繋げてみましょう。文字列の"足し算"をおこなうと、2つのDNA配列（文字列）を結合できます。

```python
# 書き方
"文字列1" + "文字列2"
```

In [0]:
dna1 = "AAGCTCATCGTCCATA"
dna2 = "GGATCTGGAAACCTTGACGG"

print(dna1 + dna2)

### 実習3

　次の4つのDNA配列を繋げたDNA配列を表示してください。繋げる順番は自由です。同じDNA配列を複数回使っても構いません。

```
AAGCT,  CAT,  CGT,  CCATA
```

In [0]:
dna1 = "AAGCT"
dna2 = "CAT"
dna3 = "CGT"
dna4 = "CCATA"

#### 解答例

In [0]:
dna1 = "AAGCT"
dna2 = "CAT"
dna3 = "CGT"
dna4 = "CCATA"

long_dna = dna2 + dna3 + dna2 + dna1 + dna1 + dna4 + dna1 + dna2
print(long_dna)

# 上で作成した「long_dna」の配列を2回繋げる
long_dna = long_dna + long_dna

print(long_dna)

## 4. DNA配列の長さを調べる

　DNA配列の長さを調べる方法を学びましょう。文字列の長さを調べるために、新しい関数を使います。`len`関数です。

```python
# 書き方
len(文字列)
```

In [0]:
dna1 = "AAGCTCATCGTCCATA"
dna2 = "GGATCTGGAAACCTTGACGG"

print(len(dna1))  # dna1の長さ
print(len(dna2))  # dna2の長さ

### データ型： 文字列と数値

　Pythonには、データの種類（**データ型**）がいくつかあります。頻繁に使うのは2つです。一つは、上で何度も出てきた**文字列**です。もう一つは、**数値**です。数値か文字列かは、データをクオテーション（`'`や`"`）で挟んでいるかどうかで決まります。

```python
a = "1" # 文字列
b = 1   # 数値
```

　また、数値に設定できるデータとできないデータがあります。
- 英字: 文字列として設定できる。数値として設定できない。
- 数字: 文字列として設定できる。数値として設定できる。

```python
# 英字
a = "abc"  # OK: 文字列
b = abc    # NG: 数値として設定できない
# 数字
c = "123"  # OK: 文字列
d = 123    # OK: 数値
```

　当たり前かもしれませんが、数値は計算に使用できます。一方で、文字列は計算できません。そのことを学ぶために、下記のコードを実行してください。

　数値として設定した方は、算数で学んだとおり、足し算の結果が正しく得られます。文字列として設定した方は、「DNA配列を繋げる」で見たように、文字列が結合された結果が得られます。



In [0]:
print(123 + 456)     # 数値の足し算
print("123" + "456") # 文字列の足し算（文字列の結合）

### 実習4

　次にセルには4つのDNA配列がそれぞれ変数に代入されています。４つのDNA配列の長さの合計値を調べてください。

In [0]:
dna1 = "AAGCTCATCGTCCATA"
dna2 = "GGATCTGGAAACCTTGACGG"
dna3 = "GTTCTCGATAAATCGTTTTCCCGA"
dna4 = "CTGGGGATTACCG"

#### 解答例1

In [0]:
dna1 = "AAGCTCATCGTCCATA"
dna2 = "GGATCTGGAAACCTTGACGG"
dna3 = "GTTCTCGATAAATCGTTTTCCCGA"
dna4 = "CTGGGGATTACCG"

# len関数でそれぞれの長さを調べて、それらを足し算する
print(len(dna1) + len(dna2) + len(dna3) + len(dna4))

#### 解答例2

In [0]:
dna1 = "AAGCTCATCGTCCATA"
dna2 = "GGATCTGGAAACCTTGACGG"
dna3 = "GTTCTCGATAAATCGTTTTCCCGA"
dna4 = "CTGGGGATTACCG"

# DNA配列を結合した後、len関数で長さを調べる
print(len(dna1 + dna2 + dna3 + dna4))

### ゲノムサイズ

　ゲノムサイズとは、その生物がもつDNA配列の長さです。生物は、種によって **ゲノムサイズ** が大きく異なります。

| 生物種 | ゲノムサイズ (bp; 塩基) |
| :------- | -------------: |
| 大腸菌 | 4,600,000 |
| 酵母 | 12,000,000 |
| シロイヌナズナ | 130,000,000 |
| イネ | 390,000,000 |
| トウモロコシ | 2,300,000,000 |
| コムギ | 17,000,000,000 |

_<small>データ引用元: 「ゲノム」『フリー百科事典　ウィキペディア日本語版』（ http://ja.wikipedia.org/ ）。2020年5月15日22時（日本時間）現在での最新版を取得。</small>_

## 5. DNA配列の一部を取り出す

　今度は、DNA配列の一部分を取り出す方法を学びましょう。まずは、配列中の一文字を取り出す方法から学びます。

　文字列中の各文字には、番地が設定されています。Pythonでは通常、番号を0から数えるため、最初の文字は「0番目の文字」、その次は「1番目の文字」 ... といったような番地設定です。プログラミング用語では、この番地のことを **インデックス（添え字）** と言います。最後尾から数えるインデックス（-1, -2, -3, ...）もあります。

<img src="https://github.com/CropEvol/lecture/blob/master/ILAS_2020/01/images/str_index.png?raw=true" alt="文字列インデックス" height="100px" align="middle">

　文字列中の任意の文字を取り出すには、そのインデックスを指定すればOKです。

```python
# 書き方
文字列[インデックス]
```

In [0]:
dna = "AAGCTCAT"
print(dna[2])  # Pythonでいうところの「2番目の文字 G」が取り出される

　次に、範囲指定で部分文字列を取り出す方法を学びましょう。これには、**スライス**と呼ばれる機能を使います。

　こちらは、文字と文字の間にも仕切り番号が振られていて、その番号を指定することで、取り出したい範囲を指定するイメージです。最後尾から数えるの仕切り番号もあります。

<img src="https://github.com/CropEvol/lecture/blob/master/ILAS_2020/01/images/str_slice.png?raw=true" alt="文字列スライス" height="125px" align="middle">

```python
# 書き方
# 開始位置を省略すると、「先頭から」の意味になる
# 終点位置を省略すると、「最後尾まで」の意味になる
文字列[開始位置:終点位置]
```

In [0]:
dna = "AAGCTCAT"
print(dna[2:5])

### 実習5

　次のDNA配列の「先頭の5塩基」を取り出してください。  

　余裕があれば、「後方の5塩基」も取り出してみてください。

In [0]:
dna = "GTTCTCGATAAATCGTTTTCCCGA"

#### 解答例

In [0]:
dna = "GTTCTCGATAAATCGTTTTCCCGA"
print(dna[0:5]) # または　print(dna[:5])
print(dna[-5:])

## 6. DNA配列を順番に読み上げる

　DNA配列を先頭から順番に1塩基ずつ取り出して、読み上げる（表示する）方法を学びます。

　**繰り返し構文（ループ構文; `for`構文）**というものを使います。

```python
# 書き方
# for構文中の処理を記述するには、字下げ（インデント）が必要
for 変数 in 繰り返したいデータ:
  処理1
  処理2
  処理3
```

<img src="https://github.com/CropEvol/lecture/blob/master/ILAS_2020/01/images/str_loop.png?raw=true" alt="文字列ループ" height="250px" align="middle">

In [0]:
dna = "AAGCTCAT"

for i in dna:
  print(i)

### 別の方法: 文字列の長さとインデックスを使う

In [0]:
dna = "AAGCTCAT"
dna_len = len(dna)  # DNAの長さ(8)

# 0~7の番号が順番に変数i に代入される
# （最後の数字は8ではないことに注意）
for i in range(dna_len):  
  print(i, dna[i])

### 実習6

　次の全30塩基のDNA配列には、先頭10塩基と後方10塩基に未定義塩基（N）が含まれています。N以外の部分の塩基を順番に1塩基ずつ読み上げてください。

　Pythonの数え上げ方（Zero-based numbering）で言えば、10から19番目の塩基が読み上げたいDNA配列です。

In [0]:
dna = "NNNNNNNNNNGTTCTCGATANNNNNNNNNN"

#### 解答例

In [0]:
dna = "NNNNNNNNNNGTTCTCGATANNNNNNNNNN"
sub_dna = dna[10:20]  # 10から19番目の塩基を取り出す

for i in sub_dna:
  print(i)

## 7. DNA配列を精査する

　最後に、DNA配列中に、アデニン(A)がいくつあるか調べてみましょう。

　まず、Aの文字数を記録するカウンターを用意します。次に、DNA配列をループ構文で1塩基ずつ読み上げます。 その際、Aに出会った場合、カウンターの値をプラス1します。

　「Aに出会った場合」の部分を、 **条件分岐構文（if構文）** というもの使って、実現させます。

```python
# 書き方
if 条件式1:
  処理1
elif 条件式2:
  処理2
else:
  処理3

# 条件式1に一致する場合、処理1が実行される。
# 条件式1に一致せず、条件式2に一致する場合、処理2が実行される
# その他の場合（条件式1にも条件式2にも一致しない場合）、処理3が実行される

# 条件分岐構文を書く際、if　は必要です。
# 条件分岐構文中で設置できる elif　 は0個以上です。
# 条件分岐構文中で設置できる else　は0個か1個です。
```

条件式で使用する主な比較演算子:
- AとBは等しい `A == B` 
- AとBは等しくない `A != B`
- AはBより大きい `A > B`　（数値のみ比較可能）
- AはBより小さい `A < B`　（数値のみ比較可能）
- AはB以上 `A >= B`　（数値のみ比較可能）
- AはB以下 `A <= B`　（数値のみ比較可能）




In [0]:
dna = "AGTGGAATTGAGCAGAGTCGTCGTGACTCTTTAATCCCTCAGCTTGTC"

#Aの個数カウンターの初期値
count_A = 0

for i in dna:
  if i == "A":                 #　取り出した塩基がAの場合
    count_A = count_A + 1  # カウンターの値を+1

print(count_A)  # 最終的なカウンターの値（Aの個数）

### 実習7

　下記コードを改変して、シトシン（C）、グアニン（G）、チミン（T）の個数もカウントできるようにしてください。

In [0]:
dna = "AGTGGAATTGAGCAGAGTCGTCGTGACTCTTTAATCCCTCAGCTTGTC"

#Aの個数カウンターの初期値
count_A = 0

for i in dna:
  if i == "A":                 #　取り出した塩基がAの場合
    count_A = count_A + 1  # カウンターの値を+1

print(count_A)  # 最終的なカウンターの値（Aの個数）

#### 解答例

In [0]:
dna = "AGTGGAATTGAGCAGAGTCGTCGTGACTCTTTAATCCCTCAGCTTGTC"

#各塩基のカウンターを準備
count_A = 0
count_C = 0
count_G = 0
count_T = 0

for i in dna:
  #　Aの場合
  if i == "A":
    count_A = count_A + 1
  #　Cの場合
  elif i == "C":
    count_C = count_C + 1
  # Gの場合
  elif i == "G":
    count_G = count_G + 1
  # その他（Tの場合）
  else:
    count_T = count_T + 1

print(count_A)  # Aの個数
print(count_C)  # Cの個数
print(count_G)  # Gの個数
print(count_T)  # Tの個数

### 文字列中の任意の文字をカウントする関数 `count()`

　上の文字カウントは、関数を使って簡単におこなうことが可能です。

```python
文字列.count（カウントしたい文字）
```

In [0]:
dna = "AGTGGAATTGAGCAGAGTCGTCGTGACTCTTTAATCCCTCAGCTTGTC"

print(dna.count("A"))  # Aの個数
print(dna.count("C"))  # Cの個数
print(dna.count("G"))  # Gの個数
print(dna.count("T"))  # Tの個数

## まとめ

　ゲノムデータは、DNA配列、すなわち、文字列です。ここでは、Pythonの基礎として、文字列を表示する、文字列の長さを調べる、文字列の中身をチェックする、といった方法を勉強しました。また、ループ構文や条件分岐構文を使うと、処理を自動化できることも学びました。

　文字列操作がゲノムデータ解析の第一歩ですが、データ解析の大部分は、数値化されたデータを処理して、その結果のグラフ化です。今回ほとんど学んでいませんが、Pythonで数値計算をおこなえます。また、データから各種のグラフを描くことも可能です。次回以降は、より実際のデータに近いものを扱いながら、それらを勉強していきます。



---

## チャレンジ問題

```python
# サンプルDNA配列
AGTGGAATTGAGCAGAGTCGTCGTGACTCTTTAATCCCTCAGCTTGTC
```

- DNA配列を「ACGT」ではなく、Aを「0」、Cを「1」、Gを「2」、Tを「3」に置き換えて表示してください。

- DNA配列中に特定の文字列が何塩基目にあるか調べる。例えば、`CAG`は何塩基目にあるだろうか？

- 実際のDNA配列は二本鎖構造をしています。あるDNA配列には、対となるDNA配列「逆相補鎖配列」があります（逆相補鎖配列の詳細は、Web等で調べてください）。逆相補鎖配列を表示してください。



- PythonでランダムなDNA配列を発生させてください（「ランダムな」の部分に該当するPythonプログラムは、今回勉強していません。調べる必要があります。）  