<img src="https://github.com/CropEvol/lecture/blob/master/ILAS_2021/01/images/banner.png?raw=true" alt="ILASセミナー「ゲノム博物学入門」" height="100px" align="middle">

# データ解析入門 - Python基礎 -


## Pythonとは

　**Python** は、数値計算（ベクトルや行列の計算）や統計解析、グラフ描画、機械学習（Machine Learning）など、様々なデータ解析をおこなえるプログラミング言語です。近年では、ゲノム解析にもよく使われています。

## DNA配列

　生物のゲノム情報はDNAに書き込まれています。DNAは、アデニン（A）、シトシン（C）、グアニン（G）、チミン（T）の4つの塩基で構成されています。人がゲノム情報を取り扱う時には、DNAをA,C,G,Tの4つの文字の並び（**文字列**）で表すのが一般的です。

　ここでは、Pythonで、DNA配列を表示したり、つなげたり、DNA配列の中身をチェックしたりしながら、Pythonの"基礎"を学んでいきます。

## 実習内容

1. DNA配列を表示する
1. DNA配列に名前をつける
1. DNA配列の長さを調べる / 長さの合計値を調べる
1. DNA配列の一部を取り出す
1. DNA配列を順番に読み上げる
1. 二つのDNA配列が同じかどうか調べる
1. 二つのDNA配列のどこが異なるか調べる
---

## 1. DNA配列を表示する
　最初に、DNA配列（文字列）を表示する方法を学びます。文字列を表示するには、**print関数** というものを使います。
 
```python
# 書き方
# 「値」には、表示したい文字列が入ります。
print(値)
```

In [None]:
# コード例1
print("AAGCTCATCGTCCATA")

### 「関数」とは  

　特定の機能を持ったコードのことを **関数** と言います。 print関数は、「文字列や数値などの値が渡されると、それを画面に表示する」機能を持ったものです。

　また、関数に与えるデータ（値）のことを **引数** と言います。上述の例では、`"AAGCTCATCGTCCATA"`が引数です。

### クオテーション

　　Pythonでは、文字列は必ずクオテーションで挟む必要があります。 **シングルクオテーション**（`'`） と **ダブルクオテーション**（`"`）のどちらも使うことが可能です。


In [None]:
# どちらも同じ
print('ACGT')  # シングルクオテーション
print("TGCA") # ダブルクオテーション

### プログラム中のコメント

　上述のプログラムの例でも使用してきましたが、プログラムの中にコメント（説明文）などを差し込むことが可能です。ハッシュ記号（`#`）を使うと、その行中のハッシュ記号以降の部分はプログラムとして認識されなくなります。

In [None]:
# print("ACGT")  # (1) 次の一行はプログラムとして実行されません。
print("TGCA")  # (2) これはプログラムとして実行されます

### 実習1

　print関数を使って、`GAATTC`の文字を画面に表示させてください。

#### 解答例

In [None]:
print("GAATTC")

## 2. DNA配列に名前をつける

　さきほどはprint関数に直接データを与えていました。ここでは、データに呼び出し名を付けて、再利用できるようにしてみましょう。

　プログラミング用語では、「呼び出し名」のことを **変数** と言います。また、呼び出し名をつけることを、**変数に代入する** と言います。

```python
# 書き方
変数 = "文字列"
print(変数)
```


In [None]:
# コード例2-1
dna = "AAGCTCATCGTCCATA"
print(dna)
print(dna)
print(dna)

　変数の中身は、何度でも書き換えられます。

In [None]:
# コード例2-2
dna = "AAGCTCATCGTCCATA"
print(dna)
dna = "GCCATGGGTTTTCA"
print(dna)
dna = "TTTTTTTTTTTTTTTTTT"
print(dna)

### 実習2

　次のプログラムには、2種類のDNA配列が書かれています（`GAATTC`、`TTAA`）。それぞれのDNA配列を変数（`dna1`、`dna2`）に代入し、変数を使ったプログラムを書き換えてください。

In [None]:
dna1 = 
dna2 = 
print("GAATTC")
print("TTAA")
print("TTAA")
print("GAATTC")

#### 解答例

In [None]:
dna1 = "GAATTC"
dna2 = "TTAA"
print(dna1)
print(dna2)
print(dna2)
print(dna1)

## 3. DNA配列の長さを調べる / 長さの合計値を調べる

　DNA配列の長さを調べる方法を学びましょう。文字列の長さを調べるために、新しい関数を使います。`len`関数です。

```python
# 書き方
len(文字列)
```

In [None]:
# コード例3-1
dna1 = "AAGCTCATCGTCCATA"
dna2 = "GGATCTGGAAACCTTGACGG"

print(len(dna1))  # dna1の長さ
print(len(dna2))  # dna2の長さ

　また、次のようにlen関数で調べた情報を"足し算"すると、合計の長さを調べられます。

In [None]:
# コード例3-2
dna1 = "AAGCTCATCGTCCATA"
dna2 = "GGATCTGGAAACCTTGACGG"

print(len(dna1) + len(dna2))  # dna1 + dna2の合計値

### 実習3

　次にセルには4つのDNA配列がそれぞれ変数に代入されています。４つのDNA配列の長さの合計値を調べてください。

In [None]:
dna1 = "AAGCTCATCGTCCATA"
dna2 = "GGATCTGGAAACCTTGACGG"
dna3 = "GTTCTCGATAAATCGTTTTCCCGA"
dna4 = "CTGGGGATTACCG"

#### 解答例

In [None]:
dna1 = "AAGCTCATCGTCCATA"
dna2 = "GGATCTGGAAACCTTGACGG"
dna3 = "GTTCTCGATAAATCGTTTTCCCGA"
dna4 = "CTGGGGATTACCG"

# len関数でそれぞれの長さを調べて、それらを足し算する
print(len(dna1) + len(dna2) + len(dna3) + len(dna4))

### ゲノムサイズ

　ゲノムサイズとは、その生物がもつDNA配列の長さです。生物は、種によって **ゲノムサイズ** が大きく異なります。

| 生物種 | ゲノムサイズ (bp; 塩基) |
| :------- | -------------: |
| 大腸菌 | 4,600,000 |
| 酵母 | 12,000,000 |
| シロイヌナズナ | 130,000,000 |
| イネ | 390,000,000 |
| トウモロコシ | 2,300,000,000 |
| コムギ | 17,000,000,000 |

_<small>データ引用元: 「ゲノム」『フリー百科事典　ウィキペディア日本語版』（ http://ja.wikipedia.org/ ）。2020年5月15日22時（日本時間）現在での最新版を取得。</small>_

### データ型： 文字列と数値

　Pythonには、データの種類（**データ型**）がいくつかあります。頻繁に使うのは2つです。
- **文字列**
- **数値**

　数値か文字列かは、データをクオテーション（`'`や`"`）で挟んでいるかどうかで決まります。

```python
a = "1" # 文字列
b = 1   # 数値
```

　この2つのデータ型は何が違うのか？　数値は計算できます。一方で、文字列は計算できません。「数値の足し算」と「文字列の足し算」を比較するとその違いがわかります。



In [None]:
print(123 + 456)     # 数値の足し算
print("123" + "456") # 文字列の足し算（文字列の結合）

## 4. DNA配列の一部を取り出す

### 4-1. 1文字取り出す

　今度は、DNA配列の一部分を取り出す方法を学びましょう。まずは、配列中の一文字を取り出す方法から学びます。

　文字列中の各文字には、番地が設定されています。Pythonでは通常、番号を0から数えるため、最初の文字は「0番目の文字」、その次は「1番目の文字」 ... といったような番地設定です。プログラミング用語では、この番地のことを **インデックス（添え字）** と言います。最後尾から数えるインデックス（-1, -2, -3, ...）もあります。

<img src="https://github.com/CropEvol/lecture/blob/master/ILAS_2020/01/images/str_index.png?raw=true" alt="文字列インデックス" height="100px" align="middle">

　文字列中の任意の文字を取り出すには、そのインデックスを指定すればOKです。

```python
# 書き方
文字列[インデックス]
```

In [None]:
# コード例4-1
dna = "AAGCTCAT"
print(dna[2])  # Pythonでいうところの「2番目の文字 G」が取り出される

### 実習4-1

　変数`dna`に入っている文字のうち、「最後尾の文字　T」を取り出してください。

In [None]:
dna = "AAGCTCAT"
print()

#### 解答例

In [None]:
dna = "AAGCTCAT"
print(dna[7])
print(dna[-1])  #　こちらもOK

### 4-2. 範囲指定で複数文字を取り出す

　次に、範囲指定で部分文字列を取り出す方法を学びましょう。これには、**スライス**と呼ばれる機能を使います。

　こちらは、文字と文字の間にも仕切り番号が振られていて、その番号を指定することで、取り出したい範囲を指定するイメージです。最後尾から数えるの仕切り番号もあります。

<img src="https://github.com/CropEvol/lecture/blob/master/ILAS_2020/01/images/str_slice.png?raw=true" alt="文字列スライス" height="125px" align="middle">

```python
# 書き方
# 開始位置を省略すると、「先頭から」の意味になる
# 終点位置を省略すると、「最後尾まで」の意味になる
文字列[開始位置:終点位置]
```

In [None]:
# コード例4-2
dna = "AAGCTCAT"
print(dna[2:5])

### 実習4-2

　次のDNA配列の「先頭の5塩基」を取り出してください。  

In [None]:
dna = "GTTCTCGATAAATCGTTTTCCCGA"

#### 解答例

In [None]:
dna = "GTTCTCGATAAATCGTTTTCCCGA"
print(dna[0:5]) # 例１
print(dna[:5])  # 例2

## 5. DNA配列を順番に読み上げる

　DNA配列を先頭から順番に1塩基ずつ取り出して、読み上げる（表示する）方法を学びます。

　**繰り返し構文（ループ構文; `for`構文）**というものを使います。

```python
# 書き方
# for構文中の処理を記述するには、字下げ（インデント）が必要
for 変数 in 繰り返したいデータ:
  処理1
  処理2
  処理3
```

<img src="https://github.com/CropEvol/lecture/blob/master/ILAS_2020/01/images/str_loop.png?raw=true" alt="文字列ループ" height="250px" align="middle">

In [None]:
# コード例5
dna = "AAGCTCAT"

for i in dna:
  print(i)

### 実習5

　`for`構文を使って、次のDNA配列を先頭の塩基から順番に1塩基ずつ読み上げてください。

　また、余裕があれば、先ほど学んだ「スライス機能」を使って、先頭の5塩基のみを1塩基ずつ読み上げてください。

In [None]:
dna = "GTTCTCGATA"

#### 解答例

In [None]:
dna = "GTTCTCGATA"

for i in dna:
  print(i)

In [None]:
# 先頭の5塩基を読み上げる
dna = "GTTCTCGATA"
sub_dna = dna[:5]

for i in sub_dna:
  print(i)

## 6. 二つのDNA配列が同じかどうか調べる

　最後に、二つのDNA配列中が同じかどうか調べてみましょう。

```
# 書き方
文字列1 == 文字列2
```

　全く同じDNA配列（文字列）の場合、`True`が返ってきます。異なるDNA配列の場合、`False`が返ってきます。



In [None]:
# コード例6　

dna1 = "GTTCTCGATA"
dna2 = "GTTCTCGATA"
dna3 = "GTTCTGGATA"

print(dna1 == dna2)

# 他の比較も試してみてください。
# dna1とdna3の比較
# dna2とdna3の比較
# dna3同士の比較

### 実習6

　次の二つのDNA配列が同じかどうか比較してください。

In [None]:
dna1 = "TGTTCTAATTTGCAAAACCTATTACAGTGGTTGATGTGGTTAGAACGGATAGTCATCTTGATTTCTATGGAGAATCAAGAAATATGGCTAGGATGTCAGATATACTTGCAGTTTATGCATGGGTTGATCCTTCCACCGGGTATTGCCAAGGTATATGCATATTTCAGT"
dna2 = "TGTTCTAATTTGCAAAACCTATTACAGTGGTTGATGTGGTTAGAACGGATAGTCATCTTGATTTCTATGGAGAATCAAGAAATATGCCTAGGATGTCAGATATATTTGCAGTTTATGCATGGGTTGATCCTTCCACCGGGTATTGCCAAGGTATATGCATATTTCAGT"


#### 解答例

In [None]:
dna1 = "TGTTCTAATTTGCAAAACCTATTACAGTGGTTGATGTGGTTAGAACGGATAGTCATCTTGATTTCTATGGAGAATCAAGAAATATGGCTAGGATGTCAGATATACTTGCAGTTTATGCATGGGTTGATCCTTCCACCGGGTATTGCCAAGGTATATGCATATTTCAGT"
dna2 = "TGTTCTAATTTGCAAAACCTATTACAGTGGTTGATGTGGTTAGAACGGATAGTCATCTTGATTTCTATGGAGAATCAAGAAATATGCCTAGGATGTCAGATATATTTGCAGTTTATGCATGGGTTGATCCTTCCACCGGGTATTGCCAAGGTATATGCATATTTCAGT"
print(dna1 == dna2)

### 比較に使う記号（比較演算子）

　プログラミングでは、`==`（等しいかどうか）以外にも多くの比較演算子があります。よく使うものは以下のとおりです。

条件式で使用する主な比較演算子:
- AとBは等しい `A == B` 
- AとBは等しくない `A != B`
- AはBより大きい `A > B`　（数値のみ比較可能）
- AはBより小さい `A < B`　（数値のみ比較可能）
- AはB以上 `A >= B`　（数値のみ比較可能）
- AはB以下 `A <= B`　（数値のみ比較可能）

In [None]:
#　文字列の比較
print("[1]", "abc" == "abd")
print("[2]", "abc" != "abd")

#　数値の比較
print("---------------")
print("[3]", 1 == 2)
print("[4]", 1 != 2)
print("[5]", 1 > 2)
print("[6]", 1 < 2)
print("[7]", 1 >= 2)
print("[8]", 1 <= 2)

## 7. 二つのDNA配列のどこが異なるか調べる

　あまり詳しくは述べませんが、「条件分岐構文 `if`構文」を使ったプログラムを書くと、二つのDNA配列のどこが異なるかを調べることができます。


In [None]:
dna1 = "TGTTCTAATTTGCAAAACCTATTACAGTGGTTGATGTGGTTAGAACGGATAGTCATCTTGATTTCTATGGAGAATCAAGAAATATGGCTAGGATGTCAGATATACTTGCAGTTTATGCATGGGTTGATCCTTCCACCGGGTATTGCCAAGGTATATGCATATTTCAGT"
dna2 = "TGTTCTAATTTGCAAAACCTATTACAGTGGTTGATGTGGTTAGAACGGATAGTCATCTTGATTTCTATGGAGAATCAAGAAATATGCCTAGGATGTCAGATATATTTGCAGTTTATGCATGGGTTGATCCTTCCACCGGGTATTGCCAAGGTATATGCATATTTCAGT"

# DNA配列の長さを調べる
dna_length = len(dna1)  # dna2でもOK

# DNA配列を1塩基ずつ取り出す
# （各ループでは、インデックス番号と１塩基が同時に取り出される）
for i, n in enumerate(dna1):
  # インデックスを使って、二つの文字列を比較する
  # 一致しない場合、その文字とインデックス番号を表示する
  if dna1[i] != dna2[i]:
    print(i, dna1[i], dna2[i])

### 補足: `for i, n in enumerate(dna1):` について

　`enumerate`関数は、インデックスとその値をセットで取り出す関数です。`for`構文と一緒に使うと、文字列を1文字ずつ `(インデックス, 値)`のセットで取り出すことが可能です。

```python
# 書き方
for インデックス用の変数, 値用の変数 in enumerate(文字列):
  処理1
  処理2
  処理3
```


In [None]:
for i, j in enumerate("abcde"):
  print(i, j)

### 補足: `if dna1[i] != dna2[i]:` について

　条件分岐構文（`if`構文）というものを使うと、より複雑な処理をプログラムにさせることが可能です。

```python
# 書き方
if 条件式1:
  処理1
elif 条件式2:
  処理2
else:
  処理3

# 条件式1に一致する場合、処理1が実行される。
# 条件式1に一致せず、条件式2に一致する場合、処理2が実行される
# その他の場合（条件式1にも条件式2にも一致しない場合）、処理3が実行される

# 条件分岐構文を書く際、if　は必要です。
# 条件分岐構文中で設置できる elif　 は0個以上です。
# 条件分岐構文中で設置できる else　は0個か1個です。
```

In [None]:
signal = "blue"

if signal == "red":
  print("stop!!")
elif signal == "yellow":
  print("caution!")
elif signal == "blue":
  print("go")
elif signal == "green":
  print("go")
else:
  print("error")

## おわりに

　ゲノムデータは、DNA配列、すなわち、文字列です。ここでは、文字列を表示する、文字列の長さを調べる、文字列を順番に取り出す、二つの文字列を比較する、といった方法を勉強しました。  また、ループ構文（や条件分岐構文）を使うと、処理を自動化できることも学びました。

　もっと自分でプログラムを書いてみたいという方向けに章末問題を用意しています。ぜひチャレンジしてみてください。わからないところをインターネットで調べながら、少しずつコードを作っていくと良いでしょう。

調べ方例: 「python 調べたい内容」をWeb検索する


## 章末問題

```python
# サンプルDNA配列
AGTGGAATTGAGCAGAGTCGTCGTGACTCTTTAATCCCTCAGCTTGTC
```

- DNA配列を「ACGT」ではなく、Aを「0」、Cを「1」、Gを「2」、Tを「3」に置き換えて表示してください。

- DNA配列中に特定の文字列が何塩基目にあるか調べる。例えば、`CAG`は何塩基目にあるだろうか？

- 実際のDNA配列は二本鎖構造をしています。あるDNA配列には、対となるDNA配列「逆相補鎖配列」があります（逆相補鎖配列がどういうものかは、書籍やWeb等で調べてください）。逆相補鎖配列を表示してください。
 