<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2019/images/lec_title.png?raw=true" alt="2019年度ゲノム情報解析入門" height="100px" align="middle">

# Pythonライブラリを使う - 基礎 - (2)

## はじめに
　
 [Pythonライブラリを使う - 基礎 - (1)](https://colab.research.google.com/github/CropEvol/lecture/blob/master/textbook_2019/L06_python_libraries.ipynb) では、pandas、Matplotlib、SciPyの勉強をしました。ここでは、別のライブラリ「NumPy」と「Biopython」の勉強をします。 
  
　「NumPy」は数値計算用のライブラリで、機械学習などでよく使うライブラリです。「Biopython」は、生物学データの処理に特化したライブラリです。 


## 今回の実習内容

1. NumPy
  - NumPy配列を使った数値計算
  - 連続した数列の生成
  - ランダムな数値（乱数）の生成とシミュレーション 

2. Biopython
  - FASTA形式ファイルの読み込み
  - グラフ描画

---

## 1. NumPy  [<img src="https://cdn.rawgit.com/numpy/numpy/master/branding/icons/numpylogo.svg" alt="numpy" height="50px" align="right">](https://numpy.org/)

　**NumPy** は、数値データを扱う解析でよく使うライブラリです。NumPyでは、次のようなことをおこなえます。
 
- 配列の数値計算をおこなう
- 連続した数値（数列）を得る
- ランダムな数値（乱数）を得る


### 配列の数値計算

　Pythonの基礎では、数値が入った2つのリストの要素同士の計算をおこなう際、for構文（+ zip関数）を用いて、それぞれの要素を取り出して、計算をおこなっていました。

In [0]:
# Python基礎で学んだ文法で、リストの要素同士の計算を行う
L1 = [1,2,3]
L2 = [4,5,6]

L3 = [] # 計算後の数値を入れるためのリスト
for i, j in zip(L1,L2):
  L3.append(i + j)

print(L3)

　NumPyを使うと、このようなリスト同士の数値計算が格段に簡単におこなえるようになります。手順は次の通りです。
1. NumPyライブラリを読み込む。  
1. リストを **NumPy配列**（以下、**配列**） と呼ばれるデータ型に変換する。  

1. 配列を使って計算式を書く。


　NumPyライブラリを準備するために、まずライブラリの読み込みをおこないます。NumPyライブラリの略記として「np」がよく使われます。
```python
import numpy as np
```

　次に、NumPyの機能のひとつ `array` を使って、リストを「配列」に変換します。
```python
配列 = np.array(リスト)
```

　最後に、配列の計算をおこないます。
```python
配列1 + 配列2  # 足し算
```

$$
\begin{pmatrix}
x_0 \\ x_1 \\ x_2
\end{pmatrix}
+
\begin{pmatrix}
y_0 \\ y_1 \\ y_2
\end{pmatrix}
=
\begin{pmatrix}
x_0+y_0 \\ x_1+y_1 \\ x_2+y_2
\end{pmatrix}
$$


In [0]:
# ライブラリの読み込み
import numpy as np

#リスト
x = [1,2,3] 
y = [4,5,6]

# NumPy配列に変換
np_x = np.array(x)
np_y = np.array(y)

# 計算
np_x + np_y

　二次元リスト（二重の入れ子状態のリスト）でも同じで、配列にすれば同じインデックスの要素同士を簡単に計算できます。

$$
\begin{pmatrix}
x_{00} & x_{01} & x_{02} \\ x_{11} & x_{12} & x_{13}
\end{pmatrix}
+
\begin{pmatrix}
y_{00} & y_{01} & y_{02} \\ y_{11} & y_{12} & y_{13}
\end{pmatrix}
=
\begin{pmatrix}
x_{00}+y_{00} & x_{01}+y_{01} & x_{02}+y_{02} \\ 
x_{11}+y_{11} & x_{12}+y_{12} & x_{13}+y_{13}
\end{pmatrix}
$$

In [0]:
import numpy as np

# リスト
x = [[1,2,3], [1,2,3]]
y = [[4,5,6], [4,5,6]]

# NumPy配列に変換
np_x = np.array(x)
np_y = np.array(y)

# 計算
np_x + np_y

　　上の二次元リストをfor構文を使って書くと、二重のfor構文（for構文中にfor構文）を書くことになります。Pythonのfor構文は、実行速度が遅いと言われています。上記の例では、たいした違いはありませんが、大規模なデータになってくると、その"遅さ"が解析のボトルネックになります。NumPyは、多次元リストを高速に計算できるように設計されており、機械学習など多次元の数値データを扱う分野でよく使われています。

### 実習1

　変数 `A` と `B` それぞれには、3行3列のリストが代入されています。NumPyを使って、このリスト`A`と`B`の要素同士の掛け算をおこなってください。

In [0]:
# NumPyを準備
import numpy as np

# リスト
A = [
     [100, 200, 300],
     [20, 15, 10],
     [50, 75, 100],
]

B = [
     [0.1, 0.1, 0.1],
     [0.1, 0.1, 0.1],
     [0.1, 0.1, 0.1],
]

# 以下に追記してください。



#### 解答例

In [0]:
# NumPyを準備
import numpy as np

# リスト
A = [
     [100, 200, 300],
     [20, 15, 10],
     [50, 75, 100],
]

B = [
     [0.1, 0.1, 0.1],
     [0.1, 0.1, 0.1],
     [0.1, 0.1, 0.1],
]

# NumPy配列に変換
np_A = np.array(A)
np_B = np.array(B)

# 掛け算
np_A * np_B

### ブロードキャスト

　NumPy配列を使うと、すべての要素に同じ値を足したり掛けたりするような計算を簡単におこなうことが可能です。この機能のことを、**ブロードキャスト** と言います。

$$
\begin{pmatrix}
x_0 \\ x_1 \\ x_2
\end{pmatrix}
+
y
=
\begin{pmatrix}
x_0+y \\ x_1+y \\ x_2+y
\end{pmatrix}
$$

$$
\begin{pmatrix}
x_0 \\ x_1 \\ x_2
\end{pmatrix}
\times
y
=
\begin{pmatrix}
x_0y \\ x_1y \\ x_2y
\end{pmatrix}
$$

In [0]:
# NumPyを準備
import numpy as np

x = np.array([1,2,3]) # 配列
y = 4

# 計算
print(x + y)
print(x * y)

### 一次元配列（ベクトル）の内積


　一次元配列（ベクトル）の内積（ドット積）を求めてみましょう。
 
$$
\begin{pmatrix}
x_0 & x_1 & x_2
\end{pmatrix}
\begin{pmatrix}
y_0 \\ y_1 \\ y_2
\end{pmatrix}
= x_0y_0 + x_1y_1 + x_2y_2
$$

In [0]:
import numpy as np

# 配列
x = np.array([1,2,3])
y = np.array([4,5,6])

# ベクトルの内積（ドット積）
np.dot(x, y)

　この内積の計算を使えば、「[Pythonをはじめる -実践-](https://colab.research.google.com/github/CropEvol/lecture/blob/master/textbook_2019/L05_population_genetics.ipynb)」でおこなった **Nucleotide diversity ($\pi$)**の計算も簡単にできます。

<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2019/images/nucleotide_diversity.png?raw=true" alt="nucleotide_diversity" height="300px" align="middle">

In [0]:
# 基準配列と同じ塩基の数（ref）、違う塩基の数（alt）
ref_aomori = [20, 20, 9, 20, 19, 11, 20, 16, 20, 20, 0, 20, 20, 20, 20, 20, 20, 15, 20, 20, 15, 20, 20, 10, 20, 14, 20, 20, 10, 20, 18, 11, 20, 0, 5, 20, 3, 9, 1, 20, 19, 3, 0, 1, 0, 20, 6, 20, 20, 0, 17, 0, 20, 4, 20, 10, 20, 20, 20, 20, 5, 5, 7, 17, 16, 14, 14, 20, 20, 20, 20, 16, 15, 15, 11, 15, 20, 6, 20, 5, 5, 20, 20, 7, 20, 20, 17, 15, 18, 6, 17, 10, 10, 20, 15, 0, 17, 11, 20, 20, 20, 20, 20, 12, 12, 10, 9, 8, 15, 11, 20, 13, 15, 20, 5, 18, 2, 14, 10, 14, 15, 12, 20, 13, 17, 20, 14, 20, 14, 13, 12, 13, 20, 12, 17, 17, 18, 11, 20, 20, 20, 20, 20, 12, 0, 0, 20, 19, 4, 20, 20, 20, 3, 7, 15, 0, 20, 0, 18, 20, 14, 20, 7, 20, 0, 20, 20, 16, 0, 17, 20, 0, 20, 17, 9, 17, 20, 0, 11, 0, 0, 0, 0, 1, 5, 20, 14, 12, 20, 20, 12, 20, 20, 19, 20, 20, 20, 20, 20, 15, 17, 20, 20, 13, 14, 11, 8, 20, 12, 2, 17, 5, 6, 4, 16, 15, 8, 20, 12, 19, 20, 14, 7, 20, 0, 13, 17, 13, 20, 15, 16, 16, 20, 13, 20, 20, 20, 20, 17, 20, 13, 0, 0, 0, 16, 7, 20, 20, 14, 10, 8, 20, 9, 4, 16, 11, 9, 20, 13, 16, 11, 11, 17, 13, 13, 17, 20, 0, 3, 0, 20, 20, 0, 9, 14, 13, 13, 16, 17, 17, 16, 13, 20, 20, 4, 20, 20, 13, 20, 17, 12, 17, 11, 20, 20, 20, 9, 20, 3]
alt_aomori = [0, 0, 11, 0, 1, 9, 0, 4, 0, 0, 20, 0, 0, 0, 0, 0, 0, 5, 0, 0, 5, 0, 0, 10, 0, 6, 0, 0, 10, 0, 2, 9, 0, 20, 15, 0, 17, 11, 19, 0, 1, 17, 20, 19, 20, 0, 14, 0, 0, 20, 3, 20, 0, 16, 0, 10, 0, 0, 0, 0, 15, 15, 13, 3, 4, 6, 6, 0, 0, 0, 0, 4, 5, 5, 9, 5, 0, 14, 0, 15, 15, 0, 0, 13, 0, 0, 3, 5, 2, 14, 3, 10, 10, 0, 5, 20, 3, 9, 0, 0, 0, 0, 0, 8, 8, 10, 11, 12, 5, 9, 0, 7, 5, 0, 15, 2, 18, 6, 10, 6, 5, 8, 0, 7, 3, 0, 6, 0, 6, 7, 8, 7, 0, 8, 3, 3, 2, 9, 0, 0, 0, 0, 0, 8, 20, 20, 0, 1, 16, 0, 0, 0, 17, 13, 5, 20, 0, 20, 2, 0, 6, 0, 13, 0, 20, 0, 0, 4, 20, 3, 0, 20, 0, 3, 11, 3, 0, 20, 9, 20, 20, 20, 20, 19, 15, 0, 6, 8, 0, 0, 8, 0, 0, 1, 0, 0, 0, 0, 0, 5, 3, 0, 0, 7, 6, 9, 12, 0, 8, 18, 3, 15, 14, 16, 4, 5, 12, 0, 8, 1, 0, 6, 13, 0, 20, 7, 3, 7, 0, 5, 4, 4, 0, 7, 0, 0, 0, 0, 3, 0, 7, 20, 20, 20, 4, 13, 0, 0, 6, 10, 12, 0, 11, 16, 4, 9, 11, 0, 7, 4, 9, 9, 3, 7, 7, 3, 0, 20, 17, 20, 0, 0, 20, 11, 6, 7, 7, 4, 3, 3, 4, 7, 0, 0, 16, 0, 0, 7, 0, 3, 8, 3, 9, 0, 0, 0, 11, 0, 17]
# 染色体の本数
n = 20

#-------

import numpy as np

# 配列に変換
ref = np.array(ref_aomori)
alt = np.array(alt_aomori)

# （分数の分子） [基準と同じx基準と違う]の合計 = 内積を計算
bunshi = np.dot(ref, alt)

# （分数の分母）
bunbo= n * (n-1) / 2

# Nucleotide diversity
pi = bunshi / bunbo
print(pi)

### 連続した数値（数列）の生成

　$ y = x^{3} + x^{2} + x + 1$ のグラフを描くために「一定間隔の連続したxの値を発生させたい」場合などにもNumPyを使います。その際に使うのが、NumPyの機能 `linspace` です。

　次のコードでは、`linspace`を使って、-10から10までの20個の等間隔な数値を発生させて、上の式のグラフを描いています。

In [0]:
# NumPyを準備する
import numpy as np

# xの値
x = np.linspace(-10, 10, num=20)
print("x: ", x)

# yの値
y = x**3 + x**2 + x + 1
print("y: ", y)

In [0]:
# Matplotlibのpyplot機能を準備
import matplotlib.pyplot as plt
# グラフ描画
plt.plot(x, y)   # プロット
plt.xlabel("x")  # x軸ラベル
plt.ylabel("y")  # y軸ラベル
plt.show()      # 表示（省略可能）

### 実習2

　$ y = x^{2} + 12x - 8$ $(-20 \leqq x \leqq 20)$ のグラフを描いてください。なお、発生させる数列の個数はいくつでも構いません。

In [0]:
# 必要なライブラリ
import numpy as np
import matplotlib.pyplot as plt

# 以下に追記してください。
x = 
y = 

# グラフ描画
plt.plot(x, y)   # プロット
plt.xlabel("x")  # x軸ラベル
plt.ylabel("y")  # y軸ラベル
plt.show()      # 表示（省略可能）

#### 解答例

In [0]:
# 必要なライブラリ
import numpy as np
import matplotlib.pyplot as plt

# 以下に追記してください。
x = np.linspace(-20, 20) # numオプションを指定しなければ50個の数値が発生する
y = x**2 + 12*x -8

# グラフ描画
plt.plot(x, y)   # プロット
plt.xlabel("x")  # x軸ラベル
plt.ylabel("y")  # y軸ラベル
plt.show()      # 表示（省略可能）

### ランダムな数値（乱数）の生成

### 一様分布にしたがった乱数

　NumPyには、乱数を作成する関数がいくつかあります。そのうちのひとつがrand関数です。この関数を使うと、0から1までの数値（小数点数）をランダムに得られます（もう少し正確にいうと、 **一様分布** と呼ばれる分布にしたがって乱数を得られます）。

　次のコードセルを実行してください。


In [0]:
# NumPyを準備する
import numpy as np

# 0~1までのランダムな数値を1個生成する
r1 = np.random.rand()
print(r1)
print("------")

# 0~1までのランダムな数値を20個生成する
r2 = np.random.rand(20)
print(r2)

### 実習3

　下のコードを何度か実行して、乱数を使って作成した塩基配列が、実行するたびに変わることを確認してください。また、コメントアウトされている `np.random.seed(0)` の先頭の`#`を取り除いて実行すると、必ず同じ塩基配列が表示されるようになることを確認してください。

In [0]:
# NumPyを準備する
import numpy as np

# 乱数のシード
#np.random.seed(0)

# 塩基配列用の変数
seq = ""

for i in range(60):
  if np.random.rand() < 0.24:
    seq = seq + "A"
  elif np.random.rand() < 0.48:
    seq = seq + "T"
  elif np.random.rand() < 0.72:
    seq = seq + "G"
  elif np.random.rand() < 0.96:
    seq = seq + "C"
  else:
    seq = seq + "N"

print(seq)

　Pythonで発生させている「乱数」は、一見すると規則性のない数値が発生しているように見えますが、実際には"何らかの計算"により発生させている **擬似乱数** です。この規則性を制御しているのが **乱数のシード** と言われるものです。この「乱数シード」を指定すると、毎回同じ数値が発生するようになります。もしシードを指定しない場合、システム内部時間（UNIX時間）がシードの値に設定されるようです。

|| seed=0 | seed=1 | seed=2 | seed=指定なし | 
|:---|---:|---:|---:|---:|
|1個目の乱数|0.5488135039273248|0.417022004702574|0.43599490214200376| ? |
|2個目の乱数|0.7151893663724195|0.7203244934421581|0.025926231827891333| ? |
|3個目の乱数|0.6027633760716439|0.00011437481734488664|0.5496624778787091| ? |
|4個目の乱数|0.5448831829968969|0.30233257263183977|0.4353223926182769| ? |
|5個目の乱数|0.4236547993389047|0.14675589081711304|0.42036780208748903| ? |
|...|...|...|...|...|

In [0]:
# 乱数のシード
np.random.seed(0)
# 乱数を生成
print(np.random.rand())
print(np.random.rand())
print(np.random.rand())
print(np.random.rand())
print(np.random.rand())

### 正規分布にしたがった乱数


　**正規分布**は、おそらく統計学で最も有名で、重要な分布です。自然界の多くの現象（ヒトの身長、1個体で作られる種子数など）は、データを集めると、正規分布に近似した分布が得られます。この分布の特徴は、平均値をピーク（最頻値）にとり、その平均値を中心に左右対称な分布を描きます。

<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2019/images/norm_dist.png?raw=true" alt="normal_distribution" height="200px">

　この分布にしたがった乱数を得るためには、normal関数を使います。normal関数に、**平均**と**分散**（ばらつき程度）を引数として与えることで、平均値周辺の乱数（小数点数）を生成できます。

In [0]:
import numpy as np
import matplotlib.pyplot as plt

# 正規分布（平均0.0, 分散1.0）にしたがった乱数20個
# 引数: loc（平均）、scale（分散）、size（生成する乱数の個数）
s = np.random.normal(loc=0.0, scale=1.0, size=20)
print(s) # 得られた乱数

# ヒストグラム
plt.hist(s, bins=20)
plt.show()


### 二項分布にしたがった乱数

 　コイン投げを例に、**二項分布**がどういうものか考えてみましょう。表（おもて） が出る確率が50%（$p=0.5$）のコイン投げを10回（$n=10$）おこなったとします。このとき、表（おもて）が1回出る確率はどのぐらいでしょうか？ 表（おもて）が5回出る確率はどのぐらいでしょうか？ この表（おもて）が$k$回出る確率の分布を表現したものが「二項分布」です。 
  
　表（おもて） が出る確率が50%のコインの例では、表（おもて） が5回出る確率が最も高くなると直感的にわかるかと思います。4回や6回出る確率はそれよりもやや低く、0回や10回出る確率はかなり低いでしょう。したがって、この確率分布は左下の図のような形になります。 また、表（おもて） が出る確率80%のコインの確率分布は右下の図の形状になります。

<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2019/images/binomial_dist.png?raw=true" alt="binomial_distribution" height="300px">
  
　このように、二項分布の形は、試行回数$n$と片方の事象が起こる確率$p$によって決まります。  
 
　この二つの情報 $n$ と $p$ を binomial関数に与えることで、二項分布にしたがった乱数を発生させることが可能です。二項分布から得られる乱数は、0以上 $n$以下の整数です。
 
```python
import numpy as np
np.random.binomial(n=試行回数, p=確率, size=乱数の個数)
```

In [0]:
import numpy as np
import matplotlib.pyplot as plt

# 二項分布（確率50%でおこる事象が10回中に起こる回数）
s = np.random.binomial(n=10, p=0.5, size=20)
print(s) # 得られた20個の乱数

# ヒストグラム
plt.hist(s, bins=10)
plt.show()


### シミュレーション: 集団サイズが対立遺伝子頻度の変化に及ぼす影響

　二項分布を使って、簡単なシミュレーションをおこなってみましょう。

```
ある集団の次世代の対立遺伝子頻度の変化をシミュレーションする
```

　このシミュレーションで仮定していることは次の通りです。
- ある集団のある遺伝子には、二つの対立遺伝子がある（アリルAとアリルa）。
- 現世代のアリルAの頻度 $p=0.5$ に従ったくじ引きで、次世代の$n$個体がAとaのどちらのアリルをもつか選ばれる。

　この「くじ引き」に、二項分布にしたがった乱数を使います。試行回数（次世代の集団サイズ） $n$ と確率（アリルAの頻度） $p=0.5$ で指定される二項分布から、乱数（アリルAをもつ個体数） $k$ を得ます。さらに、$k/n$ を計算して、次世代のアリルAの頻度を調べます。

　次世代の集団サイズを変えたとき（$n=10,50,100,500,1000$）、それぞれの集団サイズでアリルA頻度が0.6以上になる確率はどの程度か？  
　以下では、各$n$においてシミュレーションを10,000回繰り返し、そのうち、アリルA頻度が0.6以上になった割合を調べています。



In [0]:
# 遺伝子頻度の変化をシミュレーションする関数
import numpy as np
def next_allele_freq(n_rep=10, pop_size=10, freq=0.5):
  # --- 引数 ---------------------------------
  # n_rep     : シミュレーション反復数（default: 10）
  # pop_size  : 集団サイズ（default: 10）
  # freq       : 現世代のアリルAの頻度（default: 0.5）
  # -------------------------------------------
  
  # 二項分布を使って、次世代のアリルAの数をサンプリングする
  sampling = np.random.binomial(n=pop_size, p=freq, size=n_rep)
  # アリルAの頻度に変換
  freqs = sampling / pop_size
  # 呼び出し元に結果を返す（戻り値）
  return freqs

In [0]:
# シミュレーションのパラメータ
n_simulation = 10000     # シミュレーション数
allele_freq = 0.5           # 現世代のアリルAの頻度

# 次世代で選ばれる遺伝子数（集団サイズ）を変えてシミュレーションする
# 調べる集団サイズ: 10, 50, 100, 500, 1000
for p in [10, 50, 100, 500, 1000]:
  # 関数呼び出し
  results = next_allele_freq(n_rep=n_simulation, pop_size=p, freq=allele_freq)
  # アリルA頻度が0.6以上になる割合
  rate = len(results[ results >= 0.6 ]) / len(results)
  # 結果を出力
  print("Population size:", p, "=> Rate:", rate)

　このシミュレーションの結果からわかるように、アリル頻度の変化は、次世代の集団サイズで大きく影響を受けることがわかります。

## 4. Biopython [<img src="https://biopython.org/assets/images/biopython_logo_s.png" alt="biopython" height="80px" align="right">](https://biopython.org/)

　生物学データの多くは、決まった形式で書かれています。例えば、塩基配列やアミノ酸配列の場合、**FASTA** や **Genbank** といった形式で記述されていることが多いです。
 
- [FASTA](https://www.ebi.ac.uk/ena/submit/fasta-file-format)
- [Genbank](https://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html)

　このような定型化された生物学データを読み込み、データ処理・解析・描画をできるようにパッケージ化したものが **Biopython** です。


 

### Biopythonのインストール
　Google Colaboratoryには Biopython がインストールされていません。次のコードを実行して、Biopython をインストールしてください。


In [0]:
!pip install biopython

　今回、イネいもち病菌7系統の *AVR-Pita1* 遺伝子の塩基配列データをサンプルデータとして扱います。次のコードを実行して、サンプルデータファイルをColabサーバーにダウンロードしてください。「Mo_AVR-Pita1_7strains.fasta」という名前のファイルがダウンロードされます。

In [0]:
# イネいもち病菌のゲノム配列をダウンロード
!wget -O Mo_AVR-Pita1_7strains.fasta https://raw.githubusercontent.com/CropEvol/lecture/master/textbook_2019/dataset/Mo_AVR-Pita1_7strains.fasta

　ダウンロードされたファイル（[Mo_AVR-Pita1_7strains.fasta](https://raw.githubusercontent.com/CropEvol/lecture/master/textbook_2019/dataset/Mo_AVR-Pita1_7strains.fasta)）は、**FASTA形式** で書かれています。FASTA形式の基本的な見方は次の通りです。
- 「>」で始まる行に、塩基配列の名前が書かれている
- 次の行からその名前に対応する塩基配列(seq)が書かれている
```
>配列名
塩基配列本体（A,T,G,C,N,-）
```

　なお、複数のFASTA形式データが一つにまとめられたものを、**Multi FASTA** と呼びます。先ほどダウンロードした「Mo_AVR-Pita1_7strains.fasta」は、7系統分のデータが一つのファイルに書かれた Multi FASTAファイル です。

### Bio.SeqIO

　Biopythonの使用して、FASTA形式ファイルを読み込み、それぞれのデータの名前と塩基配列本体を表示してみましょう。下のコードでは、次のようなことをおこなっています。
- BiopythonのSeqIO機能の呼び出し
- FASTA形式ファイルの読み込み
- for構文で1データずつ取り出す
  - 取り出された1個分のデータは変数recに代入される
  - 1個分のデータから、`id`で「配列名」のみを得ることができる（`rec.id`）
  - 1個分のデータから、`seq`で「塩基配列」のみを得ることができる（`rec.seq`）


In [0]:
# BiopythonのSeqIO機能のみを呼び出す
from Bio import SeqIO

# SeqIO機能で、FASTA形式ファイルを読み込む
records = SeqIO.parse("Mo_AVR-Pita1_7strains.fasta", format='fasta')

# for構文で、1データずつ取り出す
for rec in records:
  #print(rec)     # 1データの全情報
  print(rec.id)    # 配列名
  print(rec.seq)  # 塩基配列
  print()         # 空白行（出力結果を見やすくするため）

### 実習4

　次のプログラムを書き換えて、各塩基配列の長さ（文字数）を調べてください。

In [0]:
# BiopythonのSeqIO機能を呼び出す
from Bio import SeqIO

# FASTA形式ファイルを読み込む
records = SeqIO.parse("Mo_AVR-Pita1_7strains.fasta", format='fasta')

# for構文で、1データずつ取り出す
for rec in records:
  print(rec.id)    # 配列名
  print(rec.seq)  # 塩基配列

#### 解答例

In [0]:
# BiopythonのSeqIO機能を呼び出す
from Bio import SeqIO

# FASTA形式ファイルを読み込む
records = SeqIO.parse("Mo_AVR-Pita1_7strains.fasta", format='fasta')

# for構文で、1データずつ取り出す
for rec in records:
  print(rec.id, len(rec.seq)) # 配列名と塩基配列の長さ

### BiopythonなしでFASTA形式ファイルを読み込む

　「Pythonをはじめる -基礎-」で習ったファイルの読み込み方法（1行ずつ処理する）とは異なり、Biopythonを使うと、1データずつ処理することになります。また、改行文字を取り除く処理も必要ありません。

　もし、BiopythonなしでFASTA形式ファイルを処理しようとすると、次のプログラムのように、そこそこ複雑なプログラムを書く必要があります。


In [0]:
# ファイルを開く
records = open("Mo_AVR-Pita1_7strains.fasta", mode="r")

# 最初のデータかどうかを調べるスイッチ（初期値: ON）
first_data = True

# for構文で、1行ずつ取り出す
for rec in records:
  rec = rec.rstrip() # 改行文字を除く

  # >で始まる行の場合
  if ">" in rec:
    if first_data:
      print(rec)       # 配列名を表示
      sequence = ""  # 塩基配列を入れる
      first_data = False  # スイッチをOFFにする
    else:
      print(sequence) # 前データの塩基配列を表示
      print(rec)       # 配列名を表示
  
  # >で始まる行でない場合
  else:
    sequence= sequence + rec  # 塩基配列を足し合わせる

# 最後のデータの塩基配列を表示
print(sequence)

# ファイルを閉じる
records.close()

### Biopythonで他にできること


　こちらを参照してください: [Biopython Tutorial and Cookbook](http://biopython.org/DIST/docs/tutorial/Tutorial.html) 

---
## まとめ
- **NumPy** を使うと、**配列を使った数値計算**や、**数列の生成**、様々な**乱数の生成**ができる。
- 生物学で定められたフォーマットのデータを扱う場合、**Biopython** を使うと、容易に生物学データを扱えるようになる。