# クラスの利用

## クラスとオブジェクト

Pythonプログラムの中で扱われる文字列や数値、あるいはリストや辞書といったデータを「オブジェクト」と呼びます。また、データに対して何らかの処理を行う機能を持った関数やオブジェクトの設計図である「クラス」自体もオブジェクトの１つとして扱われます。したがって、Pythonプログラムの中で扱われるさまざまな「モノ」に対しての総称が「オブジェクト」といえます。具体的には、整数データはintオブジェクト、文字列データはstrオブジェクトと呼ばれ、これはtype関数を使用することで確認ができます。

In [36]:
type(10)

int

In [37]:
a = "hello"
type(a)

str

また、各オブジェクトがどのような機能（メソッド）を持っているかはdir関数を使用することで確認できます。


In [38]:
dir(a)

['__add__',
 '__class__',
 '__contains__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__getnewargs__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__rmod__',
 '__rmul__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'capitalize',
 'casefold',
 'center',
 'count',
 'encode',
 'endswith',
 'expandtabs',
 'find',
 'format',
 'format_map',
 'index',
 'isalnum',
 'isalpha',
 'isdecimal',
 'isdigit',
 'isidentifier',
 'islower',
 'isnumeric',
 'isprintable',
 'isspace',
 'istitle',
 'isupper',
 'join',
 'ljust',
 'lower',
 'lstrip',
 'maketrans',
 'partition',
 'replace',
 'rfind',
 'rindex',
 'rjust',
 'rpartition',
 'rsplit',
 'rstrip',
 'split',
 'splitlines',
 'startswith',
 'strip',
 'swapcase',
 'title',
 'translate',
 'upper',
 'zfill']

strオブジェクトにはupperやsplitといった文字列に対する操作を行うためのメソッドが含まれます。

より複雑な機能やデータをもったオブジェクトを扱うために、自分でオブジェクトの設計図である「クラス」を定義することができます。ここではFASTA形式で記述された配列データを格納するためのクラスを設計してみます。

下記は１件のFASTA形式の配列データの例です。
```
>gene01 nucleotide sequence of tRNA-Ser
TGGAGTGTTGTCCGAGCGGCTGAAGGAGCATGATTGGAAATCATGTATACGGGTAAATACCTGTATCGAGGGTTCAAATCCCTCACACTCCGT
```
`>`で始まる行はタイトル行で、一般に最初の空白までが配列IDを示し、以後の文字列は遺伝子の機能名や任意の説明書きが含まれます。2行目が配列データを示します。この例では改行が含まれていませんが、60〜100文字単位で改行が含まれることもあります。

これらの情報を格納するためには、  
・配列ID (id)  
・配列に対しての説明 (description)  
・配列自体のデータ (seq）  
といった情報を含んだクラスを設計することになります。また、この配列データに対しての操作としてGC含量（塩基配列中のGおよびCの割合）を得るための機能を例として定義してみます。
以下がその例です。

In [87]:
class Fasta:
    def __init__(self, id_, description, seq):
        self.id = id_
        self.description = description
        self.seq = seq
            
    def get_gc_content(self):
        g_count = self.seq.count("G")
        c_count = self.seq.count("C")
        gc_content = ( g_count + c_count ) / len(self.seq)
        return gc_content

ここでクラス内に定義した関数は、単独で用いる関数と区別してメソッドと呼ばれます。最初に定義したメソッド`__init__`は、オブジェクトの設計図であるクラスに実際のデータを格納してオブジェクトを生成する際に実行されるコンストラクタと呼ばれる特殊メソッドです。  
メソッドの最初の引数selfは自分自身のことを指すもので、pythonでは慣例的に"self"が使われます。残りの３つはオブジェクト生成時に与える引数で、与えられた情報はオブジェクトの内部的な変数であるself.id、self.description、self.seqにそれぞれ格納されます。なお、配列IDを示す引数は、組み込み関数であるidと区別するために末尾に"_"を付けていますが、"_"を付けなくても動作します。  
それでは、実際にデータを与えて配列データを格納したオブジェクトを作成してみます。引数"self"は内部的に使用されるだけなので、オブジェクト生成時には残りの3つの引数を与えることになります。

In [44]:
fasta = Fasta("gene01", "nucleotide sequence of tRNA-Ser", "TGGAGTGTTGTCCGAGCGGCTGAAGGAGCATGATTGGAAATCATGTATACGGGTAAATACCTGTATCGAGGGTTCAAATCCCTCACACTCCGT")

これで先ほどの１件のFASTA形式のデータを持ったオブジェクトを生成し、fastaという変数に格納できたことになります。設計図であるクラスに対し、このように実際のデータが格納されてできたオブジェクトの実体をインスタンスと呼びます。慣例的にpythonではクラスの名称には大文字で始まる名前を用い、インスタンスに対しては小文字を使用することが推奨されています。

内部的な変数（インスタンス変数）にアクセスするには次のようにします。

In [48]:
fasta.description

'nucleotide sequence of tRNA-Ser'

クラスの定義時には"self"という変数を使用しましたがこれは定義時に用いた仮のものなので、実際のデータにアクセスするにはインスタンスを示す変数の後ろにピリオドをつけて指定をします。

生成されたfastaがどのようなクラスに属するか確認をしてみます。

In [45]:
type(fasta)

__main__.Fasta

このように独自に定義されたクラスFastaに属するオブジェクトであることがわかります。

最後にこの配列のGC含量を求めてみます。インスタンス変数にアクセスしたときと同様にピリオドに続けてメソッド名を指定します。get_gc_contentメソッドの引数は"self"だけですが、これは自動的に自分自身を指す変数として扱われるので、特に引数を与える必要はありません。

In [52]:
fasta.get_gc_content()

0.4838709677419355

## 実践的なクラスの利用

先に定義した独自クラスFastaを利用した実践的なプログラム例として、複数のFASTA形式のデータを含んだファイル（multi FASTA）からデータを１件ずつ取り出しそれぞれの配列の配列IDや長さ、GC含量等を出力するプログラムを作成してみます。

はじめにファイルを読み込んで１件ずつデータを取り出す関数を作成します。タイトル行は必ず`>`で始まるので、`>`を先頭に含んだ行が現れた時点で１件ずつデータを取り出すようにします。ただし、ファイルの先頭を読み込んだ時点では配列データが得られていませんので処理を分ける必要があります。また、ファイルを最後まで読み込んだ時点で、最後の配列データを取り出す処理を行います。


In [102]:
def read_fasta(file_name):
    with open(file_name) as fh:
        line = next(fh)  # next関数を使い1行目（タイトル行）だけ読み込む。
        seq_id, description = line.strip(">\n").split(" ", 1)  # タイトル行を分割し始めの空白までを配列ID、空白以降をdescriptionとする。
        seq = ""
        for line in fh:  # 2行目以降の読み込み
            if line.startswith(">"):  # ">"で始まる行が現れたらその時点までの配列データを返す
                yield Fasta(seq_id, description, seq)
                seq_id, description = line.strip().strip(">").split(" ", 1)  # 新たなタイトル情報を格納する
                seq = ""
            else:
                seq += line.strip("\n").upper()  # ">"で始まらない場合には、配列データを読み込んで追加していく。upperを加えたのは大文字に変換するため。
        yield Fasta(seq_id, description, seq)  # ループ終了時に最後の配列データを返す
                

ここで定義した関数read_fastaは通常の関数とは異なりジェネレーター関数と呼ばれるものです。通常の関数が呼ばれるとreturn文が現れた時点で処理を終了して値を返すのに対し、ジェネレーター関数ではyield文を用いて値を返すという違いがあります。値を返した時点でジェネレーターは一旦処理を停止してその時点での情報を内部に保ち、再度呼び出しがあると再びyield文が現れる時点まで処理を行って新たな値を返します。

ジェネレータはリストと同じようにforループと組み合わせることで１件ずつデータを取り出すことが可能です。以下が実際の使用例で、配列１件ずつを取り出して配列ID、配列の説明、長さ、GC含量をタブ区切りの文字列として出力します。fを先頭につけた文字列は"f文字列"と呼ばれるPython3.6から導入された文字列を整形するのに便利な形式で、{ }で括った中に変数名を記載することで変数の中身を文字列中に埋め込むことができます。また、変数名の後に":"で区切って各種書式を指定することも可能で、下記の例では":,d"を付けて3桁ごとにカンマで数値の桁数を区切ったり、":.1%"と付けることで小数値を百分率表記にして小数点以下の桁数を指定したりすることができます。


In [101]:
for fasta in read_fasta("../common/s288c.fna"):
    print(f"{fasta.id}\t{fasta.description}\tLength={len(fasta.seq):,d}\tG+C%={fasta.get_gc_content():.1%}")

NC_001133.9	Saccharomyces cerevisiae S288C chromosome I, complete sequence	Length=230,218	G+C%=39.3%
NC_001134.8	Saccharomyces cerevisiae S288C chromosome II, complete sequence	Length=813,184	G+C%=38.3%
NC_001135.5	Saccharomyces cerevisiae S288C chromosome III, complete sequence	Length=316,620	G+C%=38.5%
NC_001136.10	Saccharomyces cerevisiae S288C chromosome IV, complete sequence	Length=1,531,933	G+C%=37.9%
NC_001137.3	Saccharomyces cerevisiae S288C chromosome V, complete sequence	Length=576,874	G+C%=38.5%
NC_001138.5	Saccharomyces cerevisiae S288C chromosome VI, complete sequence	Length=270,161	G+C%=38.7%
NC_001139.9	Saccharomyces cerevisiae S288C chromosome VII, complete sequence	Length=1,090,940	G+C%=38.1%
NC_001140.6	Saccharomyces cerevisiae S288C chromosome VIII, complete sequence	Length=562,643	G+C%=38.5%
NC_001141.2	Saccharomyces cerevisiae S288C chromosome IX, complete sequence	Length=439,888	G+C%=38.9%
NC_001142.9	Saccharomyces cerevisiae S288C chromosome X, complete sequence	


上記の書き方はリストとほぼ同じですがリストとジェネレーターとで大きく異なることとして、リストがすべてのデータをメモリ上に保持しているのに対して、ジェネレーターでは１件ずつのデータしか保持していない点があげられます。次世代シークエンサーデータの処理結果のように巨大なデータを扱う際に、１件ずつデータを取り出して処理を行うのに役立ちます。

ここで紹介した例はFASTA形式のデータを格納するためのクラス定義と、multi FASTA形式のファイルから１件ずつデータを取り出す例でしたが、クラスに様々なメソッドを加えることでより多様な処理を行えるように拡張可能です。たとえば、塩基配列のデータであれば相補鎖配列に変換するメソッドや、アミノ酸配列に翻訳を行うメソッドなどが考えられます。実際には、次の項で紹介するBiopythonを用いれば自分でクラス定義を行うことなく様々な機能が利用可能ですので、FASTA形式のファイルを読み込むのに自分でクラス定義を行う場面はあまり多くはないかもしれません。ただしBiopythonで読み込めないファイル形式もありますので、ここで紹介したような手法、すなわち、データを格納するための独自クラスを定義してファイルを読み込むための関数と組み合わせて処理を行うといった方法は様々な場面で応用が効きますので参考にして欲しいと思います。

__ジェネレーターについての補足__

ジェネレーターはfor文と組み合わせて用いることが多いですが、next関数を用いて１件ずつデータ取り出すことも可能です。その場合、まずはジェネレーター関数を呼び出してジェネレーターを作成します。

In [111]:
fasta_generator = read_fasta("../common/s288c.fna")

ついでnext関数でデータを取り出します。

In [112]:
fasta = next(fasta_generator)
print(fasta.description)

Saccharomyces cerevisiae S288C chromosome I, complete sequence


処理を繰り返すと次のデータが得られます。

In [113]:
fasta = next(fasta_generator)
print(fasta.description)

Saccharomyces cerevisiae S288C chromosome II, complete sequence


また、list関数を組み合わせることで全データをリストに格納することができます。ただし、メモリはその分多く必要になりますので、ヒトゲノムのような巨大なサイズのデータを処理するには向きません。

In [116]:
fasta_list = list(read_fasta("../common/s288c.fna"))
first_fasta = fasta_list[0]
last_fasta = fasta_list[-1]
print(first_fasta.description)
print(last_fasta.description)

Saccharomyces cerevisiae S288C chromosome I, complete sequence
Saccharomyces cerevisiae S288c mitochondrion, complete genome


# Biopythonの使い方 以下、制作途中

本講義ではBiopythonを使った各種フォーマットのファイルの読み書きを扱います。


In [1]:
# Biopythonのインポート
# SeqIOはFASTA, GenBankなどの配列データを取り扱うためのモジュール
from Bio import SeqIO

In [8]:
fasta_file_name = "../common/s288c.fna"
gbk_file_name = "../common/s288c.gbk"
gff_file_name = "../common/s288c_e.gff"

# FASTAファイルの読み込み

## 基本的な使い方

In [9]:
records = SeqIO.parse(fasta_file_name, "fasta")

In [10]:
# records は ジェネレータ
records

<generator object parse at 0x11003f3b8>

In [11]:
# 一件目の配列データを取り出す
r1 = next(records)

In [12]:
# 配列データは SeqRecord オブジェクトになっています。
# SeqRecord は配列自体の情報の他に、ID, description, アノテーションなども含んでいます。
r1

SeqRecord(seq=Seq('ccacaccacacccacacacccacacaccacaccacacaccacaccacacccaca...ggg', SingleLetterAlphabet()), id='NC_001133.9', name='NC_001133.9', description='NC_001133.9 Saccharomyces cerevisiae S288C chromosome I, complete sequence', dbxrefs=[])

In [116]:
print(r1)

ID: NC_001133.9
Name: NC_001133.9
Description: NC_001133.9 Saccharomyces cerevisiae S288C chromosome I, complete sequence
Number of features: 0
Seq('ccacaccacacccacacacccacacaccacaccacacaccacaccacacccaca...ggg', SingleLetterAlphabet())


In [117]:
# 配列ID, descriptionなどの確認、長さは len 関数で取得できます。
print(r1.id)
print(r1.description)
print(len(r1))
print(r1.features)  # fastaファイルなのでアノテーションは含まれていない --> featuresは空

NC_001133.9
NC_001133.9 Saccharomyces cerevisiae S288C chromosome I, complete sequence
230218
[]


In [118]:
# 配列を取り出します。
r1_seq = r1.seq

In [119]:
# 配列はSeq型のオブジェクトになっています。
r1_seq

Seq('ccacaccacacccacacacccacacaccacaccacacaccacaccacacccaca...ggg', SingleLetterAlphabet())

Seq型オブジェクトは切り出し、相補鎖変換 reverse_compliment, 翻訳 translate などの機能を持ちます

In [120]:
r1_seq[1806:2169]  # 遺伝子コード領域の切り出し
# この方法以外にも、FeatureLocationオブジェクトのextractメソッドを使用する方法もあります。(後で紹介）

Seq('CTAGTTTGCGATAGTGTAGATACCGTCCTTGGATAGAGCACTGGAGATGGCTGG...Cat', SingleLetterAlphabet())

In [121]:
# 相補鎖変換
r1_seq[1806:2169].reverse_complement()

Seq('atGGTCAAATTAACTTCAATCGCCGCTGGTGTCGCTGCCATCGCTGCTACTGCT...TAG', SingleLetterAlphabet())

In [122]:
# 相補鎖変換　→　翻訳
r1_seq[1806:2169].reverse_complement().translate()  

Seq('MVKLTSIAAGVAAIAATASATTTLAQSDERVNLVELGVYVSDIRAHLAQYYMFQ...AN*', HasStopCodon(ExtendedIUPACProtein(), '*'))

In [123]:
# GenBank形式への変換  --> ValueError: Need a Nucleotide or Protein alphabet という警告が出ます
print(r1.format("genbank"))

ValueError: Need a Nucleotide or Protein alphabet

In [180]:
# エラーを回避するには、FASTA配列の"Alphabet"を明示的に指定する必要があります。
from Bio.Alphabet import generic_dna
records = SeqIO.parse(fasta_file_name, "fasta", generic_dna)
r1 = next(records)
print(r1.format("genbank")[:1000])  # 長いので先頭の1000文字だけ表示しています

LOCUS       NC_001133.9           230218 bp    DNA              UNK 01-JAN-1980
DEFINITION  NC_001133.9 Saccharomyces cerevisiae S288C chromosome I, complete
            sequence
ACCESSION   NC_001133
VERSION     NC_001133.9
KEYWORDS    .
SOURCE      .
  ORGANISM  .
            .
FEATURES             Location/Qualifiers
ORIGIN
        1 ccacaccaca cccacacacc cacacaccac accacacacc acaccacacc cacacacaca
       61 catcctaaca ctaccctaac acagccctaa tctaaccctg gccaacctgt ctctcaactt
      121 accctccatt accctgcctc cactcgttac cctgtcccat tcaaccatac cactccgaac
      181 caccatccat ccctctactt actaccactc acccaccgtt accctccaat tacccatatc
      241 caacccactg ccacttaccc taccattacc ctaccatcca ccatgaccta ctcaccatac
      301 tgttcttcta cccaccatat tgaaacgcta acaaatgatc gtaaataaca cacacgtgct
      361 taccctacca ctttatacca ccaccacatg ccatactcac cctcacttgt atactgattt
      421 tacgtacgca cacggatgct acagtatata ccatctcaaa cttaccctac tctcagattc
      481 cacttcactc catggcccat ctctcactga atcagtacca aatgcactc

## すべてのエントリー (配列) をループで回す

In [125]:
# recordsはジェネレータなので、リストと同じようにforループで回すことができます。
records = SeqIO.parse(fasta_file_name, "fasta")
for r in records:
    print("Seq ID=", r.id)
    print("Length=", len(r))
    print(r.seq[:50] + "...")
    print("----")

Seq ID= NC_001133.9
Length= 230218
ccacaccacacccacacacccacacaccacaccacacaccacaccacacc...
----
Seq ID= NC_001134.8
Length= 813184
AAATAGCCCTCATGTACGTCTCCTCCAAGCCCTGTTGTCTCTTACCCGGA...
----
Seq ID= NC_001135.5
Length= 316620
cccacacaccacacccacaccacacccacacaccacacacaccacaccca...
----
Seq ID= NC_001136.10
Length= 1531933
acaccacacccacaccacacccacacacaccacacccacacaccacaccc...
----
Seq ID= NC_001137.3
Length= 576874
CGTCTCCTCCAAGCCCTGTTGTCTCTTACCCGGATGTTCAACCAAAAGCT...
----
Seq ID= NC_001138.5
Length= 270161
GATCTCGCAAGTGCATTCCTAGACTTAATTCATATCTGCTCCTCAACTGT...
----
Seq ID= NC_001139.9
Length= 1090940
ccacacccacacacaccacacccacacccacacactACCCTAACACTACC...
----
Seq ID= NC_001140.6
Length= 562643
cccacacacaccacacccacacaccacacccacactTTTCACATCTACCT...
----
Seq ID= NC_001141.2
Length= 439888
cacacacaccacacccacaccacaccacaccacacccacacccacacaca...
----
Seq ID= NC_001142.9
Length= 745751
CCcacacacacaccacacccacacccacacacaccacacccacacaccac...
----
Seq ID= NC_001143.9
Length= 666816
caccacacccacacaccacacc

In [126]:
# list関数を使うことでも同様のことが可能。(ファイル全体をメモリに読み込むので大きいファイルの扱いには注意)
records = list(SeqIO.parse(fasta_file_name, "fasta"))

In [127]:
# 通常のリストと同じようにindexを指定してデータを抽出することが可能
records[-1]

SeqRecord(seq=Seq('TTCATAATTAATTTTTTATATATATATTATATTATAATATTAATTTATATTATA...ATA', SingleLetterAlphabet()), id='NC_001224.1', name='NC_001224.1', description='NC_001224.1 Saccharomyces cerevisiae S288c mitochondrion, complete genome', dbxrefs=[])

__練習__  
FASTAファイルを読み込み、閾値未満の長さの配列を取り除き、降順（長いもの順）に出力するスクリプトを作成せよ。  
下記のテンプレートを使うこと

```
import sys
from Bio import SeqIO

file_name = sys.argv[1]  # ファイル名をコマンドライン引数から取得
threshold = int(sys.argv[2])  # 閾値をコマンドライン引数から取得

records = list(SeqIO.parse(file_name, "fasta"))  # 入力ファイルを読み込みリストに格納

#### ここに処理を記述 ####

for r in records:
    print(r.format("fasta"))
```

## ファイルを読み込み、辞書として格納

** 本講義では詳細は割愛します **

In [128]:
# SeqIO.to_dict関数を使うと、配列IDをkeyとした辞書にデータを格納することができます。
records = SeqIO.parse(fasta_file_name, "fasta")
dict_records = SeqIO.to_dict(records)

In [129]:
# 全17件の辞書ができます
len(dict_records)

17

In [130]:
dict_records.keys()

dict_keys(['NC_001133.9', 'NC_001134.8', 'NC_001135.5', 'NC_001136.10', 'NC_001137.3', 'NC_001138.5', 'NC_001139.9', 'NC_001140.6', 'NC_001141.2', 'NC_001142.9', 'NC_001143.9', 'NC_001144.5', 'NC_001145.3', 'NC_001146.8', 'NC_001147.6', 'NC_001148.4', 'NC_001224.1'])

In [131]:
dict_records["NC_001224.1"]

SeqRecord(seq=Seq('TTCATAATTAATTTTTTATATATATATTATATTATAATATTAATTTATATTATA...ATA', SingleLetterAlphabet()), id='NC_001224.1', name='NC_001224.1', description='NC_001224.1 Saccharomyces cerevisiae S288c mitochondrion, complete genome', dbxrefs=[])

上記の方法はファイルに含まれるすべての配列情報をメモリに格納するので、大きなファイルの取り扱いには向いていません。  
別の方法としてSeqIO.index関数を使う方法もあります。

In [132]:
idx_records = SeqIO.index(fasta_file_name, "fasta")

In [133]:
# idx_recordsはSeq
type(idx_records)

Bio.File._IndexedSeqFileDict

In [134]:
# idx_recordsは辞書と同じように使用できます。
# to_dictと異なりメモリ上にデータを保持していないため、処理速度は若干遅くなります。
idx_records.get("NC_001224.1")

SeqRecord(seq=Seq('TTCATAATTAATTTTTTATATATATATTATATTATAATATTAATTTATATTATA...ATA', SingleLetterAlphabet()), id='NC_001224.1', name='NC_001224.1', description='NC_001224.1 Saccharomyces cerevisiae S288c mitochondrion, complete genome', dbxrefs=[])

In [135]:
print(idx_records.get_raw("NC_001224.1").decode()[:300])  # get_rawで元の形式のまま取り出せます(長いので先頭300文字のみ表示しています)

>NC_001224.1 Saccharomyces cerevisiae S288c mitochondrion, complete genome
TTCATAATTAATTTTTTATATATATATTATATTATAATATTAATTTATATTATAAAAATAATATTTATTATTAAAATATT
TATTCTCCTTTCGGGGTTCCGGCTCCCGTGGCCGGGCCCCGGAATTATTAATTAATAATAAATTATTATTAATAATTATT
TATTATTTTATCATTAAAATATATAAATAAAAAATATTAAAAAGATAAAAAAAATAATGTTTA


# GenBankファイルの読み込み
FASTAファイルと同様に SeqIO.parse を利用して読み込み可能。format="genbank"を指定します。

## アノテーション情報の確認

FASTAファイルの場合と異なり、GenBank形式には配列に対する様々な注釈情報 (アノテーション) が含まれます。  
Biopythonを利用すればこれらを簡単に取得することができます。

In [136]:
# ここではlist関数を利用して、全データをリストとして読み込んでいます。
records = list(SeqIO.parse(gbk_file_name, "genbank"))

In [137]:
# １件目 (0番目)
r0 = records[0]

In [138]:
dir(r0)

['__add__',
 '__bool__',
 '__class__',
 '__contains__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__le___',
 '__len__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__nonzero__',
 '__radd__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_per_letter_annotations',
 '_seq',
 '_set_per_letter_annotations',
 '_set_seq',
 'annotations',
 'dbxrefs',
 'description',
 'features',
 'format',
 'id',
 'letter_annotations',
 'lower',
 'name',
 'reverse_complement',
 'seq',
 'upper']

In [139]:
# FASTAファイルを読み込んだときには空だったannotationsに配列のメタデータが辞書として格納されています。
# ここでの "annotation" は配列全体に対する生物種情報や登録者情報といったメタデータのことを示します。
# 遺伝子領域などの注釈情報は後述のfeaturesに含まれています。
r0.annotations

{'accessions': ['NC_001133'],
 'comment': 'REVIEWED REFSEQ: This record has been curated by SGD. The reference\nsequence is identical to BK006935.\nOn Apr 26, 2011 this sequence version replaced NC_001133.8.\nCOMPLETENESS: full length.',
 'contig': 'join(BK006935.2:1..230218)',
 'data_file_division': 'CON',
 'date': '06-APR-2018',
 'keywords': ['RefSeq'],
 'organism': 'Saccharomyces cerevisiae S288C',
 'references': [Reference(title='Life with 6000 genes', ...),
  Reference(title='The nucleotide sequence of chromosome I from Saccharomyces cerevisiae', ...),
  Reference(title='Direct Submission', ...),
  Reference(title='Direct Submission', ...),
  Reference(title='Direct Submission', ...)],
 'sequence_version': 9,
 'source': 'Saccharomyces cerevisiae S288C',
 'structured_comment': defaultdict(dict,
             {'Genome-Annotation-Data': {'Annotation Provider': 'SGD',
               'Annotation Status': 'Full Annotation',
               'Annotation Version': 'R64-2-1',
               '

In [140]:
# アノテーションされた遺伝子領域の情報はfeaturesにリストとして格納されています。(先頭10件のみ表示しています)
r0.features[:10]

[SeqFeature(FeatureLocation(ExactPosition(0), ExactPosition(230218), strand=1), type='source'),
 SeqFeature(FeatureLocation(ExactPosition(0), ExactPosition(801), strand=-1), type='telomere'),
 SeqFeature(FeatureLocation(ExactPosition(706), ExactPosition(776), strand=1), type='rep_origin'),
 SeqFeature(FeatureLocation(BeforePosition(1806), AfterPosition(2169), strand=-1), type='gene'),
 SeqFeature(FeatureLocation(BeforePosition(1806), AfterPosition(2169), strand=-1), type='mRNA'),
 SeqFeature(FeatureLocation(ExactPosition(1806), ExactPosition(2169), strand=-1), type='CDS'),
 SeqFeature(FeatureLocation(BeforePosition(2479), AfterPosition(2707), strand=1), type='gene'),
 SeqFeature(FeatureLocation(BeforePosition(2479), AfterPosition(2707), strand=1), type='mRNA'),
 SeqFeature(FeatureLocation(ExactPosition(2479), ExactPosition(2707), strand=1), type='CDS'),
 SeqFeature(FeatureLocation(BeforePosition(7234), AfterPosition(9016), strand=-1), type='gene')]

In [141]:
# 先頭(0番目)のfeatureを取り出します
f0 = r0.features[0]

In [142]:
# 先頭のfeatureはsource featureです。
# source featureはその配列の由来について記述したもので、通常は配列1本について先頭に1件のみ記載されます。
print(f0)

type: source
location: [0:230218](+)
qualifiers:
    Key: chromosome, Value: ['I']
    Key: db_xref, Value: ['taxon:559292']
    Key: mol_type, Value: ['genomic DNA']
    Key: organism, Value: ['Saccharomyces cerevisiae S288C']
    Key: strain, Value: ['S288C']



In [143]:
# 3-5番目のfeature (gene) を取り出します
f3, f4, f5 = r0.features[3:6]

In [144]:
# featureのおもな構成要素は、type, location, qualifiers です。
# ここでは、gene, mRNA, CDS に同じ、locus_tag　が割り当てられていることから、これらが対応関係にあることがわかります。
print(f3)
print(f4)
print(f5)

type: gene
location: [<1806:>2169](-)
qualifiers:
    Key: db_xref, Value: ['GeneID:851229']
    Key: gene, Value: ['PAU8']
    Key: locus_tag, Value: ['YAL068C']

type: mRNA
location: [<1806:>2169](-)
qualifiers:
    Key: db_xref, Value: ['GeneID:851229']
    Key: gene, Value: ['PAU8']
    Key: locus_tag, Value: ['YAL068C']
    Key: product, Value: ['seripauperin PAU8']
    Key: transcript_id, Value: ['NM_001180043.1']

type: CDS
location: [1806:2169](-)
qualifiers:
    Key: codon_start, Value: ['1']
    Key: db_xref, Value: ['GeneID:851229', 'SGD:S000002142']
    Key: gene, Value: ['PAU8']
    Key: locus_tag, Value: ['YAL068C']
    Key: note, Value: ['hypothetical protein; member of the seripauperin multigene family encoded mainly in subtelomeric regions']
    Key: product, Value: ['seripauperin PAU8']
    Key: protein_id, Value: ['NP_009332.1']
    Key: translation, Value: ['MVKLTSIAAGVAAIAATASATTTLAQSDERVNLVELGVYVSDIRAHLAQYYMFQAAHPTETYPVEVAEAVFNYGDFTTMLTGIAPDQVTRMITGVPWYSSRLKPAISSA

In [145]:
# qualifiersは辞書になっています。
f5.qualifiers

{'codon_start': ['1'],
 'db_xref': ['GeneID:851229', 'SGD:S000002142'],
 'gene': ['PAU8'],
 'locus_tag': ['YAL068C'],
 'note': ['hypothetical protein; member of the seripauperin multigene family encoded mainly in subtelomeric regions'],
 'product': ['seripauperin PAU8'],
 'protein_id': ['NP_009332.1'],
 'translation': ['MVKLTSIAAGVAAIAATASATTTLAQSDERVNLVELGVYVSDIRAHLAQYYMFQAAHPTETYPVEVAEAVFNYGDFTTMLTGIAPDQVTRMITGVPWYSSRLKPAISSALSKDGIYTIAN']}

In [146]:
# 遺伝子産物名 (product) を確認してみます。
# なお、データはリストとして格納されていますので、文字列として取り出すには f5.qualifiers["product"][0] などとする必要があります。
f5.qualifiers["product"]

['seripauperin PAU8']

In [147]:
# note に情報を追加してみます。
f5.qualifiers["note"].append("Test")
print(f5)

type: CDS
location: [1806:2169](-)
qualifiers:
    Key: codon_start, Value: ['1']
    Key: db_xref, Value: ['GeneID:851229', 'SGD:S000002142']
    Key: gene, Value: ['PAU8']
    Key: locus_tag, Value: ['YAL068C']
    Key: note, Value: ['hypothetical protein; member of the seripauperin multigene family encoded mainly in subtelomeric regions', 'Test']
    Key: product, Value: ['seripauperin PAU8']
    Key: protein_id, Value: ['NP_009332.1']
    Key: translation, Value: ['MVKLTSIAAGVAAIAATASATTTLAQSDERVNLVELGVYVSDIRAHLAQYYMFQAAHPTETYPVEVAEAVFNYGDFTTMLTGIAPDQVTRMITGVPWYSSRLKPAISSALSKDGIYTIAN']



In [148]:
# locationを確認してみます。
# 0を起点としていますので、開始位置1806は実際には1807番目の塩基を指します。
f5.location

FeatureLocation(ExactPosition(1806), ExactPosition(2169), strand=-1)

In [149]:
# locationオブジェクトを利用して配列の切り出しを行うことができます。
# locationのstrandが-1の場合には、自動的に相補鎖側を切り出してくれます。
# extractメソッドの引数には SeqRecord または Seq オブジェクトどちらを与えてもOKです。
f5.location.extract(r0.seq)

Seq('ATGGTCAAATTAACTTCAATCGCCGCTGGTGTCGCTGCCATCGCTGCTACTGCT...TAG', IUPACAmbiguousDNA())

In [150]:
# 配列を切り出して翻訳したものを translation qualifier の値と比較してみます。
print(str(f5.location.extract(r0.seq).translate()))
print(f5.qualifiers["translation"][0])

MVKLTSIAAGVAAIAATASATTTLAQSDERVNLVELGVYVSDIRAHLAQYYMFQAAHPTETYPVEVAEAVFNYGDFTTMLTGIAPDQVTRMITGVPWYSSRLKPAISSALSKDGIYTIAN*
MVKLTSIAAGVAAIAATASATTTLAQSDERVNLVELGVYVSDIRAHLAQYYMFQAAHPTETYPVEVAEAVFNYGDFTTMLTGIAPDQVTRMITGVPWYSSRLKPAISSALSKDGIYTIAN


## ファイル全体のfeatureをループで回す

record(entry) --> feature --> qualifier の階層構造になっていることを意識してください

例としてCDSフィーチャーの中から全てのアミノ酸配列を辞書として取得する処理を実装します

In [70]:
# すべてのアミノ酸配列を辞書として取得 (translationを含まないCDSがあったため失敗した)
D = {}
for record in SeqIO.parse(gbk_file_name, "genbank"):
    for feature in record.features:
        if feature.type == "CDS":
            locus_tag = feature.qualifiers["locus_tag"][0]
            translation = feature.qualifiers["translation"][0]
            D[locus_tag] = translation

KeyError: 'translation'

In [71]:
# すべてのアミノ酸配列を辞書として取得 ver2 (try-exceptでエラーを補足し、原因を確認)
D = {}
for record in SeqIO.parse(gbk_file_name, "genbank"):
    for feature in record.features:
        if feature.type == "CDS":
            try:
                locus_tag = feature.qualifiers["locus_tag"][0]
                translation = feature.qualifiers["translation"][0]
                D[locus_tag] = translation
            except KeyError as e:
                # エラーが起こった場合の処理
                print(feature) # 問題のあったfeatureを表示
                raise e  # 再度、エラーを生じさせて処理を停止させる。


type: CDS
location: [721070:721481](-)
qualifiers:
    Key: codon_start, Value: ['1']
    Key: db_xref, Value: ['GeneID:851712', 'SGD:S000002541']
    Key: locus_tag, Value: ['YDR134C']
    Key: note, Value: ['Cell wall protein; YDR134C has a paralog, CCW12, that arose from the whole genome duplication; S. cerevisiae genome reference strain S288C contains an internal in-frame stop at codon 67, which in other strains encodes glutamine']
    Key: pseudo, Value: ['']



KeyError: 'translation'

↑ pseudo qualifierがある場合には、translationが存在しないことがエラーの原因であった。  
そこで、pseudoの場合には処理を行わないことにする。

In [72]:
# すべてのアミノ酸配列を辞書として取得 ver3 (完成版)
D = {}
for record in SeqIO.parse(gbk_file_name, "genbank"):
    for feature in record.features:
        if feature.type == "CDS":
            if "pseudo" in feature.qualifiers:
                continue
            try:
                locus_tag = feature.qualifiers["locus_tag"][0]
                translation = feature.qualifiers["translation"][0]
                D[locus_tag] = translation
            except KeyError as e:
                print(feature.qualifiers)
                raise e


In [171]:
# すべてのアミノ酸配列を辞書として取得 ver4 (改良版)
# get 関数を使用してkeyが存在しない場合にも対応
D = {}
for record in SeqIO.parse(gbk_file_name, "genbank"):
    for feature in record.features:
        locus_tag = feature.qualifiers.get("locus_tag", [""])[0]  # get 関数を使い locus_tag qualifierが存在しない場合には  [""] を返す
        translation = feature.qualifiers.get("translation", [""])[0]
        if locus_tag and translation: # locus_tagおよびtranslationのいずれかが空文字列のときには処理しない
            D[locus_tag] = translation

In [185]:
# getについて
test_dict = {1:100, 2:200, 3:300}
print(test_dict.get(1))  # 100が返る
print(test_dict.get(4))  # keyが存在しない場合、None
print(test_dict.get(4, 400))  # 第２引数としてkeyが存在しない場合に返る値を指定可能。400が返る。

100
None
400


**[練習]**  
GenBankファイルの中身をすべてforループで辿り、アミノ酸配列(translation)・ローカスタグ(locus_tag)・遺伝子産物名(product)を取得し、  
下記のような FASTA 形式で出力するスクリプトを作成せよ。  
ただし product については空欄のものがあれば "UNKOWN PRODUCT" とすること（getを使うと良い）
```
>YAL068C seripauperin PAU8
MVKLTSIAAGVAAIAATASATTTLAQSDERVNLVELGVYVSDIRAHLAQYYMFQAAHPTETYPVEVAEAVFNYGDFTTMLTGIAPDQVTRMITGVPWYSSRLKPAISSALSKDGIYTIAN
>YAL067W-A hypothetical protein
MPIIGVPRCLIKPFSVPVTFPFSVKKNIRILDLDPRTEAYCLSLNSVCFKRLPRRKYFHLLNSYNIKRVLGVVYC
>YAL067C putative permease SEO1
MYSIVKEIIVDPYKRLKWGFIPVKRQVEDLPDDLNSTEIVTISNSIQSHETAENFITTTSEKDQLHFETSSYSEHKDNVNVTRSYEYRDEADRPWWRFFDEQEYRINEKERSHNKWYSWFKQGTSFKEKKLLIKLDVLLAFYSCIAYWVKYLDTVNINNAYVSGMKEDLGFQGNDLVHTQVMYTVGNIIFQLPFLIYLNKLPLNYVLPSLDLCWSLLTVGAAYVNSVPHLKAIRFFIGAFEAPSYLAYQYLFGSFYKHDEMVRRSAFYYLGQYIGILSAGGIQSAVYSSLNGVNGLEGWRWNFIIDAIVSVVVGLIGFYSLPGDPYNCYSIFLTDDEIRLARKRLKENQTGKSDFETKVFDIKLWKTIFSDWKIYILTLWNIFCWNDSNVSSGAYLLWLKSLKRYSIPKLNQLSMITPGLGMVYLMLTGIIADKLHSRWFAIIFTQVFNIIGNSILAAWDVAEGAKWFAFMLQCFGWAMAPVLYSWQNDICRRDAQTRAITLVTMNIMAQSSTAWISVLVWKTEEAPRYLKGFTFTACSAFCLSIWTFVVLYFYKRDERNNAKKNGIVLYNSKHGVEKPTSKDVETLSVSDEK
...
```


```
import sys
from Bio import SeqIO

gbk_file_name = sys.argv[1]  # ファイル名をコマンドライン引数から取得

for record in SeqIO.parse(gbk_file_name, "genbank"):
    for feature in record.features:
        locus_tag = feature.qualifiers.get("locus_tag", [""])[0]  # get 関数を使い locus_tag qualifierが存在しない場合には  [""] を返す
        translation = feature.qualifiers.get("translation", [""])[0]
        ### productを取得する処理を追加 ###
        if locus_tag and translation:
            ### print で出力する処理を追加
```

# GFFファイルの読み込み

現状ではBiopython単独ではGFFファイルの読み書きはできないため、BCBioGFFを利用する  
GFFファイルはGenBankファイルと同等の情報を保持できるが、ID-Parentを対応づけることによって明示的にgene-mRNA-CDSの階層構造を表現している。

In [76]:
# BCBioのインポート
# GFFを扱うためのモジュール (現時点ではBiopythonには含まれていないため、別にインストールする必要がある)
from BCBio import GFF

In [77]:
records = GFF.parse(open(gff_file_name))

In [78]:
# 最初の配列の先頭10件のfeatureを表示
# GenBankファイルの時とは異なり、mRNAやCDS featureが見えません。
# これは、GFFファイルではmRNAはgeneのsub_featuresに含まれているためです。
r0 = next(records)
r0.features[:10]

[SeqFeature(FeatureLocation(ExactPosition(0), ExactPosition(230218)), type='remark'),
 SeqFeature(FeatureLocation(ExactPosition(0), ExactPosition(230218), strand=1), type='region', id='id0'),
 SeqFeature(FeatureLocation(ExactPosition(0), ExactPosition(801), strand=-1), type='telomere', id='id1'),
 SeqFeature(FeatureLocation(ExactPosition(706), ExactPosition(776), strand=1), type='origin_of_replication', id='id2'),
 SeqFeature(FeatureLocation(ExactPosition(1806), ExactPosition(2169), strand=-1), type='gene', id='gene0'),
 SeqFeature(FeatureLocation(ExactPosition(2479), ExactPosition(2707), strand=1), type='gene', id='gene1'),
 SeqFeature(FeatureLocation(ExactPosition(7234), ExactPosition(9016), strand=-1), type='gene', id='gene2'),
 SeqFeature(FeatureLocation(ExactPosition(7996), ExactPosition(8547), strand=1), type='origin_of_replication', id='id6'),
 SeqFeature(FeatureLocation(ExactPosition(11564), ExactPosition(11951), strand=-1), type='gene', id='gene3'),
 SeqFeature(FeatureLocation

In [79]:
# 最初のgene featureを取得
gene = r0.features[4]

In [82]:
# sub_featuresの中にmRNA featureが含まれています。
# この例ではmRNAは1件のみですが、複数のmRNAが含まれる場合もあります。
gene.sub_features

[SeqFeature(FeatureLocation(ExactPosition(1806), ExactPosition(2169), strand=-1), type='mRNA', id='rna0')]

In [83]:
# mRNA featureを取得
mrna = gene.sub_features[0]

In [84]:
# mRNAのsub_featuresを確認
# CDS featureとexon featureが含まれています。
# sub_featureの種類はファイルによって異なります。CDSのみの場合や、非翻訳領域 (UTR) が含まれている場合もあります。
mrna.sub_features

[SeqFeature(FeatureLocation(ExactPosition(1806), ExactPosition(2169), strand=-1), type='exon', id='id3'),
 SeqFeature(FeatureLocation(ExactPosition(1806), ExactPosition(2169), strand=-1), type='CDS', id='cds0')]

In [91]:
# sub_features の階層構造をたどり、どのようなfeatureが含まれているかを確認してみる。。
S=set()
for record in GFF.parse(open(gff_file_name)):
    if record.id == "NC_001224.1":
        continue  # ミトコンドリア配列は除外
    for f in record.features:
        feature_type_1 = f.type
        S.add(feature_type_1)
        for sf in f.sub_features:
            feature_type_2 = feature_type_1 + " -> " + sf.type
            S.add(feature_type_2)
            for ssf in sf.sub_features:
                feature_type_3 = feature_type_2 + " -> " + ssf.type
                S.add(feature_type_3)

    

In [104]:
sorted(sorted(list(S)), key=lambda x:x.count("->"))  # sortedをネストしている理由は、アルファッベット順でソートしたあと階層数でソートしているため。

['centromere',
 'gene',
 'long_terminal_repeat',
 'mobile_genetic_element',
 'origin_of_replication',
 'pseudogene',
 'region',
 'remark',
 'sequence_feature',
 'telomere',
 'gene -> mRNA',
 'gene -> ncRNA',
 'gene -> rRNA',
 'gene -> snRNA',
 'gene -> snoRNA',
 'gene -> tRNA',
 'gene -> telomerase_RNA',
 'gene -> transcript',
 'pseudogene -> CDS',
 'pseudogene -> mRNA',
 'gene -> mRNA -> CDS',
 'gene -> mRNA -> exon',
 'gene -> ncRNA -> exon',
 'gene -> rRNA -> exon',
 'gene -> snRNA -> exon',
 'gene -> snoRNA -> exon',
 'gene -> tRNA -> exon',
 'gene -> telomerase_RNA -> exon',
 'gene -> transcript -> exon',
 'pseudogene -> mRNA -> exon']

In [106]:
# RNAseqの解析のために、タンパク質をコードする遺伝子のみを対象とし、gene_idおよび遺伝子産物名(product)を抜き出す。
# 抽出対象
# 'gene -> mRNA'


In [107]:
D = {}
for record in GFF.parse(open(gff_file_name)):
    for f in record.features:
        for sf in f.sub_features:
            if f.type == "gene" and sf.type == "mRNA":
                gene_id = sf.qualifiers["gene_id"][0]
                product = sf.qualifiers["product"][0]
                D[gene_id] = product
    

In [108]:
D

{'gene_0001': 'seripauperin PAU8',
 'gene_0002': 'hypothetical protein',
 'gene_0003': 'putative permease SEO1',
 'gene_0004': 'hypothetical protein',
 'gene_0005': 'hypothetical protein',
 'gene_0006': 'Tda8p',
 'gene_0007': 'hypothetical protein',
 'gene_0008': 'hypothetical protein',
 'gene_0009': 'flocculin FLO9',
 'gene_0010': 'glutamate dehydrogenase (NADP(+)) GDH3',
 'gene_0011': 'putative dehydrogenase BDH2',
 'gene_0012': '(R,R)-butanediol dehydrogenase',
 'gene_0013': 'Ecm1p',
 'gene_0014': 'calnexin',
 'gene_0015': 'Gpb2p',
 'gene_0016': 'ubiquitin-protein transferase activating protein PEX22',
 'gene_0017': 'acetate--CoA ligase 1',
 'gene_0018': 'flavin adenine dinucleotide transporter FLC2',
 'gene_0019': 'oleate-activated transcription factor OAF1',
 'gene_0020': 'protein AIM2',
 'gene_0021': 'ERMES complex Ca(2+)-binding regulatory GTPase GEM1',
 'gene_0022': 'gamma-tubulin complex subunit SPC72',
 'gene_0023': 'Bol3p',
 'gene_0024': 'Bol1p',
 'gene_0025': 'glycine decar

In [109]:
# ファイルに書き出しておく
out_file = "gene_id_product.tsv"
with open(out_file, "w") as f:
    for key, value in D.items():
        f.write(key + "\t" + value + "\n")