### 5.3 ファイル読み込み (具体例2: SAM形式) 
SAMファイルの読み込みを行う。__SAMファイル__ は、@で始まるヘッダー行と各リードのアライメント情報を格納している (表5.7) アライメント情報の各列は、タブ (\t) で区切られている。  

表5.7 SAMファイルのアライメント情報  

| 列数 | Field | 情報 | 例 (20行目)  |
|--------------|-----------|------|--------|
| 1 | QNAME | リード名 | SRR453566.24 |
| 2 | FLAG | アライメント情報 | 83 |
| 3 | RNAME | リファレンス名 | NC_001139.9 |
| 4 | POS | マッピング位置 | 727620 |
| 5 | MAPQ | マッピングスコア | 60 |
| 6 | CIGAR | マッピングの状況 | 101M |
| 7 | RNEXT | ペアエンドリードのマッピングされたリファレンス名<br>=の場合は、同じリファレンス名 | = |
| 8 | PNEXT | ペアエンドリードのマッピング位置 | 727518 |
| 9 | TLEN  | リード間の距離 | -203 |
| 10 | SEQ | リードの塩基配列 | AAGGGTAA.... |
| 11 | QUAL | 塩基配列のクォリティデータ | ?DCCDDDD ... |

In [3]:
#　ファイルの中身を25行目まで確認する
!head -n 25 ./data/SRR453566_10.sam  # 教科書の sam ファイルのtop10件を抜き出したファイル

@HD	VN:1.0	SO:unsorted
@SQ	SN:NC_001133.9	LN:230218
@SQ	SN:NC_001134.8	LN:813184
@SQ	SN:NC_001135.5	LN:316620
@SQ	SN:NC_001136.10	LN:1531933
@SQ	SN:NC_001137.3	LN:576874
@SQ	SN:NC_001138.5	LN:270161
@SQ	SN:NC_001139.9	LN:1090940
@SQ	SN:NC_001140.6	LN:562643
@SQ	SN:NC_001141.2	LN:439888
@SQ	SN:NC_001142.9	LN:745751
@SQ	SN:NC_001143.9	LN:666816
@SQ	SN:NC_001144.5	LN:1078177
@SQ	SN:NC_001145.3	LN:924431
@SQ	SN:NC_001146.8	LN:784333
@SQ	SN:NC_001147.6	LN:1091291
@SQ	SN:NC_001148.4	LN:948066
@SQ	SN:NC_001224.1	LN:85779
@PG	ID:hisat2	PN:hisat2	VN:2.1.0	CL:"/usr/local/pkg/hisat2/2.1.0/hisat2-align-s --wrapper basic-0 -p 4 -x ../reference/hisat/s288c.fna -S SRR453566.sam -1 /tmp/52279.inpipe1 -2 /tmp/52279.inpipe2"
SRR453566.24	83	NC_001139.9	727620	60	101M	=	727518	-203	AAGGGTAAAGCTAAGGGTGATATTCCAGGTGTTAGATTCAAGGTCGTTAAGGTCTCTGGTGTCTCCTTGTTGGCTTTGTGGAAAGAAAAGAAGGAAAAGCC	?DCCDDDDDDDDDDDDDD@CDCCBEEEDFFFFFHHHHFHJJJJIJJJJJJJJIJGJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJHHHHHFFFFFCCC	AS:i:0	XN:i:0	XM:i:0	X

### 5.3.1 ビット演算子  
2列目のFLAG情報は、リードのマッピング状況を知ることができる。各情報は下記のように定義されている (表5.8)

表5.1 バイオインフォマティクスで頻出するファイル形式  
| ファイル形式 | 格納情報 | 参照 |
|--------------|-----------|------|
| GFF3 (Generic Feature Format Version 3) | 遺伝子アノテーション | [gmod.org](https://gmod.org/wiki/GFF3), [GitHub Spec](https://github.com/The-Sequence-Ontology/Specifications/blob/master/gff3.md) |
| SAM (Sequence Alignment/Map Format) | NGSリードのマッピング結果 | [SAM Format PDF](https://samtools.github.io/hts-specs/SAMv1.pdf) |
| FASTA | DNAやアミノ酸などの配列データ | [Wikipedia (JA)](https://ja.wikipedia.org/wiki/FASTA) |
| FASTQ | DNAなどの塩基配列とそのクオリティスコア | [Wikipedia (JA)](https://ja.wikipedia.org/wiki/Fastq) |

GFF3 や SAM のように、複数列からなるテキストファイルを扱うことが多い。列の区切り文字としては、タブ (\t)、スペース ( ), カンマ(,) が主に用いられる。FASTA, GFF3 については __第6章__ も参照。

表5.2 バイナリファイルの例  
| ファイル形式 | 説明 | 参照 |
|--------------|-----------|------|
| gz | gzip コマンドで圧縮したファイルにつく拡張子 | [Wikipedia (JA)](https://ja.wikipedia.org/wiki/Gzip) |
| BAM (Binary Alignment Format) | NGSリードのマッピング結果 | [SAM v1](https://samtools.github.io/hts-specs/SAMv1.pdf) |

## 5.2 ファイルの読み書き  
プログラムで処理した結果を保存しておきたい場合や、外部からPythonにデータを取り込む場合にファイルを使用する。Pythonでファイルを操作するためには、組み込み型のファイル型を使うことができる。特別な宣言は不要で、open()関数を使用して、ファイルの読み書きを行う。open()関数は、ファイルを開き、対応するファイルオブジェクトを返す。ファイルを開くことができなければ、OSErrorが返される。
~~~  
open(filename, mode)
~~~
* filename は、ファイルにつけられた名前の文字列 (パス)
* mode は、ファイルのタイプやファイルをどのように操作したいかを知らせるための文字列 (表5.3)

open()でファイルを開いたら、close()によってファイルを閉じる必要がある。しかしながら、with構文を使うことによって、close()処理が不要になる。with構文では、ファイルが存在する場合はファイルを開いて処理を実行し、最後にclose()処理も実行される。ファイルが存在しない場合には、実行しない仕組みになっている。  

表5.3 open()関数のmode一覧  
| mode | 説明 |
|--------------|-----------|
| r | ファイルを読み込み専用で開く (デフォルト) |
| w | ファイルを書き出し専用で開く |
| a | ファイルの最後に追記 |
| x | ファイルを書き出し専用で開く<br>(ただしふぁいるが存在しない場合のみ) |
| + | 読み込みと書き込みの両方を可能とする「r+」「w+」 |
| b | ファイルをバイナリモードで開く |

### 5.2.1 ファイルを読み込む  
ファイルの読み込みはopen()を使用する。asに続く変数にファイルオブジェクトが代入される。　　
~~~
with open(filename, 'r') as f: # 'r'は省略可
~~~

### 5.2.2 ファイルを書き込む  
ファイルの書き込みは、読み込み同様open()を使用する。ただし、mode='w'とする  
~~~
with open(filename, 'w') as f:
~~~

### 5.2.3 改行コード  
__改行コード__とは、改行を表す制御文字である。文字列の中で改行がある部分に対して、改行を指示する文字コードになる。OS (システム) で改行コードが異なる。(表5.4)  

表5.4 システムごとの改行コード  
| 改行コード | 見え方 |システム|
|--------------|-----------|------|
| CR | \r | macOS (≦ 9) |
| LF | \n | Unix, macOS |
| CR+LF | \r\n | Windowns |


### 5.2.4 ファイル読み込み (具体例 1: GFF3形式)  
data/ ディレクトリの中に　s288c_n20.gff と SRR453566_10.sam を置いてあるので、そのデータを使ってファイルの読み込みを学習していく。  
まずは、酵母の GFF ファイル s288c_n20.gff (最初の20行だけを抽出) を題材として、ファイル読み込みを行う。

In [4]:
%cat data/s288c_n20.gff

##gff-version 3
#!gff-spec-version 1.21
#!processor NCBI annotwriter
#!genome-build R64
#!genome-build-accession NCBI_Assembly:GCF_000146045.2
#!annotation-source SGD R64-2-1
##sequence-region NC_001133.9 1 230218
##species https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=559292
NC_001133.9	RefSeq	region	1	230218	.	+	.	ID=id0;Dbxref=taxon:559292;Name=I;chromosome=I;gbkey=Src;genome=chromosome;mol_type=genomic DNA;strain=S288C
NC_001133.9	RefSeq	telomere	1	801	.	-	.	ID=id1;Dbxref=SGD:S000028862;Note=TEL01L%3B Telomeric region on the left arm of Chromosome I%3B composed of an X element core sequence%2C X element combinatorial repeats%2C and a short terminal stretch of telomeric repeats;gbkey=telomere
NC_001133.9	RefSeq	origin_of_replication	707	776	.	+	.	ID=id2;Dbxref=SGD:S000121252;Note=ARS102~Autonomously Replicating Sequence;gbkey=rep_origin
NC_001133.9	RefSeq	gene	1807	2169	.	-	.	ID=gene0;Dbxref=GeneID:851229;Name=PAU8;end_range=2169,.;gbkey=Gene;gene=PAU8;gene_biotype=pro

GFF ファイルは9列からなるテキストファイルで、各列はタブ (\t) で区切られている。  
  
表5.5 GFF3の各列の情報  
| 列数 | 名前 | 情報 | 例 (19行目) |
|--------------|-----------|------|------|
| 1 | seqid | 染色体名やスキャフォールド名 | NC_001133.9 |
| 2 | source | プロジェクト名やソフトウェア名など自由に記載 | RefSeq |
| 3 | type | 属性型 | CDS |
| 4 | start | 開始位置 | 2480 |
| 5 | end | 終点位置 | 2707 |
| 6 | score | スコア (.はスコアなし) | . |
| 7 | strand | ストランドの向き | + |
| 8 | phase | 読み枠に関する情報 (0,1,2)<br>CDS feature の場合には必須 | 0 |
| 9 | attributes | 付属情報 (セミコロン (;) 区切り)<br>%エンコーディング (URLエンコード) | ID=cds1;Parent=rna1;Dbxref=SGD:S000028593,GeneID:1466426.. |  

19行目のattributes は以下のようになっている。詳細に見てみよう。 (表5.6)

ID=cds1;Parent=rna1;Dbxref=SGD:S000028593,GeneID:1466426,Genbank:NP_878038.1;Name=NP_878038.1;Note=hypothetical protein%3B identified by gene-trapping%2C microarray-based expression analysis%2C and genome-wide homology searching;gbkey=CDS;product=hypothetical protein;protein_id=NP_878038.1  

表5.6 attributesの詳細
| タグ | 情報 |
|-----|------|
| ID | cds1 |
| Parent | rna1 |
| Dbxref | SGD:S000028593,GeneID:1466426,Genbank:NP_878038.1 |
| Name | NP_878038.1 |
| Note | hypothetical protein%3B identified by gene-trapping%2C microarray-based expression analysis%2C and genome-wide homology searching |
| gbkey | CDS |
| product | hypothetical protein |
| protein_id | NP_878038.1 |  

  Note は URL エンコーディング記法が採用されている。  
  URL を使用できない文字 (セミコロン、カンマなど) を他の文字列でエスケープして表現する記法

__1行目のみの読み込み__  
さっそくファイルを読み込んでみる。s288c_n20.gff を読み込んで出力する。1行目だけ出力する。

In [5]:
path = './data/s288c_n20.gff'
with open(path) as f: #ファイルオープン
    line = f.readline() #1行読み込み
    print(line) #出力

##gff-version 3



1行目##gff-version 3が読み込まれた。readline()メソッドは、ファイルから1行読み込み、文字列を返す。テキストファイルをプログラムで処理する場合は、1行ごとに読み込んで処理することが多いため、readline()メソッドを用いた例を紹介している。read()メソッドは、ファイル全体を読み込むことが可能だが、ファイルサイズが大きい場合には、計算機のメモリを圧迫する可能性があることから注意が必要になる。

__ファイル全体の読み込み__  
1行目だけではなく、ファイル全体を読み込んでみる。s288c_n20.gff を読み込んで出力する。  

In [7]:
with open(path) as f:
    for line in f:
        print(line)

##gff-version 3

#!gff-spec-version 1.21

#!processor NCBI annotwriter

#!genome-build R64

#!genome-build-accession NCBI_Assembly:GCF_000146045.2

#!annotation-source SGD R64-2-1

##sequence-region NC_001133.9 1 230218

##species https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=559292

NC_001133.9	RefSeq	region	1	230218	.	+	.	ID=id0;Dbxref=taxon:559292;Name=I;chromosome=I;gbkey=Src;genome=chromosome;mol_type=genomic DNA;strain=S288C

NC_001133.9	RefSeq	telomere	1	801	.	-	.	ID=id1;Dbxref=SGD:S000028862;Note=TEL01L%3B Telomeric region on the left arm of Chromosome I%3B composed of an X element core sequence%2C X element combinatorial repeats%2C and a short terminal stretch of telomeric repeats;gbkey=telomere

NC_001133.9	RefSeq	origin_of_replication	707	776	.	+	.	ID=id2;Dbxref=SGD:S000121252;Note=ARS102~Autonomously Replicating Sequence;gbkey=rep_origin

NC_001133.9	RefSeq	gene	1807	2169	.	-	.	ID=gene0;Dbxref=GeneID:851229;Name=PAU8;end_range=2169,.;gbkey=Gene;gene=PAU8;gene_

forループを使い、ファイルから1行ずつ読み込み、出力した。出力結果には空行が追加されている。print(line, end='')とすることで、改行コードを付与しない出力も可能だが、次に示す方法の方がよく使われるかもしれない。

__改行コードを削除した読み込み__  
s299c_n20.gff を読み込んで出力する。改行コードの削除を実行する。

In [9]:
with open(path) as f:
    for line in f:
        line = line.rstrip() #改行コードの削除
        print(line)

##gff-version 3
#!gff-spec-version 1.21
#!processor NCBI annotwriter
#!genome-build R64
#!genome-build-accession NCBI_Assembly:GCF_000146045.2
#!annotation-source SGD R64-2-1
##sequence-region NC_001133.9 1 230218
##species https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=559292
NC_001133.9	RefSeq	region	1	230218	.	+	.	ID=id0;Dbxref=taxon:559292;Name=I;chromosome=I;gbkey=Src;genome=chromosome;mol_type=genomic DNA;strain=S288C
NC_001133.9	RefSeq	telomere	1	801	.	-	.	ID=id1;Dbxref=SGD:S000028862;Note=TEL01L%3B Telomeric region on the left arm of Chromosome I%3B composed of an X element core sequence%2C X element combinatorial repeats%2C and a short terminal stretch of telomeric repeats;gbkey=telomere
NC_001133.9	RefSeq	origin_of_replication	707	776	.	+	.	ID=id2;Dbxref=SGD:S000121252;Note=ARS102~Autonomously Replicating Sequence;gbkey=rep_origin
NC_001133.9	RefSeq	gene	1807	2169	.	-	.	ID=gene0;Dbxref=GeneID:851229;Name=PAU8;end_range=2169,.;gbkey=Gene;gene=PAU8;gene_biotype=pro

これで元のファイルと同じ出力結果になった。str.rstrip()メソッドは、引数に何も指定しない場合は、文字列の末尾部分の空白文字 (スペース (space), タブ (tab), 改行 (linefeed), 復帰 (return), 改ページ(formfeed), 垂直タブ (vertival tab, 現代ではほとんど使われない) を除去する。例えば、行末の文字列を対象として文字列一致においては、空白文字の有無によって意図しない結果となることもある。そのため、人の目に見えない末尾の空白文字は、最初に削除して処理した方がいい。 

__#で始まる行のみの読み込み__  
目的とする情報のみを抽出することもできる。s288c_n20.gff を読み込んで出力する。改行コードの削除を実行する。#で始まる行だけを出力する。

In [10]:
with open(path) as f:
    for line in f:
        line = line.rstrip() #改行コードの削除

        if line.startswith('#'):   # #で始まるかどうか
            print(line)

##gff-version 3
#!gff-spec-version 1.21
#!processor NCBI annotwriter
#!genome-build R64
#!genome-build-accession NCBI_Assembly:GCF_000146045.2
#!annotation-source SGD R64-2-1
##sequence-region NC_001133.9 1 230218
##species https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=559292


#で始まるヘッダー行だけを抽出することができた。

__#で始まる行以外の読み込み__  
s288c_n20.gff を読み込んで出力する。改行コードの削除を実行する。#で始まる行以外を出力する

In [11]:
with open(path) as f:
    for line in f:
        line = line.rstrip() #改行コードの削除

        if line.startswith('#'):   # #で始まるかどうか
            continue
        print(line)

NC_001133.9	RefSeq	region	1	230218	.	+	.	ID=id0;Dbxref=taxon:559292;Name=I;chromosome=I;gbkey=Src;genome=chromosome;mol_type=genomic DNA;strain=S288C
NC_001133.9	RefSeq	telomere	1	801	.	-	.	ID=id1;Dbxref=SGD:S000028862;Note=TEL01L%3B Telomeric region on the left arm of Chromosome I%3B composed of an X element core sequence%2C X element combinatorial repeats%2C and a short terminal stretch of telomeric repeats;gbkey=telomere
NC_001133.9	RefSeq	origin_of_replication	707	776	.	+	.	ID=id2;Dbxref=SGD:S000121252;Note=ARS102~Autonomously Replicating Sequence;gbkey=rep_origin
NC_001133.9	RefSeq	gene	1807	2169	.	-	.	ID=gene0;Dbxref=GeneID:851229;Name=PAU8;end_range=2169,.;gbkey=Gene;gene=PAU8;gene_biotype=protein_coding;locus_tag=YAL068C;partial=true;start_range=.,1807
NC_001133.9	RefSeq	mRNA	1807	2169	.	-	.	ID=rna0;Parent=gene0;Dbxref=GeneID:851229,Genbank:NM_001180043.1;Name=NM_001180043.1;end_range=2169,.;gbkey=mRNA;gene=PAU8;partial=true;product=seripauperin PAU8;start_range=.,1807;transcri

__特定の列のみの読み込み__  
s288c_n20.gffを読み込んで出力する。改行コードの削除を実行する。#で始まる行以外を出力する。9列目のデータのみを出力する。

In [13]:
with open(path) as f:
    for line in f:
        line = line.rstrip() #改行コードの削除

        if line.startswith('#'):   # #で始まるかどうか
            continue
        s = line.split('\t') # タブで区切る
        print(s[8])

ID=id0;Dbxref=taxon:559292;Name=I;chromosome=I;gbkey=Src;genome=chromosome;mol_type=genomic DNA;strain=S288C
ID=id1;Dbxref=SGD:S000028862;Note=TEL01L%3B Telomeric region on the left arm of Chromosome I%3B composed of an X element core sequence%2C X element combinatorial repeats%2C and a short terminal stretch of telomeric repeats;gbkey=telomere
ID=id2;Dbxref=SGD:S000121252;Note=ARS102~Autonomously Replicating Sequence;gbkey=rep_origin
ID=gene0;Dbxref=GeneID:851229;Name=PAU8;end_range=2169,.;gbkey=Gene;gene=PAU8;gene_biotype=protein_coding;locus_tag=YAL068C;partial=true;start_range=.,1807
ID=rna0;Parent=gene0;Dbxref=GeneID:851229,Genbank:NM_001180043.1;Name=NM_001180043.1;end_range=2169,.;gbkey=mRNA;gene=PAU8;partial=true;product=seripauperin PAU8;start_range=.,1807;transcript_id=NM_001180043.1
ID=id3;Parent=rna0;Dbxref=GeneID:851229,Genbank:NM_001180043.1;end_range=2169,.;gbkey=mRNA;gene=PAU8;partial=true;product=seripauperin PAU8;start_range=.,1807;transcript_id=NM_001180043.1
ID=cds0

__;で区切る読み込み__  
s288c_n20.gff を読み込んで出力する。改行コードの削除を実行する。#で始まる行以外を出力する。9列目のデータのみを出力する。

In [16]:
with open(path) as f:
    for line in f:
        line = line.rstrip() #改行コードの削除

        if line.startswith('#'):   # #で始まるかどうか
            continue
        s = line.split('\t') # タブで区切る
        items = s[8].split(';') # 9列目を ";" で区切る
        for item in items: # リストを1つずつ
            print(item) # 出力

ID=id0
Dbxref=taxon:559292
Name=I
chromosome=I
gbkey=Src
genome=chromosome
mol_type=genomic DNA
strain=S288C
ID=id1
Dbxref=SGD:S000028862
Note=TEL01L%3B Telomeric region on the left arm of Chromosome I%3B composed of an X element core sequence%2C X element combinatorial repeats%2C and a short terminal stretch of telomeric repeats
gbkey=telomere
ID=id2
Dbxref=SGD:S000121252
Note=ARS102~Autonomously Replicating Sequence
gbkey=rep_origin
ID=gene0
Dbxref=GeneID:851229
Name=PAU8
end_range=2169,.
gbkey=Gene
gene=PAU8
gene_biotype=protein_coding
locus_tag=YAL068C
partial=true
start_range=.,1807
ID=rna0
Parent=gene0
Dbxref=GeneID:851229,Genbank:NM_001180043.1
Name=NM_001180043.1
end_range=2169,.
gbkey=mRNA
gene=PAU8
partial=true
product=seripauperin PAU8
start_range=.,1807
transcript_id=NM_001180043.1
ID=id3
Parent=rna0
Dbxref=GeneID:851229,Genbank:NM_001180043.1
end_range=2169,.
gbkey=mRNA
gene=PAU8
partial=true
product=seripauperin PAU8
start_range=.,1807
transcript_id=NM_001180043.1
ID=cds0

__特定のタグのデータの読み込み1__  
s288c_n20.gff を読み込んで出力する。改行コードの削除を実行する。#で始まる行以外を出力する。9列目のデータのみを出力する。;で区切る。oroductデータのみを出力する。

In [18]:
with open(path) as f:
    for line in f:
        line = line.rstrip() #改行コードの削除

        if line.startswith('#'):   # #で始まるかどうか
            continue
        s = line.split('\t') # タブで区切る
        items = s[8].split(';') # 9列目を ";" で区切る
        for item in items: # リストを1つずつ
            if item.startswith('product='):
                print(item)

product=seripauperin PAU8
product=seripauperin PAU8
product=seripauperin PAU8
product=hypothetical protein
product=hypothetical protein
product=hypothetical protein


__辞書型での読み込み__  
s288c_n20.gff を読み込んで出力する。改行コードの削除を実行する。#で始まる行以外を出力する。9列目のデータを辞書型で取得する。

In [25]:
with open(path) as f:
    for line in f:
        line = line.rstrip() #改行コードの削除

        if line.startswith('#'):   # #で始まるかどうか
            continue
        s = line.split('\t') # タブで区切る
        items = s[8].split(';') # 9列目を ";" で区切る
        tags = dict([tmp.split('=') for tmp in items]) # リスト内包表記で一括取得
        print(tags)
            

{'ID': 'id0', 'Dbxref': 'taxon:559292', 'Name': 'I', 'chromosome': 'I', 'gbkey': 'Src', 'genome': 'chromosome', 'mol_type': 'genomic DNA', 'strain': 'S288C'}
{'ID': 'id1', 'Dbxref': 'SGD:S000028862', 'Note': 'TEL01L%3B Telomeric region on the left arm of Chromosome I%3B composed of an X element core sequence%2C X element combinatorial repeats%2C and a short terminal stretch of telomeric repeats', 'gbkey': 'telomere'}
{'ID': 'id2', 'Dbxref': 'SGD:S000121252', 'Note': 'ARS102~Autonomously Replicating Sequence', 'gbkey': 'rep_origin'}
{'ID': 'gene0', 'Dbxref': 'GeneID:851229', 'Name': 'PAU8', 'end_range': '2169,.', 'gbkey': 'Gene', 'gene': 'PAU8', 'gene_biotype': 'protein_coding', 'locus_tag': 'YAL068C', 'partial': 'true', 'start_range': '.,1807'}
{'ID': 'rna0', 'Parent': 'gene0', 'Dbxref': 'GeneID:851229,Genbank:NM_001180043.1', 'Name': 'NM_001180043.1', 'end_range': '2169,.', 'gbkey': 'mRNA', 'gene': 'PAU8', 'partial': 'true', 'product': 'seripauperin PAU8', 'start_range': '.,1807', 'tr

__特定のタグのデータの読み込み2__  
s288c_n20.gff を読み込んで出力する。改行コードの削除を実行する。#で始まる行以外を出力する。9列目のNoteデータのみを出力する。

In [26]:
with open(path) as f:
    for line in f:
        line = line.rstrip() #改行コードの削除

        if line.startswith('#'):   # #で始まるかどうか
            continue
        s = line.split('\t') # タブで区切る
        items = s[8].split(';') # 9列目を ";" で区切る
        tags = dict([tmp.split('=') for tmp in items]) # リスト内包表記で一括取得
        
        if 'Note' in tags: # Noteタグの有無
            print(tags['Note'])
            

TEL01L%3B Telomeric region on the left arm of Chromosome I%3B composed of an X element core sequence%2C X element combinatorial repeats%2C and a short terminal stretch of telomeric repeats
ARS102~Autonomously Replicating Sequence
hypothetical protein%3B member of the seripauperin multigene family encoded mainly in subtelomeric regions
hypothetical protein%3B identified by gene-trapping%2C microarray-based expression analysis%2C and genome-wide homology searching


__URLでコードする読み込み__  
s288c_n20.gff を読み込んで出力する。改行コードの削除を実行する。#で始まる行以外を出力する。9列目のNoteデータをURLデコードして、出力する。

In [28]:
from urllib.parse import unquote
with open(path) as f:
    for line in f:
        line = line.rstrip() #改行コードの削除

        if line.startswith('#'):   # #で始まるかどうか
            continue
        s = line.split('\t') # タブで区切る
        items = s[8].split(';') # 9列目を ";" で区切る
        tags = dict([tmp.split('=') for tmp in items]) # リスト内包表記で一括取得
        
        if 'Note' in tags: # Noteタグの有無
            print(unquote(tags['Note'])) # Note の内容をデコードして出力

TEL01L; Telomeric region on the left arm of Chromosome I; composed of an X element core sequence, X element combinatorial repeats, and a short terminal stretch of telomeric repeats
ARS102~Autonomously Replicating Sequence
hypothetical protein; member of the seripauperin multigene family encoded mainly in subtelomeric regions
hypothetical protein; identified by gene-trapping, microarray-based expression analysis, and genome-wide homology searching


urllib.parseモジュールを使えば、URLエンコード、デコードが実現できる。

__特定の行以降を読み込み__  
s288c_n20.gff を読み込んで3行目以降を改行コードを削除して出力する。

In [29]:
with open(path) as f:
    f.readline() # 1行目の読み込みを実行
    f.readline() # 2行目の読み込みを実行
    for line in f: # 3行目からの読み込みを実行
        line = line.rstrip()
        print(line)

#!processor NCBI annotwriter
#!genome-build R64
#!genome-build-accession NCBI_Assembly:GCF_000146045.2
#!annotation-source SGD R64-2-1
##sequence-region NC_001133.9 1 230218
##species https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=559292
NC_001133.9	RefSeq	region	1	230218	.	+	.	ID=id0;Dbxref=taxon:559292;Name=I;chromosome=I;gbkey=Src;genome=chromosome;mol_type=genomic DNA;strain=S288C
NC_001133.9	RefSeq	telomere	1	801	.	-	.	ID=id1;Dbxref=SGD:S000028862;Note=TEL01L%3B Telomeric region on the left arm of Chromosome I%3B composed of an X element core sequence%2C X element combinatorial repeats%2C and a short terminal stretch of telomeric repeats;gbkey=telomere
NC_001133.9	RefSeq	origin_of_replication	707	776	.	+	.	ID=id2;Dbxref=SGD:S000121252;Note=ARS102~Autonomously Replicating Sequence;gbkey=rep_origin
NC_001133.9	RefSeq	gene	1807	2169	.	-	.	ID=gene0;Dbxref=GeneID:851229;Name=PAU8;end_range=2169,.;gbkey=Gene;gene=PAU8;gene_biotype=protein_coding;locus_tag=YAL068C;partial=tr

readline() を2階実行することで、最初の2行を読み込んだことになる。そのあとにforループを用いることで、3行目からの処理が可能となる。

### 5.2.5 ファイルの書き込み (具体例)  

__書き込み1__  
open(file, mode='w') とすれば、ファイルへの書き込みができる。'Hello world!\n'をtest1.txtに出力する。
事前に、%mkdir outputなどをして出力ディレクトリを作っておこう。

In [33]:
%mkdir output
#output が既にある場合は、output1 or output2 など名前を変更してください。

mkdir: output: File exists


In [37]:
output = './output/test1.txt' #ファイル名
out = 'Hello world!\n' #出力
with open(output, 'w') as f: #ファイルオープン
    f.write(out) #ファイルへの書き込み

In [38]:
%cat ./output/test1.txt

Hello world!


test1.txt ファイルがoutputディレクトリ下に作成された。中身を確認するとHello world!となっている。outputディレクトリがない場合は、FileNotFoundError: No such file or directory: '.output/test1.txt'となる。mode オプション (表5.3) を変更することで、上書きするのか、追記するのか、新規作成するのかを設定できる。

__書き込み2__  
'Hello world\n!' をtest1.txt に出力する。ファイルが存在する場合は上書きしない。

In [39]:
output = './output/test1.txt' #ファイル名
out = 'Hello world!\n' #出力
with open(output, 'x') as f: #ファイルオープン
    f.write(out) #ファイルへの書き込み

FileExistsError: [Errno 17] File exists: './output/test1.txt'

先に作ったtest1.txtが存在しているので、FileExistsError: [Errno 17] File exists: './output/test1.txt' となった。mode=x を用いることで、既存ファイルへの上書きを防ぐことができる。 