# 文字列処理

パソコンで扱うファイルは，テキストファイルとバイナリファイルに大別される．
テキストファイル内に記載されている文字列情報の中から，目的の情報を抽出することが有益となることが多い．また，頻繁にその対応に迫られる．

生命科学においては，様々なフォーマットに様々な情報が記載されており，一つのファイルで全ての情報を得ることが容易ではない．多くの場合，複数のファイルから相互参照などを行うことで目的の情報を抽出することになる．

そのためにも，Pythonなどのスクリプト言語によって，テキストファイル処理を習得することは，生物情報をより広範に整理・収集する有効な手立てとなる．

**参考文献**
1. Generic feature format version 3 (gff3). Available at: https://github.com/The-Sequence-Ontology/Specifications/blob/master/gff3.md.
1. Pysam. Available at: https://pysam.readthedocs.io/en/latest/api.html.
1. 柴田淳. みんなのPython 第4版. (SB クリエイティブ株式会社, 2017)

## テキストファイル

テキストファイル (Text File) は，文字など文字コードによって表されるデータだけが含まれるファイルのことで，ファイルフォーマットの一種と見なすこともできる．互換性が高く幅広い環境でデータを利用できる利点がある一方，単純な文字だけしか扱えないという制限がある．

- gff
- sam
- fastq
- fasta

gffやsamのように，複数列から成るテキストファイルを扱うことが多い．列の区切り文字としては，``comma(,)``，``タブ(\t)``，``スペース( )``が主に使用されている．

## バイナリファイル

テキストとはデータの内容すべてを人間が読んで理解できる (human-readable) もの，バイナリとはそうでないものを指す．

- bam
- gz

## ファイルの読み書き

プログラムで処理した結果を保存しておきたい場合や，外部からPythonにデータを取り込む場合にファイルを使用する．

Pythonでファイルを操作するためには，組み込み型の**ファイル型**を使う．

### ファイルを読み込む

ファイルの読み込みについていくつかスクリプトを実行する．

```python
with open (filename, 'r') as f: ## 'r'は省略化
```

### ファイルに書き込む

ファイルの書き込みは，読み込み同様`open`を使用する．ただし，`mode='w'`とする．

```python
with open (filename, 'w') as f:
```

### 読み込み1

s288c_n20.gff を読み込んで出力する.一行目だけ出力する.

In [6]:
input="./input/s288c_n20.gff"
with open(input) as f: #ファイルオープン
    line=f.readline()       # 一行読み込み
    print(line)                # 出力

##gff-version 3



### 書き込み1

test1.txtに出力する．

In [7]:
output="./output/test1.txt"   # ファイル名
out="Hello world!\n"             # 出力
with open(output, 'w') as f:  # ファイルオープン
    f.write(out)                      # ファイルへ書き込み

### 読み込み2

s288c_n20.gffを読み込んで出力する．

In [8]:
with open(input) as f:
    for line in f:             # 一行ずつ読み込み
        print(line)             # 出力

##gff-version 3

#!gff-spec-version 1.21

#!processor NCBI annotwriter

#!genome-build R64

#!genome-build-accession NCBI_Assembly:GCF_000146045.2

#!annotation-source SGD R64-2-1

##sequence-region NC_001133.9 1 230218

##species https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=559292

NC_001133.9	RefSeq	region	1	230218	.	+	.	ID=id0;Dbxref=taxon:559292;Name=I;chromosome=I;gbkey=Src;genome=chromosome;mol_type=genomic DNA;strain=S288C

NC_001133.9	RefSeq	telomere	1	801	.	-	.	ID=id1;Dbxref=SGD:S000028862;Note=TEL01L%3B Telomeric region on the left arm of Chromosome I%3B composed of an X element core sequence%2C X element combinatorial repeats%2C and a short terminal stretch of telomeric repeats;gbkey=telomere

NC_001133.9	RefSeq	origin_of_replication	707	776	.	+	.	ID=id2;Dbxref=SGD:S000121252;Note=ARS102~Autonomously Replicating Sequence;gbkey=rep_origin

NC_001133.9	RefSeq	gene	1807	2169	.	-	.	ID=gene0;Dbxref=GeneID:851229;Name=PAU8;end_range=2169,.;gbkey=Gene;gene=PAU8;gene_

### 読み込み3 

s288c_n20.gffを読み込んで出力する．改行コード削除を実行する．

In [9]:
with open(input) as f:
    for line in f:
        line=line.rstrip()  # 改行コードの削除
        print(line)

##gff-version 3
#!gff-spec-version 1.21
#!processor NCBI annotwriter
#!genome-build R64
#!genome-build-accession NCBI_Assembly:GCF_000146045.2
#!annotation-source SGD R64-2-1
##sequence-region NC_001133.9 1 230218
##species https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=559292
NC_001133.9	RefSeq	region	1	230218	.	+	.	ID=id0;Dbxref=taxon:559292;Name=I;chromosome=I;gbkey=Src;genome=chromosome;mol_type=genomic DNA;strain=S288C
NC_001133.9	RefSeq	telomere	1	801	.	-	.	ID=id1;Dbxref=SGD:S000028862;Note=TEL01L%3B Telomeric region on the left arm of Chromosome I%3B composed of an X element core sequence%2C X element combinatorial repeats%2C and a short terminal stretch of telomeric repeats;gbkey=telomere
NC_001133.9	RefSeq	origin_of_replication	707	776	.	+	.	ID=id2;Dbxref=SGD:S000121252;Note=ARS102~Autonomously Replicating Sequence;gbkey=rep_origin
NC_001133.9	RefSeq	gene	1807	2169	.	-	.	ID=gene0;Dbxref=GeneID:851229;Name=PAU8;end_range=2169,.;gbkey=Gene;gene=PAU8;gene_biotype=pro

### 読み込み4

s288c_n20.gffを読み込んで出力する．改行コード削除を実行する．``#``で始まる行だけを出力する．

In [10]:
with open(input) as f:
    for line in f:
        line=line.rstrip()
        
        if line.startswith("#"):  # ’#’で始まるかどうか
            print(line)

##gff-version 3
#!gff-spec-version 1.21
#!processor NCBI annotwriter
#!genome-build R64
#!genome-build-accession NCBI_Assembly:GCF_000146045.2
#!annotation-source SGD R64-2-1
##sequence-region NC_001133.9 1 230218
##species https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=559292


### 読み込み5

s288c_n20.gffを読み込んで出力する．改行コード削除を実行する．``#``で始まる行以外を出力する．

In [11]:
with open(input) as f:
    for line in f:
        line=line.rstrip()
        
        if line.startswith("#"): # ’#’で始まるかどうか
            continue
        print(line)

NC_001133.9	RefSeq	region	1	230218	.	+	.	ID=id0;Dbxref=taxon:559292;Name=I;chromosome=I;gbkey=Src;genome=chromosome;mol_type=genomic DNA;strain=S288C
NC_001133.9	RefSeq	telomere	1	801	.	-	.	ID=id1;Dbxref=SGD:S000028862;Note=TEL01L%3B Telomeric region on the left arm of Chromosome I%3B composed of an X element core sequence%2C X element combinatorial repeats%2C and a short terminal stretch of telomeric repeats;gbkey=telomere
NC_001133.9	RefSeq	origin_of_replication	707	776	.	+	.	ID=id2;Dbxref=SGD:S000121252;Note=ARS102~Autonomously Replicating Sequence;gbkey=rep_origin
NC_001133.9	RefSeq	gene	1807	2169	.	-	.	ID=gene0;Dbxref=GeneID:851229;Name=PAU8;end_range=2169,.;gbkey=Gene;gene=PAU8;gene_biotype=protein_coding;locus_tag=YAL068C;partial=true;start_range=.,1807
NC_001133.9	RefSeq	mRNA	1807	2169	.	-	.	ID=rna0;Parent=gene0;Dbxref=GeneID:851229,Genbank:NM_001180043.1;Name=NM_001180043.1;end_range=2169,.;gbkey=mRNA;gene=PAU8;partial=true;product=seripauperin PAU8;start_range=.,1807;transcri

### 読み込み6

s288c_n20.gffを読み込んで出力する．改行コード削除を実行する．``#``で始まる行以外を出力する．9列目のデータのみを出力する．

In [14]:
with open(input) as f:
    for line in f:
        line=line.rstrip()

        if line.startswith("#"):
            continue
        s=line.split("\t")  # タブで区切る
        print(s[8])          # 9列目を出力

ID=id0;Dbxref=taxon:559292;Name=I;chromosome=I;gbkey=Src;genome=chromosome;mol_type=genomic DNA;strain=S288C
ID=id1;Dbxref=SGD:S000028862;Note=TEL01L%3B Telomeric region on the left arm of Chromosome I%3B composed of an X element core sequence%2C X element combinatorial repeats%2C and a short terminal stretch of telomeric repeats;gbkey=telomere
ID=id2;Dbxref=SGD:S000121252;Note=ARS102~Autonomously Replicating Sequence;gbkey=rep_origin
ID=gene0;Dbxref=GeneID:851229;Name=PAU8;end_range=2169,.;gbkey=Gene;gene=PAU8;gene_biotype=protein_coding;locus_tag=YAL068C;partial=true;start_range=.,1807
ID=rna0;Parent=gene0;Dbxref=GeneID:851229,Genbank:NM_001180043.1;Name=NM_001180043.1;end_range=2169,.;gbkey=mRNA;gene=PAU8;partial=true;product=seripauperin PAU8;start_range=.,1807;transcript_id=NM_001180043.1
ID=id3;Parent=rna0;Dbxref=GeneID:851229,Genbank:NM_001180043.1;end_range=2169,.;gbkey=mRNA;gene=PAU8;partial=true;product=seripauperin PAU8;start_range=.,1807;transcript_id=NM_001180043.1
ID=cds0

### 読み込み7

s288c_n20.gffを読み込んで出力する．改行コード削除を実行する．``#``で始まる行以外を出力する．9列目のデータのみを出力する．`;`で区切る．

In [15]:
with open(input) as f:
    for line in f:
        line=line.rstrip()
        if line.startswith("#"):
            continue
        
        s=line.split("\t")
        items=s[8].split(";") # 9列目を”;”で区切る
        for item in items:   # リストを一つずつ
            print(item)          # 出力

ID=id0
Dbxref=taxon:559292
Name=I
chromosome=I
gbkey=Src
genome=chromosome
mol_type=genomic DNA
strain=S288C
ID=id1
Dbxref=SGD:S000028862
Note=TEL01L%3B Telomeric region on the left arm of Chromosome I%3B composed of an X element core sequence%2C X element combinatorial repeats%2C and a short terminal stretch of telomeric repeats
gbkey=telomere
ID=id2
Dbxref=SGD:S000121252
Note=ARS102~Autonomously Replicating Sequence
gbkey=rep_origin
ID=gene0
Dbxref=GeneID:851229
Name=PAU8
end_range=2169,.
gbkey=Gene
gene=PAU8
gene_biotype=protein_coding
locus_tag=YAL068C
partial=true
start_range=.,1807
ID=rna0
Parent=gene0
Dbxref=GeneID:851229,Genbank:NM_001180043.1
Name=NM_001180043.1
end_range=2169,.
gbkey=mRNA
gene=PAU8
partial=true
product=seripauperin PAU8
start_range=.,1807
transcript_id=NM_001180043.1
ID=id3
Parent=rna0
Dbxref=GeneID:851229,Genbank:NM_001180043.1
end_range=2169,.
gbkey=mRNA
gene=PAU8
partial=true
product=seripauperin PAU8
start_range=.,1807
transcript_id=NM_001180043.1
ID=cds0

### 読み込み8

s288c_n20.gffを読み込んで出力する．改行コード削除を実行する．``#``で始まる行以外を出力する．9列目のデータのみを出力する．`;`で区切る．`product`を抽出する．

In [16]:
with open(input) as f:
    for line in f:
        line=line.rstrip()
 
        if line.startswith("#"):
            continue
        s=line.split("\t")
        items=s[8].split(";")
        for item in items:
            if item.startswith("product="):
                print(item)

product=seripauperin PAU8
product=seripauperin PAU8
product=seripauperin PAU8
product=hypothetical protein
product=hypothetical protein
product=hypothetical protein


## SAM

２列目のFLAG情報は，リードのマッピング状況を知ることができる．
``pysam``には，様々な関数が用意されている．

### SAM1

In [19]:
input="./input/SRR453566.sam.aa"
dict={}
with open(input) as f:
    for line in f:
        line=line.rstrip()
        if line.startswith("@"):
            continue
        s=line.split("\t")
        flg=s[1]
        if flg in dict:
            dict[flg]+=1
        else :
            dict[flg]=1
for k, v in dict.items():
    print(k+"\t"+str(v))

83	197
163	197
99	239
147	239
355	15
403	15
81	3
161	3
65	2
129	2
77	14
141	14
113	1
177	1
89	5
133	7
339	17
419	17
97	2
145	2
153	2
69	3
73	2
137	1


### SAM2

特定のFLAGを有するリード情報を抽出する．
マッピングされなかったリードを抽出する．``read unmapped``は，``0x4``，``4``で表現される．

In [20]:
readList=[]
with open(input) as f:
    for line in f:
        line=line.rstrip()
        if line.startswith("@"):
            continue
        s=line.split("\t")
        FLG=int(s[1])
        if FLG & 4:
            readList.append(s[0])
for item in readList:
    print(item)

SRR453566.116
SRR453566.116
SRR453566.126
SRR453566.153
SRR453566.153
SRR453566.156
SRR453566.156
SRR453566.178
SRR453566.178
SRR453566.183
SRR453566.242
SRR453566.242
SRR453566.243
SRR453566.243
SRR453566.255
SRR453566.255
SRR453566.263
SRR453566.263
SRR453566.302
SRR453566.310
SRR453566.322
SRR453566.342
SRR453566.342
SRR453566.354
SRR453566.354
SRR453566.350
SRR453566.381
SRR453566.394
SRR453566.394
SRR453566.396
SRR453566.396
SRR453566.409
SRR453566.433
SRR453566.433
SRR453566.472
SRR453566.499
SRR453566.499
SRR453566.503
