# 文字列処理

パソコンで扱うファイルは，テキストファイルとバイナリファイルに大別される．
テキストファイル内に記載されている文字列情報の中から，目的の情報を抽出することが有益となることが多い．また，頻繁にその対応に迫られる．

生命科学においては，様々なフォーマットに様々な情報が記載されており，一つのファイルで全ての情報を得ることが容易ではない．多くの場合，複数のファイルから相互参照などを行うことで目的の情報を抽出することになる．

そのためにも，Pythonなどのスクリプト言語によって，テキストファイル処理を習得することは，生物情報をより広範に整理・収集する有効な手立てとなる．

**参考文献**
1. Generic feature format version 3 (gff3). Available at: https://github.com/The-Sequence-Ontology/Specifications/blob/master/gff3.md.
1. Pysam. Available at: https://pysam.readthedocs.io/en/latest/api.html.
1. 柴田淳. みんなのPython 第4版. (SB クリエイティブ株式会社, 2017)
1. 独習 Pythonバイオ情報解析.

## テキストファイル

テキストファイル (Text File) は，文字など文字コードによって表されるデータだけが含まれるファイルのことで，ファイルフォーマットの一種と見なすこともできる．互換性が高く幅広い環境でデータを利用できる利点がある一方，単純な文字だけしか扱えないという制限がある．

- gff
- sam
- fastq
- fasta

gffやsamのように，複数列から成るテキストファイルを扱うことが多い．列の区切り文字としては，``comma(,)``，``タブ(\t)``，``スペース( )``が主に使用されている．

## バイナリファイル

テキストとはデータの内容すべてを人間が読んで理解できる (human-readable) もの，バイナリとはそうでないものを指す．

- bam
- gz

## ファイルの読み書き

プログラムで処理した結果を保存しておきたい場合や，外部からPythonにデータを取り込む場合にファイルを使用する．

Pythonでファイルを操作するためには，組み込み型の**ファイル型**を使う．

### ファイルを読み込む

ファイルの読み込みについていくつかスクリプトを実行する．

```python
with open (filename, 'r') as f: ## 'r'は省略化
```

### ファイルに書き込む

ファイルの書き込みは，読み込み同様`open`を使用する．ただし，`mode='w'`とする．

```python
with open (filename, 'w') as f:
```

### 改行コード

|改行コード|見え方|System|
|---|---|---|
| CR | \r | mac|
| LF |\n|unix|
| CR+LF |\r\n|win|

### 読み込み1

s288c_n20.gff を読み込んで出力する.一行目だけ出力する.

In [None]:
input="./input/s288c_n20.gff"
with open(input) as f: #ファイルオープン
    line=f.readline()       # 一行読み込み
    print(line)                # 出力

### 書き込み1

test1.txtに出力する．

In [None]:
output="./output/test1.txt"   # ファイル名
out="Hello world!\n"             # 出力
with open(output, 'w') as f:  # ファイルオープン
    f.write(out)                      # ファイルへ書き込み

### 読み込み2

s288c_n20.gffを読み込んで出力する．

In [None]:
with open(input) as f:
    for line in f:             # 一行ずつ読み込み
        print(line)             # 出力

### 読み込み3 

s288c_n20.gffを読み込んで出力する．改行コード削除を実行する．

In [None]:
with open(input) as f:
    for line in f:
        line=line.rstrip()  # 改行コードの削除
        print(line)

### 読み込み4

s288c_n20.gffを読み込んで出力する．改行コード削除を実行する．``#``で始まる行だけを出力する．

In [None]:
with open(input) as f:
    for line in f:
        line=line.rstrip()
        
        if line.startswith("#"):  # ’#’で始まるかどうか
            print(line)

### 読み込み5

s288c_n20.gffを読み込んで出力する．改行コード削除を実行する．``#``で始まる行以外を出力する．

In [None]:
with open(input) as f:
    for line in f:
        line=line.rstrip()
        
        if line.startswith("#"): # ’#’で始まるかどうか
            continue
        print(line)

### 読み込み6

s288c_n20.gffを読み込んで出力する．改行コード削除を実行する．``#``で始まる行以外を出力する．9列目のデータのみを出力する．

In [None]:
with open(input) as f:
    for line in f:
        line=line.rstrip()

        if line.startswith("#"):
            continue
        s=line.split("\t")  # タブで区切る
        print(s[8])          # 9列目を出力

### 読み込み7

s288c_n20.gffを読み込んで出力する．改行コード削除を実行する．``#``で始まる行以外を出力する．9列目のデータのみを出力する．`;`で区切る．

In [None]:
with open(input) as f:
    for line in f:
        line=line.rstrip()
        if line.startswith("#"):
            continue
        
        s=line.split("\t")
        items=s[8].split(";") # 9列目を”;”で区切る
        for item in items:   # リストを一つずつ
            print(item)          # 出力

### 読み込み8

s288c_n20.gffを読み込んで出力する．改行コード削除を実行する．``#``で始まる行以外を出力する．9列目のデータのみを出力する．`;`で区切る．`product`を抽出する．

In [None]:
with open(input) as f:
    for line in f:
        line=line.rstrip()
 
        if line.startswith("#"):
            continue
        s=line.split("\t")
        items=s[8].split(";")
        for item in items:
            if item.startswith("product="):
                print(item)

## SAM

２列目のFLAG情報は，リードのマッピング状況を知ることができる．
``pysam``には，様々な関数が用意されている．

### SAM1

In [None]:
input="./input/SRR453566.sam.aa"
dict={}
with open(input) as f:
    for line in f:
        line=line.rstrip()
        if line.startswith("@"): # ヘッダー行をスキップ
            continue
        s=line.split("\t")           # タブで区切る
        FLG=s[1]                    # ２列目を格納
        if FLG in dict:             # 辞書に格納
            dict[FLG]+=1
        else :
            dict[FLG]=1

# 出力 flag, 総数
for k, v in dict.items():
    print(k+"\t"+str(v))

### SAM2

特定のFLAGを有するリード情報を抽出する．
マッピングされなかったリードを抽出する．``read unmapped``は，``0x4``，``4``で表現される．

### ビット演算子

| ビット演算子 | 説明 |
|:-----:|:-----:|
|x &#124; y|xとyの論理和&#40;OR&#41;を取る|
|x &amp; y|xとyの論理積&#40;AND&#41;を取る|
|x^y|xとyの排他的論理和&#40;XOR&#41;を取る|

In [None]:
readList=[]
with open(input) as f:
    for line in f:
        line=line.rstrip()
        if line.startswith("@"):
            continue
        s=line.split("\t")
        FLG=int(s[1])
        if FLG & 4:
            readList.append(s[0])

# 出力
for item in readList:
    print(item)