# BLASTを使う & 他者の作成したプログラムを使う

## 1. BLASTを使ってみる

[BLAST](https://blast.ncbi.nlm.nih.gov/Blast.cgi "NCBIのBLAST")...NCBIの提供するBLASTへのリンク

※[NCBI](https://www.ncbi.nlm.nih.gov "NCBI")...分子生物学やバイオインフォマティクスの研究に用いられるデータベースが公開されている

| プログラムの種類 | 質問配列(Query) | 検索対象 |
|:-----------:|:------------:|:------------:|
| blastn | 塩基配列 | 塩基配列 |
| blastp | アミノ酸配列 | アミノ酸配列 |
| blastx | 塩基配列 | アミノ酸配列 |
| tblastn | アミノ酸配列 | 塩基配列 |
| tblastx | 塩基配列(を翻訳する) | 翻訳された塩基配列 |


例：以下の塩基配列をBLASTにかけてみましょう。<br>
塩基配列なので、blastnもしくはblastx,tblastxが利用できます。<br>
(※プログラムによっては少し時間がかかる場合があります。)

GCAGGCTGCTGGGAGGCAGGCAGCGACTTGGGCCTGGGAGGTCGTGGTGGGGCGAGAGCTGGGTCTGGAG
ACACCCCTGGGAGGTAACAGCGGGGCCTACAGACTCTGTTCTCCAGCCGGAGGTGGTACTGTTCAGGTAC
TGGGAGGCGGGATGTGGGTCTGAAGAGCTTGGTTGCAGAAACTTCGGGGTGTACAAACGCAGGCGGGAGC
TGAGCCAAAAAAGCTTGTTTGCTGGGAGGCGGGAGATGCAACCAGGAGAAACAGCTGTGCCTGCAGAGGC
CGCCATGTGGGAGGCGGAGGCCGGGCCTCCTCAAATCGGCCTCTCCAGACCCACTTGCAGCCTCCCGGCG

設定はデフォルトのままで大丈夫です
<img src="pics/blast.png" width=60%>

　一つの配列だけをBLASTにかけるのであれば、試しにやって頂いた様にWebブラウザ上での手作業で済みますが、<br>
配列の数が10種類、100種類...1000種類と増えれば増えるほど手作業で全てBLASTすることは難しくなってきます。

　NCBIではこの様な場合に向け、BLASTやデータベースの検索をプログラムから操作できる方法が提供されています。<br>
[NCBI Developer Resources](https://www.ncbi.nlm.nih.gov/pmc/tools/developers/ "NCBI Developer Resources")

　この様なプログラムを扱うことができれば、大量のデータ分析や検索の自動化が可能になります。<br>
流石に上述したNCBI Developer Resourcesをいきなり理解し、利用するのは難しいと思いますので、<br>
今回は、こちらでBLASTを行うことが出来るプログラムを作成しておいたので、それを利用する形にします。

　実際に皆さんがデータ分析をする際にはBLAST以外にもこちらで作成した分析プログラムやツールを使うことがあるかもしれないので、<br>
他者の作成したプログラムを使う方法を学んでおきます。

## 2. 他者の作成したプログラムを使う


　ILASフォルダの中にsample.pyと言うプログラムが作成されています。<br>
実際に見ると分かりますが、sample.pyの中では、`kansuu_1()`と言う関数と、`kansuu_2()`という関数が定義されています。

このプログラムを別のファイルで使いたい場合、

```python
import sample          # sample.pyのsampleの部分
```
と記し、kansuu_1()を使いたければ以下の様に記述します。
```python
sample.kansuu_1()      # sample.pyのkansuu_1()を取り出す
```

In [None]:
import sample

sample.kansuu_1()
sample.kansuu_2("test")

#### BLASTをpythonから使う
それでは、BLASTをプログラムから利用できる様に、remote_ncbi.pyと言うプログラムをこちらで用意したので、使ってみましょう。
(※)

remote_ncbi.pyには、ncbi_blast(blast, sequence)と言う関数が書かれています。<br>
blastにはプログラムの種類(blastnやblastx等)、sequenceには塩基配列を入れます。<br>
この関数を動かすと、BLAST結果がtxtファイルとして保存されます。

例)
```python
import remote_ncbi

remote_ncbi.ncbi_blast("blastn", "ATGCATCGATCG...")
```

In [None]:
import remote_ncbi as rn    # import remote_ncbi as xxx とすると、以降xxxでremote_ncbiを利用できる

sequence = "GCAGGCTGCTGGGAGGCAGGCAGCGACTTGGGCCTGGGAGGTCGTGGTGGGGCGAGAGCTGGGTCTGGAGACACCCCTGGGAGGTAACAGCGGGGCCTACAGACTCTGTTCTCCAGCCGGAGGTGGTACTGTTCAGGTACTGGGAGGCGGGATGTGGGTCTGAAGAGCTTGGTTGCAGAAACTTCGGGGTGTACAAACGCAGGCGGGAGCTGAGCCAAAAAAGCTTGTTTGCTGGGAGGCGGGAGATGCAACCAGGAGAAACAGCTGTGCCTGCAGAGGCCGCCATGTGGGAGGCGGAGGCCGGGCCTCCTCAAATCGGCCTCTCCAGACCCACTTGCAGCCTCCCGGCG"
rn.ncbi_blast("blastn", sequence)

#### 大量の配列をBLASTにかける場合
　手作業では数日かかる程多くの配列をBLASTにかけるような場合は、プログラムで自動化することは有意義ですが、<br>
少量であればweb上で設定を細かく指定して一つ一つBLASTにかけた方が良いかもしれません。状況に応じてプログラムの利用を検討してみてください。

In [None]:
import remote_ncbi as rn
import pandas as pd

df = pd.read_csv('./data/20_sequences.txt', sep='\t', header=-1, index_col=0, names=['sequence'])
all_sequence = df["sequence"]

for sequence in all_sequence:
    rn.ncbi_blast("blastn", str(sequence))