# 使用指南——序列整理与查找

`aptamerutils`提供了一些简易的序列查找方案，可以从原始的`.fastq`测序文件中快速进行序列的计数、整理，以及对含有感兴趣的核酸片段的链进行快速查找匹配。

## 测序序列的整理

导入需要的模块，并从`.fastq`文件中读取数据。

In [3]:
from aptamerutils import SeqList

seq = SeqList().fromfastqFolder("../example")

进行序列的trimming，挑选出有效序列。

In [4]:
seq = seq.trimTwoEndsWithLength("GACGAC", 30)

可以将导入的数据按照reads数排序后，写入json文件（方便查看的话，txt也可以），得到序列的去重与计数结果。

In [5]:
seq = seq.sortbyCount()
seq.saveJson("../example/results/save.json")

## 目标序列的查找与计数

`aptamerutils`不仅可以简单匹配含有某个特定片段的核酸序列，也支持借助`Find`模块，对目标序列所含的核酸片段特征进行逻辑运算，匹配较为复杂的要求。如下面是对含有片段`CTGTACC`的核酸序列的查找，查找结果储存于txt文件。

In [6]:
from aptamerutils import Find

matchseq = seq.findCustomSeqCombination(Find("CTGTACC"))
matchseq.saveLines("../example/results/find_single.txt")

`Find`对象支持Python的原生逻辑运算符&（且），|（或），~（非）。通过对象之间的逻辑运算，实现更灵活的序列匹配。如`Find("ATCCG") & Find("GCGAC")`可以匹配出同时含有`ATCCG`和`GCGAC`的序列；`Find("ATCCG") | Find("GCGAC")`可以匹配出含有`ATCCG`或`GCGAC`的序列；`Find("ATCCG") & ~Find("GCGAC")`可以匹配出含`ATCCG`但不含`GCGAC`的序列。

In [7]:
seq.findCustomSeqCombination(Find("GAAGG") & Find("TTAGGAG"))

{Sequence("TGGAAGGTTCCTGCTGGTTAGGAGGGTTTA"): {'Count': 152, 'label': 'example.fastq'}, Sequence("TAGAAGGTTCATAGTTTTTAGGAGTGTCTG"): {'Count': 44, 'label': 'example.fastq'}, Sequence("GGTGAGTGTCTGGTTTAGGAGAAGGGTCCT"): {'Count': 25, 'label': 'example.fastq'}, Sequence("TGGAAGGTTCCTGCTGGTTAGGAGGGTTTG"): {'Count': 9, 'label': 'example.fastq'}, Sequence("TGGAAGGTTCCTGCTGGTTAGGAGGGTGTA"): {'Count': 5, 'label': 'example.fastq'}, Sequence("TGGAAGGTTCCTGCCGGTTAGGAGGGTGTA"): {'Count': 4, 'label': 'example.fastq'}, Sequence("TGGAAGGTTCCTGCCGGTTAGGAGGGTTTA"): {'Count': 3, 'label': 'example.fastq'}, Sequence("TAGAAGGTTCATAGTTTTAGGAGTGTCTGG"): {'Count': 2, 'label': 'example.fastq'}, Sequence("TAGAAGGTTCATAGGGTTTAGGAGGGTCTG"): {'Count': 2, 'label': 'example.fastq'}, Sequence("TAGAAGGTTCATAGGGTTTAGGAGTGTCTG"): {'Count': 2, 'label': 'example.fastq'}, Sequence("GGTGAGTGTCTGGCTTAGGAGAAGGGTCCT"): {'Count': 2, 'label': 'example.fastq'}, Sequence("TGGAAGGTTCCTGCTGGTTAGGAGGGGTTA"): {'Count': 2, 'label': 'exam

In [8]:
seq.findCustomSeqCombination(Find("GAAGGTT") | Find("TTAGGAG"))

{Sequence("GGAAGGTTCCTGTTTAAACAGTGAGGGTCT"): {'Count': 187, 'label': 'example.fastq'}, Sequence("TGGAAGGTTCCTGCTGGTTAGGAGGGTTTA"): {'Count': 152, 'label': 'example.fastq'}, Sequence("TAGAAGGTTCATAGTTTTTAGGAGTGTCTG"): {'Count': 44, 'label': 'example.fastq'}, Sequence("GGTGAGTGTCTGGTTTAGGAGAAGGGTCCT"): {'Count': 25, 'label': 'example.fastq'}, Sequence("TGGAAGGTTCCTGCTGGTTAGGAGGGTTTG"): {'Count': 9, 'label': 'example.fastq'}, Sequence("GGAAGGTTCCTGTGGAAACAGTGAGGGTCT"): {'Count': 8, 'label': 'example.fastq'}, Sequence("GAAAGGGTCCTATTGATTTTGGGAAGGTTT"): {'Count': 6, 'label': 'example.fastq'}, Sequence("CACAGCAAGATCGTACGGAGAAGGTTGTGG"): {'Count': 6, 'label': 'example.fastq'}, Sequence("GGAAGGTTCCTGTCTAAACAGTGAGGGTCT"): {'Count': 6, 'label': 'example.fastq'}, Sequence("GGAAGGTTCCTGTGTAAACAGTGAGGGTCT"): {'Count': 5, 'label': 'example.fastq'}, Sequence("TGGAAGGTTCCTGCTGGTTAGGAGGGTGTA"): {'Count': 5, 'label': 'example.fastq'}, Sequence("GGAAGGTTCCTGTTTAAATAGTGAGGGTCT"): {'Count': 5, 'label': 'ex

In [9]:
seq.findCustomSeqCombination(Find("TTAGGAG") & ~Find("GAAGG"))

{Sequence("TAGAAAGTTCATAGTATTTAGGAGTGTCTG"): {'Count': 1, 'label': 'example.fastq'}, Sequence("GGTAGGTTCCTGCTGGTTAGGAGGGTTTAG"): {'Count': 1, 'label': 'example.fastq'}}