Biopython предоставляет модуль Bio.SeqIO для чтения и записи последовательностей из и в файл (любой поток) соответственно. Он поддерживает практически все форматы файлов, доступные в биоинформатике. Большая часть программного обеспечения обеспечивает разный подход для разных форматов файлов. Но Biopython сознательно следует единому подходу, чтобы представить данные проанализированной последовательности пользователю через его объект SeqRecord. 

# SeqRecord

Модуль Bio.SeqRecord предоставляет SeqRecord для хранения мета-информации о последовательности, а также о самих данных последовательности, как показано ниже:
 * seq – это фактическая последовательность
 * id – это первичный идентификатор данной последовательности. Тип по умолчанию – строка
 * name – это имя последовательности. Тип по умолчанию – строка
 * description – отображает удобочитаемую информацию о последовательности
 * аннотации – это словарь дополнительной информации о последовательности
 * seq – это фактическая последовательность

SeqRecord может быть импортирован как указано ниже:

In [None]:
from Bio.SeqRecord import SegRecord

__FASTA__ – это самый основной формат файла для хранения данных последовательности. Изначально FASTA – это программный пакет для выравнивания последовательностей ДНК и белка, разработанный в начале ранней эволюции биоинформатики и использовавшийся в основном для поиска сходства последовательностей. 
# ШАГ 1
Biopython предоставляет пример файла FASTA, доступ к которому можно получить по адресу https://github.com/biopython/biopython/blob/master/Doc/examples/ls_orchid.fasta .
Загрузите и сохраните этот файл в каталоге образцов Biopython под именем __‘orchid.fasta’__.

Модуль Bio.SeqIO предоставляет метод parse() для обработки файлов последовательности и может быть импортирован следующим образом:

In [None]:
from Bio.SeqIO import parse

Метод parse() содержит два аргумента, первый – дескриптор файла, а второй – формат файла.

```
>>> file = open ('path/to/biopython/sample/orchid.fasta')
>>> for record in parse(file,
"fasta"):
print (record.id)
gi|2765658 emb Z78533.1|CIZ78533
gi|2765657|emb|Z78532.1|CCZ78532
gi 2765565 emb|Z78440.1 | PPZ78440
gi |2765564 emb|Z78439.1|PBZ78439
>>>
```

Здесь метод parse() возвращает итеративный объект, который возвращает SeqRecord на каждой итерации. Будучи повторяемым, он предоставляет множество сложных и простых методов и позволяет нам увидеть некоторые из особенностей. 

# ШАГ 2. СЛЕДУЮЩИЙ()
Метод next() возвращает следующий элемент, доступный в итерируемом объекте, который мы можем использовать для получения первой последовательности, как показано ниже:  
```
>>>first_seq_record = next(SeqIO.parse(open('path/to/biopython/sample/orchid.fasta'),'fasta')) 
>>> first_seq_record.id 'gi|2765658|emb|Z78533.1|CIZ78533' 
>>> first_seq_record.name 'gi|2765658|emb|Z78533.1|CIZ78533' 
>>> first_seq_record.seq Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGG...CGC', SingleLetterAlphabet()) 
>>> first_seq_record.description 'gi|2765658|emb|Z78533.1|CIZ78533 C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA' 
>>> first_seq_record.annotations 
{} >>>
```

# ШАГ 2. ПОНИМАНИЕ СПИСКА
__Преобразовать итерируемый объект в список__, используя list comprehension, как указано ниже:  
```
>>> seq_iter = SeqIO.parse (open ('path/to/biopython/sample/orchid.fasta'), 'fasta')
›>> all_seq = [seq_record for seq_record in seq_iter] ››> len(all_seq)
94
>>>
```

Получить длину самой длинной последовательности следующим образом:  
```
>>> seq_iter = SeqIO.parse (open ('path/to/biopython/sample/orchid.fasta'), 'fasta')
>>> max_seq = max (len (seq_record.seq) for seq_record in seq_iter)
›>> max seq
789
>>>
```

Отфильтровать последовательности по длине, используя приведенный ниже код.  
Прим. Не нужно делать print. Просто выведите на экран 5 первых элементов списка, если они есть.  
```
›>> seg iter = SeqIO.parse (open ('path/to/biopython/sample/orchid.fasta'), 'fasta')
››> seq_under_600 = [seq_record for seq_record in seq_iter if len (seq_record. seq) < 600]
››> for seq in seq_under_600:
print(seq.id)
gi|2765606 emb Z78481.1 PIZ78481 gi|2765605emb|Z78480.1|PGZ78480
gi|2765601|emb|Z78476.1|PGZ78476 gi|2765595 |emb|Z78470.1|PPZ78470
gi|2765594|emb|Z78469.1|PHZ78469
gi|2765564|emb|Z78439.1|PBZ78439
›>>
```

Записать коллекцию объектов SqlRecord(проанализированные данные) в файл как показано ниже:  
```
file = open ("converted. fasta", "w)
SeqIO.write(seq_record, file,
"fasta")
```

Весь код:

In [28]:
from Bio.SeqRecord import SeqRecord
from Bio.SeqIO import parse
from Bio.SeqIO import write

file = open('./data/orchid.fasta')
for record in parse(file, "fasta"):
    print(record.id)

first_seq_record = next(parse(open("orchid.fasta"), 'fasta'))

first_seq_record.id
first_seq_record.name
first_seq_record.seq
first_seq_record.description
first_seq_record.annotations

seq_iter = parse(open('orchid.fasta'), 'fasta')
all_seq = [s for s in seq_iter]
len(all_seq)

seq_iter = parse(open('orchid.fasta'), 'fasta')
max_seq = max(len(s) for s in seq_iter)
max_seq

seq_iter = parse(open('orchid.fasta'), 'fasta')
seq_under_600 = [s for s in seq_iter if len(s.seq) < 600]
for s in seq_under_600:
    print(s.id)

file = open("data/converted.fasta", 'w')
write(seq_under_600, file, 'fasta')
file.close()

gi|2765658|emb|Z78533.1|CIZ78533
gi|2765657|emb|Z78532.1|CCZ78532
gi|2765656|emb|Z78531.1|CFZ78531
gi|2765655|emb|Z78530.1|CMZ78530
gi|2765654|emb|Z78529.1|CLZ78529
gi|2765652|emb|Z78527.1|CYZ78527
gi|2765651|emb|Z78526.1|CGZ78526
gi|2765650|emb|Z78525.1|CAZ78525
gi|2765649|emb|Z78524.1|CFZ78524
gi|2765648|emb|Z78523.1|CHZ78523
gi|2765647|emb|Z78522.1|CMZ78522
gi|2765646|emb|Z78521.1|CCZ78521
gi|2765645|emb|Z78520.1|CSZ78520
gi|2765644|emb|Z78519.1|CPZ78519
gi|2765643|emb|Z78518.1|CRZ78518
gi|2765642|emb|Z78517.1|CFZ78517
gi|2765641|emb|Z78516.1|CPZ78516
gi|2765640|emb|Z78515.1|MXZ78515
gi|2765639|emb|Z78514.1|PSZ78514
gi|2765638|emb|Z78513.1|PBZ78513
gi|2765637|emb|Z78512.1|PWZ78512
gi|2765636|emb|Z78511.1|PEZ78511
gi|2765635|emb|Z78510.1|PCZ78510
gi|2765634|emb|Z78509.1|PPZ78509
gi|2765633|emb|Z78508.1|PLZ78508
gi|2765632|emb|Z78507.1|PLZ78507
gi|2765631|emb|Z78506.1|PLZ78506
gi|2765630|emb|Z78505.1|PSZ78505
gi|2765629|emb|Z78504.1|PKZ78504
gi|2765628|emb|Z78503.1|PCZ78503
gi|2765627

Для сдачи работы:
 * Загрузите работу в уже созданную Вами папку: https://drive.google.com/drive/folders/1t_zC0xQJrjh0AzBL3XpyQWDkA0mb8vS5?usp=sharing
 * Покажите и проккоментируйте полученные результаты