# Работа с файлами

*Список необходимых файлов*

- `dna.txt`
- `genomic_dna.txt`
- `peptide.fasta`
- `gene.txt` и `plasmid.txt`

Надеюсь, у вас получилось справиться с первыми заданиями успешно и можем продвинуться дальше. \
Первое занятие было про строки, потому что строками можно представлять важные биологические объекты: нуклеиновые кислоты и полипептиды и белки. И хранили мы такие строки в виде переменных:
```
simple_dna = "ACGGGTA"
simple_dna_lower = simple_dna.lower()
ну и так далее...
```

Проблема такого подхода в том, что неудобно (а иногда и просто невозможно) копировать и вставлять каждый раз сиквенсы, чтобы создать переменную. \
Один белок в среднем составлен из 400 аминокислотных остатков (они примерно от 200 до 600 ако). \
Как вы знаете, за кодирование одной аминокислоты отвечает триплет РНК, то есть, для белка среднего размера: 400ако * 3 = 1200рнк. \
И это без учёта сплайсинга и прочего. \
Вот, например, белок: https://www.ncbi.nlm.nih.gov/protein/CAA44493.1?report=fasta \
И его ген: https://www.ncbi.nlm.nih.gov/nuccore/X62625.1?report=fasta \
А если говорить о хромосоме или больших кусках генов, то там вообще огромные сиквенсы.

Что же делать? На помощь нам приходит работа с файлами, и именно этим мы будем сегодня заниматься.

## функция open()

С встроенными функциями мы уже знакомы: `print()`, `type()`, `str()`, `int()`, etc. \
Для того, чтобы открыть файл, мы будем пользоваться функцией `open()`. \
Как мы можем догадаться из названия функции, занимается она тем, что открывает текстовые файлы. Но каким образом мы укажем, какой именно файл нам нужен? \
Чтобы указать на какой-то файл, нужно передать функции `open` *путь* к файлу в виде *строки*. Путь бывает абсолютный и относительный. \
Абосолютный путь нужно описать от самого верхнего уровня организации файловой системы компьютера. Для компьютеров с Windows самым верхним уровнем организации будет диск C. Вот примеры абсолютных путей на винде:
```
C:\Programm files\Games\my_favorite_game.exe
D:\Для учёбы\Аниме\
C:\Пользователи\shcec\домашки\abcd.ipynb
```
На unix системах это будет выглдяет как-то так:
```
/Users/shcec/my_data/hello.py
/Users/shcec/Application/word.txt
```


Однако, зачастую гораздо удобнее оказывается пользоваться *относительным* путём. В данном случае мы указываем путь до нужного файла или папки *относительно* того места, где мы сейчас находимся. Как вы помните, на винде джупитер ноутбук стандартно открывается в папке: `C:\Пользователи\your_user_name\`. И если в этой папке, рядом как раз с вашим джупитер ноутбуком лежит нужный вам файл, оказывается, что относительный путь до него - это просто имя этого файла. \
То есть, если файл лежит рядом с ноутбуком, в котором вы пишите код, на вход функции `open` вам нужно дать питоновскую строку, которая содержит относительный путь, который в данном случае - это просто имя файла.

In [None]:
my_file = open("dna.txt")
file_content = my_file.read()
print(file_contents)

Обратите внимание, что результат выполнения функции `open()` 

In [None]:
print(my_file)

Мы видим нечто странное: `<_io.TextIOWrapper name='dna.txt' mode='r' encoding='UTF-8'>`.

Дело в том, что python "открывает" файл (который хранится на компьютере) в виде специального типа `TextIOWrapper`, который вы можете использовать для того, чтобы "извлечь" содержимое. Например, получить строку, в которой будет содержимое файла (если файл текстовый).

In [None]:
# посмотрим на тип файла
type(my_file)

Другая переменная, которая создана в первой ячейке с кодом: `file_content`. В ней содержится значение, которое возвращается методом `.read()`.

То есть функция `open()` возвращает нам некий объект, который представляет открытый файл (объект типа `TextIOWrapper`). Но чтобы получить содержимое текстового файла в виде строки, мы используем метод (который есть у `TextIOWrapper`) `.read()`:
```
my_file = open("dna.txt")  # open возвращает "файловый" объект
file_content = my_file.read()  # my_file является "файловым" объектом
print(type(file_content))  # а вот file_content уже является строкой
```

In [None]:
type(file_content)

In [None]:
len(file_content)

Не запутайтесь.

У нас есть строка с именем файла (или относительным путём, если мы открываем файл, который не лежит в той же папке, в которой мы запустили интерпретатор питона).

После того, как строку с именем файла мы передаём в качестве аргумента функции `open()` мы получаем объект `TextIOWrapper`.

И если от этого объекта мы вызовем метод `.read()`, мы получим строку, в которой будет текстовое содержимое файла.

То же самое действие, только чуть иначе записанное (имя файла в виде переменной):

In [None]:
my_file_name = 'dna.txt'
my_file = open(my_file_name)
my_file_content = my_file.read()


my_file_content = open('dna.txt').read()

In [None]:
print(my_file_content)

In [None]:
print(len(my_file_content))

Обратите внимание, файл обычно состоит из нескольких строчек. Когда мы считываем его в одну строку, мы получаем символы переноса на новую строку там, где был конец строчки в файле.

Если мы передадим такую строку в функцию `print()`, в стандартном потоке вывода мы просто увидим перенос на новую строку.

Чтобы увидеть, где в вашей строке содержатся символы переноса на новую строку, можно воспользоваться методом `str.__repr__()`.

In [None]:
print(my_file_content.__repr__())

Имейте в виду, что хоть мы и не "видим" явно этот символ при исползовании функции `print()`, он всё ещё является элементом строки, а значит в том числе и влияет на результат функции `len()`:

In [None]:
file_cont_len = len(my_file_content)
print(file_cont_len)

И конечно, мы лекго можем избавиться от них при помощи метода `.replace()`. Но имейте в виду, чтобы строчки файла в таком случае "склеятся" в одну, а иногда это не очень хороший результат, если на разных строчках разные по сути элементы.

In [None]:
dna = file_content.replace('\n', '')
print(dna)
print(dna.__repr__())
print(len(dna))

###  Несуществующие файлы

Давайте посмотрим, в какой папке на нашем компьютере запущен интерпретатор питона:

In [None]:
import os


os.system("pwd")

Мы можем просто открыть программу для работы с файловой системой (Проводник, Finder, etc.)

Как вы думаете, что случится, если мы попытаемся передать функции `open` несуществующий путь?

In [None]:
open('some_file.txt').read()

### Запись в файл

Кроме чтения файлов, мы можем и пытаться что-то в файлы добавить.

Схема будет похожей на ту, что мы использовали для "чтения" содержимого файла.


Но на этот раз, нам понадобится второй аргумент для функции `open()`. Этот аргумент указывает, в каком **режиме** нужно открыть файл (получить объект `TextIOWrapper`).

Если вообще не указывать второй аргумент, функция будет вести себя "по умолчанию" (default), будет открывать файл в **режиме** чтения. Это означает, что содержимое файла нельзя изменить.

Но если мы укажем вторым аргументом `"w"` (строку из одного символа – `w`), файл будет открыт для записи.

In [None]:
file = open("RNA_text.txt", 'w')
file.close()

После того, как был запущен код выше, у вас появился новый файл – `RNA_text.txt`. Файл пустой, потому что мы только открыли его на запись, но ничего туда не "записали".

И как в случае записи, мы использовали метод `.read()`, чтобы из файлового объекта получить строку, так для записи мы будем использовать метод `.write()`. Но помните, что файл должен быть открыт в режиме для записи (`open(file_name, "w")`)

In [None]:
my_newfile = open('out.txt', 'w')
my_newfile.write('Hello, world')
my_newfile.write("and one more, hello world")
my_newfile.close()

Теперь нам ещё важно после работы с файлом "закрыть" его, чтобы изменения в файлы были доступны в операционной системе. Для этого используем метод `.close()`, применённый к объекту `TextIOWrapper`.

Допустим, в нашем файле нас всё устраивает.

А давайте добавим ещё одну строчку:

In [None]:
file = open("out.txt", "w")
file.write("Третья строчка в нашем файле!")
file.close()

Давайте теперь посмотрим на содержимое нашего файла...

А дело всё в том, что когда мы открываем файл в режиме записи (`"w"`), содержмое файла удаляется. То есть этот режим подходит для тех случаев, когда мы хотим полностью переписать содержимое файла.

Что же делать, если мы хотим "дописать" новые строчки к уже имеющимся?

На самом деле, режимы открытия файла [не исчерпываются](https://stackoverflow.com/questions/1466000/difference-between-modes-a-a-w-w-and-r-in-built-in-open-function) только `r` и `w`.

Для того, чтобы добавить новые строчки, мы можем использовать режим `"a"` (от английского *append*).

In [None]:
my_newfile = open('out.txt', 'a')
my_newfile.write('One more "hello, world!"')
my_newfile.close()

Ну и наконец, в python есть "контекстные менеджеры", специальная контрукция, которая позволит вам не думать о том, закрыли ли вы файл после того, как проделали какие-либо операции:

In [None]:
with open("some_file.txt", "w") as file:
    # do something with file
    file.write("hello, ")
    file.write()
    
# continue code
print(file)

## Упражнения

### 1. Обработка ДНК

Используем файл `genomic_dna.txt`, там на самом деле та же самая ДНК, которая была в предыдущем занятии со строками. Напишите программу, которая будет разделять кодирующую и некодирующую части, запишите их в разные файлы (в один файл две строчки с кодирующими участками, в другой – интрон).

In [6]:
with open('AE3_genomic_dna.txt') as source_file:
    gen_dna = source_file.read()
exon1 = gen_dna[:63]
exon2 = gen_dna[90:]
intron = gen_dna[63:90]
with open('AE3_coding_part', 'w') as exon_file:
    exon_file.write(exon1 + '\n' + exon2)

with open('AE3_intron', 'w') as intron_file:  #А как переименовать переменную во всём коде?
    intron_file.write(intron)


### 2. Запись в FASTA формате
FASTA - популярный формат хранения сиквенсов. Довольно простой формат:
```
>sequnce_name
ACCTGTTCAG...CGT
```

*На первой строчке специальный знак `>`, после которого идём имя последовательности* \
*На второй – сама последовательность*

**Задача 1** записать следующие последовательности в файлы в FASTA формате:


|*Sequence header*|	*DNA sequence*|
|---|---|
|ABC123	      |      ATCGTACGATCGATCGATCGCTAGACGTATCG|
|DEF456	       |     actgatcgacgatcgatcgatcacgact|
|HIJ789	       |     ACTGAC-ACTGT--ACTGTA----CATGTG|


В левом столбце - имена последовательностей, в правом – сами последовательности.

In [12]:
with open('AE3_pasta_carbonara.fasta', 'w') as file:
    file.write('>ABC123\nATCGTACGATCGATCGATCGCTAGACGTATCG\n')
with open('AE3_pasta_bolongese.fasta', 'w') as file:
    file.write('>DEF456\nactgatcgacgatcgatcgatcacgact\n')
with open('AE3_pasta_pesto.fasta', 'w') as file:
    file.write('>HIJ789\nACTGAC-ACTGT--ACTGTA----CATGTG\n')


**Задача 2** записать это всё в один файл, формат такой:\
\>sequence_name1 (ABC123, например)\
ACCATGTCa\
\>sequence_name2 \
CCGTAACGT

In [None]:
file = open('pasta.fasta', 'w')
file.write('>ABC123\nATCGTACGATCGATCGATCGCTAGACGTATCG\n')
file.write('>DEF456\nactgatcgacgatcgatcgatcacgact\n')
file.write('>HIJ789\nACTGAC-ACTGT--ACTGTA----CATGTG\n')
file.close()


### 3. Переформатирование фаста-файла для пептида

Откройте файл `peptide.fasta`, получите сиквенс (последовательность) аминокислотных остатков.

Откройте аннотацию для этого пепитда в формате [genbank](https://www.ncbi.nlm.nih.gov/protein/NP_571131.1?report=genpept). В полях `FEATURES.mat_peptide` найдите индексы (с какого числа индексация начинается в этом источнике?), которые соответсвуют цепи А и цепи B (chain A, chain B).

Достаньте из исходной строки подстроки, которые соответсвуют цепи А и цепи B. Запишите их в фаста-формате, подписанными отдельно:
```
>peptide chain A
XXXXXXXXX # тут полученная подстрока
>peptide chain B
YYYYYYYY
```

In [28]:
def write_seq(file, name, sequence):
    file.write('>' + name + '\n' + sequence + '\n')


with open('AE3_peptide.fasta') as file:
    seq = file.read()
seq = seq[seq.find('\n'):]
chain_A = seq[87:108]
chain_B = seq[21:51]

with open('AE3_Task3.fasta', 'w') as file:
    write_seq(file, 'peptide chain A', chain_A)
    # file.write('>peptide chain B\n' + chain_B)
    write_seq(file, 'peptide chain B', chain_B)


### 4. Подготовка биоинженерной плазмиды

Для наработки экспериментального белка при помощи бактерий в генной инженерии используются кольцевые ДНК – [плазмиды](https://ru.wikipedia.org/wiki/%D0%9F%D0%BB%D0%B0%D0%B7%D0%BC%D0%B8%D0%B4%D1%8B#%D0%9F%D1%80%D0%B8%D0%BC%D0%B5%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5).

В специально заготовленные для генной инженерии плазмиды (которые содержат необходимые компоненты) можно "вставить" интересующий ген, который будет транскрибироваться в бактерии.

В упражнении мы будем использовать короткие последовательности, которые, конечно, не могут быть использованы в реальной задаче, делаем это для простоты и отработки.

1.  Напишите код, который вставляет ген из файла `gene.txt`  в  последовательносить плазмиды (из файла `plasmid.txt`)  после сайта  `CTAGAGGATCCCCCGGG`. 
2.  Сохраните получившуюся последовательность в новый файл в формате fasta.

In [20]:
with open('AE3_gene.txt') as gene_file:
    gene = gene_file.read()
with open('AE3_plasmid.txt') as plasmid_file:
    plasmid = plasmid_file.read()

kernel = plasmid.replace('CTAGAGGATCCCCCGGG', 'CTAGAGGATCCCCCGGG' + gene, 1)  #это я услышал
with open('AE3_bioingeneric_plasmid.fasta', 'w') as file:
    file.write(kernel)
