## Базовые операции с файлами

Работа с файлами -- неотделимая часть жизни биоинформатика. Согласно кулуарным байкам, до 90% работы среднестатистического биоинформатика уходит на  парсинг файлов и их конвертацию между форматами. 

Файл -- это данные, которые хранятся на некотором носителе, например, на жестком диске. 

В Питоне для работы с файлами предусмотрены стандартные команды и объекты:

In [1]:
f = open('dummy_text.txt')

In [2]:
type(f)

_io.TextIOWrapper

In [3]:
f.readline()

'This morning, shortly after 11:00, comedy struck this little house on Dibley Road. Sudden, violent comedy.\n'

In [4]:
tmp_line = f.readline()

In [5]:
f.read(40)

'Nobody expects the Spanish Inquisition! '

In [6]:
print(f.closed)

False


In [7]:
f.close()
print(f.closed)

True


In [8]:
f = open('dummy_text.txt')
file_content = f.readlines()
f.close()

In [9]:
for i in file_content:
    print(i.strip().split())

['This', 'morning,', 'shortly', 'after', '11:00,', 'comedy', 'struck', 'this', 'little', 'house', 'on', 'Dibley', 'Road.', 'Sudden,', 'violent', 'comedy.']
["I'm", 'afraid', 'I', 'have', 'no', 'choice', 'but', 'to', 'sell', 'you', 'all', 'for', 'scientific', 'experiments.', 'Hegel', 'is', 'arguing', 'that', 'the', 'reality', 'is', 'merely', 'an', 'a', 'priori', 'adjunct', 'of', 'non-naturalistic', 'ethics,', 'Kant', 'via', 'the', 'categorical', 'imperative', 'is', 'holding', 'that', 'ontologically', 'it', 'exists', 'only', 'in', 'the', 'imagination,', 'and', 'Marx', 'claims', 'it', 'was', 'offside.']
['Nobody', 'expects', 'the', 'Spanish', 'Inquisition!', 'Oh,', 'waiter!', 'This', 'conversation', "isn't", 'very', 'good.', 'Why', 'is', 'it', 'the', 'world', 'never', 'remembered', 'the', 'name', 'of', 'Johann', 'Gambolputty', 'de', 'von', 'Ausfern-schplenden-schlitter-crasscrenbon-fried-digger-dangle-dongle-dungle-burstein-Von-knacker-thrasher-apple-banger-horowitz-ticolensic-grander-kno

In [10]:
with open('dummy_text.txt') as f:
    filen_content = f.readlines()
    print(f.mode)
    
print(f.closed)

r
True


### Запись файлов

In [12]:
open?

In [13]:
with open('new_file.txt', 'w') as f:
    print(f.mode)
    f.write('Some phrase\n')

w


In [14]:
with open('new_file.txt', 'a') as f:
    f.write('Added phrase\n')

In [15]:
%%bash
# This magic phrase might not work on your computer
less new_file.txt

Some phrase
Added phrase


### Простой код для чтения и записи fasta-файлов в новом формате

In [16]:
def read_fasta(filename):
    with open(filename) as f:
        entries = f.read().split('>')[1:]
        fasta_list = []
        for i in entries:
            name = i.split('\n')[0]
            sequence = "".join(i.split('\n')[1:])
            line = "{} {}".format( name, sequence )
            fasta_list.append( line )
    return fasta_list

In [17]:
seq_info = read_fasta('example.fasta')
seq_info

['HSBGPG Human gene for bone gla protein (BGP) GGCAGATTCCCCCTAGACCCGCCCGCACCATGGTCAGGCATGCCCCTCCTCATCGCTGGGCACAGCCCAGAGGGTATAAACAGTGCTGGAGGCTGGCGGGGCAGGCCAGCTGAGTCCTGAGCAGCAGCCCAGCGCAGCCACCGAGACACCATGAGAGCCCTCACACTCCTCGCCCTATTGGCCCTGGCCGCACTTTGCATCGCTGGCCAGGCAGGTGAGTGCCCCCACCTCCCCTCAGGCCGCATTGCAGTGGGGGCTGAGAGGAGGAAGCACCATGGCCCACCTCTTCTCACCCCTTTGGCTGGCAGTCCCTTTGCAGTCTAACCACCTTGTTGCAGGCTCAATCCATTTGCCCCAGCTCTGCCCTTGCAGAGGGAGAGGAGGGAAGAGCAAGCTGCCCGAGACGCAGGGGAAGGAGGATGAGGGCCCTGGGGATGAGCTGGGGTGAACCAGGCTCCCTTTCCTTTGCAGGTGCGAAGCCCAGCGGTGCAGAGTCCAGCAAAGGTGCAGGTATGAGGATGGACCTGATGGGTTCCTGGACCCTCCCCTCTCACCCTGGTCCCTCAGTCTCATTCCCCCACTCCTGCCACCTCCTGTCTGGCCATCAGGAAGGCCAGCCTGCTCCCCACCTGATCCTCCCAAACCCAGAGCCACCTGATGCCTGCCCCTCTGCTCCACAGCCTTTGTGTCCAAGCAGGAGGGCAGCGAGGTAGTGAAGAGACCCAGGCGCTACCTGTATCAATGGCTGGGGTGAGAGAAAAGGCAGAGCTGGGCCAAGGCCCTGCCTCTCCGGGATGGTCTGTGGGGGAGCTGCAGCAGGGAGTGGCCTCTCTGGGTTGTGGTGGGGGTACAGGCAGCCTGCCCTGGTGGGCACCCTGGAGCCCCATGTGTAGGGAGAGGAGGGATGGGCATTTTGCACGGGGGCTGATGCCACCACGTCGGGTGTCTCAGAG

In [18]:
with open('example_seqs.txt', 'w') as f:
    f.writelines(seq_info)

In [19]:
%%bash
less example_seqs.txt

HSBGPG Human gene for bone gla protein (BGP) GGCAGATTCCCCCTAGACCCGCCCGCACCATGGTCAGGCATGCCCCTCCTCATCGCTGGGCACAGCCCAGAGGGTATAAACAGTGCTGGAGGCTGGCGGGGCAGGCCAGCTGAGTCCTGAGCAGCAGCCCAGCGCAGCCACCGAGACACCATGAGAGCCCTCACACTCCTCGCCCTATTGGCCCTGGCCGCACTTTGCATCGCTGGCCAGGCAGGTGAGTGCCCCCACCTCCCCTCAGGCCGCATTGCAGTGGGGGCTGAGAGGAGGAAGCACCATGGCCCACCTCTTCTCACCCCTTTGGCTGGCAGTCCCTTTGCAGTCTAACCACCTTGTTGCAGGCTCAATCCATTTGCCCCAGCTCTGCCCTTGCAGAGGGAGAGGAGGGAAGAGCAAGCTGCCCGAGACGCAGGGGAAGGAGGATGAGGGCCCTGGGGATGAGCTGGGGTGAACCAGGCTCCCTTTCCTTTGCAGGTGCGAAGCCCAGCGGTGCAGAGTCCAGCAAAGGTGCAGGTATGAGGATGGACCTGATGGGTTCCTGGACCCTCCCCTCTCACCCTGGTCCCTCAGTCTCATTCCCCCACTCCTGCCACCTCCTGTCTGGCCATCAGGAAGGCCAGCCTGCTCCCCACCTGATCCTCCCAAACCCAGAGCCACCTGATGCCTGCCCCTCTGCTCCACAGCCTTTGTGTCCAAGCAGGAGGGCAGCGAGGTAGTGAAGAGACCCAGGCGCTACCTGTATCAATGGCTGGGGTGAGAGAAAAGGCAGAGCTGGGCCAAGGCCCTGCCTCTCCGGGATGGTCTGTGGGGGAGCTGCAGCAGGGAGTGGCCTCTCTGGGTTGTGGTGGGGGTACAGGCAGCCTGCCCTGGTGGGCACCCTGGAGCCCCATGTGTAGGGAGAGGAGGGATGGGCATTTTGCACGGGGGCTGATGCCACCACGTCGGGTGTCTCAGAGCC

Если файл действительно большой, следует использовать ленивый подход -- чтение по блокам:

```python
with open('really_big_file.dat') as f:
    while True:
        data = f.read(chunk_size)
        if not data:
            break
        process_data(data)
```

## Бинарные файлы

Файлы могут быть бинарными или текстовыми.

In [22]:
with open('example_csv.png', 'rb') as f:
    data = f.read()
    
data[0:10]

b'\x89PNG\r\n\x1a\n\x00\x00'

### Некоторые часто используемые файловые форматы

В работе с данными удобно использовать информацию, записанную в таблицы. Чаще всего используется CSV -- Comma-Separated Values и TSV -- Tab Separated Values форматы.

https://docs.python.org/3.4/library/csv.html

<img src="example_csv.png" width=400>

In [23]:
import csv

In [24]:
petal_widths = []
with open('example.csv') as csvfile:
    iris_dataset = csv.reader(csvfile)
    header = next(iris_dataset)
    for row in iris_dataset:
        petal_widths.append( float(row[2]) ) 
        
print(sum(petal_widths)/len(petal_widths))

3.7586666666666693


### JSON
(JavaScript Object Notation, see https://www.json.org/ ) 

In [25]:
d = { "name":"John", "age":20, "os":"linux" }

In [26]:
import json
with open('example.json', 'w') as f:
    json.dump(d, f)

In [27]:
%%bash
less example.json

{"name": "John", "age": 20, "os": "linux"}

In [28]:
with open('complex.json', 'r') as f:
    d = json.load(f)

In [29]:
# one-liner
d = json.load(open('complex.json', 'r'))

In [30]:
json.loads(open('example.json').read())

{'age': 20, 'name': 'John', 'os': 'linux'}

In [31]:
json.loads(open('example.json').read()+']')

JSONDecodeError: Extra data: line 1 column 43 (char 42)

### PICKLE
Бинарные файлы меньше текстовых, их быстрее считывать и проще хранить. 

In [32]:
import pickle

In [33]:
d = { "name":"John", "age":20, "os":"linux" }
pickle.dump( d , open( "example.pickle", "wb" ) )

In [34]:
d = pickle.load(open( "example.pickle", "rb" ))

In [35]:
d

{'age': 20, 'name': 'John', 'os': 'linux'}

### Исключения

In [36]:
10/0

ZeroDivisionError: division by zero

<img src="exception_hierarchy.png" width=600>

### Некоторые полезные конструкции, связанные с вызовом ошибок: 
**assert** позволяет проверить условие и вызвать ошибку, если условие не выполняется:

In [37]:
assert 10==10

In [38]:
assert 10==2

AssertionError: 

In [None]:
v1 = 10
v2 = 0
assert v2!=0, 'You passed wrong denominator'

**try .. except .. finally** позволяет "отловить" ошибку: 
```python
try:
    try_statements
except ErrorClass:
    except_statements
finally:
    executed_anyway
 ```

In [None]:
v1 = 10
def calc(v1, v2):
    return v1/(v2-5)
try:
    for v2 in range(0,11):
        print(calc(v1, v2))
except ZeroDivisionError as e:
    print('Wrong parameters for calculation: ', v1, v2, e)

In [None]:
try:
    csvfile = open('example.csv')
    iris_dataset = csv.reader(csvfile)
    header = next(iris_dataset)
    for row in iris_dataset:
        print(float(row[0])/(float(row[1])-10*float(row[3])))
except Exception as e:
    print(e)
finally:
    csvfile.close()

### Чтение из url

Больше информации: https://docs.python.org/3/howto/urllib2.html

In [None]:
import urllib.request

In [None]:
with urllib.request.urlopen('http://python.org/') as response:
    html = response.read()

In [None]:
with urllib.request.urlopen('http://makarich.fbb.msu.ru/agalicina/example.txt') as response:
    txt = response.readlines()
txt

### Что делать при работе с неизвестным типом файла? 

1. Есть расширение? Да (.bed, .fa, .pdb) -> Google: bed/fa/pdb/... format specification

2. Расширения нет. Читается ли файл как текстовый? Да -> Ищем информацию о формате или намеки в заголовке.

3. Файл не читается как текстовый. Despair. 


Если формат таки определен, не стоит сразу же бросаться писать его парсер, этот велосипед может быть уже избретен. Иногда удобнее конвертировать в другой формат и уже его читать. 

Спецификации файлов, часто используемых для геномных данных: https://genome.ucsc.edu/FAQ/FAQformat.html
Иногда спецификация хорошо описана на Википедии (https://en.wikipedia.org/wiki/Protein_Data_Bank_(file_format) ), но предпочтение стоит отдавать описанию формата от самих авторов.

<img src="standards.png" width=400>

### Полезные модули для работы с файловой системой

glob и os являются незаменимыми для работы с файловой системой через Python.

In [39]:
import glob
glob.glob('*.txt')

['new_file.txt', 'dummy_text.txt', 'example_seqs.txt']

In [40]:
import os

In [41]:
os.path.isfile('dummy_text.txt')

True

In [42]:
os.path.isdir('dummy_text.txt')

False

In [44]:
os.mkdir('tmp/')

In [45]:
os.stat('dummy_text.txt')

os.stat_result(st_mode=33204, st_ino=144117959437111785, st_dev=743766374, st_nlink=1, st_uid=603, st_gid=603, st_size=965, st_atime=1520320401, st_mtime=1520312751, st_ctime=1520312789)