# Работа с файлами

## Типы файлов
1. Текстовые - информация хранится в виде кодов привычных нам символов.
2. Двоичные (бинарные) - информация хранится в виде последовательности байтов.

### Текстовые файлы
Рассматриваем на примере кодировки ascii.
Каждый симвод кодируется числом $\in[0,255]$.
![title](img/ascii.png)
[Источник изображения](https://commons.wikimedia.org/wiki/File:Ascii_Table-nocolor.svg)

### Бинарные файлы
Вся информация представляется как последовательность байтов: **\xc2\x01\x83\xc0\x01\x0f\xb6H\xff\x80:\x00\x88J\xffu\xee\x8b\xb3\xa8\x0b\x00\x00\x85**

Посмотрите типы [bytes и bytearray](https://pythonworld.ru/tipy-dannyx-v-python/bajty-bytes-i-bytearray.html).

Один и тот же файл можно интрепретировать разными способами

## Операции над файлами

Последовательность действий:
1. Открыть файл.
2. Прочитать/записать данные.
3. Закрыть файл.

### Открытие / Закрытие

Функция открытия файла (все параметры можно посмотреть [тут](https://docs.python.org/3/library/functions.html#open)):

`open(file, mode='r', encoding=None)`

* `file` - имя файла / дискриптор файла.
* `mode` - режим открытия.
* `encoding` - кодировка (например `"utf-8"`).

Значение `mode`:

| Режим	 | Обозначение |
| --- | --- |
| 'r' | Чтение. Указатель файла в начале. |
| 'w' | Запись. Файл будет перезаписан/создан. Указатель файла в начале. |
| 'x' | Запись, для несуществующего файла, в противном случае исключение. Указатель файла в начале. |
| 'a' | Запись. Файл будет дописан/создан. Указатель файла в конце. |
| 'b' | Открытие двоичного файла. |
| 't' | Открытие текстового файла (по умолчанию). |
| '+' | Чтение и запись. |

Режимы могут комбинироваться: 
* r, rt - открыть текстовый файл на чтение, указатель в начале файла;
* r+, r+t - открыть текстовый файл на чтение/запись, указатель в начале файла; 
* w, wt - создать/перезаписать текстовый файл для записи, указатель в начале файла;  
* w+, w+t - создать/перезаписать текстовый файл для чтения/записи, указатель в начале файла;  
...
* rb - открыть бинарный файл на чтение, указатель в начале файла;
* r+b - открыть бинарный файл на чтение/запись, указатель в начале файла;
* wb - создать/перезаписать бинарный файл для записи, указатель в начале файла; 
* w+b - создать/перезаписать бинарный файл для чтения/записи, указатель в начале файла;

Путь к файлу может быть:
* полным (`"/home/user/new/text.txt"`, `"C:\Users\user\new\text.txt"`)
* относительным (`"new/text.txt"`, `"new\text.txt"`, `"text.txt"`)

Т.к. путь к файлу может содержать пробелы, а в Windows для разделения названия каталогов используется экранирующий символ `"\"`, то надо быть акуратным при указании пути.

Продемонстрируем на следующем примере:

In [1]:
print("C:\Users\user\new\text.txt")

SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape (400288086.py, line 1)

При таком подходе необходимо экранировать `"\"`

In [2]:
print("C:\\Users\\user\\new\\text.txt")

C:\Users\user\new\text.txt


А еще проще использовать "сырые" строки

In [3]:
print(r"C:\Users\user\new\text.txt")

C:\Users\user\new\text.txt


#### Откроем файл по относительному пути

In [4]:
f = open('data/text.txt', 'r+t')
f.close()

Не забывайте закрывать файл!!!

При открытии файлов могут возникать исключения

In [5]:
f = open('data/my.txt', 'r')

FileNotFoundError: [Errno 2] No such file or directory: 'data/my.txt'

Для безопасного открытия используют менеджеры контекста и отлавливание исключений

In [6]:
with open('data/text.txt', 'r') as f:
    # Действия над содержимым файла
    pass

In [8]:
try:
    with open('data/my.txt', 'r') as f:
        # Действия над содержимым файла
        pass
except IOError:
    print('IOError')

IOError


Менеджер контекста самостоятельно закрывает файл. 

### Работа с содержимым


#### Метод read(size=-1)
Читает size байт, если не указано, то весь файл.

In [9]:
try:
    with open('data/text.txt', 'r') as f:
        data = f.read()
        print("Type: ", type(data), "\n\n", "Len: ", len(data), "\n\n", data, sep="")
except IOError:
    print('IOError')

Type: <class 'str'>

Len: 635

william shakespeare

From fairest creatures we desire increase,
That thereby beauty's rose might never die,
But as the riper should by time decease,
His tender heir might bear his memory:

But thou, contracted to thine own bright eyes,
Feed'st thy light'st flame with self-substantial fuel,
Making a famine where abundance lies,
Thyself thy foe, to thy sweet self too cruel.

Thou that art now the world's fresh ornament
And only herald to the gaudy spring,
Within thine own bud buriest thy content
And, tender churl, makest waste in niggarding.

Pity the world, or else this glutton be,
To eat the world's due, by the grave and thee.



In [11]:
try:
    with open('data/text.txt', 'r') as f:
        data = f.read(100)
        print("Type: ", type(data), "\n", "Len: ", len(data), "\n\n", data, "\n", sep="")
        
        data = f.read(10)
        print("Type: ", type(data), "\n", "Len: ", len(data), "\n\n", data, "\n", sep="")
except IOError:
    print('IOError')

Type: <class 'str'>
Len: 100

william shakespeare

From fairest creatures we desire increase,
That thereby beauty's rose might nev

Type: <class 'str'>
Len: 10

er die,
Bu



In [12]:
try:
    with open('data/data.bin', 'br') as f:
        data = f.read()
        print("Type: ", type(data), "\n", "Len: ", len(data), "\n\n", data, "\n", sep="")
except IOError:
    print('IOError')

Type: <class 'bytes'>
Len: 585

b'\xc2\x01\x83\xc0\x01\x0f\xb6H\xff\x80:\x00\x88J\xffu\xee\x8b\xb3\xa8\x0b\x00\x00\x85\xf6t\x1e\x89|$\x04\x894$\xe8\xe8\xb1\xfe\xff\x85\xc0t\x0e\x80\xbb\xc8\x0b\x00\x00\x00\x0f\x85\xde\x00\x00\x00\xcc\x8bT$,\xc7D$\x04\x00\x00\x00\x00\x8bD$ \xc7\x04$\x01\x00\x00\x00\xe8z\xf8\xff\xff\x84\xc0tn\x80\xbb\xc8\x0b\x00\x00\x00\x0f\x84\xc4\xfe\xff\xff\x8bD$ \x89|$\x0c\x89D$\x10\x8d\x83\xe5S\xff\xff\x89D$\x08\x8b\x83\xf4\xff\xff\xff\xc7D$\x04\x01\x00\x00\x00\x8b\x00\x89\x04$\xe8\xcb\xaf\xfe\xff\xe9\x91\xfe\xff\xff\x8d\xb6\x00\x00\x00\x00\x89t$\x08\x83\xee\x01\x89\x14$\x89L$\x04\xe8-\xaf\xfe\xff\x8bT$ \x89t$,\x01\xf2\xe9\xd9\xfd\xff\xff\x8d\xb6\x00\x00\x00\x00\x80\xbb\xc8\x0b\x00\x00\x00\x0f\x84\x05\xfd\xff\xff\x8d\x83\xfbS\xff\xff\x89|$\x0c\x89D$\x08\x8b\x83\xf4\xff\xff\xff\xc7D$\x04\x01\x00\x00\x00\x8b\x00\x89\x04$\xe8e\xaf\xfe\xff\xe9\xda\xfc\xff\xff\x8bD$ \x89|$\x0c\x89D$\x10\x8d\x83\xb8S\xff\xff\xe9b\xff\xff\xff\x8d\x83\xceS\xff\xff\x89t$\x10\x89D$\x08\x8b\x83

#### Метод readline(size=-1)
Читает size байт в строке, если не указано, то всю строку.

Некорректно применять к бинарным файлам.

In [None]:
try:
    with open('data/text.txt', 'r') as f:
        data = f.readline()
        print("Type: ", type(data), "\n", "Len: ", len(data), "\n\n", data, "\n", sep="")
except IOError:
    print('IOError')

In [None]:
try:
    with open('data/text.txt', 'r') as f:
        data = f.readline(15)
        print("Type: ", type(data), "\n", "Len: ", len(data), "\n\n", data, "\n", sep="")
        data = f.readline(10)
        print("Type: ", type(data), "\n", "Len: ", len(data), "\n\n", data, "\n", sep="")
except IOError:
    print('IOError')

In [None]:
try:
    with open('data/text.txt', 'r') as f:
        while True:
            data = f.readline(10)
            if data:
                print(data)
            else:
                break                
except IOError:
    print('IOError')

#### Метод readlines()
Считывает все строки и возвращает их в виде списка.

Некорректно применять к бинарным файлам.

In [13]:
try:
    with open('data/text.txt', 'r') as f:
        data = f.readlines()
        print("Type: ", type(data), "\n\n", "Len: ", len(data), "\n\n", data, sep="")
except IOError:
    print('IOError')

Type: <class 'list'>

Len: 19

['william shakespeare\n', '\n', 'From fairest creatures we desire increase,\n', "That thereby beauty's rose might never die,\n", 'But as the riper should by time decease,\n', 'His tender heir might bear his memory:\n', '\n', 'But thou, contracted to thine own bright eyes,\n', "Feed'st thy light'st flame with self-substantial fuel,\n", 'Making a famine where abundance lies,\n', 'Thyself thy foe, to thy sweet self too cruel.\n', '\n', "Thou that art now the world's fresh ornament\n", 'And only herald to the gaudy spring,\n', 'Within thine own bud buriest thy content\n', 'And, tender churl, makest waste in niggarding.\n', '\n', 'Pity the world, or else this glutton be,\n', "To eat the world's due, by the grave and thee.\n"]


In [14]:
try:
    with open('data/text.txt', 'r') as f:
        data = f.readlines()
        for line in data:
            print(line[:10])
except IOError:
    print('IOError')

william sh


From faire
That there
But as the
His tender


But thou, 
Feed'st th
Making a f
Thyself th


Thou that 
And only h
Within thi
And, tende


Pity the w
To eat the


#### Метод write(data)
Пишет данные в файл. Возвращает количество записанных байтов.

In [15]:
try:
    with open('test.txt', 'w') as f:
        print(f.write("It's a test."))
except IOError:
    print('IOError')

12


In [None]:
%pycat test.txt

In [16]:
try:
    with open('test.b', 'wb') as f:
        print(f.write(bytes([97, 98, 99, 100, 101])))
except IOError:
    print('IOError')

5


In [17]:
%pycat test.b

[0mabcde[0m[1;33m[0m[1;33m[0m[0m


#### Метод writelines(data)
Пишет строки в файл. Перенос строки автоматически не добавляется.

Некорректно применять к бинарным файлам.

In [18]:
try:
    with open('test.txt', 'w') as f:
        f.writelines(["One\n", "Two", "Three"])
except IOError:
    print('IOError')

In [None]:
%pycat test.txt

#### Метод flush()
Форсирование буфферизации.

#### Метод seek(offset, from_what=0)
Делает смещение на offset байтов, относительно позиции from_what (0 — начало файла; 1 — текущая позиция).

#### Метод tell()
Возвращает текущую позицию указателя в файле

### Пример

В файле хранится статистика по пассажирам Титаника.

Исходные данные были взяты [тут](https://www.kaggle.com/c/titanic/data).

Перепишем в новый файл все записи с указанием кают. Остальные записи будем пропускать.

In [19]:
try:
    with open('data/titanic.csv', 'r') as f_input, open('result.csv', 'w') as f_output:
        header = f_input.readline()
        f_output.write(header)
        data = f_input.readlines()
        for line in data:        
            cabin = line[line.rfind(",") + 1:-1]
            if cabin:
                f_output.write(line)
except IOError:
    print('IOError')