# Работа с файлами

## Типы файлов
1. Текстовые - информация хранится в виде кодов привычных нам символов.
2. Двоичные (бинарные) - информация хранится в виде последовательности байтов.

### Текстовые файлы
Рассматриваем на примере кодировки ascii.
Каждый симвод кодируется числом $\in[0,255]$.
![title](img/ascii.png)
[Источник изображения](https://commons.wikimedia.org/wiki/File:Ascii_Table-nocolor.svg)

### Бинарные файлы
Вся информация представляется как последовательность байтов: **\xc2\x01\x83\xc0\x01\x0f\xb6H\xff\x80:\x00\x88J\xffu\xee\x8b\xb3\xa8\x0b\x00\x00\x85**

Посмотрите типы [bytes и bytearray](https://pythonworld.ru/tipy-dannyx-v-python/bajty-bytes-i-bytearray.html).

Один и тот же файл можно интрепретировать разными способами

## Операции над файлами

Последовательность действий:
1. Открыть файл.
2. Прочитать/записать данные.
3. Закрыть файл.

### Открытие / Закрытие

Функция открытия файла (все параметры можно посмотреть [тут](https://docs.python.org/3/library/functions.html#open)):

`open(file, mode='r', encoding=None)`

* `file` - имя файла / дискриптор файла.
* `mode` - режим открытия.
* `encoding` - кодировка (например `"utf-8"`).

Значение `mode`:

| Режим	 | Обозначение |
| --- | --- |
| 'r' | Чтение. Указатель файла в начале. |
| 'w' | Запись. Файл будет перезаписан/создан. Указатель файла в начале. |
| 'x' | Запись, для несуществующего файла, в противном случае исключение. Указатель файла в начале. |
| 'a' | Запись. Файл будет дописан/создан. Указатель файла в конце. |
| 'b' | Открытие двоичного файла. |
| 't' | Открытие текстового файла (по умолчанию). |
| '+' | Чтение и запись. |

Режимы могут комбинироваться: 
* r, rt - открыть текстовый файл на чтение, указатель в начале файла;
* r+, r+t - открыть текстовый файл на чтение/запись, указатель в начале файла; 
* w, wt - создать/перезаписать текстовый файл для записи, указатель в начале файла;  
* w+, w+t - создать/перезаписать текстовый файл для чтения/записи, указатель в начале файла;  
...
* rb - открыть бинарный файл на чтение, указатель в начале файла;
* r+b - открыть бинарный файл на чтение/запись, указатель в начале файла;
* wb - создать/перезаписать бинарный файл для записи, указатель в начале файла; 
* w+b - создать/перезаписать бинарный файл для чтения/записи, указатель в начале файла;

Путь к файлу может быть:
* полным (`"/home/user/new/text.txt"`, `"C:\Users\user\new\text.txt"`)
* относительным (`"new/text.txt"`, `"new\text.txt"`, `"text.txt"`)

Т.к. путь к файлу может содержать пробелы, а в Windows для разделения названия каталогов используется экранирующий символ `"\"`, то надо быть акуратным при указании пути.

Продемонстрируем на следующем примере:

In [None]:
print("C:\Users\user\new\text.txt")

При таком подходе необходимо экранировать `"\"`

In [None]:
print("C:\\Users\\user\\new\\text.txt")

А еще проще использовать "сырые" строки

In [None]:
print(r"C:\Users\user\new\text.txt")

#### Откроем файл по относительному пути

In [None]:
f = open('data/text.txt', 'r+t')
f.close()

Не забывайте закрывать файл!!!

При открытии файлов могут возникать исключения

In [None]:
f = open('data/my.txt', 'r')

Для безопасного открытия используют менеджеры контекста и отлавливание исключений

In [None]:
with open('data/text.txt', 'r') as f:
    # Действия над содержимым файла
    pass

In [None]:
try:
    with open('data/text.txt', 'r') as f:
        # Действия над содержимым файла
        pass
except IOError:
    print('IOError')

Менеджер контекста самостоятельно закрывает файл. 

### Работа с содержимым


#### Метод read(size=-1)
Читает size байт, если не указано, то весь файл.

In [None]:
try:
    with open('data/text.txt', 'r') as f:
        data = f.read()
        print("Type: ", type(data), "\n\n", "Len: ", len(data), "\n\n", data, sep="")
except IOError:
    print('IOError')

In [None]:
try:
    with open('data/text.txt', 'r') as f:
        data = f.read(100)
        print("Type: ", type(data), "\n", "Len: ", len(data), "\n\n", data, "\n", sep="")
        
        data = f.read(100)
        print("Type: ", type(data), "\n", "Len: ", len(data), "\n\n", data, "\n", sep="")
except IOError:
    print('IOError')

In [None]:
try:
    with open('data/data.bin', 'br') as f:
        data = f.read()
        print("Type: ", type(data), "\n", "Len: ", len(data), "\n\n", data, "\n", sep="")
except IOError:
    print('IOError')

#### Метод readline(size=-1)
Читает size байт в строке, если не указано, то всю строку.

Некорректно применять к бинарным файлам.

In [None]:
try:
    with open('data/text.txt', 'r') as f:
        data = f.readline()
        print("Type: ", type(data), "\n", "Len: ", len(data), "\n\n", data, "\n", sep="")
except IOError:
    print('IOError')

In [None]:
try:
    with open('data/text.txt', 'r') as f:
        data = f.readline(15)
        print("Type: ", type(data), "\n", "Len: ", len(data), "\n\n", data, "\n", sep="")
        data = f.readline(10)
        print("Type: ", type(data), "\n", "Len: ", len(data), "\n\n", data, "\n", sep="")
except IOError:
    print('IOError')

In [None]:
try:
    with open('data/text.txt', 'r') as f:
        while True:
            data = f.readline(10)
            if data:
                print(data)
            else:
                break                
except IOError:
    print('IOError')

#### Метод readlines()
Считывает все строки и возвращает их в виде списка.

Некорректно применять к бинарным файлам.

In [1]:
try:
    with open('data/text.txt', 'r') as f:
        data = f.readlines()
        print("Type: ", type(data), "\n\n", "Len: ", len(data), "\n\n", data, sep="")
except IOError:
    print('IOError')

IOError


In [2]:
try:
    with open('data/text.txt', 'r') as f:
        data = f.readlines()
        for line in data:
            print(line[:10])
except IOError:
    print('IOError')

IOError


#### Метод write(data)
Пишет данные в файл. Возвращает количество записанных байтов.

In [None]:
try:
    with open('test.txt', 'w') as f:
        print(f.write("It's a test."))
except IOError:
    print('IOError')

In [None]:
%pycat test.txt

In [1]:
try:
    with open('test.b', 'wb') as f:
        print(f.write(bytes([97, 98, 99, 100, 101])))
except IOError:
    print('IOError')

5


In [None]:
%pycat test.b

#### Метод writelines(data)
Пишет строки в файл. Перенос строки автоматически не добавляется.

Некорректно применять к бинарным файлам.

In [None]:
try:
    with open('test.txt', 'w') as f:
        f.writelines(["One\n", "Two", "Three"])
except IOError:
    print('IOError')

In [None]:
%pycat test.txt

#### Метод flush()
Форсирование буфферизации.

#### Метод seek(offset, from_what=0)
Делает смещение на offset байтов, относительно позиции from_what (0 — начало файла; 1 — текущая позиция).

#### Метод tell()
Возвращает текущую позицию указателя в файле

### Пример

В файле хранится статистика по пассажирам Титаника.

Исходные данные были взяты [тут](https://www.kaggle.com/c/titanic/data).

Перепишем в новый файл все записи с указанием кают. Остальные записи будем пропускать.

In [None]:
try:
    with open('data/titanic.csv', 'r') as f_input, open('result.csv', 'w') as f_output:
        header = f_input.readline()
        f_output.write(header)
        data = f_input.readlines()
        for line in data:        
            cabin = line[line.rfind(",") + 1:-1]
            if cabin:
                f_output.write(line)
except IOError:
    print('IOError')