# Работа с файлами

1. Открыть файл.
2. Прочитать/записать данные.
3. Закрыть файл.

## Открытие / Закрытие

Функция открытия файла:

`open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True)`

* file - имя файла / дискриптор файла.
* mode - режим открытия.
* buffering - 0 = отключить буферизацию (только для двоичного режима); 1 = построчная буферизация (только для текстового режима); > 1 = размер буфера в байтах.
* encoding - кодировка файла (для текстовых файлов).
* errors - режим обработки ошибок (для текстовых файлов).
* newline - режим перевода строк (для текстовых файлов).
* closefd - флаг необходимости закрытия файлового дескриптора (если file дискриптор). 

Значение `mode`:

| Режим	 | Обозначение |
| --- | --- |
| 'r' | Чтение (по умолчанию) |
| '+' | Чтение и запись |
| 'w' | Запись, файл будет перезаписан/создан |
| 'x' | Запись, для несуществующего файла, в противном случае исключение |
| 'a' | Запись, файл будет дописан |
| 'b' | Открытие двоичного файла |
| 't' | Открытие текстового файла (по умолчанию) |

Режимы могут комбинироваться: 
* r, rt - открыть текстовый файл на чтение, указатель в начале файла;
* r+, rt+ - открыть текстовый файл на чтение/запись, указатель в начале файла; 
* w+, wt+ - создать/открыть бинарный файл на чтение/запись, указатель в начале файла;  
...
* rb - открыть бинарный файл для чтения;
* rb+ - открыть бинарный файл для чтения/записи; 
* wb+ - создать бинарный файл для чтения/записи;

In [1]:
f = open('text.txt', 'r')
f.close()

FileNotFoundError: [Errno 2] No such file or directory: 'text.txt'

Не забывайте закрывать файл!!!

При открытии файлов могут возникать исключения

In [2]:
f = open('my.txt', 'r')

FileNotFoundError: [Errno 2] No such file or directory: 'my.txt'

Для безопасного открытия используют менеджеры контекста и отлавливание исключений

In [None]:
with open('text.txt', 'r') as f:
    # Действия над содержимым файла
    pass

In [None]:
try:
    with open('text.txt', 'r') as f:
        # Действия над содержимым файла
        pass
except IOError:
    print('IOError')

Менеджер контекста самостоятельно закрывает файл. 

## Работа с содержимым


#### Метод read(size=-1)
Читает size байт, если не указано, то весь файл.

In [3]:
try:
    with open('text.txt', 'r') as f:
        data = f.read()
        print("Type: ", type(data), "\n\n", "Len: ", len(data), "\n\n", data, sep="")
except IOError:
    print('IOError')

Type: <class 'str'>

Len: 16

esfdfdsfv 86 9 o


In [4]:
try:
    with open('text.txt', 'r') as f:
        data = f.read(100)
        print("Type: ", type(data), "\n\n", "Len: ", len(data), "\n\n", data, sep="")
except IOError:
    print('IOError')

Type: <class 'str'>

Len: 16

esfdfdsfv 86 9 o


In [5]:
try:
    with open('data.b', 'br') as f:
        data = f.read()
        print("Type: ", type(data), "\n\n", "Len: ", len(data), "\n\n", data, sep="")
except IOError:
    print('IOError')

IOError


#### Метод readline(size=-1)
Читает size байт в строке, если не указано, то всю строку.

Некорректно применять к бинарным файлам.

In [6]:
try:
    with open('text.txt', 'r') as f:
        data = f.readline()
        print("Type: ", type(data), "\n\n", "Len: ", len(data), "\n\n", data, sep="")
except IOError:
    print('IOError')

Type: <class 'str'>

Len: 16

esfdfdsfv 86 9 o


In [7]:
try:
    with open('text.txt', 'r') as f:
        data = f.readline(10)
        print("Type: ", type(data), "\n\n", "Len: ", len(data), "\n\n", data, sep="")
except IOError:
    print('IOError')

Type: <class 'str'>

Len: 10

esfdfdsfv 


In [8]:
try:
    with open('text.txt', 'r') as f:
        while True:
            data = f.readline(10)
            if data:
                print(data)
            else:
                break                
except IOError:
    print('IOError')

esfdfdsfv 
86 9 o


In [9]:
try:
    with open('data.b', 'br') as f:
        data = f.readline()
        print("Type: ", type(data), "\n\n", "Len: ", len(data), "\n\n", data, sep="")
except IOError:
    print('IOError')

IOError


#### Метод readlines()
Считывает все строки и возвращает их в виде списка.

Некорректно применять к бинарным файлам.

In [13]:
try:
    with open('text.txt', 'r') as f:
        data = f.readlines()
        print("Type: ", type(data), "\n\n", "Len: ", len(data), "\n\n", data, sep="")
except IOError:
    print('IOError')

Type: <class 'list'>

Len: 6

['esfdfdsfv 86 9 o\n', "'kjohj\n", 'lgyglj\n', 'khig;jm\n', '\n', 'lbn']


In [12]:
try:
    with open('text.txt', 'r') as f:
        data = f.readlines()
        for line in data:
            print(line[:10])
except IOError:
    print('IOError')

esfdfdsfv 
'kjohj

lgyglj

khig;jm



lbn


In [14]:
try:
    with open('data.b', 'br') as f:
        data = f.readlines()
        print("Type: ", type(data), "\n\n", "Len: ", len(data), "\n\n", data, sep="")
        print(len(data))
except IOError:
    print('IOError')

IOError


#### Метод write(data)
Пишет данные в файл. Возвращает количество записанных байтов.

In [15]:
try:
    with open('test.txt', 'w') as f:
        print(f.write("It's a test."))
except IOError:
    print('IOError')

12


In [None]:
%pycat test.txt

In [16]:
try:
    with open('test.b', 'wb') as f:
        print(f.write(bytes([97, 98, 99, 100, 101])))
except IOError:
    print('IOError')

5


In [None]:
%pycat test.b

#### Метод writelines(data)
Пишет строки в файл. Перенос строки автоматически не добавляется.

Некорректно применять к бинарным файлам.

In [17]:
try:
    with open('test.txt', 'w') as f:
        print(f.writelines(["One\n", "Two", "Three"]))
except IOError:
    print('IOError')

None


In [None]:
%pycat test.txt

In [18]:
try:
    with open('test.b', 'wb') as f:
        print(f.writelines([bytes([97, 98]), bytes([99, 100])]))
except IOError:
    print('IOError')

None


In [None]:
%pycat test.b

#### Метод flush()
Форсирование буфферизации.

#### Метод seek(offset, from_what=0)
Делает смещение на offset байтов, относительно позиции from_what (0 — начало файла; 1 — текущая позиция).

#### Метод tell()
Возвращает текущую позицию указателя в файле

## Пример

В файле хранится статистика по пассажирам Титаника.

Исходные данные были взяты [тут](https://www.kaggle.com/c/titanic/data).

Перепишем в новый файл все записи с указанием кают. Остальные записи будем пропускать.

In [21]:
with open('titanic.csv', 'r') as f_input, open('result.csv', 'w') as f_output:
    header = f_input.readline()
    f_output.write(header)
    data = f_input.readlines()
    for line in data:        
        cabin = line[line.rfind(",") + 1:-1]
        #print(line, line[line.rfind(",") + 1:-1])
        if cabin:
            f_output.write(line)

In [22]:
try:
    with open('titanic.csv', 'r') as f_input, open('result.csv', 'w') as f_output:
        header = f_input.readline()
        f_output.write(header)
        data = f_input.readlines()
        for line in data:
            cabin = line[:-1].split(",")[-1]
            if cabin:
                f_output.write(line)
except IOError:
    print('IOError')