# Чтение данных из файлов

Если вы хотите получить документацию о какой либо функции, достаточно ввести перед именем функции вопросительный знак который выведет docstring функции:

In [25]:
?open

In [2]:
file_obj = open('example.txt', 'r')

Посмотрим тип объекта:

In [3]:
type(file_obj)

_io.TextIOWrapper

Считаем из файла строки:

In [4]:
print(file_obj.read())

Привет, Мир!
Строка 2
Строка 3
Последняя строка


Функция `read()` считывает файл целиком, если нам нужно считать только некоторые строчки, то нужно воспользоваться функцией `readline()`. Для этого откроем файл заново:

In [5]:
file_obj = open('example.txt', 'r')

print(file_obj.readline())

Привет, Мир!



Повторный вызов функции `readline()` приведет к печати следующей строки:

In [6]:
print(file_obj.readline())

Строка 2



In [7]:
print(file_obj.readline())

Строка 3



In [8]:
print(file_obj.readline())

Последняя строка


Вывод пустой строки означает конец файла:

In [9]:
print(file_obj.readline())




Мы можем обращаться с файлом как с обычным генератором:

In [12]:
file_obj = open('example.txt', 'r')

for line in file_obj:
    print(line, end='')

Привет, Мир!
Строка 2
Строка 3
Последняя строка

Часто мы хотим работать со строчками файлами как с элементами массива. Это можно сделать несколькими способами:

In [13]:
file_obj = open('example.txt', 'r')

data_list = list(file_obj)

print(data_list)

['Привет, Мир!\n', 'Строка 2\n', 'Строка 3\n', 'Последняя строка']


In [14]:
for line in data_list:
    print(line, end='')

Привет, Мир!
Строка 2
Строка 3
Последняя строка

In [15]:
file_obj = open('example.txt', 'r')

data_list = file_obj.readlines()

print(data_list)

['Привет, Мир!\n', 'Строка 2\n', 'Строка 3\n', 'Последняя строка']


Когда мы завершили работу с файлом, его нужно закрыть для освобождения ресурсов на чтение и поддержки файла. Это делается с помощью команды `close()`:

In [16]:
file_obj = open('example.txt', 'r')

file_obj.close()

До этого момента мы использовали чтение файлов в кодировке UTF-8, но это бывает не всегда так. Файлы могут быть закодированы в другие кодировки, например в KOI8-R и причтении мы получим исключение:

In [29]:
file_obj = open('example_koi8-r.txt', 'r')

print(file_obj.read())

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xf0 in position 0: invalid continuation byte

Для исправления ошибки мы можем явно указать кодировку файла в функции `open()` передав аргумент `encoding`:

In [31]:
file_obj = open('example_koi8-r.txt', 'r', encoding='koi8-r') # Раскодируется в байты с помощью таблицы koi8-r

print(file_obj.read()) # Кодируются байты в символы текущей кодировки (UTF-8) и выводятся на экран

Привет, Мир!
Строка 2
Строка 3
Последняя строка


Дополнительно, можно использовать модуль `codecs`.

# Запись, изменение файлов

In [39]:
file_obj = open('file_to_write_in.txt', 'w') # Указываем режим работы с файлом. w = writing

string = 'строка для записи в файл\n'

file_obj.write(string)
file_obj.close()

Теперь посмотрим, как выглядит наш файл. Прочитаем файл системной командой `cat` из набора [GNU-Utils](https://ru.wikipedia.org/wiki/GNU_Coreutils) входящего в дистрибутивы Linux:

In [40]:
! cat file_to_write_in.txt

строка для записи в файл


Если мы хотим добавить какую-то строчку в файл, казалось бы, нужно проделать ту же самую операцию:

In [41]:
file_obj = open('file_to_write_in.txt', 'w') # Указываем режим работы с файлом. w = writing

second_string = 'вторая строка для записи в файл\n'

file_obj.write(second_string)
file_obj.close()

In [42]:
! cat file_to_write_in.txt

вторая строка для записи в файл


Что мы видим? Наша первая строка исчезла, а на ее месте появилась вторая строка. Это произошло из-за того, что мы перезаписали наш старый файл новым. Так происходит с файлами, когда мы работаем в режиме `w` (writing).

Для добавления строк в конец файлов используется другой режим - `a` (append):

In [43]:
file_obj = open('file_to_write_in.txt', 'a') # Указываем режим работы с файлом. a = append

third_string = 'третья строка для записи в файл\n'

file_obj.write(third_string)
file_obj.close()

In [44]:
! cat file_to_write_in.txt

вторая строка для записи в файл
третья строка для записи в файл


У нас может быть несколько строк для записи в файл. Мы можем сделать это разными способами, но самый простой, это в цикле использовать функцию `write()`. Также, мы можем использовать функцию `writelines()` которая принимает в качестве аргумента список строк для записи в файл:

In [47]:
digits = list(range(1,11))

print(digits)

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]


Здесь есть два ньюанса, во-первых, мы можем записывать в файл только тип `str`, для этого нам нужно изменить массив чисел в массив строк. Второй нюанс, это если мы запишим эти строки как есть, то они у нас при записи склеются в одно значение, потому что у нас нет символов перевода строки. Также, в этом примере мы будем использовать ключевое слово `with` (Контекстный менеджер) который сам позаботится о закрытии файла по завершению блока исполнения кода:

In [48]:
with open('second_file_to_write_in.txt', 'w') as f:
    f.writelines([str(n) + '\n' for n in digits])

In [49]:
! cat second_file_to_write_in.txt

1
2
3
4
5
6
7
8
9
10
