<img src="../Img/ФинУ.jpg">

# Алгоритмы и структуры данных в языке Python

# Лекция 7. Работа с файлами

Лектор: Смирнов Михаил Викторович, доцент кафедры информационных технологий Финансового университета при Правительстве Российской Федерации

## Разделы: <a class="anchor" id="разделы"></a>
-
* [К оглавлению](#разделы)

* [Файл](#файл)
* [Открытие файла](#открытие-файла)
* [Инструкция with ... as](#инструкция-with)
* [Методы работы с файлами](#работа-с-файлами)
* [Модуль CSV](#csv)

-
* [к оглавлению](#разделы)

### Файл <a class="anchor" id="файл"></a>
-
* [к оглавлению](#разделы)


Файл – именованная область данных на носителе информации. Работа с файлами реализуется средствами операционной системы. 
Операционная система предоставляет приложениям интерфейс (Application Program Interface, API) – набор инструментов для работы с файлами.

Можно выделить два типа операций с файлом – связанные с его открытием и выполняющиеся без его открытия. 

- Операции первого типа обычно служат для **чтения и записи информации** или подготовки к чтению или записи. 
- Операции второго типа выполняются с файлом как **с объектом файловой системы**, в котором файл является наименьшим элементом структурирования.

В большинстве современных операционных систем файлы организованы в виде одномерных массивов байтов.

Обычно выделяют следующие сущности, связанные с работой с файлом:

- **Файловый поток и дескриптор**. Когда вы открываете файл, ОС создает поток для этого файла и дескриптор. Дескриптор – это целое число например (... 100, 101, 102 ...), которое идентифицирует открытый файл.
<br>

- **Файловый указатель**. Файл можно рассматривать как последовательность байт на диске. Файловый указатель – это число, являющееся смещением относительно нулевого байта в файле. Обычно по этому адресу осуществляется чтение/запись. При выполнении операций чтения или записи файловый указатель увеличивается на число прочитанных или записанных байт. Последовательный вызов операций чтения таким образом позволяет прочитать весь файл последовательно, не заботясь о позиционировании.
<br>

- **Файловый буфер**. Операционная система (или библиотека языка программирования) осуществляет кэширование файловых операций в специальном буфере (участке оперативной памяти). Как правило, операции на диске выполняются медленнее, чем в оперативной памяти. Для оптимизации работы с памятью используется файловый буфер, в котором доступна некоторая часть файла, как правило, некоторая окрестность файлового указателя. Наличие такого буфера является некоторым компромиссом между надежностью хранения информации и скоростью. При закрытии файла буфер сбрасывается.
<br>

- **Режим доступа**. В зависимости от потребностей программы файл может быть открыт на чтение или запись. Кроме того, некоторые операционные системы и библиотеки предусматривают режим работы с текстовыми файлами.
<br>

- **Режим общего доступа**. Предназначен для регулирования совместного доступа к одному файлу несколькими программами в операционной системе.

Базовые операции для работы с файлом:

- **Открытие файла**. В качестве параметров передаются имя файла и режим доступа, а в качестве результата выступает файловый поток.
<br>

- __Закрытие файла__. Файловый буфер сбрасывается.
<br>

- __Запись__. В файл помещаются данные.
<br>

- __Чтение__. Данные из файла помещаются в область памяти.
<br>

- __Перемещение указателя__. Указатель смещается на указанное число байт относительно начала файла или конкретной позиции.
<br>

- **Позиционирование**. Получение текущего значения файлового указателя.
<br>

- **Сброс буфера**. Содержимое файлового буфера записывается в файл. Используется обычно для указания на завершение записи логического блока (для сохранения данных в файле на случай сбоя).

### Открытие файла <a class="anchor" id="открытие-файла"></a>
-
* [к оглавлению](#разделы)

Прежде чем работать с файлом, необходимо создать объект файлового потока с помощью функции *open()*. Функция имеет следующий формат: 

```python
ореn(<Путь к файлу>[, mode='r'][, buffering=-1][, encoding=None][, errors=None][, newline=None][, closefd=True])
```

В первом параметре указывается путь к файлу. Путь может быть абсолютным или относительным. Следует учитывать, что в операционных системах слеш часто является экранирующим символом. По этой причине слеш необходимо удваивать или вместо обычных строк использовать неформатированные строки.

Документация по функции *open()*: https://docs.python.org/3/library/functions.html#open

In [1]:
# Правильно
fn = 'C:\\temp\\new\\file.txt' # Двойной слэш
fn

'C:\\temp\\new\\file.txt'

In [2]:
# Правильно
fn = r'C:\temp\new\file.txt' # Необработанная строка (raw sting)
fn

'C:\\temp\\new\\file.txt'

In [3]:
# Правильно
fn = 'C:/temp/new/file.txt' # Слеш в стиле Линукс
fn

'C:/temp/new/file.txt'

In [4]:
# Неправильно!
# В этом пути присутствуют сразу три специальных символа: \t, \n и \f. После преобразования специальных символов nуть 
# будет выглядеть следующим образом: С:<Табуляция>еmр<Перевод строки>еwilе.tхt
# \f  - специальный символ form feed, в ранних версиях Windows использовался для инструкции
# принтерам продолжить печать на следующей странице.
fn = 'C:\temp\new\file.txt'
print(fn)

C:	emp
ewile.txt


Иногда в программном коде появляется необходимость обратиться к имени файла программы, получить текстовое значение выполняемого в настоящий момент скрипта. В Jupyter Notebook это можно сделать следующим образом:

In [5]:
%%javascript
IPython.notebook.kernel.execute('nb_name = "' + IPython.notebook.notebook_name + '"')

<IPython.core.display.Javascript object>

и далее в отдельной ячейке напишем:

In [6]:
import os
nb_full_path = os.path.join(os.getcwd(), nb_name)
nb_full_path

'D:\\Smirnov\\FinU\\2024-2025\\АиСД_Python\\05_Файлы_и_исключения\\Лекция_5_2_(6)_Файлы.ipynb'

В этом примере функция *getcwd()* возвращает текущую папку.

In [7]:
os.getcwd()

'D:\\Smirnov\\FinU\\2024-2025\\АиСД_Python\\05_Файлы_и_исключения'

Для обращения к файлу можно использовать относительный путь. Eсли открываемый файл находится в той же папке, что и программа Python (в текущей папке), то можно указать только название файла. После выполнения следующей команды будет создан файл в текущей папке на диске. Если такой файл уже существует, он будет создан заново без предупреждения.

Отметим, что функция *open()* возвращает объект потока ввода-вывода данных. В данном случае возвращается объект *TextIOWrapper* потока текстовых данных.

In [8]:
f1 = open('file_01.txt', mode='w')
print(type(f1))
f1.close()

<class '_io.TextIOWrapper'>


Чтобы узнать, какие файлы есть в текущей папке, можно выполнить функцию *listdir()* из библиотеки *os*.

In [9]:
os.listdir()

['.ipynb_checkpoints',
 'file_01.txt',
 'file_03.txt',
 'file_04.txt',
 'file_05.txt',
 'file_06.txt',
 'file_07.txt',
 'file_08.txt',
 'file_09.txt',
 'file_10.txt',
 'file_11.bak',
 'file_11.dat',
 'file_11.dir',
 'Folder_01',
 'participants.csv',
 'ДЗ_11_Исключения.ipynb',
 'ДЗ_11_Исключения_Решение.ipynb',
 'ДЗ_12_Файлы.ipynb',
 'ДЗ_12_Файлы_Решение.ipynb',
 'Дополнительно',
 'Лекция_5_1_(5)_Исключения.ipynb',
 'Лекция_5_2_(6)_Файлы.ipynb',
 'Семинар_5_1_(11)_Исключения_Решение.ipynb',
 'Семинар_5_2_(12)_Файлы.ipynb',
 'Семинар_5_2_(13)_Файлы_Полиция_Решение.py']

Если открываемый файл расположен во вложенной папке, то перед названием файла указывается название этой папки.

<i><u>Пример</u></i>. В текущей папке создать вложенную папку, создать файл во вложенной папке.

In [10]:
import os

# Если папка с таким именем уже есть, возникнет исключение FileExistsError
try:
    os.mkdir('Folder_01')
except FileExistsError as err:
    print(err)

f2 = open('Folder_01\\file_02.txt', mode='w')
f2.close()

[WinError 183] Невозможно создать файл, так как он уже существует: 'Folder_01'


Изменение текущей папки возможно с помощью команды *cd*. Сменим текущую папку и распечатаем список файлов в ней.

In [11]:
cd Folder_01

D:\Smirnov\FinU\2024-2025\АиСД_Python\05_Файлы_и_исключения\Folder_01


In [12]:
os.listdir()

['file_02.txt']

При указании пути можно ссылаться на текущую папку с помощью символа `.` и на родительскую папку с помощью символа `..`.

Если папка с файлом расположена выше уровнем, то перед названием файла указываются две точки и слэш `..\\`.

<i><u>Пример</u></i>. Создать файл в родительской папке.

In [13]:
f3 = open('..\\file_03.txt', mode='w')
f3.close()

Перейдем в родительскую папку и распечатаем ее содержимое.

In [14]:
cd ..

D:\Smirnov\FinU\2024-2025\АиСД_Python\05_Файлы_и_исключения


In [15]:
os.listdir()

['.ipynb_checkpoints',
 'file_01.txt',
 'file_03.txt',
 'file_04.txt',
 'file_05.txt',
 'file_06.txt',
 'file_07.txt',
 'file_08.txt',
 'file_09.txt',
 'file_10.txt',
 'file_11.bak',
 'file_11.dat',
 'file_11.dir',
 'Folder_01',
 'participants.csv',
 'ДЗ_11_Исключения.ipynb',
 'ДЗ_11_Исключения_Решение.ipynb',
 'ДЗ_12_Файлы.ipynb',
 'ДЗ_12_Файлы_Решение.ipynb',
 'Дополнительно',
 'Лекция_5_1_(5)_Исключения.ipynb',
 'Лекция_5_2_(6)_Файлы.ipynb',
 'Семинар_5_1_(11)_Исключения_Решение.ipynb',
 'Семинар_5_2_(12)_Файлы.ipynb',
 'Семинар_5_2_(13)_Файлы_Полиция_Решение.py']

Функция *listdir(path)* возвращает все объекты (и файлы, и папки), располагающиеся по указанному пути. Для проверки, является ли найденный объект файлом можно использовать функции *isfile(), join()* из модуля *os.path*.

Функция *join()* выполняет конкатенцию имен папки и файла с учётом особенностей операционной системы.

In [16]:
os.path.join('folder_name', 'file_name')

'folder_name\\file_name'

<u><i>Пример</i></u>. Получить все папки и файлы, находящиеся в текущей папке.

In [17]:
mypath = '.' # Точка указывает на текущую папку
files_and_folders = [f for f in os.listdir(mypath)]
files_and_folders

['.ipynb_checkpoints',
 'file_01.txt',
 'file_03.txt',
 'file_04.txt',
 'file_05.txt',
 'file_06.txt',
 'file_07.txt',
 'file_08.txt',
 'file_09.txt',
 'file_10.txt',
 'file_11.bak',
 'file_11.dat',
 'file_11.dir',
 'Folder_01',
 'participants.csv',
 'ДЗ_11_Исключения.ipynb',
 'ДЗ_11_Исключения_Решение.ipynb',
 'ДЗ_12_Файлы.ipynb',
 'ДЗ_12_Файлы_Решение.ipynb',
 'Дополнительно',
 'Лекция_5_1_(5)_Исключения.ipynb',
 'Лекция_5_2_(6)_Файлы.ipynb',
 'Семинар_5_1_(11)_Исключения_Решение.ipynb',
 'Семинар_5_2_(12)_Файлы.ipynb',
 'Семинар_5_2_(13)_Файлы_Полиция_Решение.py']

In [18]:
mypath = '.' # Точка указывает на текущую папку
files_and_folders = os.listdir(mypath)
print(files_and_folders)

['.ipynb_checkpoints', 'file_01.txt', 'file_03.txt', 'file_04.txt', 'file_05.txt', 'file_06.txt', 'file_07.txt', 'file_08.txt', 'file_09.txt', 'file_10.txt', 'file_11.bak', 'file_11.dat', 'file_11.dir', 'Folder_01', 'participants.csv', 'ДЗ_11_Исключения.ipynb', 'ДЗ_11_Исключения_Решение.ipynb', 'ДЗ_12_Файлы.ipynb', 'ДЗ_12_Файлы_Решение.ipynb', 'Дополнительно', 'Лекция_5_1_(5)_Исключения.ipynb', 'Лекция_5_2_(6)_Файлы.ipynb', 'Семинар_5_1_(11)_Исключения_Решение.ipynb', 'Семинар_5_2_(12)_Файлы.ipynb', 'Семинар_5_2_(13)_Файлы_Полиция_Решение.py']


Выполним проверку на тип объекта – файл или папка? Если объект является файлом, функция *os.path.isfile()* вернет *True*.

In [19]:
mypath = '.' # Точка указывает на текущую папку
f0 = files_and_folders[0] # Папка .ipynb_checkpoints
print(os.path.isfile(os.path.join(mypath, f0))) # False

f1 = files_and_folders[1] # Файл file_01.txt
print(os.path.isfile(os.path.join(mypath, f1))) # True

False
True


<u><i>Пример</i></u>. Получить только файлы (не папки) в текущей папке.

In [20]:
mypath = '.'
files_and_folders = os.listdir(mypath)
files_only = [fname for fname in files_and_folders if os.path.isfile(os.path.join(mypath, fname))]

print(files_only)

['file_01.txt', 'file_03.txt', 'file_04.txt', 'file_05.txt', 'file_06.txt', 'file_07.txt', 'file_08.txt', 'file_09.txt', 'file_10.txt', 'file_11.bak', 'file_11.dat', 'file_11.dir', 'participants.csv', 'ДЗ_11_Исключения.ipynb', 'ДЗ_11_Исключения_Решение.ipynb', 'ДЗ_12_Файлы.ipynb', 'ДЗ_12_Файлы_Решение.ipynb', 'Лекция_5_1_(5)_Исключения.ipynb', 'Лекция_5_2_(6)_Файлы.ipynb', 'Семинар_5_1_(11)_Исключения_Решение.ipynb', 'Семинар_5_2_(12)_Файлы.ipynb', 'Семинар_5_2_(13)_Файлы_Полиция_Решение.py']


<b>Дополнительные параметры функции *open*</b>

Необязательный параметр *mode* функции *open()* может принимать следующие значения: 

* r – только чтение (значение по умолчанию). После открытия файла указатель устанавливается на начало файла. Если файл не существует, то возбуждается исключение IOError; 
* r+ – чтение и запись. После открытия файла указатель устанавливается на начало файла. Если файл не существует, то возбуждается исключение IOError; 
* w – запись. Если файл не существует, то он будет создан. Если файл существует, то он будет перезаписан. После открытия файла указатель устанавливается на начало файла; 
* w+ – чтение и запись. Если файл не существует, то он будет создан. Если файл существует, то он будет перезаписан. После открытия файла указатель устанавливается на начало файла; 
* а – запись. Если файл не существует, то он будет создан. Запись осуществляется в конец файла. Содержимое файла не удаляется; 
* а+ – чтение и запись. Если файл не существует, то он будет создан. Запись осуществляется в конец файла. Содержимое файла не удаляется. 

Кроме того, после параметра *mode* может следовать модификатор: 
* b – файл будет открыт в бинарном режиме. Файловые методы принимают и возвращают объекты типа *bytes*; 
* t – файл будет открыт в текстовом режиме (значение по умолчанию в Windows). Файловые методы принимают и возвращают объекты типа *str*. 

Разные платформы (ОС) используют разные коды в качестве символа новой строки, в частности:
* Windows: `\r\n`
* Unix: `\n`
* Старые компьютеры Макинтош: `\r`
* Существуют системы, использующие: `\n\r`

При открытии файла в текстовом режиме в Python 3 все варианты окончания строки будут автоматически конвертироваться к `\n`. Например, в этом режиме в Windows при чтении символ `\r` будет удален, а при записи, наоборот, добавлен.

<u><i>Пример</i></u>. Записать данные в файл.

In [21]:
f4 = open('file_04.txt', mode='w')

# Возвращается количество записанных символов (значение всегда совпадает с длиной строки).
print(f4.write("String1\nString2"))

f4.close()

15


<a class="anchor" id="инструкция-with"></a>

## Менеджер контекста. Инструкция *with ... as* <a class="anchor" id="инструкция-with"></a>
-
* [к оглавлению](#разделы)

Менеджер контекста *with ... as* гарантирует выполнение завершающих действий (закрытие файла, освобождение ресурсов и т. д.) даже если внутри блока кода произошло исключение.

<u><i>Пример</i></u>. С помощью менеджера контекста открыть файл на чтение в бинарном режиме.

In [22]:
with open("file_04.txt", "rb") as f: # Открываем файл для чтения в бинарном режиме.
    for line in f:
        print(type(line))
        print(line)

<class 'bytes'>
b'String1\r\n'
<class 'bytes'>
b'String2'


Мы видим, что каждая строка файла является байтовой последовательностью. При выводе на экран она предваряется символом *b* и выглядит как строка, но на самом деле это последовательность байт.

По окончании выполнения блока кода менеджер контекста закрывает файл автоматически.

<b>Буферизация<b>

Для ускорения работы производится буферизация записываемых данных. В необязательном параметре *buffering* можно указать размер буфера. Если в указан 0, то данные сразу записываются в файл (значение допустимо только в бинарном режиме).

Значение 1 используется при построчной записи в файл (значение допустимо только в текстовом режиме), другое положительное число задает примерный размер буфера в байтах, а отрицательное значение (или отсутствие значения) означает установку размера, применяемого в системе по умолчанию.

При использовании текстового режима (используется по умолчанию) при чтении производится попытка преобразовать данные в кодировку *Unicode*, а при записи выполняется обратная операция: строка преобразуется в последовательность байтов. По умолчанию используется кодировка, используемая в системе. Если преобразование невозможно, то возбуждается исключение. Указать кодировку, которая будет использоваться при записи и чтении файла, позволяет параметр *encoding*. В качестве примера запишем данные в кодировке *UTF-8*:

<u><i>Пример</i></u>. С помощью менеджера контекста записать данные в файл в кодировке *utf-8* и прочитать их.

In [23]:
with open("file_05.txt", "w", encoding="utf-8") as f: # Указываем кодировку файла
    f.write("Важные сведения") # Заnисываем строку в файл

In [24]:
with open("file_05.txt", "r", encoding="utf-8") as f: 
    for line in f:
        print(line)

Важные сведения


## Методы работы с файлами  <a class="anchor" id="работа-с-файлами"></a>
-
* [к оглавлению](#разделы)

- close

Метод *close()* закрывает файл. Так как интерпретатор автоматически удаляет объект, когда отсутствуют ссылки на него, можно явно не закрывать файл в небольших программах. Тем не менее явное закрытие файла является признаком хорошего стиля программирования. Менеджер контекста гарантирует закрытие файла вне зависимости от того, произошло исключение внутри блока кода или нет.

- write

Метод `write(<Данные>)` записывает строку или последовательность байтов в файл. Если в качестве параметра указана строка, то файл должен быть открыт в текстовом режиме. Для записи последовательности байтов необходимо открыть файл в бинарном режиме. Метод возвращает количество записанных символов или байтов.

<u><i>Пример</i></u>. Записать в файл последовательность байтов.

In [1]:
# Бинарный режим:
with open('file_06.txt', 'wb') as f: 
    number_1 = f.write(bytes('Строка1\nСтрока2', 'cp1251')) 
    number_2 = f.write(bytearray('\nCтpoкaЗ', 'cp1251'))

number_1, number_2 # Число записанных байтов в файл.

(15, 8)

Конструктор *bytes()* возвращает последовательность байт, которые можно распечатать в шестнадцатеричном виде.

In [3]:
# Обязательные параметры конструктора bytes: строка и кодировка строки
bytes('Строка1\nСтрока2', 'cp1251')

b'\xd1\xf2\xf0\xee\xea\xe01\n\xd1\xf2\xf0\xee\xea\xe02'

Мы можем преобразовать в последовательность байтов не только символы, но и числа.

In [4]:
bs = bytes(range(20))
bs

b'\x00\x01\x02\x03\x04\x05\x06\x07\x08\t\n\x0b\x0c\r\x0e\x0f\x10\x11\x12\x13'

По последовательности байтов можно выполнить итерацию.

In [5]:
for b in bs:
    print(b, end = ' ')

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 

Число, преобразуемое конструктором *bytes()* к бинарному виду не должно превышать 255.

In [8]:
try:
    bytes(range(255, 257))
except ValueError as err:
    print(err)

bytes must be in range(0, 256)


- print

Запись в файл можно выполнять при помощи функции *print()*, передав файл в необязательный атрибут *file*:

In [30]:
with open('file_07.txt', 'w', encoding='cp1251') as f: 
    print('Строка 1.\nСтрока 2.', file=f)
    print('Строка 3.', end=' ', file=f) # значение по умолчанию end='\n'
    print('Продолжение строки 3.', file=f)

- writelines

Метод `writelines([<Строка_1>[, <Строка_2>, ... <Строка_n>]])` записывает в файл элементы списка.

In [32]:
with open('file_08.txt', 'w', encoding='utf-8') as f: 
    f.writelines(['Строка 1\n', 'Строка 2'])

with open('file_08.txt', 'a', encoding='utf-8') as f:
    f.writelines(['\nСтрока 3', '\nСтрока 4'])

with open('file_08.txt', 'r', encoding='utf-8') as f: 
    print(f.read())

Строка 1
Строка 2
Строка 3
Строка 4


- read

Метод `read([<Количество>])` считывает данные из файла. Если файл открыт в текстовом режиме, то возвращается строка, а если в бинарном – последовательность байтов. Если параметр не указан, то возвращается содержимое файла от текущей позиции указателя до конца файла.

<u><i>Пример</i></u>. С помощью метода *read()* прочесть содержимое файла.

In [33]:
with open('file_07.txt', "r", encoding="cp1251") as f:
    print(f.read())

Строка 1.
Строка 2.
Строка 3. Продолжение строки 3.



<u><i>Пример</i></u>. С помощью *read()* прочесть две порции по 4 символа, а затем до конца файла.

In [34]:
with open('file_08.txt', 'r', encoding='utf-8') as f:
    print(f.read(4))
    print(f.read(4))
    print(f.read()) # Читаем файл от текущей позиции указателя до конца

Стро
ка 1

Строка 2
Строка 3
Строка 4


По достижении конца файла метод *read()* возвращает пустую строку. Этим можно воспользоваться для проверки, достигнут ли конец файла.

<u><i>Пример</i></u>. Прочитать весь файл порциями по 4 символа.

In [35]:
with open('file_08.txt', 'r', encoding='utf-8') as f:
    part = True # Предполагаем, что файл изначально не пустой.
    while part:
        part = f.read(4)
        print(part) if part else print('Конец файла')

Стро
ка 1

Стр
ока 
2
Ст
рока
 3
С
трок
а 4
Конец файла


<u><i>Пример</i></u>. Прочесть файл в бинарном формате.

In [36]:
with open("file_08.txt", "rb") as f:
    print(f.read())

b'\xd0\xa1\xd1\x82\xd1\x80\xd0\xbe\xd0\xba\xd0\xb0 1\r\n\xd0\xa1\xd1\x82\xd1\x80\xd0\xbe\xd0\xba\xd0\xb0 2\r\n\xd0\xa1\xd1\x82\xd1\x80\xd0\xbe\xd0\xba\xd0\xb0 3\r\n\xd0\xa1\xd1\x82\xd1\x80\xd0\xbe\xd0\xba\xd0\xb0 4'


<u><i>Пример</i></u>. Прочесть указанное число байт в бинарном формате.

In [37]:
with open("file_08.txt", "rb") as f: 
    print(f.read(4))

b'\xd0\xa1\xd1\x82'


- readline

Метод `readline([<Количество>])` считывает из файла одну строку при каждом вызове. Если файл открыт в текстовом режиме, то возвращается строка, а если в бинарном – последовательность байтов. При достижении конца файла возвращается пустая строка.

Если в необязательном параметре указано число, то считывание будет выполняться до тех пор, пока не встретится символ новой строки (\n), или из файла не будет прочитано указанное количество символов.

In [38]:
with open("file_08.txt", "r", encoding="utf-8") as f:
    print(f.readline())
    print('----')
    print(f.readline())
    print('----')
    print(f.readline())

Строка 1

----
Строка 2

----
Строка 3



In [39]:
with open("file_08.txt", "rb") as f:
    print(f.readline())
    print('----')
    print(f.readline())
    print('----')
    print(f.readline())

b'\xd0\xa1\xd1\x82\xd1\x80\xd0\xbe\xd0\xba\xd0\xb0 1\r\n'
----
b'\xd0\xa1\xd1\x82\xd1\x80\xd0\xbe\xd0\xba\xd0\xb0 2\r\n'
----
b'\xd0\xa1\xd1\x82\xd1\x80\xd0\xbe\xd0\xba\xd0\xb0 3\r\n'


Метод `readlines()` считывает все содержимое файла в список строк. Если файл открыт в текстовом режиме, то возвращается список строк, а если в бинарном – список байтов.

In [40]:
with open('file_08.txt', 'r', encoding='utf-8') as f:
    lines = f.readlines()
lines

['Строка 1\n', 'Строка 2\n', 'Строка 3\n', 'Строка 4']

- \_\_next\_\_

`__next__()` считывает одну строку при каждом вызове. Если файл открыт в текстовом режиме, то возвращается строка, а если в бинарном – последовательность байтов. При достижении конца файла возбуждается исключение *StopIteration*.

In [41]:
with open('file_08.txt', 'r', encoding='utf-8') as f: 
    for line in f:
        print(line)

Строка 1

Строка 2

Строка 3

Строка 4


- flush

`flush()` записывает данные из буфера на диск.

С помощью *tell()* и *seek()* можно управлять указателем файла.

- tell

`tell()` возвращает позицию указателя относительно начала файла в виде целого числа. Обратите внимание на то, что в Windows метод `tell()` считает символ `\r` как дополнительный байт, хотя этот символ удаляется при открытии файла в текстовом режиме, поэтому если возникает несоответствие, следует открывать файл в бинарном режиме.

- seek

`seek(<Смещение> [, <Позиция>])` устанавливает указатель в позицию, имеющую смещение <Смещение> относительно позиции <Позиция>. В параметре <Позиция> могут быть указаны следующие атрибуты из модуля io или соответствующие им значения: 

* io.SEEK_SET или 0 — начало файла (значение по умолчанию); 
* io.SEEK_CUR или 1 — текущая позиция указателя; 
* io.SEEK_END или 2 — конец файла. 

<u><i>Пример</i></u>. Используя методы работы с файлом, узнаем размер файла в байтах.

In [1]:
with open('file_08.txt', 'r', encoding='utf-8') as f:
    data = f.readlines()
data

['Строка 1\n', 'Строка 2\n', 'Строка 3\n', 'Строка 4']

In [2]:
# С помощью seek и tell
import io
with open('file_08.txt', 'r', encoding='utf-8') as f:
    f.seek(0, io.SEEK_END)
    print(f.tell())

62


In [3]:
# С помощью функции stat из бибилиотеки os
import os
with open("file_08.txt", "r", encoding="utf-8") as f:
    filesize = os.stat('file_08.txt') # Возвращается кортеж
filesize.st_size

62

Помимо методов объекты файлов поддерживают атрибуты 
- name – содержит название файла; 
- mode – режим, в котором был открыт файл; 
- closed – возвращает True, если файл был закрыт, и False в противном случае. 
- encoding – название кодировки, которая будет использоваться для преобразования строк перед записью в файл или при чтении. Обратите внимание на то, что изменить значение атрибута нельзя, т. к. атрибут доступен только для чтения. Атрибут доступен только в текстовом режиме.

In [14]:
f.name, f.mode, f.closed, f.encoding

('file_08.txt', 'r', True, 'utf-8')

<a class="anchor" id="csv"></a>


# Модуль CSV
-
* [к оглавлению](#разделы)

Формат CSV (Comma Separated Values) является наиболее распространенным форматом импорта и экспорта электронных таблиц и баз данных. Формат CSV использовался в течение многих лет до попыток стандартизированного описания формата в <a href="https://datatracker.ietf.org/doc/html/rfc4180.html">RFC 4180</a>. Отсутствие четко определенного стандарта означает, что в данных, создаваемых и потребляемых различными приложениями, часто существуют тонкие различия. Эти различия могут сделать раздражающим процесс обработки CSV-файлов из нескольких источников. Тем не менее, хотя разделители и символы кавычек различаются, общий формат достаточно похож, чтобы можно было написать один модуль, который может эффективно манипулировать такими данными, скрывая детали чтения и записи данных от программиста.

Модуль CSV реализует классы для чтения и записи табличных данных в формате CSV. Он позволяет программистам сказать: «записать эти данные в формате, предпочитаемом Excel» или «прочитать данные из этого файла, который был сгенерирован Excel», не зная точных деталей формата CSV, используемого Excel.

Рассмотрим функции CSV-модуля:
- reader
- writer

и классы CSV-модуля:
- DictReader
- DictWriter

### Функция *reader*

```python
csv.reader(csvfile, dialect='excel', **fmtparams)
```

Возвращает объект, который будет обрабатывать строки из указанного файла csv. Файл csv должен быть итерируемым набором строк, каждая из которых находится в формате csv.

Необязательный параметр *dialect* облегчает работу с csv-файлами когда требуется учесть особенности сторонних приложений, с помощью которых csv-файлы подготовлены.

*fmtparams* – это необязательные параметры форматирования, например, параметр `delimiter=','` задает значение символа разделителя. Другими параметрами форматирования являются *doublequote*, *escapechar*, *lineterminator*. Более подробно с параметрами форматирования можно ознакомиться в <a href="https://docs.python.org/3/library/csv.html#csv-fmt-params">документации</a>.

Создадим в папке *Data* электронного курса csv-файл с именем *Дети.csv* следующего содержимого:

```python
Имя,Возраст,Рост
Маша,5,116
Вася,4,110
Федя,9,142

```

In [18]:
with open('../Data/Дети.csv', mode='w', encoding='utf-8') as f:
    f.write('Имя,Возраст,Рост\n')
    f.write('Маша,5,116\n')
    f.write('Вася,4,110\n')
    f.write('Федя,9,142')

<u><i>Пример</i></u>. Прочесть построчно файл *Дети.csv*.

In [19]:
import csv
with open('../Data/Дети.csv', encoding='utf8') as f:
    children = csv.reader(f)

    for child in children:
        print(child)

['Имя', 'Возраст', 'Рост']
['Маша', '5', '116']
['Вася', '4', '110']
['Федя', '9', '142']


Легко заметить, что у файла есть заголовок, он находится в первой строке. Прочитаем его отдельно.

<u><i>Пример</i></u>. Заголовок файла *Дети.csv* прочесть отдельно и распечатать, прочесть остальные строки файла и также распечатать.

In [76]:
with open('../Data/Дети.csv', encoding='utf8') as f:
    children = csv.reader(f)
    
    header = next(children)
    print('Заголовок:\n', header)

    print('Данные:')
    for child in children:
        print(child)

Заголовок:
 ['Имя', 'Возраст', 'Рост']
Данные:
['Маша', '5', '116']
['Вася', '4', '110']
['Федя', '9', '142']


В этом примере мы использовали функцию *next()*, которая выполнила одну итерацию, а именно: прочла одну строку, вернула ее значение в переменную *header* и сместила указатель чтения файла на следующую строку.


### Класс *DictReader*

Используем класс *DictReader* чтобы представить строки csv-файла в виде словарей.

<u><i>Пример</i></u>. Прочесть данные в файле *Дети.csv* и вернуть значения в виде словарей. Распечатать результат. Найти возраст Васи.

In [77]:
with open('../Data/Дети.csv', encoding='utf8') as f:
    dict_reader = csv.DictReader(f)
    
    for child in dict_reader:
        print(child)
        if child['Имя'] == 'Вася':
            vasya_age = child['Возраст']
    
print('Возраст Васи', vasya_age)

{'Имя': 'Маша', 'Возраст': '5', 'Рост': '116'}
{'Имя': 'Вася', 'Возраст': '4', 'Рост': '110'}
{'Имя': 'Федя', 'Возраст': '9', 'Рост': '142'}
Возраст Васи 4


### Функция *writer*

Используем функцию *writer*, чтобы добавить к списку еще двух детей.

In [20]:
with open('../Data/Дети.csv', encoding='utf8', mode='a', newline='') as f:
    writer = csv.writer(f)
    
    writer.writerow('') # Добавляем пустую строку, чтобы новые данные начинались с новой строки
    writer.writerow('Ахмед,7,120'.split(','))
    writer.writerow('Иса,6,118'.split(','))

Пусть сведения о детях уже находятся в списке.

```python
children = [
    ['Виталий', 10, 135],
    ['Ангелина', 9, 110]
]
```

Тогда добавим их в имеющийся файл с помощью всего одной команды *writerows*.

In [21]:
children = [
    ['Виталий', 10, 135],
    ['Ангелина', 9, 110]
]

with open('../Data/Дети.csv', encoding='utf8', mode='a', newline='') as f:
    writer = csv.writer(f)
    writer.writerows(children)

Еще раз прочитаем csv-файл и распечатаем результат.

In [22]:
with open('../Data/Дети.csv', encoding='utf8') as f:
    children = csv.reader(f)

    for child in children:
        print(child) if child else None

['Имя', 'Возраст', 'Рост']
['Маша', '5', '116']
['Вася', '4', '110']
['Федя', '9', '142']
['Ахмед', '7', '120']
['Иса', '6', '118']
['Виталий', '10', '135']
['Ангелина', '9', '110']


* [к оглавлению](#разделы)

Литература

- https://docs.python.org/3/library/csv.html#module-csv
- https://pymotw.com/2/csv/
- https://www.w3schools.com/python/pandas/pandas_csv.asp