## 7. Применение ООП для работы с файлами

✍ В этом юните мы с вами поговорим об основных принципах работы с файлами в языке Python — какие встроенные методы используются для открытия, закрытия, чтения, построчного чтения и так далее.

На самом деле файлы, как и всё в Python, являются объектами класса. Причём этот класс встроен в Python. У файлов есть свои атрибуты и методы.

Давайте на примере работы с файлами разберём, как работают классы, реализованные «под капотом» в Python ↓

## ПУТЬ К ФАЙЛУ

Путь (от англ. path) — набор символов, показывающий расположение файла или каталога в файловой системе.

В операционных системах UNIX разделительным знаком при записи пути является «/» (слеш), в Windows — «\» (обратный слеш). Эти знаки служат для разделения названия каталогов, составляющих путь к файлу. Все вы видели, например, такой путь на ОС Windows: C:\Program Files. Это и есть путь до папки Program Files.

Существует два типа пути:
- абсолютный;
- относительный.

Абсолютный путь всегда считается от «корня», той папки, откуда потом «вырастают» все остальные папки. Для Windows это диск С:, D: и т. д., для Unix это “/”. Абсолютный путь всегда уникальный.

Абсолютный путь — это путь, который указывает на одно и то же место в файловой системе, вне зависимости от текущего рабочего каталога или других обстоятельств. Его ещё называют полным.

![](img/FPW_C3.4._1.png)

[Источник: lh3.googleusercontent.com](https://lh3.googleusercontent.com/rTqfwlvs20uk_PzMGX51IIwydk4jZsgqreynXhBU65SHpeLcvSIpikaB_51afwhHPj5oeRj_sJnuEBIAij2W45nMNfNgz4EGt6WPJNzLskwZjtqKdaWAVZjFKVwMprwERIsrMSyl)

Относительный путь — это путь по отношению к текущему рабочему каталогу пользователя.

Чтобы поработать с путями, есть модуль os. Функция os.chdir() позволяет нам изменить директорию, которую мы в данный момент используем. Если вам нужно знать, какой путь вы в данный момент используете, для этого нужно вызвать os.getcwd().

Примечание: Все дальнейшие пути указаны для конкретной машины на ОС Linux. У вас эти результаты будут отличаться.

In [1]:
import os

In [2]:
# получить текущий путь
start_path = os.getcwd()
print(start_path)  # /home/nbuser/library


/home/alexey/Learning/sf_datascience/Python_15_object_oriented_python


Далее попробуем подняться на директорию выше:

In [3]:
os.chdir("..")  # подняться на один уровень выше
os.getcwd()  # '/home/nbuser'


'/home/alexey/Learning/sf_datascience'

Теперь вернемся в ту директорию, из которой стартовали. Изначально мы сохраняли её в переменной start_path.

In [4]:
os.chdir(start_path)
os.getcwd()  # '/home/nbuser/library'


'/home/alexey/Learning/sf_datascience/Python_15_object_oriented_python'

С помощью функции os.listdir() можно получить весь список файлов, находящихся в директории. Если не указать никаких аргументов, то будет взята текущая директория.

In [5]:
# ['SnapchatLoader', 'FBLoader', 'tmp.py', '.gitignore', 'venv', '.git']
print(os.listdir())

if 'tmp.py' not in os.listdir():
    print("Файл отсутствует в данной директории")


['5_practical_examples.ipynb', '6_knowledge_test.ipynb', 'img', '__pycache__', 'dumper.py', '4_attributes_and_methods.ipynb', '2_oop_principles.ipynb', 'archive', '7_using_oop_for_file_operations.ipynb', '1_introduction.ipynb', '3_objects_and_classes.ipynb']
Файл отсутствует в данной директории


Для того чтобы склеивать пути с учётом особенностей ОС, следует использовать функцию os.path.join(). Это связано с тем, что в разных операционных системах могут быть разные разделители каталогов, например в ОС Windows этим разделителем является «\», а в Linux — «/», как мы и говорили в начале юнита. Поэтому, чтобы поиск файла проходил гладко в обеих системах (ведь ваш скрипт могут запускать на любой системе в связи с кросс-платформенностью Python), лучше всё-таки использовать os.path.join().

In [6]:
# соединяет пути с учётом особенностей операционной системы
print(start_path)
print(os.path.join(start_path, 'test'))

# /home/nbuser/library
# /home/nbuser/library/test


/home/alexey/Learning/sf_datascience/Python_15_object_oriented_python
/home/alexey/Learning/sf_datascience/Python_15_object_oriented_python/test


### Задание 7.1
Путь, который указывает на одно и то же место в файловой системе, вне зависимости от текущего рабочего каталога или других обстоятельств, называется:

абсолютным

Путь по отношению к текущему рабочему каталогу пользователя, называется:

относительным

### Задание 7.2

Соотнесите абсолютные и относительные пути.

![](img/15_7_2.png)



### Задание 7.3
Задание на самопроверку.

Сделайте функцию, которая принимает от пользователя путь и выводит всю информацию о содержимом этой папки. Для реализации используйте функцию встроенного модуля os.walk(). Если путь не указан, то сравнение начинается с текущей директории.

In [12]:
def dir_info(dir_path=None):
    dir_path = dir_path if dir_path is not None else os.getcwd()
    
    folders = os.walk(dir_path)
    
    for info in folders:
        print(f'Содержимое каталога {info[0]}')
        print('Директории:')
        for folder in info[1]:
            print(folder)
        print('Файлы')
        for filename in info[2]:
            print(filename)

In [14]:
def walk_desc(path=None):
    start_path = path if path is not None else os.getcwd()

    for root, dirs, files in os.walk(start_path):
        print("Текущая директория", root)
        print("---")

        if dirs:
            print("Список папок", dirs)
        else:
            print("Папок нет")
        print("---")

        if files:
            print("Список файлов", files)
        else:
            print("Файлов нет")
        print("---")

        if files and dirs:
            print("Все пути:")
        for f in files:
            print("Файл ", os.path.join(root, f))
        for d in dirs:
            print("Папка ", os.path.join(root, d))
        print("===")

In [13]:
dir_info()

Содержимое каталога /home/alexey/Learning/sf_datascience/Python_15_object_oriented_python
Директории:
img
__pycache__
archive
Файлы
5_practical_examples.ipynb
6_knowledge_test.ipynb
dumper.py
4_attributes_and_methods.ipynb
2_oop_principles.ipynb
7_using_oop_for_file_operations.ipynb
1_introduction.ipynb
3_objects_and_classes.ipynb
Содержимое каталога /home/alexey/Learning/sf_datascience/Python_15_object_oriented_python/img
Директории:
Файлы
dst-3-unit-1-15-2.png
dst-3-unit-1-15-1.png
dst-3-unit-1-15-5.png
FPW_C3.4._1.png
dst-3-unit-1-15-5 (1).png
dst-3-unit-1-15-4.png
dst-3-unit-1-15-6.png
dst-3-unit-1-15-3.png
dst-3-unit-1-15-7.png
15_7_2.png
Содержимое каталога /home/alexey/Learning/sf_datascience/Python_15_object_oriented_python/__pycache__
Директории:
Файлы
dumper.cpython-39.pyc
Содержимое каталога /home/alexey/Learning/sf_datascience/Python_15_object_oriented_python/archive
Директории:
Файлы
22-09-03.pkl


In [15]:
walk_desc()

Текущая директория /home/alexey/Learning/sf_datascience/Python_15_object_oriented_python
---
Список папок ['img', '__pycache__', 'archive']
---
Список файлов ['5_practical_examples.ipynb', '6_knowledge_test.ipynb', 'dumper.py', '4_attributes_and_methods.ipynb', '2_oop_principles.ipynb', '7_using_oop_for_file_operations.ipynb', '1_introduction.ipynb', '3_objects_and_classes.ipynb']
---
Все пути:
Файл  /home/alexey/Learning/sf_datascience/Python_15_object_oriented_python/5_practical_examples.ipynb
Файл  /home/alexey/Learning/sf_datascience/Python_15_object_oriented_python/6_knowledge_test.ipynb
Файл  /home/alexey/Learning/sf_datascience/Python_15_object_oriented_python/dumper.py
Файл  /home/alexey/Learning/sf_datascience/Python_15_object_oriented_python/4_attributes_and_methods.ipynb
Файл  /home/alexey/Learning/sf_datascience/Python_15_object_oriented_python/2_oop_principles.ipynb
Файл  /home/alexey/Learning/sf_datascience/Python_15_object_oriented_python/7_using_oop_for_file_operations.

## РАБОТА С ФАЙЛАМИ

Python «из коробки» располагает достаточно широким набором инструментов для работы с файлами. Для того чтобы начать работать с файлом, надо его открыть с помощью команды специальной функции open.

``` python
f = open('path/to/file', 'filemode', encoding='utf8')
```

Результатом этой операции будет файл, в котором указатель текущей позиции поставлен на начало или конец файла.

Перед тем, как мы начнём разбирать аргументы, хотелось бы заранее отметить, что указателем называется скорее метка, которая указывает на определённое место в файле. Указателей в классическом понимании программиста, как, например, в C или C++ в Python нет!

Давайте по порядку разберём все аргументы:
- path/to/file — путь к файлу может быть относительным или абсолютным. Можно указывать в Unix-стиле (path/to/file) или в Windows-стиле (path\to\file).
- filemode — режим, в котором файл нужно открывать.

Записывается в виде строки, может принимать следующие значения:
- r — открыть на чтение (по умолчанию);
- w — перезаписать и открыть на запись (если файла нет, то он создастся);
- x — создать и открыть на запись (если уже есть — исключение);
- a — открыть на дозапись (указатель будет поставлен в конец);
- t — открыть в текстовом виде (по умолчанию);
- b — открыть в бинарном виде.
- encoding — указание, в какой кодировке файл записан (utf8, cp1251 и т. д.) По умолчанию стоит utf-8. При этом можно записывать кодировку как через дефис, так и без: utf-8 или utf8.

Открытие файла на запись является блокирующей операцией, то есть она останавливает работу нашей программы до того, пока файл не откроется.

Теперь давайте поговорим про то, как записывать какую-либо информацию в файл.

При открытии файла внутри него ставится указатель текущей позиции для чтения. При открытии в режиме чтения ('r') или записи ('w') указатель ставится на начало, в режиме 'a' (добавление новых записей в конец файла) — в конец.

Откроем файл на запись и с помощью метода write запишем в него строку. В качестве результата метод write возвращает количество записанных символов.

In [16]:
f = open('test.txt', 'w', encoding='utf8')

# Запишем в файл строку
f.write("This is a test string\n")
f.write("This is a new string\n")


21

После вызова команды write ваши данные не сразу попадут и сохранятся в файл. Связано это с особенностями внутренней работы операционных систем. Если для вас критично своевременное попадание информации на жесткий диск компьютера, то после записи вызывайте f.flush() или закрывайте файл. Закрыть файл можно с помощью метода close().

In [17]:
# обязательно нужно закрыть файл иначе он будет заблокирован ОС
f.close()


Теперь давайте посмотрим, как читать данные из файла.

Откроем файл для чтения, в который только что записали две строки:

In [18]:
f = open('test.txt', 'r', encoding='utf8')


Вот его содержимое на жестком диске:

This is a test string
This is a new string

После того, как файл открыт для чтения, мы можем читать из него данные.

f.read(n) — операция, читающая с текущего места n символов, если файл открыт в t режиме, или n байт, если файл открыт в b режиме, и возвращающая прочитанную информацию.

In [19]:
print(f.read(10))  # This is a


This is a 


После прочтения указатель на содержимое остается на той позиции, где чтение закончилось. Если n не указать, будет прочитано «от печки», то есть от текущего места указателя и до самого конца файла.

In [20]:
# считали остаток файла
f.read()  # test string\nThis is a new string\n


'test string\nThis is a new string\n'

После работы обязательно закрываем файл:

In [21]:
# обязательно закрываем файл
f.close()


## ЧТЕНИЕ И ЗАПИСЬ ПОСТРОЧНО

Зачастую с файлами удобнее работать построчно, поэтому для этого есть отдельные методы:

- writelines — записывает список строк в файл;
- readline — считывает из файла одну строку и возвращает её;
- readlines — считывает из файла все строки в список и возвращает их.

Метод f.writelines(sequence) не будет сам за вас дописывать символ конца строки ('\n'), поэтому при необходимости его нужно прописать вручную.



In [22]:
with open('test.txt', 'a', encoding='utf8') as f:
    sequence = ["other string\n", "123\n", "test test\n"]
    # берет строки из sequence и записывает в файл (без переносов)
    f.writelines(sequence)


Попробуем теперь построчно считать файл с помощью readlines:

In [23]:
with open('test.txt', 'r', encoding='utf8') as f:
    print(f.readlines())  # считывает все строки в список и возвращает список


['This is a test string\n', 'This is a new string\n', 'other string\n', '123\n', 'test test\n']


In [24]:
with open('test.txt', 'r', encoding='utf8') as f:
    print(f.readline()) # This is a test string
    print(f.read(4)) # This
    print(f.readline()) # is a new string

This is a test string

This
 is a new string



## ФАЙЛ КАК ИТЕРАТОР

Объект файл является итератором, поэтому его можно использовать в цикле for.

Для чего это нужно?

Итераторы представляют собой такой объект, который вычисляет какие-то действия на каждом шаге, а не все сразу. На примере файла это выглядит примерно так. Предположим, у вас есть огромный текстовый файл, который весит несколько гигабайт. Если попытаться разом считать его полностью с помощью f.readlines(), то он будет загружен в вашу программу, в то время как переменная, в которую будет записан файл, станет весить столько же, сколько и объём считанного файла.

В большинстве задач с обработкой текста он весь сразу не нужен, поэтому мы можем, например, считывать его построчно, обрабатывать строку и забывать из нашей программы, чтобы считать новую. Тогда весь файл огромного объема не будет «висеть» в памяти компьютера.

Не стоит считывать файл полностью — в большинстве задач с обработкой текста весь файл разом читать не требуется. В таком случае с файлом работают построчно.

In [25]:
with open('test.txt') as f:
    for line in f:
        print(line, end='')


This is a test string
This is a new string
other string
123
test test


Цикл for, как мы помним, — это цикл, который перебирает по очереди.

## МЕНЕДЖЕР КОНТЕКСТА WITH

После работы с файлом его необходимо закрыть с помощью метода close(). Файл освобождается для операционной системы (если он был открыт для записи), и другие приложения могут получать к нему доступ. Если не закрыть файл явно, то информация, записываемая в него, может быть утеряна, или файл может повредиться.

Для явного указания места работы с файлом, а также чтобы не забывать закрывать файл после обработки, существует менеджер контекста with.

In [26]:
# В блоке менеджера контекста открытый файл «жив» и с ним можно работать, при выходе из блока - файл закрывается.
with open("test.txt", 'rb') as f:
    a = f.read(10)
    b = f.read(23)

f.read(3)  # Error!


ValueError: read of closed file

Тело менеджера контекста определяется одним отступом вправо относительно отступов ключевого слова with. Менеджер контекста неявно вызывает закрытие файла после работы, что освобождает вас от забот о том, закрыли ли вы файл или нет. Закрытие файла происходит при любом стечении обстоятельств, даже если внутри with будет ошибка. 

В дальнейшем мы научимся писать собственные структуры, работающие похожим образом.

### Задание 7.4
Задание на самопроверку.

Создайте любой файл на операционной системе под название input.txt и построчно перепишите его в файл output.txt.

In [27]:
with open('input.txt', 'w') as input:
    lines = [
        'one\n',
        'tho\n',
        'three\n',
        'four\n',
        'five\n'
    ]
    
    input.writelines(lines)

with open('input.txt', 'r') as input, open('output.txt', 'w') as output:
    lines = input.readlines()
    output.writelines(lines)

## Задание 7.5
Задание на самопроверку.

Дан файл numbers.txt, компоненты которого являются действительными числами (файл создайте самостоятельно и заполните любыми числам, в одной строке одно число). Найдите сумму наибольшего и наименьшего из значений и запишите результат в файл output.txt.

In [36]:
lines = []
with open('numbers.txt', 'r') as numbers:
    lines = numbers.readlines()

numbers = list(map(float, lines))

with open('output.txt', 'w') as output:
    output.write(f'Min + Max = {min(numbers) + max(numbers)}\n')


### Задание 7.6
Задание на самопроверку.

В текстовый файл построчно записаны фамилии и имена учащихся класса и их оценки за контрольную. Подсчитайте количество учащихся, чья оценка меньше 3 баллов. Cодержание файла:

Иванов О. 4

Петров И. 3

Дмитриев Н. 2

Смирнова О. 4

Керченских В. 5

Котов Д. 2

Бирюкова Н. 1

Данилов П. 3

Аранских В. 5

Лемонов Ю. 2

Олегова К. 4

In [38]:
import re

regex = re.compile(r'[^0-9]')

with open('pupils.txt', 'r') as pupils:
    lines = pupils.readlines()
    count = sum(int(regex.sub('', line)) < 3 for line in lines)
    print(f'Учеников с оценкой меньше 3: {count}')

Учеников с оценкой меньше 3: 4


In [40]:
with open('pupils.txt', 'r') as pupils, open('reversed.txt', 'w') as reversed:
    lines = pupils.readlines()
    lines.reverse()
    reversed.writelines(lines)