Чтение файлов
Файловые дескрипторы

В Python есть абстракция над файлами — это указатель на файл или файловый дескриптор. Ничего сложного в этом нет, это наоборот упрощает работу со многими системными ресурсами.

Файловый дескриптор — это системный ресурс, доступ к которому предоставляет операционная система. Обычно файловый дескриптор можно открыть (получить/создать), закрыть (сообщить системе, что работа с ним закончена), можно записать в него что-то и прочитать что-то.
Открытие и закрытие файлов

Работа с файлами в Python начинается с открытия файла или получения от системы доступа к файлу, получение того самого файлового дескриптора. Для этого есть встроенная функция open, в которую надо обязательно передать имя файла, который мы хотим открыть, и можно указать, как именно мы хотим файл открыть:

fh = open('test_file.txt')

В этом примере fh — это файловый дескриптор, специальный объект, через который мы можем работать с файлом.

После того как работа с файлом завершена, надо вернуть ресурс (файл) системе. Для этого у файлового дескриптора надо вызвать метод close:

fh = open('test.txt')
fh.close()

Закрывать файл обязательно. Незакрытые дескрипторы могут стать причиной множества неочевидных проблем и сложностей. Самый простой случай — это испорченный файл и полностью утерянная информация, которая в нем могла содержаться.

Кроме того, надо помнить, что поскольку файловый дескриптор — это ресурс, который предоставляется операционной системой, то любое завершение работы приложения (аварийное или штатное) не означает закрытия всех открытых фалов и, опять же, может привести к ошибкам.

Если не указать, как мы хотим открыть файл, то он открывается только для чтения и при помощи fh можно будет только читать из файла. Если файла с именем test_file.txt в системе нет, то вы получите исключение.

Режимы открытия файлов в Python выбираются при помощи второго аргумента функции open.

Возможные режимы открытия файлов:
Режим 	Обозначение
'r' 	открытие на чтение (является значением по умолчанию).
'w' 	открытие на запись, содержимое файла удаляется, если файла не существует, создается новый.
'x' 	открытие на запись, если файла не существует, иначе исключение.
'a' 	открытие на дозапись, информация добавляется в конец файла.
'b' 	открытие в двоичном режиме.
't' 	открытие в текстовом режиме (является значением по умолчанию).
'+' 	открытие на чтение и запись
Чтение и запись в файл

Для записи в файл используется метод write у дескриптора fh. Этот метод возвращает количество записанных в файл символов.

Парный к нему метод — это метод read, который позволяет прочитать некоторое количество символов из файла.

fh = open('test.txt', 'w+')
fh.write('hello!')
fh.seek(0)

first_two_symbols = fh.read(2)
print(first_two_symbols)  # 'he'

fh.close()

В этом примере мы открыли файл для чтения и записи. Записали в файл строку 'hello!' и прочитали первые два символа из файла при помощи метода read, указав в качестве аргумента двойку.

Чтобы вернуть курсор на начало файла, вызвали метод seek и передали ему позицию, куда надо переместиться (0).

Чтобы прочитать всё содержимое файла за раз, можно вызвать метод read без аргументов:

fh = open('test.txt', 'w')
fh.write('hello!')
fh.close()

fh = open('test.txt', 'r')
all_file = fh.read()
print(all_file)  # 'hello!'

fh.close()

Пока файловый дескриптор не закрыт, вы можете читать из него частями, продолжая чтение с того места, на котором остановились:

fh = open('test.txt', 'w')
fh.write('hello!')
fh.close()

fh = open('test.txt', 'r')
while True:
    symbol = fh.read(1)
    if len(symbol) == 0:
        break
    print(symbol)

fh.close()

В этом примере в цикле мы читали и выводили в консоль содержимое файла по одному символу за раз. В результате вы получите в консоли:

h
e
l
l
o
!

Ещё есть удобный способ читать файл построчно, по одной строке за раз, для этого можно воспользоваться методом readline:

fh = open('test.txt', 'w')
fh.write('first line\nsecond line\nthird line')
fh.close()

fh = open('test.txt', 'r')
while True:
    line = fh.readline()
    if not line:
        break
    print(line)

fh.close()

В консоли будет вывод:

first
line

second
line

third
line

И аналогичный метод readlines, который читает весь файл полностью, но возвращает список строк, где элемент списка — это одна строка.

fh = open('test.txt', 'w')
fh.write('first line\nsecond line\nthird line')
fh.close()

fh = open('test.txt', 'r')
lines = fh.readlines()
print(lines)

fh.close()

Вывод в консоли будет:

['first line\n', 'second line\n', 'third line']

Обратите внимание, что все методы, которые читают файлы построчно, не опускают (удаляют) символ переноса строки.

Пусть у нас есть текстовый файл, который содержит данные с месячной заработной платой по каждому разработчику компании.

Пример файла:

Alex Korp,3000
Nikita Borisenko,2000
Sitarama Raju,1000

Как видим, структура файла — это фамилия разработчика и значение его заработной платы, разделенной запятой.

Разработайте функцию total_salary(path) (параметр path - путь к файлу), которая будет разбирать построчно файл и возвращать общую сумму заработной платы всех разработчиков компании.

Требования к задаче:

    функция total_salary возвращает значение типа float
    для чтения файла функция total_salary использует только метод readline
    мы пока не используем менеджер контекста with


In [43]:
def total_salary(path):
    fh = open('probe.txt', 'r')
    summ = []
    allsumm = 0
    while True:
        line = fh.readline()
        if not line:
            break
        else:
            count = 0
            count2 = 0
            for i in line:
                if i != ',':
                    count += 1
                else:
                    break
            for j in line:
                if j != '\n':
                    count2 += 1
                
        summ.append(line[count+1:count2])
    for i in summ:
        allsumm += float(i)
    fh.close()
    return allsumm


total_salary('F:\GoIT_Python_Project\GitHub\HomeWork\HW6\probe.txt')


6000.0

Запись в файл

В компании существует несколько отделов. Список сотрудников для каждого отдела имеет такой вид:

['Robert Stivenson,28', 'Alex Denver,30']

Это список строк с фамилией и возрастом сотрудника, разделенными запятыми.

Реализуйте функцию записи данных о сотрудниках компании в файл, чтобы информация о каждом сотруднике начиналась с новой строки.

Функция записи в файл write_employees_to_file(employee_list, path), где:

    path - путь к файлу.
    employee_list - список со списками сотрудников по каждому отделу, как в примере ниже:

[['Robert Stivenson,28', 'Alex Denver,30'], ['Drake Mikelsson,19']]

Требования:

    запишите содержимое employee_list в файл, используя режим "w".
    мы пока не используем менеджер контекста with
    каждый сотрудник должен быть записан с новой строки — т.е для предыдущего списка содержимое файла должно быть следующим:

Robert Stivenson,28
Alex Denver,30
Drake Mikelsson,19


In [57]:
def write_employees_to_file(employee_list, path):
    fh = open(path, 'w')
    for i in employee_list:
        for j in i:
            fh.write(j + '\n')
            
    fh.close()
    # return allsumm


write_employees_to_file([['Robert Stivenson,28', 'Alex Denver,30'], ['Drake Mikelsson,19']],'F:\GoIT_Python_Project\GitHub\HomeWork\HW6\probe.txt')


Задача. Прочитать записанный файл

В предыдущей задаче мы записали сотрудников в файл в следующем виде:

Robert Stivenson, 28
Alex Denver, 30
Drake Mikelsson, 19

Выполним теперь обратную задачу и создадим функцию read_employees_from_file(path), которая будет читать данные из файла и возвращать список сотрудников в виде:

['Robert Stivenson, 28', 'Alex Denver, 30', 'Drake Mikelsson, 19']

Помните про присутствие символа конца строки \n при чтении данных из файла. Его необходимо убирать при добавлении прочитанной строки в список.

Требования:

    прочтите содержимое файла, используя режим "r".
    мы пока не используем менеджер контекста with
    верните из функции список сотрудников из файла


In [67]:
def read_employees_from_file(path):
    fh = open(path, 'r')
    a = []
    lines = fh.readlines()
    for line in lines:
        line = line.rstrip('\n')
        a.append(line)
    fh.close()
    return a


read_employees_from_file(
    'F:\GoIT_Python_Project\GitHub\HomeWork\HW6\probe.txt')


['Robert Stivenson,28', 'Alex Denver,30', 'Drake Mikelsson,19']


Чтение файлов

Возможные режимы открытия файлов:
Режим 	Обозначение
'r' 	открытие на чтение (является значением по умолчанию).
'w' 	открытие на запись, содержимое файла удаляется, если файла не существует создается новый.
'x' 	открытие на запись, если файла не существует, иначе исключение.
'a' 	открытие на дозапись, информация добавляется в конец файла.
'b' 	открытие в двоичном режиме.
't' 	открытие в текстовом режиме (является значением по умолчанию).
'+' 	открытие на чтение и запись

Реализуйте функцию add_employee_to_file(record, path), которая в файл (параметр path - путь к файлу) будет добавлять сотрудника (параметр record) в виде строки "Drake Mikelsson, 19".

Требования:

    параметр record - сотрудник в виде строки вида "Drake Mikelsson, 19"
    каждая запись в файл должна начинаться с новой строки.
    необходимо, чтобы старая информация в файле тоже сохранялась, поэтому при работе с файлом, откройте файл в режиме "a", добавьте сотрудника record в файл и закройте его
    мы пока не используем менеджер контекста with


In [69]:
def add_employee_to_file(record, path):
    fh = open(path, 'a')
    fh.write(f"{record}\n")
    fh.close()

add_employee_to_file("Drake Mikelsson, 21",
                     'F:\GoIT_Python_Project\GitHub\HomeWork\HW6\probe.txt')


Менеджер контекста

Приложение может выполнять много операций между открытием и закрытием файла. В любом месте может случиться ошибка, и приложение завершится аварийно, не вернув файловый дескриптор системе. Такое поведение, как уже упоминалось, нежелательно и может приводить к потере данных.

Чтобы избежать этого, можно заключить блок кода, в котором происходит работа с файлом, в блок try ... except:

fh = open('text.txt')
try:
    some_useful_function(fh)
except:
    print('An error has occurred!')
finally:
    fh.close()

В этом примере мы вызвали функцию some_useful_function внутри блока try ... except и, если случится исключение, то обязательно выполнится блок finally, в котором файл будет закрыт. Этот подход гарантирует, что файловый дескриптор будет обязательно возвращен системе.

Но такой подход не слишком элегантный и читабельный.

Для улучшения читабельности кода при сохранении функционала можно воспользоваться менеджером контекста open. Менеджер контекста — это синтаксическая конструкция, которая улучшает читабельность кода, но не вносит никакого дополнительного функционала.

with open('text.txt', 'w+') as fh:
    some_useful_function(fh)

Менеджер контекста состоит из ключевого слова with, после которого вызывается собственно сам менеджер, и если что-то надо вернуть из менеджера, то это что-то можно передать в переменную, объявленную после ключевого слова as. Далее ставится двоеточие и блок кода, который будет выполнен внутри менеджера. В примере с try ... finally — это код, который идет внутри блока try. Когда код выполнится, менеджер контекста выполнит то, что должен сделать в любом случае, закрыть файл например (это то, что происходит в блоке finally).

Менеджер контекста open синтаксически полностью повторяет своего классического тезку open, они полностью идентичны с точки зрения использования.

С точки зрения работы, этот пример делает в точности то же самое, что и предыдущий с блоком try ... finally. Но вместо пяти строчек кода, вы можете написать две, и код выглядит более читабельным.

Такой способ работы с файлами является рекомендуемым в Python, поскольку гарантирует, что программист не забудет закрыть файл в любом случае.
Мы имеем следующую структуру файла:

60b90c1c13067a15887e1ae1,Tayson,3
60b90c2413067a15887e1ae2,Vika,1
60b90c2e13067a15887e1ae3,Barsik,2
60b90c3b13067a15887e1ae4,Simon,12
60b90c4613067a15887e1ae5,Tessi,5

Каждая запись состоит из трех частей и начинается с новой строки. Например, для первой записи начало 60b90c1c13067a15887e1ae1 — это первичный ключ базы данных MongoDB. Он всегда содержит 12 байт или ровно 24 символа. Дальше мы видим кличку кота Tayson и его возраст 3. Все части записи разделены символом запятая ,

Разработайте функцию get_cats_info(path), которая будет возвращать список словарей с данными кошек в виде:

[
    {"id": "60b90c1c13067a15887e1ae1", "name": "Tayson", "age": "3"},
    {"id": "60b90c2413067a15887e1ae2", "name": "Vika", "age": "1"},
    {"id": "60b90c2e13067a15887e1ae3", "name": "Barsik", "age": "2"},
    {"id": "60b90c3b13067a15887e1ae4", "name": "Simon", "age": "12"},
    {"id": "60b90c4613067a15887e1ae5", "name": "Tessi", "age": "5"},
]

Параметры функции:

    path - путь к файлу

Требования:

    прочтите содержимое файла, используя режим "r".
    мы используем менеджер контекста with
    верните из функции список кошек из файла в требуемом формате


            
    



In [172]:
def get_cats_info(path):
    a = []
    with open(path, 'r') as fh:
        lines = fh.readlines()
        for line in lines:
            line = line.rstrip('\n')
            line = line.split(',')
            a.append({'id': line[0], 'name': line[1], 'age': line[2]})
        print(a)
        

get_cats_info('F:\GoIT_Python_Project\GitHub\HomeWork\HW6\probe.txt')


[{'id': '60b90c1c13067a15887e1ae1', 'name': 'Tayson', 'age': '3'}, {'id': '60b90c2413067a15887e1ae2', 'name': 'Vika', 'age': '1'}, {'id': '60b90c2e13067a15887e1ae3', 'name': 'Barsik', 'age': '2'}, {'id': '60b90c3b13067a15887e1ae4', 'name': 'Simon', 'age': '12'}, {'id': '60b90c4613067a15887e1ae5', 'name': 'Tessi', 'age': '5'}]


In [None]:
Можете не використовувти readlines
Відразу
for line in fn:
+
Краще так:
id, name, age = string.split(",")
І далі в якийсь список result апендите відразу словники:
.append({"id": id, "name": name, "age": age})
і змінні створювати потрібно поза контекстним менеджером і return теж поза ним


In [None]:
def get_cats_info(path):
    with open(path, 'r') as fh:
        result = []
        while True:
            animal = fh.readline()

            if not animal:
                break
            animal2 = animal.replace('\n', '').split(',')
            result.append(
                {'id': animal2[0], 'name': animal2[1], 'age': animal2[2]})
        return result
