# Работа с файлами

всего в питоне существует два типа файлов: текстовые и бинарные

### Текстовые

Это файлы с человекочитаемым содержимым. В них хранятся последовательности символов, которые понимает человек. Блокнот и другие стандартные редакторы умеют читать и редактировать этот тип файлов.

Текст может храниться в двух форматах: (.txt) — простой текст и (.rtf) — «формат обогащенного текста».

### Бинарные

В бинарных файлах данные отображаются в закодированной форме (с использованием только нулей (0) и единиц (1) вместо простых символов). В большинстве случаев это просто последовательности битов.

Они хранятся в формате .bin.

Любую операцию с файлом можно разбить на три крупных этапа:
1. Открытие файла
2. Выполнение операции (запись, чтение)
3. Закрытие файла

### Открытие файла

синтаксис
```
file = open(file_path, access_mode)
```

Access modes:
| Режим | Описание |
|:---|:---|
| r | Только для чтения |
| w | Только для записи. Создаст новый файл, если не найдёт с указанным именем |
| rb | Только для чтения (бинарный) |
| wb | Только для записи (бинарный). Создаст новый файл, если не найдёт с указанным именем |
| r+ | Для чтения и записи |
| rb+ | Для чтения и записи (бинарный) |
| w+ | Для чтения и записи. Создаст новый файл, если не найдёт с указанным именем |
| wb+ | Для чтения и записи (бинарный). Создаст новый файл, если не найдёт с указанным именем |
| a | Добавление в конец файла. Создаст новый файл, если не найдёт |
| a+ | Чтение и добавление в конец. Создаст новый файл, если не найдёт |
| ab | Добавление (бинарный). Создаст новый файл, если не найдёт |
| ab+ | Чтение и добавление (бинарный). Создаст новый файл, если не найдёт |

In [3]:
file = open('files/file.txt', 'r')

print(file) # вывод объекта файла
print(*file) # вывод содержимого файла

<_io.TextIOWrapper name='files/file.txt' mode='r' encoding='cp1252'>
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.


### Чтение и запись файлов

In [8]:
# функция read
file = open('files/file.txt', 'r')
print(file.read(5)) # можно указать количество читаемых символов
# но при повторном использовании функция начинает чтение с текущего положения указателя(5 + 1)
print(file.read())

# функция readline
file = open('files/text.rtf', 'r', encoding='utf-8')
print(file.readline())
print(file.readline(10)) # также можно указать количество читаемых символов

print(file.readlines()) # массив со всеми строками

Lorem
 ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.
Стеклянные сумерки осторожно впадали в реку, где механические рыбы читали газеты столетней давности.

Квадратный
[' ветер настойчиво шептал о пользе перпендикулярных мыслей, пока фиолетовый зонт пытался доказать свою принадлежность к высшей математике.\n', 'На завтрак подавали тишину с ароматом старой библиотеки и немного лишних смыслов.']


In [42]:
file = open('files/new_text.txt', 'w+', encoding='utf-8')

# функция write
file.write('Жёлтые звуки скрипели под ковром, стараясь не разбудить спящий понедельник.')

# функция writelines
lines = ['В углу комнаты рояль медленно превращался в партию в шахматы, где вместо фигур использовались вчерашние обещания и пуговицы от пальто невидимки.',
         'Сквозняк пах синим цветом и немного геометрией, а календарь упрямо показывал тридцать второе мартобря.']
file.writelines(lines)

In [40]:
# функция rename
import os

# os.rename(old path, new path)
os.rename('files/new_text.txt', 'files/new_textt.txt')

PermissionError: [WinError 32] The process cannot access the file because it is being used by another process: 'files/new_text.txt' -> 'files/new_textt.txt'

In [30]:
# текущая позиция в файле - tell

file = open('files/abc.txt', 'r', encoding='utf-8')
print(file.read(4))
print(file.tell()) # вывод позиции курсора
# file.seek(offset, whence)
# offset - сколько отсчитать
# whence - откуда:
# 0 - от начала файла
# 1 - от текущей позиции - только в бинарных файлах
# 2 - от конца файла - тоже только в бинарных файлах
file.seek(5, 0)
print(file.tell())

abc 
4
5


In [43]:
file = open('files/file.txt', 'r', encoding='utf-8')
# вывод дескриптора(уникального номера в системе) файла
print(file.fileno())

# Метод flush() принудительно выгружает данные из временного буфера памяти программы в реальный файл на диске или в консоль
file.flush()
# полезно для критически важных данных, если мы не хотим их потерять из-за ошибки в программе

# вернет True, если файл привязан к терминалу
print(file.isatty())

# вернет True, если файл поддерживает случайный доступ
print(file.seekable())

# уменьшает размер файла до заданного числа байт (только для бинарных файлов)
# file.truncate(15)


3
False
True


### Закрытие файла

необходимо для высвобождения ресурсов и уборки мусора. Питон сам закрывает файл, когда объект присваивается другому файлу

In [5]:
file = open('files/file.txt')
# 1 способ
file.close()

# 2 способ (более безопасный)
try:
    print('some operations')
    # операции с файлом
finally:
    file.close()

# 3 способ - with
# автоматическое закрытие файла после использования
with open('files/file.txt') as file:
    print(*file)
# файл закрылся

some operations


### Задачи

1. Создай текстовый файл text.txt со следующим содержимым:

```
Python
Machine Learning
Data Science
AI
```

Напиши код, который:

1. открывает файл

2. читает все строки

3. выводит их без символов перевода строки

In [58]:
with open('files/text.txt') as f:
    for line in f:
        print(line.strip())
    # немного не понял условие
    # lines = f.readlines()
    # print(' '.join(lines).replace('\n', ''))

Python

Machine Learning

Data Science

AI


2. Используя тот же файл text.txt:

считай строки

приведи их к нижнему регистру

запиши результат в новый файл clean_text.txt

In [34]:
with open('files/text.txt') as f:
    lines = [l.lower() for l in f.readlines()]

with open('files/clean_text.txt', 'w+') as new_file:
    new_file.writelines(lines)

3. Дан список:

numbers = [1, 2, 3, 4, 5]

Запиши его в файл numbers.txt так, чтобы в файле было:

1
2
3
4
5

(одно число — одна строка)

In [9]:
numbers = [1, 2, 3, 4, 5]

with open('files/numbers.txt', 'w+') as f:
    f.writelines([str(n) + '\n' for n in numbers])

4. Создай файл people.csv с содержимым:

name,age,city
Alice,25,Berlin
Bob,17,Paris
Charlie,30,Berlin

Напиши код, который:

читает файл

пропускает заголовок

создаёт список словарей вида:

[
  {"name": "Alice", "age": 25, "city": "Berlin"},
  ...
]

In [35]:
with open('files/people.csv') as csv_file:
    header = csv_file.readline().strip().split(',')
    lines = csv_file.readlines()

data = []
for i in range(len(lines)):
    line = lines[i].strip().split(',')
    data.append(dict([(header[h], line[h]) for h in range(len(header))]))

print(data)

[{'name': 'Alice', 'age': '25', 'city': 'Berlin'}, {'name': 'Bob', 'age': '17', 'city': 'Paris'}, {'name': 'Charlie', 'age': '30', 'city': 'Berlin'}]


5. Используя результат из задачи 4:

оставь только людей старше 18

выведи их имена

In [37]:
print([l['name'] for l in data if int(l['age']) > 18])

['Alice', 'Charlie']


6. Дан файл numbers.txt (из задачи 3).

Напиши код, который:

читает числа из файла

находит сумму, минимум и максимум

выводит результат в формате:

sum=15, min=1, max=5

In [56]:
with open('files/numbers.txt') as f:
    lines = []
    read_result = f.readline()
    while read_result != '':
        lines.append(int(read_result.strip()))
        read_result = f.readline()

print(f'sum={sum(lines)}, min={min(lines)}, max={max(lines)}')

sum=15, min=1, max=5
[1, 2, 3, 4, 5]


Что докрутить (важно для ML):

* сразу приводить типы при чтении (age → int, числа → int/float)
* чаще использовать итерацию for line in f вместо readline() в цикле
* режимы w/a/r выбирать осознанно (w+ обычно не нужен)
* поработать с библиотекой csv