# Основы программирования в Python
##  Работа с текстовыми файлами
*Автор: Татьяна Рогович, НИУ ВШЭ*


### Файловый ввод-вывод
Мы начинаем работать с файлами. Сейчас будем обсуждать только чтение и запись. О том, как запускать файлы на исполнение, отдельная история. Также для начала речь пойдёт о текстовых файлах или похожих на текстовые (например, код на Python или CSV-файл будет текстовым).

Как правило, если указать в Python не полный путь к файлу, а только его название, то он будет искать файл в рабочей директории. Как узнать, где это?

In [1]:
import os
os.getcwd()

'C:\\Users\\User\\ППО 2021'

Функция `getcwd()` из модуля `os` возвращает нам путь к вашей рабочей папке. Так, например, в Windows по умолчанию Anaconda делает рабочей папкой для Jupyter папку пользователя в Users. Если вы создали блокнот в какой-то другой папке — по умолчанию его директория и будет рабочей. Это можно изменить или глобально, прописав путь к вашей папке в свойствах, или локально в рамках сессии.

Функция `chdir()` принимает в качестве аргумента путь к папке и меняет рабочую директорию. Теперь к файлам, хранящимся в ней вы сможете обращаться без полного пути. Также все новые файлы будут сохраняться туда же.

In [5]:
os.chdir('C:\\Users\\User\\Desktop\\2020_HSE_SOC_PPO-master')
os.getcwd()

'C:\\Users\\User\\Desktop\\2020_HSE_SOC_PPO-master'

`listdir()` вернет нам список содержимого директории. Очень полезная функция  —  можно запустить цикл, если нужно обработать все файлы в папке.

In [6]:
os.listdir()

['.gitattributes',
 '1 Seminar',
 '1_Test',
 '2 Seminar',
 '2_Test',
 '3 Seminar',
 '4 Seminar',
 '5 Seminar',
 '6_Seminar',
 '7_Seminar',
 'README.md']

Давайте попробуем создать файл, записать в него что-нибудь и сохранить.

In [7]:
f = open("test.txt", 'w', encoding='utf8')

Функция `open()` возвращает файловый объект и мы используем ее обычно с двумя аргументами — имя файла и режим (например, запись или чтение). Выше мы открыли файл `test.txt` в режиме записи `'w'` (если такого файла не существовало, он будет создан).

Такой объект называется `file handle` или дескриптор файла.

![](https://www.py4e.com/images/handle.svg)  
Source: https://www.py4e.com/html3/07-files

Какие могут быть режимы открытия файла (mode):

* `'r'` — `read`, только чтение
* `'w'` — `write`, только запись (если файл с таким именем существовал, он будет удален).
* `'a'` — `append`, новые данные будут записаны в конец файла
* `'r+'` — чтение+запись.

Если не передать второй аргумент, то файл автоматически откроется в режиме чтения.

`encoding` — именнованный параметр, если работаете с кириллицей или языками со спецсимволами, то лучше задать `utf8`.

In [8]:
f.write('Hello, world!')
f.close()

Метод `write` записал данные в наш файл. После этого файл нужно закрыть, чтобы он выгрузился из оперативной памяти. Если этого не сделать, то в какой-то момент питоновский сборщик мусора все равно до него доберется и закроет файл, но большие файлы могут съедать достаточно много ресурсов, поэтому лучше за этим следить.

Теперь дававайте попробуем открыть в режиме чтения.

In [9]:
f = open("test.txt", 'r', encoding='utf8')
print(f.read())
f.close()

Hello, world!


После того, как мы закрыли файл, обратиться к нему больше нельзя.

In [10]:
f.read()

ValueError: I/O operation on closed file.

Хорошим тоном при работе с файлами считается открывать их с помощью ключевого слова `with`. Преимущество этого способа в том, что файл закроется автоматически, когда закончатся вложенные операции.

In [11]:
with open('test.txt') as f: # Открыли файл, не указали режим, по умолчанию — чтение
    read_data = f.read()    # Считали данные из файла в переменную
                            # Операции закончились, файл сам закрылся

In [12]:
print(read_data)

Hello, world!


А теперь попробуем записать в файл новые строки.

In [13]:
with open('test.txt', 'a') as f: # Открыли файл
    f.write('\n Is this an african swallow?\n Or an european swallow?') # Дозаписали строки в файл

Еще один вариант записать данные в файл вот так:

In [14]:
with open('test.txt', 'a') as f:
    print("\nAnd another string", file = f)

In [15]:
with open('test.txt') as f: 
    print(f.read())

Hello, world!
 Is this an african swallow?
 Or an european swallow?
And another string



Мы выше уже видели два метода файла `.write()` и `.read()`. Еще один метод, который очень часто используется — это `readline`. Он позволяет не загружать файл целиком в память, а считывать его построчно. Знаком остановки здесь будет выступать `\n`.

In [16]:
f = open('test.txt', 'r')
f.readline()

'Hello, world!\n'

In [17]:
f.readline()

' Is this an african swallow?\n'

`.readline()` — генератор. При обращении он выдает нам новую строку.

In [18]:
f.readline() # Вызвали третий раз

' Or an european swallow?\n'

In [19]:
f.close()

Также, чтобы прочитать все строки поочередно, можно запустить цикл. Тут не стоит забывать, что переменная `f`, хоть и прикидывается списком строк, когда мы её итерируем, на самом деле таковым не является. В действительности при открытии файла мы запоминаем позицию, на которой мы этот файл читаем. Изначально она указывает на самое начало файла, но с каждой итерацией сдвигается. Когда мы прочитаем файл целиком, дальнейшие попытки из него что-то прочитать ни к чему не приведут: указатель текущей позиции сдвинулся до самого конца и файл закончился.

In [20]:
f = open('test.txt', 'r')

for line in f:
    print(line, end='')
    
for line in f: # Обратите внимание, что этот цикл не выполняется
    print(line, end='')
    
f.close()

Hello, world!
 Is this an african swallow?
 Or an european swallow?
And another string


Файл можно перемотать на начало, если воспользоваться методом `.seek()`, который возвращается к символу на этой позиции.

In [21]:
f = open('test.txt', 'r')

for line in f:
    print(line, end='')

f.seek(0) # Вернули файл на начало    
    
for line in f: # Теперь печатает!
    print(line, end='')
    
f.close()

Hello, world!
 Is this an african swallow?
 Or an european swallow?
And another string
Hello, world!
 Is this an african swallow?
 Or an european swallow?
And another string


Если методу `read()` передать целое число, то питон прочитает только заданное количество символов или битов, если информация в файле записана в бинарном формате.

In [22]:
with open('test.txt') as f: 
    print(f.read(6))

Hello,


Чтобы считать все строки файла в список, можно вызвать список от файлового объекта или использовать метод `.readlines()`.

In [23]:
f = open('test.txt', 'r')
print(list(f))
f.close()

['Hello, world!\n', ' Is this an african swallow?\n', ' Or an european swallow?\n', 'And another string\n']


In [24]:
f = open('test.txt', 'r')
L = list(f)
f.close()
L

['Hello, world!\n',
 ' Is this an african swallow?\n',
 ' Or an european swallow?\n',
 'And another string\n']

In [27]:
f = open('test.txt', 'r')
print(f.readlines())
f.close()

['Hello, world!\n', ' Is this an african swallow?\n', ' Or an european swallow?\n', 'And another string\n']


# Задачи для тренировки
Часть из этих задач мы решим в классе. Но если мы даже не успеем  — попытайтесь сделать их дома сами.

### Задание 1. Обработка файла

Каждый пункт — разные задания, не нужно сразу умещать все в один код.

+ в файле mbox.txt есть строки формата "Date: Sat, 5 Jan 2008 09:12:18 -0500" — время, когда ушло письмо; напечатайте их
+ у каждого письма на самом деле две строки, начинающихся с 'Date: ', напечатайте только одну из них
+ напечатайте час, в который было отправлено каждое сообщение
+ (самое сложное) сделайте словарь, в который будете сохранять, в каком часу люди пишут письма (час от 0 до 23 — ключ, количество писем, написанных в это время, — значение)
+ напечатайте данные словаря в следующем виде "В NN часов было отправлено XX писем" (часы должны быть отсортированы по возрастанию)

In [2]:
with open('mbox.txt') as f:
    for line in f:
        if line.startswith('Date: '):
            print(line)
            break # закомментируйте или удалите break, если хотите увидеть весь вывод.

Date: Sat, 5 Jan 2008 09:12:18 -0500



In [3]:
with open('mbox.txt') as f:
    for line in f:
        if line.startswith('Date: ') and line.endswith(')\n'):
            print(line)
            break

Date: 2008-01-05 09:12:07 -0500 (Sat, 05 Jan 2008)



In [4]:
with open('mbox.txt') as f:
    for line in f:
        if line.startswith('Date: ') and line.endswith(')\n'):
            print(line.split()[2].split(':')[0])
            break

09


In [5]:
hours = {}

with open('mbox.txt') as f:
    for line in f:
        if line.startswith('Date: ') and line.endswith(')\n'):
            hours[line.split()[2].split(':')[0]] = hours.get(line.split()[2].split(':')[0], 0) + 1
            
for hour in sorted(hours):
    print(f'В {hour} часов было отправлено {hours[hour]} писем')

В 00 часов было отправлено 24 писем
В 01 часов было отправлено 10 писем
В 02 часов было отправлено 13 писем
В 03 часов было отправлено 17 писем
В 04 часов было отправлено 25 писем
В 05 часов было отправлено 11 писем
В 06 часов было отправлено 45 писем
В 07 часов было отправлено 41 писем
В 08 часов было отправлено 78 писем
В 09 часов было отправлено 164 писем
В 10 часов было отправлено 183 писем
В 11 часов было отправлено 149 писем
В 12 часов было отправлено 109 писем
В 13 часов было отправлено 119 писем
В 14 часов было отправлено 152 писем
В 15 часов было отправлено 178 писем
В 16 часов было отправлено 165 писем
В 17 часов было отправлено 96 писем
В 18 часов было отправлено 52 писем
В 19 часов было отправлено 48 писем
В 20 часов было отправлено 29 писем
В 21 часов было отправлено 37 писем
В 22 часов было отправлено 29 писем
В 23 часов было отправлено 16 писем
