# Python для исследователей

Автор: *Татьяна Рогович, НИУ ВШЭ*

## Работа с файлами в Python: чтение и запись текстовых файлов. 

## Файловый ввод-вывод
Мы начинаем работать с файлами. Сейчас будем обсуждать только чтение и запись. О том, как запускать файлы на исполнение, отдельная история. Также для начала речь пойдёт о текстовых файлах или похожих на текстовые (например, код на Python или CSV-файл будет текстовым).

Как правило, если указать в Python не полный путь к файлу, а только его название, то он будет искать файл в рабочей директории. Как узнать, где это?


In [2]:
import os
os.getcwd()

'C:\\@Rogovich\\@PythonData\\2019_2020_HSE\\2020_DPO_PythonProg\\6_Sorting_Files'

Функция `getcwd()` из модуля os возвращает нам путь к вашей рабочей папке. Так, например, в Windows по умолчанию Anaconda делает рабочей папкой для Jupyter папку пользователя в Users. если вы создали блокнот в какой-то другой папке - по умолчанию его директория и будет рабочей. Это можно изменить или глобально, прописав путь к вашей папке в свойствах, или локально в рамках сессии.

Функция `chdir()` принимает в качестве аргумента путь к папке и меняет рабочую директорию. Теперь к файлам, хранящимся в ней вы сможете обращаться без полного пути. Также все новые файлы будут сохраняться туда же.

In [3]:
os.chdir('C:\\@Rogovich\\@PythonData\\2019_2020_HSE\\2020_DPO_PythonProg\\6_Sorting_Files')
os.getcwd()

'C:\\@Rogovich\\@PythonData\\2019_2020_HSE\\2020_DPO_PythonProg\\6_Sorting_Files'

`.listdir()` вернет нам список содержимого директории. Очень полезная функция - можно запустить цикл, если нужно обработать все файлы в папке.

In [4]:
os.listdir()

['.ipynb_checkpoints',
 '2020_DPO_6_1_O_notation_sorting.ipynb',
 '2020_DPO_6_2_Files.ipynb',
 '2020_DPO_6_3_Html_Intro.ipynb',
 '2020_DPO_6_4_BS_Tables.ipynb',
 'html1.png',
 'html2.png',
 'html3.png',
 'html4.png',
 'html5.png',
 'mbox.txt',
 'nuclear.csv',
 'simple_table.html',
 'table.csv',
 'test.txt']

Давайте попробуем создать файл, записать в него что-нибудь и сохранить.

In [13]:
f = open("test.txt", 'w', encoding='utf8')

Функция `open()` возвращает файловый объект и мы используем ее обычно с двумя аргументами - имя файла и режим (например, запись или чтение). Выше мы открыли файл `test.txt` в режиме записи 'w' (если такого файла не существовало, он будет создан).

Такой объект называется file handle или дескриптор файла.

![](https://www.py4e.com/images/handle.svg)  
Source: https://www.py4e.com/html3/07-files

Какие могут быть режимы открытия файла (mode):

* 'r' - read, только чтение
* 'w' - write, только запись (если файл с таким именем существовал, он будет удален).
* 'a' - append, новые данные будут записаны в конец файла
* 'r+' - чтение+запись.

Если не передать второй аргумент, то файл автоматически откроется в режиме чтения.

Encoding - именнованный параметр, если работаете с кириллицей или языками со спецсимволами, то лучше задать utf8.

In [14]:
f.write('Hello, world!')
f.close()

Метод write записал данные в наш файл. После этого файл нужно закрыть, чтобы он выгрузился из оперативной памяти. Если этого не сделать, то в какой-то момент питоновский сборщик мусора все равно до него доберется и закроет файл, но большие файлы могут съедать достаточно много ресурсов, поэтому лучше за этим следить.

Теперь дававайте попробуем открыть в режиме чтения.

In [15]:
f = open("test.txt", 'r', encoding='utf8')
print(f.read())
f.close()

Hello, world!


После того, как мы закрыли файл, обратиться к нему больше нельзя.

In [16]:
f.read()

ValueError: I/O operation on closed file.

Хорошим тоном при работе с файлами считается открывать их с помощью ключевого слова with. Преимущество этого способа в том, что файл закроется автоматически, когда закончатся вложенные операции.

In [17]:
with open('test.txt') as f: # открыли файл, не указали режим, по умолчанию - чтение
    read_data = f.read() # считали данные из файла в переменную
# операции закончились, файл сам закрылся

In [18]:
print(read_data)

Hello, world!


А теперь попробуем записать в файл новые строки.

In [20]:
with open('test.txt', 'a') as f: # открыли файл
    f.write('\n Is this an african swallow?\n Or an european swallow?') # дозаписали строки в файл

Еще один вариант записать данные в файл вот так:

In [21]:
with open('test.txt', 'a') as f:
    print("\nAnd another string", file = f)

In [22]:
with open('test.txt') as f: 
    print(f.read())

Hello, world!
 Is this an african swallow?
 Or an european swallow?
 Is this an african swallow?
 Or an european swallow?
And another string



Мы выше уже видели два метода файла `.write()` и `.read()`. Еще один метод, который очень часто используется - это readline. Он позволяет не загружать файл целиком в память, а считывать его построчно. Знаком остановки здесь будет выступать `\n`

In [23]:
f = open('test.txt', 'r')
f.readline()

'Hello, world!\n'

In [24]:
f.readline()

' Is this an african swallow?\n'

`.readline()` - генератор. При обращении он выдает нам новую строку. 

In [25]:
f.readline() # вызвали третий раз

' Or an european swallow?\n'

In [26]:
f.close()

Также, чтобы прочитать все строки поочередно, можно запустить цикл. Тут не стоит забывать, что переменная f, хоть и прикидывается списком строк, когда мы её итерируем, на самом деле таковым не является. В действительности при открытии файла мы запоминаем позицию, на которой мы этот файл читаем. Изначально она указывает на самое начало файла, но с каждой итерацией сдвигается. Когда мы прочитаем файл целиком, дальнейшие попытки из него что-то прочитать ни к чему не приведут: указатель текущей позиции сдвинулся до самого конца и файл закончился.

In [27]:
f = open('test.txt', 'r')

for line in f:
    print(line, end='')
    
for line in f: # обратите внимание, что этот цикл не выполняется
    print(line, end='')
    
f.close()

Hello, world!
 Is this an african swallow?
 Or an european swallow?
 Is this an african swallow?
 Or an european swallow?
And another string


Файл можно перемотать на начало, если воспользоваться методом .seek(), который возвращается к символу на этой позиции.

In [28]:
f = open('test.txt', 'r')

for line in f:
    print(line, end='')

f.seek(0) # вернули файл на начало    
    
for line in f: # теперь печатает!
    print(line, end='')
    
f.close()

Hello, world!
 Is this an african swallow?
 Or an european swallow?
 Is this an african swallow?
 Or an european swallow?
And another string
Hello, world!
 Is this an african swallow?
 Or an european swallow?
 Is this an african swallow?
 Or an european swallow?
And another string


Если методу `read()` передать целое число, то питон прочитает только заданное количество символов или битов, если информация в файле записана в бинарном формате.

In [58]:
with open('test.txt') as f: 
    print(f.read(6))

Hello,


Чтобы считать все строки файла в список, можно вызвать список от файлового объекта или использовать метод .readlines().

In [59]:
f = open('test.txt', 'r')
print(list(f))
f.close()

['Hello, world!\n', ' Is this an african swallow?\n', ' Or an european swallow?\n', 'And another string\n']


In [60]:
f = open('test.txt', 'r')
print(f.readlines())
f.close()

['Hello, world!\n', ' Is this an african swallow?\n', ' Or an european swallow?\n', 'And another string\n']
