## Работа с файлами

До сих пор все объекты, которые мы создавали, хранились в оперативной памяти компьютера и удалялись из нее при закрытии программы. Чтобы результаты вычислений / обработки текста / чего угодно соранились, нужно записать их в файл. Питон позволяет это сделать, равно как и прочитать и загрузить в память информацию из файла.

### Чтение файлов
Отрыть файл можно с помощью функции `open()`, аргументами которой будут путь к файлу, режим доступа к файлу и кодировка. **Кодировки** -- это достаточно важная и полезная тема, [вот здесь](https://ancatmara.gitbooks.io/digital-literacy/content/seminar-2.html) можно познакомиться с ними поподробнее (кодировки начинаются примерно в середине конспекта, но для расширения кругозора можно прочитать всё :).

In [2]:
f = open('poem.txt', 'r', encoding='utf-8')

Но просто открыть файл мало: чтобы загрузить данные из него в память, нужно его прочитать с помощью `read()`.

In [3]:
poem = f.read()
print(poem)

***

Открыв наук зеленый том
я долго плакал, а потом
его закрыл и бросил в реку.
Науки вредны человеку.
науки втянут нас в беду
возьмемтесь лучше за еду.

<1933>

Даниил Хармс


После этого файл нужно обязательно закрыть!

In [4]:
f.close()

Но есть и другой способ -- использовать конструктор `with ... as`, и тогда закрывать файл вручную будет не нужно.

In [5]:
with open('poem.txt', 'r', encoding='utf-8') as f:
    poem = f.read()
    
f.closed # проверяем, закрыт ли файл

True

Когда мы доходим до строчки кода вне конструктора (без отступа), файл закрывается сам, и с ним больше нельзя работать. Однако мы записали его содержимое в переменную `poem`, которая теперь хранится в оперативной памяти, поэтому с ней работать можем. Например, распечатаем первые 30 символов нашего стихотворения. **NB!** Все содержимое текстового файла -- это, по сути, одна большая строка.

In [6]:
print(poem[:30])

***

Открыв наук зеленый том
я


Однако если в файле есть переносы строк, то можно прочитать его _построчно_. В этом нам поможет цикл `for` (вспоминаем предыдущий семинар!) Перенос строки обозначается символом **\n**, а в текстовых файлах, созданных под Windows -- **\r\n**.

In [7]:
# сколько строк в файле?

with open('poem.txt', 'r', encoding='utf-8') as f:
    for line in f:
        print("🐱", line, sep=' ', end='')

🐱 ***
🐱 
🐱 Открыв наук зеленый том
🐱 я долго плакал, а потом
🐱 его закрыл и бросил в реку.
🐱 Науки вредны человеку.
🐱 науки втянут нас в беду
🐱 возьмемтесь лучше за еду.
🐱 
🐱 <1933>
🐱 
🐱 Даниил Хармс

Кроме того, существует функция `readlines()`, которая позволяет прочитать файл построчно и записать строки в список.

In [8]:
with open('poem.txt', 'r', encoding='utf-8') as f:
    lines = f.readlines()
    
print(lines)

['***\n', '\n', 'Открыв наук зеленый том\n', 'я долго плакал, а потом\n', 'его закрыл и бросил в реку.\n', 'Науки вредны человеку.\n', 'науки втянут нас в беду\n', 'возьмемтесь лучше за еду.\n', '\n', '<1933>\n', '\n', 'Даниил Хармс']


### Режимы доступа к файлу

Ниже приведен полный список режимов доступа к файлу, но нам, скорее всего, понадобятся только режим чтения ('r'), режим записи ('w') и, возможно, режим добавления ('a').

**NB!** Информация в файле может быть представлена в виде текста, а может быть в виде байтов, т.е. в двоичном формате (такие файлы ещё называют бинарными). Во обозначениях режимов работы с бинарными файлами есть буква "b". Мы же пока что будем работать только с текстовыми файлами, а дополнительную информацию можно почитать, например, [вот здесь](http://pythonicway.com/python-fileio). 

Режим | Описание
------|---------
**r** |	Открывает файл только для чтения. Указатель стоит в начале файла.
r+ |	Открывает файл для чтения и записи. Указатель стоит в начале файла.
**w** |	Открывает файл только для записи. Указатель стоит в начале файла. Создает файл с именем имя-файла, если такового не существует.
w+ |	Открывает файл для чтения и записи. Указатель стоит в начале файла. Создает файл с именем filename, если такового не существует.
**a** |	Открывает файл для добавления информации в файл. Указатель стоит в конце файла. Создает файл с именем filename, если такового не существует.
a+ |	Открывает файл для добавления и чтения. Указатель стоит в конце файла. Создает файл с именем filename, если такового не существует.

### Запись в файл

Для записи данных в файл нужно открыть его в соответствующем режиме доступа, а затем использовать функцию `write()`.

In [9]:
text = "варкалось хливкие шорьки пырялись по наве и хрюкотали зелюки как мюмзики в мове о бойся бармаглота сын он так свирлеп и дик а в глyще рымит исполин злопастный брандашмыг\n"

with open('jabberwocky.txt', 'w', encoding='utf-8') as f:
    f.write(text)

Файл будет выглядеть так:
    
![](1.png)

Записывать что-то в файл на каждой итерации цикла тоже можно: разобъем наш текст на слова и запишем каждое из них на новой строке, а заодно и посмотрим режим доступа 'a', который позволяет дописывать новые данные в уже существующий файл.

In [10]:
words = text.split()

with open('jabberwocky.txt', 'a', encoding='utf-8') as f:
    for word in words:
        f.write(word + '\n') # не забываем про перенос строки, иначе все слова склеятся!

Получится вот так (в файле включено отображение скрытых значков, чтобы увидеть переносы строки; CR = \r, LF = \n).

![](2.png)

**NB!** Если открыть уже существующий файл в режиме 'w' и что-то туда записать, то все старое содержимое удалится! Поэтому и нужен специальный режим 'a'.

## Модуль os

Модуль os в Python предназначен для взаимодействия программы с операционной системой, в частности для управления файлами.

### Работа с файлами 

In [11]:
# сначала нужно обязательно импортировать модуль!
import os

# переименовываем файл
os.rename('jabberwocky.txt', 'Jabberwocky.txt')

# удаляем файл
os.remove('Jabberwocky.txt')

### Работа с папками

In [12]:
# посмотрим, в какой папке мы находимся
print(os.getcwd())

# а теперь посмотрим список файлов и папок внутри нее

for file in os.listdir('.'): # точка = текущая папка
    print(file)

C:\Users\ancatmara\Desktop\Projects\python-for-dh\Classes\7
.ipynb_checkpoints
1.png
2.png
Files.ipynb
poem.txt
poems


In [13]:
# а теперь поменяем рабочую директорию

os.chdir('..') # две точки = на уровень выше
os.getcwd()

'C:\\Users\\ancatmara\\Desktop\\Projects\\python-for-dh\\Classes'

Кроме того, можно создавать и удалять папки.

In [18]:
# создаем папку (если она уже есть, программа выдаст ошибку)
os.mkdir('./new')

# создаем несколько вложенных папок
os.makedirs('./new/texts/poems')

# удаляем все пустые папки (начиная с самой внутренней)
os.removedirs('./new/texts/poems')

# проверяем (подробнее об этом ниже)
os.path.exists('./new')

False

### Проверка наличия и типа объекта

In [14]:
os.chdir('./7')

# существует ли путь?
print(os.path.exists('Jabberwocky.txt'))

# Является ли объект пути обычным файлом? (существующим)
print(os.path.isfile('2.png'))

# Является ли объект пути обычной папкой? (существующей)
print(os.path.isdir('../4'))

False
True
True


### os.walk() и os.path.join()

Иногда нужно сделать что-нибудь со всеми файлами в текущей папке и вложенных в нее папках. Это можно сделать в цикле, используя функцию `os.walk()`. Вместе с ней будет часто требоваться функция `os.path.join()`, которая собирает полный путь к файлу из кусочков.

Напечатаем список всех файлов содержащихся внутри папок по заданному пути (учитывая вложенные подпапки).

**NB!** В любой операционной системе -- Windows, Linux, MacOS -- можно задать путь, разделяя папки с помощью слеша "\": `C:/Users/ancatmara/Desktop/Projects/python-for-dh/Classes`. В Windows по умолчанию используется обратный слеш, поэтому разделять папки можно с помощью двух обратных слешей (один -- разделитель, другой -- экранирующий его символ). Вот так: `C:\\Users\\ancatmara\\Desktop\\Projects\\python-for-dh\\Classes`.

In [15]:
# указываем путь к какой-либо папке на вашем компьютере
for root, dirs, files in os.walk('C:/Users/ancatmara/Desktop/Projects/python-for-dh/Classes'):
#     print(root)
#     print(dirs)
    for name in files:
        fullname = os.path.join(root, name)
        print(fullname)

C:/Users/ancatmara/Desktop/Projects/python-for-dh/Classes\1\cmd cheatsheet.md
C:/Users/ancatmara/Desktop/Projects/python-for-dh/Classes\1\DS_Store-gitignore.md
C:/Users/ancatmara/Desktop/Projects/python-for-dh/Classes\1\git_install_and_setup.md
C:/Users/ancatmara/Desktop/Projects/python-for-dh/Classes\1\NewYear_fairytale_or_memorizing_six_git_commands.md
C:/Users/ancatmara/Desktop/Projects/python-for-dh/Classes\1\theory (git + markdown).md
C:/Users/ancatmara/Desktop/Projects/python-for-dh/Classes\3\HW0.ipynb
C:/Users/ancatmara/Desktop/Projects/python-for-dh/Classes\3\Intro.ipynb
C:/Users/ancatmara/Desktop/Projects/python-for-dh/Classes\3\О_дз.md
C:/Users/ancatmara/Desktop/Projects/python-for-dh/Classes\4\Expressions & Conditionals.ipynb
C:/Users/ancatmara/Desktop/Projects/python-for-dh/Classes\5\Dictionaries & Functions.ipynb
C:/Users/ancatmara/Desktop/Projects/python-for-dh/Classes\5\.ipynb_checkpoints\Dictionaries & Functions-checkpoint.ipynb
C:/Users/ancatmara/Desktop/Projects/pytho

## Задание

1. Если вы не делали git pull или git clone: cкачать архив с текстовыми файлами [отсюда](https://www.dropbox.com/s/uvf5kuet958p0xt/poems.rar?dl=0) и распаковать его. Если делали, то все нужные файлы уже есть в папке poems.
2. Распечатать текущую директорию и список всех файлов и папок в ней. Посчитать и распечатать количество файлов.
3. Проверить, является ли файлом "гримм.txt"
4. Распечатать содержимое файла "кот.txt" целиком, а также список строк из файла "боль.txt"
5. Переименовать файл "кладь.txt"
6. Удалить файл "пушок.txt"
7. Пройтись циклом по рабочей директории, читая содержимое каждого файла и записывая его в новый файл poems.txt По завершении цикла должен получиться файл со всеми стихотворениями!
