# Работа с файлами и папками при помощи Python

__Python__ умеет общаться с файловой системой компьютера и делать всякие операции с файлами и папками. Таким образом, с помощью питона можно
* Прочитать все файлы в одной папке
* Копировать, перемещать, переименовывать файлы
* Создавать папки
* Ходить по файлам и папкам внутри всего компьютера (об этом позже)

Мы уже пользовались дополнительными модулями, такими как `random` и `re`. Функции, работающие с файлами и папками, хранятся в нескольких модулях. Мы будем работать с модулями `os` (от *operation system*) и `shutil` (от *shell utilities*).

Модуль os умеет определять вашу операционную систему и работать с ней надлежащим образом. Например, в разных операционных системах по-разному пишутся пути в файлах и папках. На __Mac OS__ и __Linux__ путь пишется через `/` (например, `/home/user/Desktop/myfile.txt`), а в __Windows__ - через `\` (например, `C:\Users\student\Downloads\myfile.txt`). Поскольку в питоне обратный слэш является служебным символом, приходится ещё и экранировать: `C:\\Users\\student\\Downloads\myfile.txt`. Если программа была написана пользователем, работающим на __Windows__, и этот пользователь написал в программе абсолютные пути, используя обратный слэш, то на других операционных системах программа выдаст ошибку.
Чтобы избежать этиъ неприятностей, можно использовать функцию `os.path.join`. Эта функция принимает на вход имя папки и имя файла, а возвращает путь к файлу, записанный по стандарту той операционной системы, на которой выполняется программа.

In [15]:
print(os.path.join('folder', 'file.txt'))

folder/file.txt


## os.listdir()
Одна из распространенных задач - прочитать не один какой-то файл, а несколько файлов, лежащих в одной папке. Например, в папке с программой у нас есть папка `texts`, и в ней лежат несколько текстовых файлов, которые нужны нам для работы: `1.txt, 2.txt, 3.txt, 4.txt`. Можно, конечно, указать их имена в виде массива, и пройтись циклом по этому массиву, но можно использовать функцию `listdir` в модуле `os`, которая принимает в качестве аргумента путь к какой-то папке и возвращает массив с именами файлов, лежащих в этой папке.

In [8]:
import os
# вот плохой путь с заданием имен файлов внутри программы
folder = 'texts'
files = ['1.txt', '2.txt', '3.txt', '4.txt']
for f in files:
    with open(os.path.join(folder, f)) as text:
        print('file: ', f, '   text: ', text.read())

file:  1.txt    text:  1
file:  2.txt    text:  2
file:  3.txt    text:  3
file:  4.txt    text:  4


In [9]:
# вот хороший путь с использованием функции listdir
folder = 'texts'
print(os.listdir(folder))
for f in os.listdir(folder):
     with open(os.path.join(folder, f)) as text:
        print('file: ', f, '   text: ', text.read())

['1.txt', '2.txt', '4.txt', '3.txt']
file:  1.txt    text:  1
file:  2.txt    text:  2
file:  4.txt    text:  4
file:  3.txt    text:  3


Нужно не забывать к названию файла добавлять название папки, в которой он лежит - Python по умолчанию смотрит только на текущую папку (в которой лежит программа), и если файла там не найдется, программа выдаст ошибку.

In [16]:
for f in files:
    with open(f) as text:
        print('file: ', f, '   text: ', text.read())

FileNotFoundError: [Errno 2] No such file or directory: '1.txt'

С помощью функции `os.listdir()` можно также смотреть, какие файлы находятся в текущей папке. Для обозначения текущей папки используется точка (".")

In [19]:
os.listdir('.')

['2017.04.10 Работа с файлами и папками.ipynb',
 '2017.04.03 Повторение, comprehensions, format.ipynb',
 '1_Лекция_Лингвистические электронные ресурсы.pdf',
 '.ipynb_checkpoints',
 'corpus_freq.xlsx',
 'texts',
 'Regex.pdf']

Можно распечатать абсолютный путь к текущей папке.

In [41]:
os.path.abspath('.')

'/home/lizaku/Документы/Work/Programming-and-computer-instruments/seminars'

## os.mkdir()

__Python__ может также создавать папки. Для этого используется функция `os.mkdir()`. В качестве аргумента она принимает название папки.

In [24]:
print('before', os.listdir('.'))
os.mkdir('new_folder')
print('\nafter', os.listdir('.'))

before ['2017.04.10 Работа с файлами и папками.ipynb', '2017.04.03 Повторение, comprehensions, format.ipynb', '1_Лекция_Лингвистические электронные ресурсы.pdf', '.ipynb_checkpoints', 'corpus_freq.xlsx', 'texts', 'Regex.pdf']

after ['2017.04.10 Работа с файлами и папками.ipynb', '2017.04.03 Повторение, comprehensions, format.ipynb', '1_Лекция_Лингвистические электронные ресурсы.pdf', 'new_folder', '.ipynb_checkpoints', 'corpus_freq.xlsx', 'texts', 'Regex.pdf']


Если попытаться создать папку, которая уже существует, программа выдаст ошибку. Но можно заранее проверять, существует ли такая папка.

In [27]:
os.path.exists('new_folder')

True

Если папки не существует, можно тут же её и создать:

In [28]:
if not os.path.exists('new_folder2'):
    os.mkdir('new_folder2')

Возможно также создавать не одну папку, а целых несколько вместе, если нам нужны вложенные друг в друга папки. Для этого используется функция `os.makedirs()`.

In [42]:
path = 'a/long/long/long/path'
os.makedirs(path)

## shutil.copy(), shutil.move(), os.rename()

Окей, с папками вроде умеем работать. А что с файлами?

Файлы можно копировать и перемещать. Для этого используется уже другой модуль, модуль со смешным названием - shutil. В нем нам нужны функции `copy()` и `move()`. Аргументы у этих функций одинаковые:
* источник (*source*), или путь к файлу, который надо переместить/скопировать
* назначение (*destination*), или путь к папке, в которую файл надо переместить

Давайте скопируем файлы из папки `texts` в папку `new_texts`, предварительно создав такую папку.

In [38]:
import shutil
if not os.path.exists('new_texts'):
    os.mkdir('new_texts')
for f in os.listdir('texts'):
    shutil.copy(os.path.join('texts', f), 'new_texts')

Если попытаться переместить файлы в папку, где они уже существуют, то возникнет ошибка. Избежать её можно при помощи все той же функции `os.path.exists()`.

In [45]:
for f in os.listdir('texts'):
    shutil.move(os.path.join('texts', f), 'new_texts')

Error: Destination path 'new_texts/1.txt' already exists

Можно файлы никуда и не перемещать, а просто переименовать. Например, в папке texts я хочу добавить в начало имени каждого файла префикс `my`. Для этого используется функция `os.rename()`. Как и `shutil.copy()` и `shutil.move()`, эта функция принимает в качестве аргумента путь к файлу с первоначальным именем и путь к файлу с новым именем.

In [46]:
for f in os.listdir('texts'):
    os.rename(os.path.join('texts', f), os.path.join('texts', 'my' + f))
os.listdir('texts')

['my3.txt', 'my1.txt', 'my4.txt', 'my2.txt']

## os.path.isdir() и os.path.isfile()

С помощью питона можно также узнавать, заданный путь - это путь к папке или файлу? Для этого используются функции `os.isdir()` и `os.isfile()`. Они принимают на вход путь, а возвращают `True` или `False`.

In [51]:
# texts - это папка?
os.path.isdir('texts')

True

In [52]:
# А new_texts - то файл?
os.path.isfile('new_texts')

False

## os.remove(), os.rmdir() и shutil.rmtree()

Ну и конечно же, с помощью питона можно удалять отдельные файлы и целые папки. С помощью `os.rmdir()` можно удалить только пустую папку, а чтобы рекурсивно удалить непустую папку, нужна функция `rmtree()` из модуля `shutil`. Используйте новое знание с осторожностью!

In [55]:
# Удалим файлы в папке texts
for f in os.listdir('texts'):
    if os.path.isfile(f):
        os.remove(os.path.join('texts'), f)

In [59]:
# а теперь удалим все папки, которые мы насоздавали в процессе работы
for f in os.listdir():
    if os.path.isdir(f):
        shutil.rmtree(f)

# Задания

1. Пользователь вводит предложение на английском языке, и программа создает вложенные друг в друга папки, так чтобы путь к самой глубокой из них составлял введенное предложение. Например, если пользователь ввел предложение "It is a wonderful day", программа должна создать вложенные папки, и путь к последней из них должен быть "it/is/a/wonderful/day"
2. Пользователь вводит число, например, 3. Нужно создать количество папок в соответствии с введенным числом. В нашем случае это три папки, которые должны называться "1", "2", "3". В первой папке нужно создать один текстовый файл, во второй два файла, в третьей - три файла и т.д.
3. Распечатать названия всех объектов в текущей папке, которые являются папками, а не файлами.
4. Распечатать, сколько в заданной папке (например, в текущей) файлов с различными расширениями, например:
        txt        3
        csv        1
        xls        8
5. С помощью программы заглянуть во все папки по заданному пути и напечатать, в какой из них лежит больше всего файлов.
6. Открыть и прочитать все файлы с расширением .txt в заданной папке. Распечатать, сколько в них всего слов (можно просто делить по пробелам).