# Хождение по ~~мукам~~ папкам

Давайте вспомним функцию `os.listdir()`, которую мы узнали на прошлом занятии. Можно вывести список файлов в текущей папке:

In [2]:
import os
os.listdir('.')

['2017.04.10 Работа с файлами и папками.ipynb',
 '2017.04.03 Повторение, comprehensions, format.ipynb',
 '1_Лекция_Лингвистические электронные ресурсы.pdf',
 '2017.04.17 os.walk().ipynb',
 '.ipynb_checkpoints',
 'create_dirs_in_loop.py',
 'corpus_freq.xlsx',
 'Regex.pdf']

Можно вывести список файлов в папке уровнем выше:

In [3]:
os.listdir('..')

['kili.zip',
 'hw_repos',
 'spoken.txt',
 'tihiyd.txt',
 'KILI_nu.xlsx',
 'original',
 'ann2rnc_git.py~',
 'repositories Github (Responses).ods',
 'lat_rus.txt',
 'Google-Spreadsheets-basic.md',
 'example_repo',
 'about_life_stressed.2.txt',
 'скрины - гуглтаблицы',
 'transcripts',
 'prog_grades.ods',
 'sample_video_transcript.2.txt',
 'rnc',
 'brat2rnc',
 'КИЛИ и программирование.pdf',
 'stressed',
 'на бумажке.docx',
 'google-spreadsheets images',
 'sample_ana.txt',
 'output.txt',
 'prog_grades.xlsx',
 'repetition.txt',
 'raw_texts',
 'news.txt',
 'rur.txt',
 'example_webpage.html',
 'speakers',
 'Vojna i mir. Tom 1.txt',
 '20160905_Компьютерные группы - 1 курс.xlsx',
 'README.md',
 'seminars',
 '.git',
 'sample_speakers.txt',
 'images',
 'corpus-xml-example.txt']

В домашнем задании многие интересовались, нужно ли уметь заходить в папки и смотреть, какие файлы в них лежат. На самом деле, с питоном сделать это очень легко. Для этого используется другая функция, которая называется `os.walk()`. Как следует из её названия, она умееет "гулять по папкам".

In [4]:
file_tree = os.walk('.')
file_tree

<generator object walk at 0x7f86d803d830>

Эта функция устроена немного сложнее, чем те функции, с которыми мы работали раньше. Она возвращает пользователю целых три объекта -- `root, dirs и files`. В переменной `root` лежит путь к текущей папке, в переменной `dirs` лежат все папки, лежащие в текущей папке, а в переменной `files` лежат все файлы в текущей папке. 

Эту функцию нужно вызывать в цикле `for`, и тогда на каждом шаге цикла она будет переходить в новую папку, и переменные `root, dirs, files` будут модифицироваться соответствующим образом.

In [5]:
for d in file_tree:
    print(d)

('.', ['.ipynb_checkpoints'], ['2017.04.10 Работа с файлами и папками.ipynb', '2017.04.03 Повторение, comprehensions, format.ipynb', '1_Лекция_Лингвистические электронные ресурсы.pdf', '2017.04.17 os.walk().ipynb', 'create_dirs_in_loop.py', 'corpus_freq.xlsx', 'Regex.pdf'])
('./.ipynb_checkpoints', [], ['2017.04.17 os.walk()-checkpoint.ipynb', '2017.04.10 Работа с файлами и папками-checkpoint.ipynb'])


Давайте напечатаем все возможные пути к папкам в текущей директории:

In [5]:
for root, dirs, files in os.walk('.'):
    print(root)

.
./.ipynb_checkpoints
./BAWE
./BAWE/documentation
./BAWE/CORPUS_ASCII
./BAWE/CORPUS_TXT
./BAWE/CORPUS_UTF-8
./top_folder


Видно, что в текущей папке есть папки `.ipynb_checkpoints`, `BAWE` и `top_folder`. В папке `BAWE` есть папки `documentation, CORPUS_ASCII, CORPUS_TXT и CORPUS_UTF-8`.

Небольшое пояснение: BAWE расшифровывается как British Academic Written English, это корпус академических эссе, написанных в разных британских университетах.

Теперь давайте напечатаем, сколько файлов (не папок!) лежит в каждой папке:

In [6]:
for root, dirs, files in os.walk('.'):
    print(root, len(files), sep='  ---  ')

.  ---  7
./.ipynb_checkpoints  ---  2
./BAWE  ---  0
./BAWE/documentation  ---  3
./BAWE/CORPUS_ASCII  ---  2762
./BAWE/CORPUS_TXT  ---  2761
./BAWE/CORPUS_UTF-8  ---  2762
./top_folder  ---  0


Ну и наконец, можно смотреть на разные файлы, лежащие в папках. Например, выяснять, есть ли файлы с именем длиной больше 10 (не учитывая расширение):

In [7]:
i = 0
names = []
for root, dirs, files in os.walk('.'):
    for f in files:
        if len(f.split('.')[0]) > 10:
            i += 1
            names.append(f.split('.')[0])
print('Найдено {} файла(ов):'.format(i))
for name in names:
    print(name)

Найдено 2 файла(ов):
1_Лекция_Лингвистические электронные ресурсы
corpus_freq


Вот у меня в папке BAWE лежит корпус. Каждое эссе хранится в отдельном файле, а я хочу собрать информацию во всех из них. Эта задача решается с помощью os.walk(). Удобнее всего взять тексты, лежащие в каталоге CORPUS_TXT (потому что они в удобных текстовых файлах).

In [8]:
whole_corpus = ''
for root, dirs, files in os.walk('BAWE/CORPUS_TXT'):
    for f in files:
        if not f.endswith('.txt'):
            continue       # файлы с другими расширениями, не относящиеся к корпусу, нас не интересуют.
        with open(f, 'r', encoding='utf-8') as text:
            whole_corpus += text.read()

FileNotFoundError: [Errno 2] No such file or directory: '0003h.txt'

Как же так - нет такого файла? В нужной папке он вроде есть:

In [9]:
'0003h.txt' in os.listdir('BAWE/CORPUS_TXT')

True

На самом деле, функция `open` очень зависит от указанного пути к файлу. В переменной `files` пути к файлам не лежат, только сами имена файлов, и когда мы передаем их функции open, она ищет такой файл в корневой папке, а там его, конечно, нет.

Выход - берем путь к файлу из переменной `root`.

In [10]:
whole_corpus = ''
for root, dirs, files in os.walk('BAWE/CORPUS_TXT'):
    for f in files:
        if not f.endswith('.txt'):
            continue       # файлы с другими расширениями, не относящиеся к корпусу, нас не интересуют.
        with open(os.path.join(root, f), 'r', encoding='utf-8') as text:
            whole_corpus += text.read()

Теперь весь наш корпус записан в переменной `whole_corpus`. Можно грубо прикинуть, каков размер корпуса.

In [11]:
len(whole_corpus.split())

6639776

С помощью os.walk() можно не только ходить по папкам сверху вниз, но и снизу вверх. Тогда программа начнет с самой глубокой папки в текущем дереве папок:

In [12]:
for root, dirs, files in os.walk('.', topdown=False):
    print(root)

./.ipynb_checkpoints
./BAWE/documentation
./BAWE/CORPUS_ASCII
./BAWE/CORPUS_TXT
./BAWE/CORPUS_UTF-8
./BAWE
./top_folder
.


Ну и наконец, можно ограничить папки, которые нужно посетить в ходе работы функции `os.walk()`. Поскольку на каждом шаге функция переходит в одну из папок, которые хранятся в переменной `dirs`, если мы удалим что-нибудь из этой переменной, то функция туда не перейдёт.

Например, мы не хотим посещать скрытые папки (те, название которых начинается с точки):

In [13]:
for root, dirs, files in os.walk('.'):
    for d in dirs:
        if d.startswith('.'):
            dirs.remove(d)
    print(root)

.
./BAWE
./BAWE/documentation
./BAWE/CORPUS_ASCII
./BAWE/CORPUS_TXT
./BAWE/CORPUS_UTF-8
./top_folder


# Задания

1. Написать свою имплементацию функции shutil.rmtree() - то есть функцию, которая удаляет выбранную папку со всеми папками и файлами внутри неё.
2. Написать программу, которая рисует дерево текущей папки в таком виде:

  --folder1
        --folder4
              file4
              file5
        --folder5
  --folder2
        file2
        file3
  --folder3
  
3. Скачать [архив](https://cloud.mail.ru/public/4bTt/XB9er2e3U) и распаковать его. Это уже знакомый нам корпус BAWE. В папке CORPUS_TXT и CORPUS_UTF-8 лежат одни и те же тексты, только в CORPUS_UTF-8 они с разметкой, а в CORPUS_TXT без разметки. Представленные тексты принадлежат к разным дисциплинам: History, Sociology, Literature, etc. Вам нужно собрать корпуса эссе для каждой дисциплины и посчитать частотный список для каждого корпуса. Для этого вам нужно извлечь категорию эссе из xml-файлов в папке CORPUS_UTF-8, а затем взять файл с таким же именем в папке CORPUS_TXT и добавить его содержимое в соответствующий корпус.