# СМОТРИМ СОДЕРЖИМОЕ АРХИВА
В папке data содержится набор из 10 файлов. В текущем примере это знакомый нам ratings.csv, разбитый на 10 частей.

В теории мы можем создать 10 датафреймов с 10 именами, загрузить в каждый по файлу и далее заняться их объединением. Но такой подход крайне непрактичен: что, если в следующий раз выгрузка будет состоять из 100 файлов? А может из сотен тысяч?

Давайте автоматизируем этот процесс. Импортируем библиотеку os:

In [2]:
import os

Для получения списка файлов воспользуемся методом listdir. В качестве аргумента указываем папку 'data', результат работы метода запишем в переменную files:

In [5]:
files = os.listdir('./module07_files/data')

In [6]:
files

['ratings_1.txt',
 'ratings_10.txt',
 'ratings_2.txt',
 'ratings_3.txt',
 'ratings_4.txt',
 'ratings_5.txt',
 'ratings_6.txt',
 'ratings_7.txt',
 'ratings_8.txt',
 'ratings_9.txt']

In [23]:
!dir module07_files\data\

 Том в устройстве F не имеет метки.
 Серийный номер тома: 7AD8-F05F

 Содержимое папки F:\My_projects\Programming_courses\jupyter\Skill_factory\module07\module07_files\data

04.12.2018  13:42    <DIR>          .
04.12.2018  13:42    <DIR>          ..
04.12.2018  13:42           234 472 ratings_1.txt
04.12.2018  13:42           246 642 ratings_10.txt
04.12.2018  13:42           240 333 ratings_2.txt
04.12.2018  13:42           246 483 ratings_3.txt
04.12.2018  13:42           244 903 ratings_4.txt
04.12.2018  13:42           244 788 ratings_5.txt
04.12.2018  13:42           245 601 ratings_6.txt
04.12.2018  13:42           247 384 ratings_7.txt
04.12.2018  13:42           242 449 ratings_8.txt
04.12.2018  13:42           245 178 ratings_9.txt
              10 файлов      2 438 233 байт
               2 папок  102 326 804 480 байт свободно


# Упражнение
(1 возможный балл)
В одной из выгрузок оказалось, что в папке data лежат и другие файлы:

In [24]:
mixed_files = [
'movies.csv',
'notes.txt',
'ratings.zip',
'ratings_1.txt',
'ratings_10.txt',
'ratings_2.txt',
'ratings_3.txt',
'ratings_6.txt',
'ratings_7.txt',
'ratings_8.txt',
'ratings_9.txt',
'subfolder'
]

Напишите алгоритм, который оставляет в списке mixed_files только файлы, содержащие 'ratings_' и 'txt'.

Сколько файлов, удовлетворяющих перечисленным условиям, содержится в списке mixed_files?

In [26]:
len([file for file in mixed_files if ('ratings_' in file) and ('txt' in file)])

8

# ЧТЕНИЕ ВЛОЖЕННЫХ ПАПОК
Иногда приходится учитывать наличие вложенных папок с нужными файлами. Допустим, в папке data окажется вложенная папка subfolder с еще тремя файлами:

Для получения файлов в таких случаях нам пригодится метод os.walk. Для удобства используем следующий синтаксис:

In [27]:
for root, dirs, files in os.walk('./module07_files/data'):
    print('Прохожу файлы папки {}'.format(root))
    print('Файлы в папке: {}'.format(files))
    print('Список внутренних папок: {}\n'.format(dirs))

Прохожу файлы папки ./module07_files/data
Файлы в папке: ['ratings_1.txt', 'ratings_10.txt', 'ratings_2.txt', 'ratings_3.txt', 'ratings_4.txt', 'ratings_5.txt', 'ratings_6.txt', 'ratings_7.txt', 'ratings_8.txt', 'ratings_9.txt']
Список внутренних папок: []



# Упражнение
(1 возможный балл)
В результат выгрузки файлов из вложенных папок были получены списки файлов:

In [28]:
level_0 = ['ratings_1.txt', 'ratings_10.txt', 'ratings_2.txt']

level_1 = ['ratings_1_subfolder.txt', 'ratings_2_subfolder.txt', 'ratings_3_subfolder.txt']

level_2 = ['ratings_logs_001.txt', 'ratings_logs_002.txt', 'ratings_logs_003.txt']

Напишите кода для подсчета суммарного количества файлов в этих списках.

Сколько файлов будет в этих трех списках?

In [30]:
len(level_0+level_1+level_2)

9

# ЧТЕНИЕ ФАЙЛОВ ИЗ ПАПКИ В ДАТАФРЕЙМ
Обратите внимание, что мы ни разу не задавали имя файла, т. к. получали его автоматически. Это очень удобный прием, когда вам заранее неизвестны названия файлов с данными. В следующем шаге мы объединим все файлы из папки в один датафрейм. Давайте сначала запишем первый файл из папки в датафрейм.

Поскольку мы получили только имена файлов, то нам теперь надо указывать методу pd.read_csv не только на имя файла, но и папку 'data', в которой лежит файл. Для того, чтобы объединять названия папок и имена файлов, можно воспользоваться удобным методом os.path.join (в нашем простом случае можно было объединить их через слэш, но в случае длинных адресов этот метод сэкономит вам много времени):

In [32]:
print(os.path.join('./module07_files/data/', 'ratings_1.txt'))

./module07_files/data/ratings_1.txt


Проверим такой алгоритм на первом файле (обратите внимание, что мы ставим первый элемент листа с названиями файлов files[0]):

In [33]:
import pandas as pd

In [35]:
files = os.listdir('./module07_files/data')

data = pd.read_csv( os.path.join('./module07_files/data', files[0]) )

data.head()

Unnamed: 0,1,31,2.5,1260759144
0,1,1029,3.0,1260759179
1,1,1061,3.0,1260759182
2,1,1129,2.0,1260759185
3,1,1172,4.0,1260759205
4,1,1263,2.0,1260759151


# Упражнение
(1 возможный балл)
Сейчас в нашем датафрейме data нет названий столбцов, что неудобно.

С помощью какого параметра метода read_csv их можно добавить, вручную указав имена?

In [40]:
data = pd.read_csv(os.path.join('./module07_files/data', files[0]), names=['1', '2', '3', '4'])

data.head()

Unnamed: 0,1,2,3,4
0,1,31,2.5,1260759144
1,1,1029,3.0,1260759179
2,1,1061,3.0,1260759182
3,1,1129,2.0,1260759185
4,1,1172,4.0,1260759205


# РАЗМЕР ФАЙЛОВ В ПАПКЕ
С помощью библиотеки os можно автоматизировать огромное количество операций с файлами. Например, можно быстро оценить размер папки, из которой мы собираемся брать данные. В случае больших файлов это очень важно, т. к. при чтении файла в датафрейм (без опции построчного чтения) весь объем файла пишется в оперативную память компьютера. С помощью метода getsize можно получить размер файлов в байтах:

In [42]:
from os.path import join, getsize

for root, dirs, files in os.walk('./module07_files/data'):

    print(sum(getsize(join(root, name)) for name in files))

2438233


# Упражнение
(1 возможный балл)
Если вы выделите все 10 файлов с рейтингами в файловом менеджере Explorer в Windows, то их размер в мегабайтах будет равен 2.32. А в нашем расчете получилось 2 438 233 байт. Какой вариант верный?