# Перебор файлов в папке

### ПОСТАНОВКА ЗАДАЧИ. МНОГО ФАЙЛОВ

Данные могут приходить к нам в самом разном виде. Часто это не один файл, а целая папка со множеством файлов и не всегда предсказуемыми именами. Например, из базы данных на сетевой диск вам каждое утро могут выгружаться наборы CSV-файлов с такими именами:

Center_110000000043282_batch_0001.csv

...

Center_110000000043282_batch_0244.csv

SZ_120000000043282_batch_001.csv

...

SZ_120000000043282_batch_0173.csv

Конечно, можно узнать алгоритм формирования имен файлов и понять, что вначале идет название региона (Центр и Северо-Запад), его ID (11 и 12), потом дата (нули и 43282, т. е. 1 июля 2018) и номер файла выгрузки и попробовать в цикле перебирать каждый день все возможные названия этих файлов. Схема ненадежная, к тому же довольно часто предсказать ее невозможно.

### СПОСОБ ПОЛУЧШЕ

Более универсальным способом является использование библиотеки os, которая позволит вам автоматически получать содержимое папок, а также много крайне полезной информации о файлах, переменных окружения и других свойств вашей операционной системы. Мы будем использовать выгрузку архив файлов data.zip. Для удобства разархивируйте data.zip в папку data, а файл с кодом оставьте вне этой папки. Т. е. чтобы в папке с вашим кодом лежала папка "data", внутри которой будут 10 файлов из архива data.zip.

Наша задача — научиться автоматически считывать все файлы из папки data в датафрейм.

In [3]:
import os

Для получения списка файлов воспользуемся методом listdir. В качестве аргумента указываем папку 'data', результат работы метода запишем в переменную files:

In [42]:
files = os.listdir('data')
files

['ratings_1.txt',
 'ratings_10.txt',
 'ratings_2.txt',
 'ratings_3.txt',
 'ratings_4.txt',
 'ratings_5.txt',
 'ratings_6.txt',
 'ratings_7.txt',
 'ratings_8.txt',
 'ratings_9.txt']

In [50]:
mixed_files = [

'movies.csv',

'notes.txt',

'ratings.zip',

'ratings_1.txt',

'ratings_10.txt',

'ratings_2.txt',

'ratings_3.txt',

'ratings_6.txt',

'ratings_7.txt',

'ratings_8.txt',

'ratings_9.txt',

'subfolder'

]

Напишите алгоритм, который оставляет в списке mixed_files только файлы, содержащие 'ratings_' и 'txt'.

Сколько файлов, удовлетворяющих перечисленным условиям, содержится в списке mixed_files?

In [51]:
print (mixed_files)
j = 0
a = []
for i, item in enumerate (mixed_files):
    print(i, item)
    if item in files:
        j += 1 
        a.append(item)
        print('ОСТАВЛЯЕМ', str(item))
    else:
        #mixed_files.pop([i])
        print('DEL', mixed_files[i])
print(str(j))
a

['movies.csv', 'notes.txt', 'ratings.zip', 'ratings_1.txt', 'ratings_10.txt', 'ratings_2.txt', 'ratings_3.txt', 'ratings_6.txt', 'ratings_7.txt', 'ratings_8.txt', 'ratings_9.txt', 'subfolder']
0 movies.csv
DEL movies.csv
1 notes.txt
DEL notes.txt
2 ratings.zip
DEL ratings.zip
3 ratings_1.txt
ОСТАВЛЯЕМ ratings_1.txt
4 ratings_10.txt
ОСТАВЛЯЕМ ratings_10.txt
5 ratings_2.txt
ОСТАВЛЯЕМ ratings_2.txt
6 ratings_3.txt
ОСТАВЛЯЕМ ratings_3.txt
7 ratings_6.txt
ОСТАВЛЯЕМ ratings_6.txt
8 ratings_7.txt
ОСТАВЛЯЕМ ratings_7.txt
9 ratings_8.txt
ОСТАВЛЯЕМ ratings_8.txt
10 ratings_9.txt
ОСТАВЛЯЕМ ratings_9.txt
11 subfolder
DEL subfolder
8


['ratings_1.txt',
 'ratings_10.txt',
 'ratings_2.txt',
 'ratings_3.txt',
 'ratings_6.txt',
 'ratings_7.txt',
 'ratings_8.txt',
 'ratings_9.txt']

### ЧТЕНИЕ ВЛОЖЕННЫХ ПАПОК
Иногда приходится учитывать наличие вложенных папок с нужными файлами. Допустим, в папке data окажется вложенная папка subfolder с еще тремя файлами:

In [53]:
#Для получения файлов в таких случаях нам пригодится метод os.walk. Для удобства используем следующий синтаксис:

for root, dirs, files in os.walk('data'):
    print('Прохожу файлы папки {}'.format(root))
    print('Файлы в папке: {}'.format(files))
    print('Список внутренних папок: {}\n'.format(dirs))

Прохожу файлы папки data
Файлы в папке: ['ratings_1.txt', 'ratings_10.txt', 'ratings_2.txt', 'ratings_3.txt', 'ratings_4.txt', 'ratings_5.txt', 'ratings_6.txt', 'ratings_7.txt', 'ratings_8.txt', 'ratings_9.txt']
Список внутренних папок: ['Subfolder']

Прохожу файлы папки data\Subfolder
Файлы в папке: []
Список внутренних папок: []



### Упражнение

В результат выгрузки файлов из вложенных папок были получены списки файлов:

level_0 = ['ratings_1.txt', 'ratings_10.txt', 'ratings_2.txt']

level_1 = ['ratings_1_subfolder.txt', 'ratings_2_subfolder.txt', 'ratings_3_subfolder.txt']

level_2 = ['ratings_logs_001.txt', 'ratings_logs_002.txt', 'ratings_logs_003.txt']

Напишите кода для подсчета суммарного количества файлов в этих списках.

Сколько файлов будет в этих трех списках?

### ЧТЕНИЕ ФАЙЛОВ ИЗ ПАПКИ В ДАТАФРЕЙМ

Обратите внимание, что мы ни разу не задавали имя файла, т. к. получали его автоматически. Это очень удобный прием, когда вам заранее неизвестны названия файлов с данными. В следующем шаге мы объединим все файлы из папки в один датафрейм. Давайте сначала запишем первый файл из папки в датафрейм.

Поскольку мы получили только имена файлов, то нам теперь надо указывать методу pd.read_csv не только на имя файла, но и папку 'data', в которой лежит файл. Для того, чтобы объединять названия папок и имена файлов, можно воспользоваться удобным методом os.path.join (в нашем простом случае можно было объединить их через слэш, но в случае длинных адресов этот метод сэкономит вам много времени):

In [54]:
print(os.path.join('data', 'ratings_1.txt'))

data\ratings_1.txt


Проверим такой алгоритм на первом файле (обратите внимание, что мы ставим первый элемент листа с названиями файлов files[0]):

In [None]:
import pandas as pd

In [59]:
files = os.listdir('data')
data = pd.read_csv( os.path.join('data', files[0]) )
print (files)
print (data.shape)
data.head()

['ratings_1.txt', 'ratings_10.txt', 'ratings_2.txt', 'ratings_3.txt', 'ratings_4.txt', 'ratings_5.txt', 'ratings_6.txt', 'ratings_7.txt', 'ratings_8.txt', 'ratings_9.txt', 'Subfolder']
(9998, 4)


Unnamed: 0,1,31,2.5,1260759144
0,1,1029,3.0,1260759179
1,1,1061,3.0,1260759182
2,1,1129,2.0,1260759185
3,1,1172,4.0,1260759205
4,1,1263,2.0,1260759151


### Упражнение

Сейчас в нашем датафрейме data нет названий столбцов, что неудобно.

С помощью какого параметра метода read_csv их можно добавить, вручную указав имена?

 header  sep  +names  nrows

### РАЗМЕР ФАЙЛОВ В ПАПКЕ

С помощью библиотеки os можно автоматизировать огромное количество операций с файлами. Например, можно быстро оценить размер папки, из которой мы собираемся брать данные. В случае больших файлов это очень важно, т. к. при чтении файла в датафрейм (без опции построчного чтения) весь объем файла пишется в оперативную память компьютера. С помощью метода getsize можно получить размер файлов в байтах:

In [61]:
from os.path import join, getsize
for root, dirs, files in os.walk('data'):
    print('В байтах: ', sum(getsize(join(root, name)) for name in files))

В байтах:  2438233
В байтах:  0


# Склеивание датафреймов через concatenate

МЕТОД CONCAT

На прошлом шаге мы получили список файлов в папке и прочитали первый в датафрейм data. Давайте повторим процедуру для всех файлов и склеим все выгрузки в один датафрейм.

В этом нам поможет метод concat.

Этот метод позволяем склеивать два и более датафреймов в один. Например, если у нас есть датафреймы df1 и df2 с одинаковыми столбцами (обратите внимание, что название последнего столбца у них разное):

In [62]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 

                    'B': ['B0', 'B1', 'B2', 'B3'], 

                    'C': ['C0', 'C1', 'C2', 'C3'], 

                    'D': ['D0', 'D1', 'D2', 'D3']})


In [63]:
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'], 

                    'B': ['B4', 'B5', 'B6', 'B7'],

                    'C': ['C4', 'C5', 'C6', 'C7'],

                    'E': ['D4', 'D5', 'D6', 'D7']})

In [65]:
# Метод concat по умолчанию склеивает датафреймы вертикально, самостоятельно определяя одинаковые столбцы:
frames = [df1, df2]
a = pd.concat(frames)
a

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  This is separate from the ipykernel package so we can avoid doing imports until


Unnamed: 0,A,B,C,D,E
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
0,A4,B4,C4,,D4
1,A5,B5,C5,,D5
2,A6,B6,C6,,D6
3,A7,B7,C7,,D7


### Упражнение

У итогового датафрейма значения индекса дублируются. Каким методом его можно обновить?

In [70]:
a.reset_index(inplace = True) 
a

Unnamed: 0,index,A,B,C,D,E
0,0,A0,B0,C0,D0,
1,1,A1,B1,C1,D1,
2,2,A2,B2,C2,D2,
3,3,A3,B3,C3,D3,
4,0,A4,B4,C4,,D4
5,1,A5,B5,C5,,D5
6,2,A6,B6,C6,,D6
7,3,A7,B7,C7,,D7


### СКЛЕИВАНИЕ ДАТАФРЕЙМОВ ПО СТРОКАМ

Датафреймы при необходимости можно склеивать и горизонтально, изменив значение параметра axis с 0 на 1. При этом при объединении строки будут объединяться по одинаковому индексу:

In [71]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,E
0,A0,B0,C0,D0,A4,B4,C4,D4
1,A1,B1,C1,D1,A5,B5,C5,D5
2,A2,B2,C2,D2,A6,B6,C6,D6
3,A3,B3,C3,D3,A7,B7,C7,D7


### ОБЪЕДИНЕНИЕ ФАЙЛОВ В ДАТАФРЕЙМ

Итак, ранее мы прочитали содержимое одного файла с рейтингами в датафрейм. Список всех десяти файлов у нас лежит в списке files. Запишем содержимое всех файлов в датафрейм data.

Сначала создадим его:

In [17]:
data = pd.DataFrame(columns = ['userId', 'movieId', 'rating', 'timestamp'])
data.shape

(0, 4)

Для каждого имени файла filename будем записывать его содержимое в датафрейм temp. 

Допустим, имя текущего файла записано в переменную filename, тогда для его импорта в датафрейм используем переменную temp:

os.path.join
Метод join позволяет вам совместить несколько путей при помощи присвоенного разделителя. К примеру, в Windows, в роли разделителя выступает бэкслэш (косая черта, указывающая назад)


In [8]:
import os
import pandas as pd 
print( os.path.join(r'C:\Python27\Tools\pynche', 'ChipViewer.py') )
# C:\\Python27\\Tools\\pynche\\ChipViewer.py

C:\Python27\Tools\pynche\ChipViewer.py


In [6]:
files = os.listdir('data')
files[0]

'ratings_1.txt'

In [15]:
temp = pd.read_csv( os.path.join('data', files[0]), names = ['userId', 'movieId', 'rating', 'timestamp'] )
temp.shape

(9999, 4)

In [18]:
data.shape

(0, 4)

Наконец, для добавления содержимого очередного файла filename к основному датафрейму data останется использовать метод concat:

In [19]:
data = pd.concat([data, temp])
data.shape

(9999, 4)

In [20]:
len(files)

11

Использование временного датафрейма temp аналогично тому как мы прибавляем значение к переменной i в цикле: i = i + 1. Только вместо i у нас датафрейм data, а вместо единицы - temp.

### Домашнее задание

Напишите цикл, который собирает содержимое файлов папки data в единый датафрейм data.

Сколько строк получится в датафрейме data?

In [28]:
for i in range(0,len(files)-1):
    print (i)

0
1
2
3
4
5
6
7
8
9


In [27]:
data = pd.DataFrame(columns = ['userId', 'movieId', 'rating', 'timestamp'])
print(data.shape)
for i in range(0,len(files)-1):
    print (i)
    temp = pd.read_csv( os.path.join('data', files[i]), names = ['userId', 'movieId', 'rating', 'timestamp'] )
    data = pd.concat([data, temp])
    print(data.shape)

(0, 4)
0
(9999, 4)
1
(20004, 4)
2
(30004, 4)
3
(40004, 4)
4
(50004, 4)
5
(60004, 4)
6
(70004, 4)
7
(80004, 4)
8
(90004, 4)
9
(100004, 4)
