## Предыстория

Для сериализации объектов в языке `python` используется модуль [`pickle`](https://docs.python.org/3/library/pickle.html). Так с помощью этого модуля можно сохранять, например, модели машинного обучения или просто любые другие данные.

В директории `sphere_data` лежат несколько файлов с `python`-объектами, сериализованными с помощью `pickle`. Каждый файл имеет следующий формат:
* N – количество объектов в файле;
* последовательность из N словарей (`record`).

Пример формирования файла `sphere_data/part_*.pkl`:

```python
data = [...]

with open('sphere_data/part_00000.pkl', 'wb') as f_out:
    pickle.dump(len(data), f_out)
    for record in data:
        pickle.dump(data, f_out)
```

Каждый словарь имеет вид:
```python
record = {
    'app_id': int,
    'sequence': list,
    'sequence_cat': list,
    'sequence_len': int,
    'product': int,
    'flag': int,
}
```

* `app_id` – некоторый идентификатор, имеющий тип `int`.
* `sequence` – двумерный массив, внутренний массив имеет длину `sequence_len` и хранит элементы типа `float`; массив представляет собой список вложенных списков (`list`).
* `sequence_cat` – двумерный массив, аналогичный `sequence`, хранит элементы типа `int`;
* `sequence_len` – длина вложенных списков: `len(sequence[0]) == len(sequence_cat[0]) == sequence_len`.
* `product` и `flag` – некоторые категориальные переменные типа `int`.

Чтобы считать объект из файла используйте `pickle.load`.

## Задание

В данном задании требуется написать генератор
```python
def app_records(path='sphere_data', shuffle=False, random_state=None, chunk_size=100, max_sequence_len=750):
    pass
```

Генератор `app_records` может представлять собой генератор функцию или быть классом, реализующим механизм итерации. Вы можете выбрать наиболее удобный вариант для вас.

### Пункт 1. Основная логика

Генератор должен зачитывать данные из файлов, лежащих в директории `path`. Гарантируется, что все файлы в директории будут иметь формат, описанный выше и будут называться аналогично: `part_[0-9]{5}.pkl`. 

В случае, если `shuffle=False` требуется осортировать все файлы в директории `path` в лексикографическом порядке и отдавать по одной записи из каждого файла. Если очередной файл закончился, требуется открыть следующий файл, и начать отдавать данные из него.

Таким образом, с помощью, например, вот такого кода можно получить все записи из файлов в исходном порядке:
```python
reader = app_records(path='sphere_data', shuffle=False)
for record in reader:
    # do something with record
```

### Пункт 2. Перемешивание

Генератор должен уметь перемешивать порядок записей. В общем случае содержимое всех файлов может быть достаточно большим, что не поместится в оперативную память компьютера. В связи с этим предлагается реализовать следующий алгоритм псевдо-перемешивания:
* перемешиваем файлы (порядок, в котором будем их обрабатывать);
* считываем из перемешанных файлов `chunk_size` записей;
* перемешиваем считанные записи.

Далее генератор по-прежнему отдает записи по одной.

Для воспроизводимости результата перемешивания нужно использовать аргумент `random_state` (начальный seed). Для перемешивания лучше использовать модуль [`random`](https://docs.python.org/3/library/random.html), но допускается использование модуля [`numpy.random`](https://numpy.org/doc/stable/reference/random/index.html).

### Пункт 3.  Паддинг

Генератор должен делать паддинг для массивов `sequence` и `sequence_cat` (дополнение нулями), если длина вложенного списка меньше, чем `max_sequence_len`: `len(sequence[0]) < max_sequence_len`.

Пример:

```python
sequence = [
    [0, 3, 3, 1, 3, 1],
    [4, 3, 4, 3, 2, 3],
    [2, 0, 0, 3, 3, 2],
]

assert np.asarray(sequence).shape == (3, 6)
assert sequence_len == 6
assert max_sequence_len == 10
```

Тогда паддинг для массива `sequence` должен выглядеть как:

```python
sequence = [
    [0, 3, 3, 1, 3, 1, 0, 0, 0, 0],
    [4, 3, 4, 3, 2, 3, 0, 0, 0, 0],
    [2, 0, 0, 3, 3, 2, 0, 0, 0, 0],
]

assert np.assaray(sequence).shape == (3, 10)
```

Если `len(sequence[0]) > max_sequence_len`, то нужно обрезать массив до `max_sequence_len`.

Пример:

```python
sequence = [
    [0, 3, 3, 1, 3, 1],
    [4, 3, 4, 3, 2, 3],
    [2, 0, 0, 3, 3, 2],
]

assert np.asarray(sequence).shape == (3, 6)
assert sequence_len == 6
assert max_sequence_len == 4
```

Тогда обрезанный для массив `sequence` должен выглядеть как:

```python
sequence = [
    [0, 3, 3, 1],
    [4, 3, 4, 3],
    [2, 0, 0, 3],
]

assert np.assaray(sequence).shape == (3, 4)
```

В этом пункте обязательно использовать библиотеку `numpy` для работы с формой массива. Результат применения паддинга или обрезания массива должен быть `np.ndarray`.

In [61]:
import numpy as np
import re
import pickle
import random
from os import listdir
from os.path import isfile, join, getsize

In [66]:
# возвращает список непустых файлов с подходящими именами
def get_files(path):
    files = [f for f in listdir(path) if isfile(join(path, f))]
    cmp = re.compile('part_[0-9]{5}.pkl')
    return sorted([f for f in files if cmp.match(f) and getsize(join(path, f))]) 

In [100]:
# генератор - возвращает списки по count_of_records(или максимально возможное число) записей  
def get_records(path, count_of_records, shuffle=False):
    batch = [] 
    files = get_files(path)
    
    if count_of_records < 0:
        count_of_records = 100
    
    # перемешивание файлов
    if shuffle:
        random.shuffle(files)
        
    for file in get_files(path):
        loaded = 0
        with open(join(path, file), 'rb') as f:
            f_size  = pickle.load(f)
            while loaded < f_size:
                if len(batch) < count_of_records:
                    batch.append(pickle.load(f))
                    loaded += 1
                else:
                    yield batch
                    batch = []
    if batch:
        yield batch

In [101]:
def add_padding(record, max_len):
    if max_len < 0:
        return
    if record['sequence_len'] < max_len:
        record['sequence'] = np.pad(np.array(record['sequence']), \
                                    [(0, 0), (0, max_len - record['sequence_len'])], mode='constant') 
        record['sequence_cat'] = np.pad(np.array(record['sequence_cat']), \
                                    [(0, 0), (0, max_len - record['sequence_len'])], mode='constant')
    else:
        record['sequence'] = np.array(record['sequence'])[:,:max_len]
        record['sequence_cat'] = np.array(record['sequence_cat'])[:,:max_len]
    # в задании явно не оговорена необходимость изменения sequence_len при паддинге,
    # но это вытекает из логики работы с записями
    record['sequence_len'] = max_len

In [70]:
def app_records(path='sphere_data', shuffle=False, random_state=None, chunk_size=100, max_sequence_len=750):
    if random_state is not None:
        random.seed(random_state)
    
    if not shuffle:
        records = get_records(path, 1)
    else:
        records = get_records(path, chunk_size, shuffle)
    
    for records_bunch in records:
        if not shuffle:
            add_padding(records_bunch[0], max_sequence_len)
            yield records_bunch[0]
        else:
            random.shuffle(records_bunch)
            for record in records_bunch:
                add_padding(record, max_sequence_len)
                yield record

#### Some tests...

get_files()

In [71]:
get_files('sphere_data')

['part_00001.pkl',
 'part_00002.pkl',
 'part_00003.pkl',
 'part_00004.pkl',
 'part_00005.pkl',
 'part_00006.pkl',
 'part_00007.pkl',
 'part_00008.pkl',
 'part_00009.pkl']

padding

In [72]:
def get_a():
    a=dict()
    a['sequence'] = [[2.0, 2.0, 2.0], [2.0, 2.0, 2.0], [2.0, 2.0, 2.0]]
    a['sequence_cat'] = [[1, 1, 1], [1, 1, 1], [1, 1, 1]]
    a['sequence_len'] = 3
    return a

In [73]:
a = get_a()
add_padding(a, 7)
print(type(a['sequence']))
print(a)

<class 'numpy.ndarray'>
{'sequence': array([[2., 2., 2., 0., 0., 0., 0.],
       [2., 2., 2., 0., 0., 0., 0.],
       [2., 2., 2., 0., 0., 0., 0.]]), 'sequence_cat': array([[1, 1, 1, 0, 0, 0, 0],
       [1, 1, 1, 0, 0, 0, 0],
       [1, 1, 1, 0, 0, 0, 0]]), 'sequence_len': 7}


In [74]:
a = get_a()
add_padding(a, 2)
print(type(a['sequence']))
print(a)

<class 'numpy.ndarray'>
{'sequence': array([[2., 2.],
       [2., 2.],
       [2., 2.]]), 'sequence_cat': array([[1, 1],
       [1, 1],
       [1, 1]]), 'sequence_len': 2}


In [75]:
a = get_a()
add_padding(a, -56)
print(type(a['sequence']))
print(a)

<class 'list'>
{'sequence': [[2.0, 2.0, 2.0], [2.0, 2.0, 2.0], [2.0, 2.0, 2.0]], 'sequence_cat': [[1, 1, 1], [1, 1, 1], [1, 1, 1]], 'sequence_len': 3}


число записей

In [76]:
reader = app_records(path='sphere_data')
cnt = 0
for record in reader:
    cnt += 1
assert cnt==9000

In [77]:
reader = app_records(path='sphere_data', shuffle=True)
cnt = 0
for record in reader:
    cnt += 1
assert cnt==9000

In [98]:
reader = app_records(path='sphere_data', shuffle=True, chunk_size=89)
cnt = 0
for record in reader:
    cnt += 1
assert cnt==9000

In [99]:
reader = app_records(path='sphere_data', shuffle=True, chunk_size=129)
cnt = 0
for record in reader:
    cnt += 1
assert cnt==9000

c random_state

In [94]:
reader = app_records(path='sphere_data', shuffle=True, random_state=42)
cnt = 0
for record in reader:
    cnt += 1
    if cnt==5678:
        r1 = record

reader = app_records(path='sphere_data', shuffle=True, random_state=42)
cnt = 0
for record in reader:
    cnt += 1
    if cnt==5678:
        r2 = record
assert (r1['sequence']==r2['sequence']).all()

без random_state

In [97]:
reader = app_records(path='sphere_data', shuffle=True)
cnt = 0
for record in reader:
    cnt += 1
    if cnt==5678:
        r1 = record

reader = app_records(path='sphere_data', shuffle=True)
cnt = 0
for record in reader:
    cnt += 1
    if cnt==5678:
        r2 = record

assert (r1['sequence']!=r2['sequence']).any()