# Dask DataFrame

Материалы: 
* Макрушин С.В. Лекция 13: Dask DataFrame
* https://docs.dask.org/en/latest/dataframe.html
* JESSE C. DANIEL. Data Science with Python and Dask. 

In [1]:
import json
import re
from pathlib import Path

import dask.bag as db
import dask.dataframe as dd
import numpy as np
import pandas as pd

In [2]:
DATA_DIR = Path('data/')
OUTPUT_DIR = Path('output/')
if not OUTPUT_DIR.exists():
    OUTPUT_DIR.mkdir()

## Задачи для совместного разбора

1. Считать данные из файлов в каталоге `accounts`. Содержат ли какие-либо из столбцов пропуски?

In [3]:
accounts_df: dd.DataFrame = dd.read_csv(
    DATA_DIR.joinpath('accounts/accounts.*.csv'),
    sep=',',
    dtype={'id': np.uint16, 'names': object, 'amount': np.float32}
).persist()
accounts_df.head(5)

Unnamed: 0,id,names,amount
0,39,Victor,205.0
1,289,Hannah,87.0
2,234,Victor,1820.0
3,155,Ray,-600.0
4,266,Ray,572.0


In [4]:
accounts_df.isna().sum().compute()

id        0
names     0
amount    3
dtype: int64

2. Подсчитать количество раз, которое то или иное имя встретилось в выборке. Вывести самое часто встречающееся имя.

In [5]:
name_freq: pd.Series = accounts_df['names'].value_counts().compute()

In [6]:
print(name_freq.head(1))
name_freq

Norbert    188147
Name: names, dtype: int64


Norbert     188147
Alice       185892
George      183249
Tim         162432
Bob         157065
Michael     148372
Ingrid      132067
Oliver      121907
Quinn       118071
Wendy       110657
Charlie     109236
Ursula      108745
Hannah      108632
Ray         108610
Sarah       104781
Victor      102656
Frank        99984
Laura        97216
Jerry        96378
Xavier       94445
Edith        89991
Zelda        89047
Kevin        84784
Dan          73293
Patricia     62881
Yvonne       61462
Name: names, dtype: int64

3. Создать новую колонку, которая является результатом от деления значения `amount` нацело на 100, если `amount` > 100, и нулём в противном случае.

In [7]:
accounts_df['new_amount'] = accounts_df['amount'].map(lambda x: x // 100 if x > 100 else 0)

In [None]:
accounts_df.compute().sample(10).head(30)

In [None]:
del accounts_df

## Лабораторная работа 13

1. В архиве `recipes_full.zip` находятся файлы, содержащие информацию об рецептах блюд. Загрузите данные из файлов этого архива в виде `dd.DataFrame` с названием `recipes`. Укажите, что в столбце `submitted` содержатся даты.

In [None]:
recipes_df: dd.DataFrame = dd.read_csv(
    DATA_DIR.joinpath('recipes_full/recipes_full_*.csv'),
    sep=',',
    parse_dates=['submitted'],
    dtype={
        'id': np.uint32,
        'name': object,
        'minutes': np.float32,
        'contributor_id': np.uint32,
        'n_steps': np.float32,
        'description': object,
        'n_ingredients': np.uint32,
    }
)

2. Выведите метаинформацию о таблице: `npartitions` и типы столбцов.

In [None]:
print(recipes_df.npartitions)
print(recipes_df.dtypes)

3. Выведите на экран 5 первых строк таблицы. Выведите на экран 5 последних строк таблицы. В случае сообщения об ошибки объясните причину и исправьте ошибку.

In [None]:
recipes_df.head()

In [None]:
recipes_df.tail()

4. Посчитайте, сколько строк содержит каждый из блоков

In [None]:
recipes_df['id'].map_partitions(lambda partition: partition.count()).compute()

5. Найдите максимум в столбце `n_steps`. Визуализируйте граф вычислений для этой задачи. Прокомментируйте логику работы `dask` в этом случае.

In [None]:
n_steps_max = recipes_df['n_steps'].max()

In [None]:
n_steps_max.compute()

In [None]:
n_steps_max.visualize(filename=str(OUTPUT_DIR.joinpath('n_steps_max.png')))

6. Посчитайте количество отзывов с группировкой по месяцам добавления отзыва в базу.

In [None]:
submitted = recipes_df['submitted']
count = submitted.groupby(submitted.dt.month).count()

In [None]:
%%time

recipes_count = count.compute()

In [None]:
recipes_count

7. Считайте файлы из архива `reviews_full.zip` (__ЛР12__) в виде `dask.bag`. Пользуясь результатом лабораторной работы 12, рассчитайте среднее значение оценок отзывов с группировкой по месяцам. После завершения всех вычислений преобразуйте результат к `pd.Series`.

In [None]:
pattern = re.compile(r'^.*reviews_(\d+)\.json$')


def loads(element: tuple[str, str]) -> dict:
    data, path = element
    return {
        'month': int(json.loads(data)['date'][5:7]),
        'rating': int(pattern.match(path).groups()[0])
    }


reviews_bag = db.read_text(
    DATA_DIR.joinpath('reviews_full/*.json'),
    include_path=True,
    blocksize=30_000_000,
).map(loads)

reviews_bag.take(3)

In [None]:
mean = reviews_bag.foldby(
    lambda x: x['month'],
    lambda prev, curr: (prev[0] + 1, prev[1] + curr['rating']),
    (0, 0),
    lambda left, right: (left[0] + right[0], left[1] + right[1]),
    (0, 0)
)

In [None]:
%%time

mean_result = mean.compute()

In [None]:
mean_rating = pd.Series(
    map(lambda x: x[1][1] / x[1][0], mean_result),
    map(lambda x: int(x[0]), mean_result)
)
mean_rating

8. Пользуясь результатами решения задач 6 и 7, создайте `pd.DataFrame`, содержащий два столбца: `mean_rating`, `recipes_count`

In [None]:
pd.concat([
    mean_rating.rename('mean_rating'),
    recipes_count.rename('recipes_count')
], axis=1).sort_index()