# Форматы данных (2)

Материалы:
* Макрушин С.В. "Лекция 5: Форматы данных (часть 2)"
* https://docs.python.org/3/library/csv.html
* https://docs.h5py.org/en/stable/
* Уэс Маккини. Python и анализ данных

## Задачи для совместного разбора

1. Считайте данные из файла `open_pubs.csv`, используя `csv.reader`, и преобразуйте к структуре данных следующего вида:
    
`{'fas_id': [24, 30, ...], 'name': ['Achor Inn', 'Angel Inn', ...], ... }`

2. Сгенерируйте 2 случайные матрицы размера 10_000 x 10_000 и вычислите их произведение. Сколько времени занимают три этих операции? Сохраните 3 полученных матрицы в файл .npz с соответствующими названиями

3. Создайте 2 матрицы размера 1000x1000, используя различные параметризируемые распределения из numpy (https://docs.scipy.org/doc/numpy-1.15.0/reference/routines.random.html#distributions)

После этого сохраните получившиеся матрицы в hdf5-файл в виде двух различных датасетов. В качестве описания каждого датасета укажите параметры используемых распределений 

## Лабораторная работа 5

In [2]:
import csv
import json
import h5py
from collections import defaultdict
from datetime import datetime

import numpy as np
import pandas as pd

### csv

1.1 В файле `tags_sample.csv` находится информация о тэгах, приписываемых рецептам. Воспользовавшись `csv.reader`, считайте этот файл и создайте словарь вида `id_рецепта: [список тэгов]`. Сохраните этот словарь в файл `tags_sample.json`.

In [14]:
with open('data/tags_sample.csv') as file:
    reader = csv.reader(file)

    headers = next(reader)

    tags = defaultdict(list)
    for row in reader:
        tags[row[0]].append(row[1])
        

with open('data/tags_sample.json', mode='w') as file:
    json.dump(tags_sample, file)

1.2 Считайте файл `recipes_sample_with_filled_nsteps.csv` (__ЛР4__) в виде `pd.DataFrame`. Добавьте к таблице 2 столбца: `n_tags`, содержащий количество тэгов у этого рецепта; и `tags`, содержащий набор тэгов в виде строки (тэги внутри строки разделяются символом `;`)

In [39]:
recipes = pd.read_csv(
    '../04/data/recipes_sample_with_filled_nsteps.csv',
    sep=',',
    index_col=0,
    parse_dates=['submitted']
)

In [40]:
tags_df = pd.DataFrame([
    {
        'id': int(tag),
        'n_tags': len(tags[tag]),
        'tags': ';'.join(tags[tag])
    }
    for tag in tags
])

In [41]:
recipes_tags_df = pd.merge(
    recipes,
    tags_df,
    how='left',
    on='id'
)

recipes_tags_df

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,n_tags,tags
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,11,an original recipe created by chef scott meska...,18.0,25,weeknight;time-to-make;course;main-ingredient;...
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,3,my children and their friends ask for my homem...,,31,15-minutes-or-less;time-to-make;course;prepara...
2,i can t believe it s spinach,38798,30,1533,2002-08-29,5,"these were so go, it surprised even me.",8.0,17,30-minutes-or-less;time-to-make;course;main-in...
3,italian gut busters,35173,45,22724,2002-07-27,7,my sister-in-law made these for us at a family...,,11,60-minutes-or-less;time-to-make;course;prepara...
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4,i think a fondue is a very romantic casual din...,,19,30-minutes-or-less;time-to-make;course;main-in...
...,...,...,...,...,...,...,...,...,...,...
29995,zurie s holey rustic olive and cheddar bread,267661,80,200862,2007-11-25,16,this is based on a french recipe but i changed...,10.0,18,time-to-make;course;main-ingredient;cuisine;pr...
29996,zwetschgenkuchen bavarian plum cake,386977,240,177443,2009-08-24,22,"this is a traditional fresh plum cake, thought...",11.0,19,time-to-make;course;main-ingredient;cuisine;pr...
29997,zwiebelkuchen southwest german onion cake,103312,75,161745,2004-11-03,10,this is a traditional late summer early fall s...,,20,time-to-make;course;main-ingredient;cuisine;pr...
29998,zydeco soup,486161,60,227978,2012-08-29,7,this is a delicious soup that i originally fou...,,20,ham;60-minutes-or-less;time-to-make;course;mai...


1.3 В файле `ingredients_sample.csv` находится информация о ингредиентах, необходимых для рецепта. Воспользовавшись `csv.DictReader`, считайте этот файл и создайте словарь вида `id_рецепта: [список ингредиентов]`.

In [42]:
with open('data/ingredients_sample.csv') as file:
    reader = csv.DictReader(file)
    ingredients = defaultdict(list)
    for row in reader:
        ingredients[int(row['recipe_id'])].append(row['ingredient'])

1.4 Добавьте к таблице из задания 1.2 столбец `ingredients`, содержащий набор ингредиентов в виде строки (ингредиенты внутри строки разделяются символом `*`)

Для строк, которые содержат пропуски в столбце `n_ingredients`, заполните их на основе файла  `ingredients_sample.csv`

In [43]:
ingredients_df = pd.DataFrame([
    {
        'id': int(ingredient),
        'ingredients': '*'.join(ingredients[ingredient])
    }
    for ingredient in ingredients
])

In [44]:
ingredients_n_df = pd.DataFrame([
    {
        'id': int(ingredient),
        'n_ingredients': len(ingredients[ingredient])
    }
    for ingredient in ingredients
])

recipes_ingredients_df = pd.merge(
    recipes_tags_df,
    ingredients_df,
    how='left',
    on='id'
)

recipes_ingredients_df = recipes_ingredients_df.fillna(ingredients_n_df)
recipes_ingredients_df

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,n_tags,tags,ingredients
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,11,an original recipe created by chef scott meska...,18.0,25,weeknight;time-to-make;course;main-ingredient;...,unsalted butter*carrot*onion*celery*broccoli s...
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,3,my children and their friends ask for my homem...,6.0,31,15-minutes-or-less;time-to-make;course;prepara...,milk*frozen juice concentrate*plain yogurt
2,i can t believe it s spinach,38798,30,1533,2002-08-29,5,"these were so go, it surprised even me.",8.0,17,30-minutes-or-less;time-to-make;course;main-in...,onion*frozen chopped spinach*eggs*garlic powde...
3,italian gut busters,35173,45,22724,2002-07-27,7,my sister-in-law made these for us at a family...,8.0,11,60-minutes-or-less;time-to-make;course;prepara...,sandwich bun*good seasonings italian salad dre...
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4,i think a fondue is a very romantic casual din...,4.0,19,30-minutes-or-less;time-to-make;course;main-in...,beef steaks*vegetable oil*spicy mustard*fresh ...
...,...,...,...,...,...,...,...,...,...,...,...
29995,zurie s holey rustic olive and cheddar bread,267661,80,200862,2007-11-25,16,this is based on a french recipe but i changed...,10.0,18,time-to-make;course;main-ingredient;cuisine;pr...,dry white wine*eggs*cheddar cheese*baking powd...
29996,zwetschgenkuchen bavarian plum cake,386977,240,177443,2009-08-24,22,"this is a traditional fresh plum cake, thought...",11.0,19,time-to-make;course;main-ingredient;cuisine;pr...,unsalted butter*milk*flour*salt*vanilla*all-pu...
29997,zwiebelkuchen southwest german onion cake,103312,75,161745,2004-11-03,10,this is a traditional late summer early fall s...,2.0,20,time-to-make;course;main-ingredient;cuisine;pr...,onion*milk*eggs*butter*flour*salt*pepper*sugar...
29998,zydeco soup,486161,60,227978,2012-08-29,7,this is a delicious soup that i originally fou...,2.0,20,ham;60-minutes-or-less;time-to-make;course;mai...,onion*celery*dried thyme*dried oregano*fresh p...


1.5 Проверьте, содержит ли столбец `n_ingredients` пропуски. Если нет, треобразуйте его к целочисленному типу и сохраните результаты в файл `recipes_sample_with_tags_ingredients.csv`

In [45]:
if recipes_ingredients_df['n_ingredients'].isna().sum() == 0:
    recipes_ingredients_df['n_ingredients'] = recipes_ingredients_df['n_ingredients'].astype(int)
    recipes_ingredients_df.to_csv('data/recipes_sample_with_tags_ingredients.csv', sep=',')

### npy

2.1 Разделите таблицу, полученную в результате 1.5, на две таблицы: одна содержит рецепты, загруженные до 2000 года; вторая - все остальные. В полученных таблицах оставьте только числовые столбцы и преобразуйте их к `numpy.array`

In [62]:
mask = recipes_ingredients_df['submitted'] < datetime(2000, 1, 1)

recipes_ingredients_df.dtypes

before = recipes_ingredients_df[mask]._get_numeric_data().values
after = recipes_ingredients_df[~mask]._get_numeric_data().values

2.2. Сохраните 2 полученных массива в архив `npz`. Дайте массивам читаемые имена.

In [63]:
np.savez('data/arrays.npz', before=before, after=after)

2.3 Считайте созданный архив и продемонстрируйте, что данные считались корректно. 

In [69]:
with np.load('data/arrays.npz') as file:
    for arr in file:
        print(file[arr], '\n')

[[  3441     30   1562      8      8     10]
 [  4205     25   1617      3      5     14]
 [  3258      0   1534      8      6     20]
 ...
 [  3752      0   1535     13      4      9]
 [  4801     20   1598      4      7     18]
 [  2982      0 124030      6      6     13]] 

[[ 44123     90  35193     11     18     25]
 [ 67664     10  91970      3      6     31]
 [ 38798     30   1533      5      8     17]
 ...
 [103312     75 161745     10      2     20]
 [486161     60 227978      7      2     20]
 [298512     29 506822      9     10     12]] 



### hdf

3.1 Выведите названия всех датасетов, находящихся в файле `nutrition_sample.h5`, а также размерность матриц, содержащихся в данных датасетах и их метаданные.

Формат вывода:
```
Dataset name=dataset_0, dataset size=(30000,), metadata={'info': 'calories (#)'}
Dataset name=dataset_1, dataset size=(30000,), metadata={'info': 'total fat (PDV)'}
...
```

In [8]:
with h5py.File('data/nutrition_sample.h5', mode='r') as file:
    for dataset in file:
        print(file[dataset][:][0][1])
        print(f'Dataset {dataset}, dataset size={file[dataset].shape}, metadata={dict(file[dataset].attrs)}')
        print(file[dataset])

804.7
Dataset dataset_0, dataset size=(30000, 2), metadata={'col_0': 'recipe_id', 'col_1': 'calories (#)'}
<HDF5 dataset "dataset_0": shape (30000, 2), type "<f8">
108.0
Dataset dataset_1, dataset size=(30000, 2), metadata={'col_0': 'recipe_id', 'col_1': 'total fat (PDV)'}
<HDF5 dataset "dataset_1": shape (30000, 2), type "<f8">
26.0
Dataset dataset_2, dataset size=(30000, 2), metadata={'col_0': 'recipe_id', 'col_1': 'sugar (PDV)'}
<HDF5 dataset "dataset_2": shape (30000, 2), type "<f8">
19.0
Dataset dataset_3, dataset size=(30000, 2), metadata={'col_0': 'recipe_id', 'col_1': 'sodium (PDV)'}
<HDF5 dataset "dataset_3": shape (30000, 2), type "<f8">
28.0
Dataset dataset_4, dataset size=(30000, 2), metadata={'col_0': 'recipe_id', 'col_1': 'protein (PDV)'}
<HDF5 dataset "dataset_4": shape (30000, 2), type "<f8">
214.0
Dataset dataset_5, dataset size=(30000, 2), metadata={'col_0': 'recipe_id', 'col_1': 'saturated fat (PDV)'}
<HDF5 dataset "dataset_5": shape (30000, 2), type "<f8">
10.0
Data

3.2 Разбейте каждый из имеющихся датасетов на две части: 1 часть содержит только те строки, где PDV (Percent Daily Value) превышает 100%; 2 часть содержит те строки, где PDV не составляет не более 100%. Создайте 2 группы в файле и разместите в них соответствующие части датасета c сохранением метаданных исходных датасетов. Итого должно получиться 2 группы, содержащие несколько датасетов. Сохраните результаты в файл `nutrition_grouped.h5`

In [81]:
grouped_dsets.items()

FileNotFoundError: File d does not exist

3.3 Выведите названия всех групп и датасетов, находящихся в этих группах, из файла `nutrition_grouped.h5` а также размерность матриц, содержащихся в датасетах и их метаданные.

3.4 Модифицируйте код из 3.3 таким образом, чтобы сохранить датасеты, используя сжатие. Сравните размер полученного файла с размерами файла из 3.3. Прокомментируйте результат.