# Форматы данных

Материалы:
* Макрушин С.В. "Форматы данных"
* https://docs.python.org/3/library/json.html
* https://docs.h5py.org/en/stable/
* https://www.crummy.com/software/BeautifulSoup/bs4/doc.ru/bs4ru.html
* Уэс Маккини. Python и анализ данных

## Задачи для совместного разбора

1. Вывести телефоны, содержащиеся в адресной книге `addres-book.json`

In [2]:
import json

with open(
    r"03_data_files_data\addres-book.json",
    "r",
    encoding="utf-8"
) as fp:
    # .... чего-то делаем
    book = json.load(fp)


In [3]:

book

[{'name': 'Faina Lee',
  'email': 'faina@mail.ru',
  'birthday': '22.08.1994',
  'phones': [{'phone': '232-19-55'}, {'phone': '+7 (916) 232-19-55'}]},
 {'name': 'Robert Lee',
  'email': 'robert@mail.ru',
  'birthday': '22.08.1994',
  'phones': [{'phone': '111-19-55'}, {'phone': '+7 (916) 445-19-55'}]}]

In [4]:
phones = []

for person in book:
    phones.extend(ph["phone"] for ph in person["phones"])
phones 

['232-19-55', '+7 (916) 232-19-55', '111-19-55', '+7 (916) 445-19-55']

2. По данным из файла `addres-book-q.xml` сформировать список словарей с телефонами каждого из людей. 

In [1]:
from bs4 import BeautifulSoup

with open(
    r"03_data_files_data\addres-book-q.xml",
    "r",
    encoding="utf-8"
) as fp:
    book = BeautifulSoup(fp)

addresses = book.find_all("address")
address = addresses[0]
phones = address.find_all("phone")
phone = phones[0]

phones = []

for address in addresses:
    phones.extend({"type": ph["type"], "number": ph.text} for ph in address.find_all("phone"))
phones



[{'type': 'work', 'number': '+ (213) 6150 4015'},
 {'type': 'personal', 'number': '+ (213) 2173 5247'},
 {'type': 'work', 'number': '+ (244-2) 325 023'},
 {'type': 'personal', 'number': '+ (244-2) 325 023'},
 {'type': 'personal', 'number': '+ (244) 4232 2836'},
 {'type': 'work', 'number': '+ (244-2) 325 023'},
 {'type': 'personal', 'number': '+ (244-2) 325 023'},
 {'type': 'work', 'number': '+ (54-11) 4784 1159'},
 {'type': 'work', 'number': '+ (61-2) 6274 9500'},
 {'type': 'personal', 'number': '+ (61-2) 6274 9513'},
 {'type': 'work', 'number': '+ (61-3) 9807 4702'}]

3. Создайте 2 матрицы размера 1000x1000, используя различные параметризируемые распределения из numpy (https://docs.scipy.org/doc/numpy-1.15.0/reference/routines.random.html#distributions)

После этого сохраните получившиеся матрицы в hdf5-файл в виде двух различных датасетов. В качестве описания каждого датасета укажите параметры используемых распределений 

In [4]:
import numpy as np

matrix1 = np.random.exponential(scale=2, size=(1000, 1000))
matrix2 = np.random.exponential(scale=20, size=(1000, 1000))

import h5py

with h5py.File(
    "test.h5",
    "w"
) as fp:
    group1 = fp.create_group("gr1")
    exp1 = group1.create_dataset("exp1", data=matrix1)
    exp1.attrs["description"] = "Sample from exp. distr with scale 2"
    
    exp2 = fp.create_dataset("exp2", data=matrix2)
    exp2.attrs["description"] = "Sample from exp. distr with scale 20"

# np.save()

with h5py.File(
    "test.h5",
    "r"
) as fp:
    print(fp.keys())
    exp1 = fp["gr1/exp1"]
    print(exp1)
    data = exp1[:100, :100]
    print(data)
    
# data2 = exp1[:100, :100]
data

<KeysViewHDF5 ['exp2', 'gr1']>
<HDF5 dataset "exp1": shape (1000, 1000), type "<f8">
[[1.47686713 0.04501563 0.91099547 ... 4.68139556 1.37240853 4.06499956]
 [0.72344896 3.70747659 1.22222605 ... 8.10468112 2.24924194 0.80962533]
 [0.16762837 1.65047069 0.008251   ... 2.00488281 1.57927609 2.07744004]
 ...
 [0.37105547 7.97880065 1.73734466 ... 0.21225129 4.64166867 0.26582638]
 [1.32837466 0.05297833 1.15234376 ... 1.50033969 2.06873579 5.5607743 ]
 [2.86341805 0.96908224 1.23894767 ... 0.99935194 1.14907149 0.26368513]]


array([[1.47686713, 0.04501563, 0.91099547, ..., 4.68139556, 1.37240853,
        4.06499956],
       [0.72344896, 3.70747659, 1.22222605, ..., 8.10468112, 2.24924194,
        0.80962533],
       [0.16762837, 1.65047069, 0.008251  , ..., 2.00488281, 1.57927609,
        2.07744004],
       ...,
       [0.37105547, 7.97880065, 1.73734466, ..., 0.21225129, 4.64166867,
        0.26582638],
       [1.32837466, 0.05297833, 1.15234376, ..., 1.50033969, 2.06873579,
        5.5607743 ],
       [2.86341805, 0.96908224, 1.23894767, ..., 0.99935194, 1.14907149,
        0.26368513]])

## Лабораторная работа №3

### JSON

1.1 Считайте файл `contributors_sample.json`, воспользовавшись модулем `json` и свяжите загруженные данные с переменной `contributors`. Выведите на экран уникальные почтовые домены, содержащиеся в почтовых адресах людей. Под доменом понимается часть адреса, следующая за символом `@`.

In [7]:
import json
with open(
    r"03_data_files_data\contributors_sample.json",
    "r",
    encoding="utf-8"
) as fp:
    contributors = json.load(fp)

In [9]:
data = set()
for el in contributors:
    ind = el['mail'].find('@')
    data.add(el['mail'][ind:])
data

{'@gmail.com', '@hotmail.com', '@yahoo.com'}

1.2 Посчитайте, как часто встречается та или иная должность во всем наборе данных. Выведите на экран 5 должностей, которые встречаются наиболее часто. Для каждого пользователя из `contributors` выясните, какая из его должностей является наиболее распространенной (в смысле частоты упоминания во всем датасете) и добавьте ключ `top_job`, в котором хранится название этой должности.

In [14]:
sp_of_jobs = []
for el in contributors:
    sp_of_jobs.extend(el['jobs'])

In [15]:
import pandas as pd
df = pd.DataFrame({'job': sp_of_jobs})

In [31]:
print("""=========
= TOP 5 =
=========""")
df.value_counts()[:5]

= TOP 5 =


job                           
Chemical engineer                 42
Bookseller                        41
Chief Operating Officer           41
Telecommunications researcher     41
Dance movement psychotherapist    41
dtype: int64

In [32]:
def top_work(list_of_jobs, top):
    return top[list_of_jobs].idxmax()[0]


In [34]:
for el in contributors:
    el['top_job'] = top_work(el['jobs'], df.value_counts())
contributors[0]

{'username': 'uhebert',
 'name': 'Lindsey Nguyen',
 'sex': 'F',
 'address': '01261 Cameron Spring\nTaylorfurt, AK 97791',
 'mail': 'jsalazar@gmail.com',
 'jobs': ['Energy engineer',
  'Engineer, site',
  'Environmental health practitioner',
  'Biomedical scientist',
  'Jewellery designer'],
 'id': 35193,
 'top_job': 'Environmental health practitioner'}

1.3 Создайте `pd.DataFrame` `contributors_df`, имеющий столбцы `id`, `username` и `sex` и `n_jobs`. Столбец `n_jobs` содержит кол-во должностей пользователя. При необходимости вы можете преобразовать исходные данные в списке `contributors` в удобный для создания `pd.DataFrame` вид.

Сгруппируйте полученные данные по столбцам `n_jobs` и `sex`. Выведите на экран серию `pd.Series`, в которой содержится информация о количестве человек в каждой группе.

In [35]:
dict_for_df = {'id':[], 'username': [], 'sex': [], 'n_jobs': []}
for el in contributors:
    dict_for_df['id'].append(el['id'])
    dict_for_df['username'].append(el['username'])
    dict_for_df['sex'].append(el['sex'])
    dict_for_df['n_jobs'].append(len(el['jobs']))

In [36]:
df = pd.DataFrame(dict_for_df)
df.head(2)

Unnamed: 0,id,username,sex,n_jobs
0,35193,uhebert,F,5
1,91970,vickitaylor,F,3


In [46]:
# Слегонца не понял, что конктретно тут имелось ввиду под
# сгруппировать
# Я вижу так:
df.groupby(['n_jobs', 'sex'])[['id']].count()

Unnamed: 0_level_0,Unnamed: 1_level_0,id
n_jobs,sex,Unnamed: 2_level_1
3,F,703
3,M,690
4,F,733
4,M,704
5,F,700
5,M,670


### XML

2.1 По данным файла `steps_sample.xml` сформируйте словарь с шагами по каждому рецепту вида `{id_рецепта: ["шаг1", "шаг2"]}`. Сохраните этот словарь в файл `steps_sample.json`. Выведите на экран шаги рецепта с id `84797`.

In [47]:
from bs4 import BeautifulSoup

with open(
    r"03_data_files_data\steps_sample.xml",
    "r",
    encoding="utf-8"
) as fp:
    book = BeautifulSoup(fp)



In [50]:
dict_for_steps = {}
for recipe in book.findAll('recipe'):
    dict_for_steps[recipe.find('id').text] = [el.text for el in recipe.findAll('step')]

In [53]:
dict_for_steps['84797']

['honey mustard sauce: whisk all the ingredients together serve warm or cold',
 'easy bbq sauce: combine all ingredients in a pot& cook over low heat until the sugar is dissolved',
 'serve warm or cold',
 'garlic dill sauce: mix all the ingredients and chill until ready to serve']

In [54]:
with open('steps_sample.json', 'w') as fp:
    json.dump(dict_for_steps, fp)

2.2 Получите список идентификаторов рецептов, в этапах выполнения которых есть информация о времени (часы или минуты). Для отбора подходящих рецептов обратите внимание на атрибуты соответствующих тэгов. Выведите на экран количество таких рецептов.

In [72]:
list_of_ind = set()
for recipe in book.findAll('recipe'):
    for step in recipe.findAll('step'):
        if step.get('has_minutes') == '1' or step.get('has_hours') == '1' :
            list_of_ind.add(recipe.find('id').text) 
list_of_ind = list(list_of_ind)
print(len(list_of_ind))         

23469


2.3 Загрузите данные из файла `recipes_sample.csv` (__ЛР2__) в таблицу `recipes`. Для строк, которые содержат пропуски в столбце `n_steps`, заполните этот столбец на основе файла  `steps_sample.xml`. Строки, в которых столбец `n_steps` заполнен, оставьте без изменений. При решении задачи не используйте метод `iterrows` и аналогичные ему, позволяющие итерироваться по таблице построчно.

Проверьте, содержит ли столбец `n_steps` пропуски. Если нет, то преобразуйте его к целочисленному типу и сохраните результаты в файл `recipes_sample_with_filled_nsteps.csv`

In [73]:
recipes = pd.read_csv(r'C:\Users\voval\YandexDisk\Вуз\ТОБД\ТОБД22-ПМ20-Материалы к семинарам\02_pandas\02_pandas_data\recipes_sample.csv')

In [74]:
from bs4 import BeautifulSoup

with open(
    r"03_data_files_data\steps_sample.xml",
    "r",
    encoding="utf-8"
) as fp:
    book = BeautifulSoup(fp)



In [108]:
dict_for_df = {'id': [], 'n_steps':[]}
for el in book.findAll('recipe'):
    dict_for_df['id'].append(int(el.find('id').text))
    dict_for_df['n_steps'].append(len(el.findAll('step')))


In [109]:
df = pd.DataFrame(dict_for_df['n_steps'], index=dict_for_df['id'])
df.head(2)

Unnamed: 0,0
44123,11
67664,3


In [110]:
recipes_without_nan = recipes.loc[recipes['n_steps'].dropna().index]

In [127]:
recipes_with_nan = recipes[np.isnan(recipes['n_steps'])]
del recipes_with_nan['n_steps']
recipes_with_nan.head(2)

Unnamed: 0,name,id,minutes,contributor_id,submitted,description,n_ingredients
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,an original recipe created by chef scott meska...,18.0
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,my children and their friends ask for my homem...,


In [128]:
recipes_with_nan['n_steps'] = np.array(df.loc[recipes_with_nan['id']])
recipes_with_nan.head(2)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  recipes_with_nan['n_steps'] = np.array(df.loc[recipes_with_nan['id']])


Unnamed: 0,name,id,minutes,contributor_id,submitted,description,n_ingredients,n_steps
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,an original recipe created by chef scott meska...,18.0,11
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,my children and their friends ask for my homem...,,3


In [130]:
result = pd.concat([recipes_with_nan, recipes_without_nan])
result

Unnamed: 0,name,id,minutes,contributor_id,submitted,description,n_ingredients,n_steps
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,an original recipe created by chef scott meska...,18.0,11.0
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,my children and their friends ask for my homem...,,3.0
2,i can t believe it s spinach,38798,30,1533,2002-08-29,"these were so go, it surprised even me.",8.0,5.0
3,italian gut busters,35173,45,22724,2002-07-27,my sister-in-law made these for us at a family...,,7.0
5,mennonite corn fritters,44045,15,41706,2002-10-25,ok - my heritage has been revealed. :) these a...,,6.0
...,...,...,...,...,...,...,...,...
29989,zucchini cheddar casserole,74023,50,89831,2003-10-24,this has been a long time family favorite!,8.0,14.0
29992,zucchini courgette soup good for weight watc...,415406,45,485109,2010-03-04,this is a favourite winter warmer. by british ...,,5.0
29994,zuppa by luisa,464576,70,226863,2011-09-20,this soup is a hearty meal! from luisa musso.,17.0,14.0
29995,zurie s holey rustic olive and cheddar bread,267661,80,200862,2007-11-25,this is based on a french recipe but i changed...,10.0,16.0


In [138]:
recipes.loc[[1,4], ['id', 'n_steps']]

Unnamed: 0,id,n_steps
1,67664,
4,84797,4.0


In [139]:
result.loc[[1,4], ['id', 'n_steps']]

Unnamed: 0,id,n_steps
1,67664,3.0
4,84797,4.0


In [140]:
result['n_steps'].isnull().sum()

0

In [141]:
result = result.astype({'n_steps': 'int32'})
result.dtypes

name               object
id                  int64
minutes             int64
contributor_id      int64
submitted          object
description        object
n_ingredients     float64
n_steps             int32
dtype: object

In [142]:
result.to_csv('recipes_sample_with_filled_nsteps.csv')

### hdf

3.1 Выведите названия всех датасетов, находящихся в файле `nutrition_sample.h5`, а также размерность матриц, содержащихся в данных датасетах и их метаданные.

Формат вывода:
```
Dataset name=dataset_0 n_rows=30000 n_cols=2 col_0=recipe_id col_1=calories (#)
Dataset name=dataset_1 n_rows=30000 n_cols=2 col_0=recipe_id col_1=total fat (PDV)
Dataset name=dataset_2 n_rows=30000 n_cols=2 col_0=recipe_id col_1=sugar (PDV)
...
```

In [164]:
import h5py
import numpy as np

with h5py.File(r'03_data_files_data\nutrition_sample.h5', 'r') as f:
    for key in f.keys():
        attr_keys = list(f[key].attrs.keys())
        
        print(f'Dataset name={key} n_rows={f[key][:].shape[0]} n_cols={f[key][:].shape[1]} {attr_keys[0]}={f[key].attrs[attr_keys[0]]} {attr_keys[1]}={f[key].attrs[attr_keys[1]]}')


Dataset name=dataset_0 n_rows=30000 n_cols=2 col_0=recipe_id col_1=calories (#)
Dataset name=dataset_1 n_rows=30000 n_cols=2 col_0=recipe_id col_1=total fat (PDV)
Dataset name=dataset_2 n_rows=30000 n_cols=2 col_0=recipe_id col_1=sugar (PDV)
Dataset name=dataset_3 n_rows=30000 n_cols=2 col_0=recipe_id col_1=sodium (PDV)
Dataset name=dataset_4 n_rows=30000 n_cols=2 col_0=recipe_id col_1=protein (PDV)
Dataset name=dataset_5 n_rows=30000 n_cols=2 col_0=recipe_id col_1=saturated fat (PDV)
Dataset name=dataset_6 n_rows=30000 n_cols=2 col_0=recipe_id col_1=carbohydrates (PDV)


3.2 Разбейте каждый из имеющихся датасетов на две части: 1 часть содержит только те строки, где PDV (Percent Daily Value) превышает 100%; 2 часть содержит те строки, где PDV составляет не более 100%. Создайте 2 группы в файле и разместите в них соответствующие части датасета c сохранением метаданных исходных датасетов. Итого должно получиться 2 группы, содержащие несколько датасетов. Датасеты, которые не содержат информацию о PDV, оставьте вне групп. Сохраните результаты в файл `nutrition_grouped.h5`.

In [191]:
datasets = []
not_df = []
with h5py.File(r'03_data_files_data\nutrition_sample.h5', 'r') as f:
    for key in f.keys():
        if '(PDV)' in f[key].attrs['col_1']:
            new_dataset = [key]
            new_dataset.append(f[key][f[key][:,1]>100])
            new_dataset.append(f[key][f[key][:,1]<=100])
            t1 = []
            t2 = []
            for el in f[key].attrs.keys():
                t1.append(el)
                t2.append(f[key].attrs[el])
            new_dataset.append(t1)
            new_dataset.append(t2)
            datasets.append(new_dataset)
        else:
            new_dataset = [key]
            new_dataset.append(f[key][:])
            t1 = []
            t2 = []
            for el in f[key].attrs.keys():
                t1.append(el)
                t2.append(f[key].attrs[el])
            new_dataset.append(t1)
            new_dataset.append(t2)
            not_df.append(new_dataset)

datasets[0]       

['dataset_1',
 array([[4.41230e+04, 1.08000e+02],
        [8.47970e+04, 1.54000e+02],
        [5.06620e+04, 3.25000e+02],
        ...,
        [8.00670e+04, 1.29000e+02],
        [7.14500e+04, 2.37000e+02],
        [2.67661e+05, 2.42000e+02]]),
 array([[6.76640e+04, 3.00000e+00],
        [3.87980e+04, 5.00000e+00],
        [3.51730e+04, 1.00000e+02],
        ...,
        [1.03312e+05, 8.70000e+01],
        [4.86161e+05, 2.60000e+01],
        [2.98512e+05, 1.10000e+01]]),
 ['col_0', 'col_1'],
 ['recipe_id', 'total fat (PDV)']]

In [192]:
not_df

[['dataset_0',
  array([[4.41230e+04, 8.04700e+02],
         [6.76640e+04, 1.64600e+02],
         [3.87980e+04, 5.38000e+01],
         ...,
         [1.03312e+05, 8.64100e+02],
         [4.86161e+05, 4.15200e+02],
         [2.98512e+05, 1.88000e+02]]),
  ['col_0', 'col_1'],
  ['recipe_id', 'calories (#)']]]

In [193]:
with h5py.File(r'nutrition_grouped.h5', 'w') as f:
    g1 = f.create_group("over_100")
    g2 = f.create_group("not_over_100")

    for el in datasets:
        d1 = g1.create_dataset(el[0], data = el[1])
        d2 = g2.create_dataset(el[0], data = el[2])
        d1.attrs[el[3][0]] = el[4][0]
        d1.attrs[el[3][1]] = el[4][1]
        d2.attrs[el[3][0]] = el[4][0]
        d2.attrs[el[3][1]] = el[4][1]
    for el in not_df:
        d1 = f.create_dataset(el[0], data = el[1])
        d1.attrs[el[2][0]] = el[3][0]
        d1.attrs[el[2][1]] = el[3][1]    

3.3 Выведите названия всех групп и датасетов, находящихся в этих группах, из файла `nutrition_grouped.h5` а также размерность матриц, содержащихся в датасетах и их метаданные.

Формат вывода:
```
Dataset name=dataset_0 n_rows=30000 n_cols=2 col_0=recipe_id col_1=calories (#)
Group less_equal_than_100:
    Dataset name=less_equal_than_100/dataset_1 n_rows=28264 n_cols=2 col_0=recipe_id col_1=total fat (PDV)
    ....
Group more_than_100
    Dataset name=more_than_100/dataset_1 n_rows=1736 n_cols=2 col_0=recipe_id col_1=total fat (PDV)
    ....
....
```

In [195]:
with h5py.File(r'nutrition_grouped.h5', 'r') as f:
    for key in f.keys():

        if isinstance(f[key], h5py._hl.dataset.Dataset):
            attr_keys = list(f[key].attrs.keys())
            print(f'Dataset name={key} n_rows={f[key][:].shape[0]} n_cols={f[key][:].shape[1]} {attr_keys[0]}={f[key].attrs[attr_keys[0]]} {attr_keys[1]}={f[key].attrs[attr_keys[1]]}')
        if isinstance(f[key], h5py._hl.group.Group):
            print(f'Group {key}')
            g = f[key]
            for key in g.keys():
                attr_keys = list(g[key].attrs.keys())
                print(f'\tDataset name={key} n_rows={g[key][:].shape[0]} n_cols={g[key][:].shape[1]} {attr_keys[0]}={g[key].attrs[attr_keys[0]]} {attr_keys[1]}={g[key].attrs[attr_keys[1]]}')


Dataset name=dataset_0 n_rows=30000 n_cols=2 col_0=recipe_id col_1=calories (#)
Group not_over_100
	Dataset name=dataset_1 n_rows=28264 n_cols=2 col_0=recipe_id col_1=total fat (PDV)
	Dataset name=dataset_2 n_rows=24684 n_cols=2 col_0=recipe_id col_1=sugar (PDV)
	Dataset name=dataset_3 n_rows=28756 n_cols=2 col_0=recipe_id col_1=sodium (PDV)
	Dataset name=dataset_4 n_rows=28224 n_cols=2 col_0=recipe_id col_1=protein (PDV)
	Dataset name=dataset_5 n_rows=27142 n_cols=2 col_0=recipe_id col_1=saturated fat (PDV)
	Dataset name=dataset_6 n_rows=29358 n_cols=2 col_0=recipe_id col_1=carbohydrates (PDV)
Group over_100
	Dataset name=dataset_1 n_rows=1736 n_cols=2 col_0=recipe_id col_1=total fat (PDV)
	Dataset name=dataset_2 n_rows=5316 n_cols=2 col_0=recipe_id col_1=sugar (PDV)
	Dataset name=dataset_3 n_rows=1244 n_cols=2 col_0=recipe_id col_1=sodium (PDV)
	Dataset name=dataset_4 n_rows=1776 n_cols=2 col_0=recipe_id col_1=protein (PDV)
	Dataset name=dataset_5 n_rows=2858 n_cols=2 col_0=recipe_id