# Форматы данных

Материалы:
* Макрушин С.В. "Форматы данных"
* https://docs.python.org/3/library/json.html
* https://docs.h5py.org/en/stable/
* https://www.crummy.com/software/BeautifulSoup/bs4/doc.ru/bs4ru.html
* Уэс Маккини. Python и анализ данных

## Задачи для совместного разбора

1. Вывести телефоны, содержащиеся в адресной книге `addres-book.json`

In [1]:
import json

In [2]:
fp = open(
    '03_data_files_data/addres-book.json',
    'r',
    encoding='utf-8'
)
#do something
fp.close()

In [3]:
#лучший вариант
with open(
    '03_data_files_data/addres-book.json',
    'r',
    encoding='utf-8'
) as fp:
    # do something...
#...
    book = json.load(fp)
book

[{'name': 'Faina Lee',
  'email': 'faina@mail.ru',
  'birthday': '22.08.1994',
  'phones': [{'phone': '232-19-55'}, {'phone': '+7 (916) 232-19-55'}]},
 {'name': 'Robert Lee',
  'email': 'robert@mail.ru',
  'birthday': '22.08.1994',
  'phones': [{'phone': '111-19-55'}, {'phone': '+7 (916) 445-19-55'}]}]

In [4]:
phones = []
for person in book:
    phones.extend(ph['phone'] for ph in person['phones'])
phones

['232-19-55', '+7 (916) 232-19-55', '111-19-55', '+7 (916) 445-19-55']

2. По данным из файла `addres-book-q.xml` сформировать список словарей с телефонами каждого из людей. 

In [5]:
from bs4 import BeautifulSoup
with open(
    '03_data_files_data/addres-book-q.xml',
    'r',
    encoding='utf-8'
) as fp:
    xml = BeautifulSoup(fp)


In [6]:
address = xml.find_all('address')
type(address)
phones = address[0].find_all('phone')
#phones[0].text
phones[0].attrs, phones[0]['type']

({'type': 'work'}, 'work')

In [7]:
phones = []
addresses = xml.find_all('address')
for address in addresses:
    address.find_all('phone')
    phones.extend(ph.text for ph in address.find_all('phone')
                 if ph['type'] == 'work')
phones

['+ (213) 6150 4015',
 '+ (244-2) 325 023',
 '+ (244-2) 325 023',
 '+ (54-11) 4784 1159',
 '+ (61-2) 6274 9500',
 '+ (61-3) 9807 4702']

3. Создайте 2 матрицы размера 1000x1000, используя различные параметризируемые распределения из numpy (https://docs.scipy.org/doc/numpy-1.15.0/reference/routines.random.html#distributions)

После этого сохраните получившиеся матрицы в hdf5-файл в виде двух различных датасетов. В качестве описания каждого датасета укажите параметры используемых распределений 

In [8]:
import numpy as np
import h5py
m1 = np.random.exponential(scale = 2, size = (1000,1000))
m2 = np.random.exponential(scale = 20, size = (1000,1000))

with h5py.File(
    'test.h5',
    'w',
) as hdf:
    exp1 = hdf.create_dataset('exp1', data = m1)
    exp2 = hdf.create_dataset('exp2', data = m2)


In [9]:
with h5py.File(
    'test.h5',
    'r',
) as hdf:
    print(hdf.keys())
    exp1 = hdf['exp1']
    print(hdf['exp1'])
    data = exp1[:100, :100]
    
print(data)

<KeysViewHDF5 ['exp1', 'exp2']>
<HDF5 dataset "exp1": shape (1000, 1000), type "<f8">
[[ 1.34440393  1.55468443  0.64205712 ...  1.59720845  0.89808418
   1.15757418]
 [ 2.58525367 10.24881901  6.32298861 ...  0.76458586  0.16671722
   3.27225619]
 [ 0.87651857  2.85648246  2.9377154  ...  0.95707075  0.15308926
   1.67040055]
 ...
 [ 0.55212928  1.56214923  8.59063693 ...  1.65937318  4.62878957
   1.39110186]
 [ 1.73707711  7.36788917  2.36054977 ...  5.62059069  3.88793295
   0.52117559]
 [ 2.21710696  0.07348154  3.63418291 ...  3.5633319   0.84108554
   0.30466936]]


## Лабораторная работа №3

### JSON

1.1 Считайте файл `contributors_sample.json`, воспользовавшись модулем `json` и свяжите загруженные данные с переменной `contributors`. Выведите на экран уникальные почтовые домены, содержащиеся в почтовых адресах людей. Под доменом понимается часть адреса, следующая за символом `@`.

In [10]:
with open(
    'contributors_sample.json',
    'r',
    encoding='utf-8'
) as fp:
    contributors = json.load(fp)
contributors
    

[{'username': 'uhebert',
  'name': 'Lindsey Nguyen',
  'sex': 'F',
  'address': '01261 Cameron Spring\nTaylorfurt, AK 97791',
  'mail': 'jsalazar@gmail.com',
  'jobs': ['Energy engineer',
   'Engineer, site',
   'Environmental health practitioner',
   'Biomedical scientist',
   'Jewellery designer'],
  'id': 35193},
 {'username': 'vickitaylor',
  'name': 'Cheryl Lewis',
  'sex': 'F',
  'address': '66992 Welch Brooks\nMarshallshire, ID 56004',
  'mail': 'bhudson@gmail.com',
  'jobs': ['Music therapist',
   'Volunteer coordinator',
   'Designer, interior/spatial'],
  'id': 91970},
 {'username': 'sheilaadams',
  'name': 'Julia Allen',
  'sex': 'F',
  'address': 'Unit 1632 Box 2971\nDPO AE 23297',
  'mail': 'darren44@yahoo.com',
  'jobs': ['Management consultant',
   'Engineer, structural',
   'Lecturer, higher education',
   'Theatre manager',
   'Designer, textile'],
  'id': 1848091},
 {'username': 'nicole82',
  'name': 'Gina Stevens',
  'sex': 'F',
  'address': '9880 Michelle Bridge\nNe

In [11]:
emails = []
for i in contributors:
    emails.append(i['mail'][i['mail'].find('@'):])
set(emails)

{'@gmail.com', '@hotmail.com', '@yahoo.com'}

1.2 Посчитайте, как часто встречается та или иная должность во всем наборе данных. Выведите на экран 5 должностей, которые встречаются наиболее часто. Для каждого пользователя из `contributors` выясните, какая из его должностей является наиболее распространенной (в смысле частоты упоминания во всем датасете) и добавьте ключ `top_job`, в котором хранится название этой должности.

In [12]:
import numpy as np
job = []
for i in contributors:
    #job.append(i['jobs'])
    job.extend(j for j in i['jobs'])

values, counts = np.unique(job, return_counts=True)
sorted(counts)[-5::]
values[np.argsort(-counts)][:5],counts[np.argsort(-counts)][:5]

(array(['Chemical engineer', 'Bookseller', 'Chief Operating Officer',
        'Telecommunications researcher', 'Dance movement psychotherapist'],
       dtype='<U59'),
 array([42, 41, 41, 41, 41], dtype=int64))

In [15]:
list_of_jobs = []
for i in contributors:
    k = sorted(i['jobs'], key= lambda j: job.count(j))[-1]
    i.update({'top_jobs': k})
contributors

[{'username': 'uhebert',
  'name': 'Lindsey Nguyen',
  'sex': 'F',
  'address': '01261 Cameron Spring\nTaylorfurt, AK 97791',
  'mail': 'jsalazar@gmail.com',
  'jobs': ['Energy engineer',
   'Engineer, site',
   'Environmental health practitioner',
   'Biomedical scientist',
   'Jewellery designer'],
  'id': 35193,
  'top_jobs': 'Environmental health practitioner'},
 {'username': 'vickitaylor',
  'name': 'Cheryl Lewis',
  'sex': 'F',
  'address': '66992 Welch Brooks\nMarshallshire, ID 56004',
  'mail': 'bhudson@gmail.com',
  'jobs': ['Music therapist',
   'Volunteer coordinator',
   'Designer, interior/spatial'],
  'id': 91970,
  'top_jobs': 'Music therapist'},
 {'username': 'sheilaadams',
  'name': 'Julia Allen',
  'sex': 'F',
  'address': 'Unit 1632 Box 2971\nDPO AE 23297',
  'mail': 'darren44@yahoo.com',
  'jobs': ['Management consultant',
   'Engineer, structural',
   'Lecturer, higher education',
   'Theatre manager',
   'Designer, textile'],
  'id': 1848091,
  'top_jobs': 'Manage

1.3 Создайте `pd.DataFrame` `contributors_df`, имеющий столбцы `id`, `username` и `sex` и `n_jobs`. Столбец `n_jobs` содержит кол-во должностей пользователя. При необходимости вы можете преобразовать исходные данные в списке `contributors` в удобный для создания `pd.DataFrame` вид.

Сгруппируйте полученные данные по столбцам `n_jobs` и `sex`. Выведите на экран серию `pd.Series`, в которой содержится информация о количестве человек в каждой группе.

In [13]:
import pandas as pd
column = ['id', 'username', 'sex', 'jobs']
contributors_df = pd.DataFrame(i for i in contributors)[column]
contributors_df['n_jobs'] = contributors_df['jobs'].str.len()
contributors_df = contributors_df.drop(columns = ['jobs'])
pd.Series(contributors_df[['n_jobs','sex','username']].groupby(['n_jobs','sex']).count()['username'])

n_jobs  sex
3       F      703
        M      690
4       F      733
        M      704
5       F      700
        M      670
Name: username, dtype: int64

In [66]:
contributors_df

Unnamed: 0,id,username,sex,n_jobs
0,35193,uhebert,F,5
1,91970,vickitaylor,F,3
2,1848091,sheilaadams,F,5
3,50969,nicole82,F,3
4,676820,jean67,M,4
...,...,...,...,...
4195,423555,stevenspencer,F,4
4196,35251,rwilliams,M,5
4197,135887,lmartinez,F,5
4198,212714,brendahill,M,4


### XML

2.1 По данным файла `steps_sample.xml` сформируйте словарь с шагами по каждому рецепту вида `{id_рецепта: ["шаг1", "шаг2"]}`. Сохраните этот словарь в файл `steps_sample.json`. Выведите на экран шаги рецепта с id `84797`.

In [14]:
import xml.etree.ElementTree as ET
import xmltodict
from bs4 import BeautifulSoup

In [19]:
# tree = ET.parse('steps_sample.xml')
# root = tree.getroot()



In [24]:
with open('steps_sample (1).xml') as fd:
    doc = BeautifulSoup(fd, 'xml')


In [26]:
#doc #.recipes.recipe.contents #.get_text("|", strip = True)

In [28]:
steps_sample = []
for person in doc.recipes.find_all('recipe'):
    ph = [phones.next for phones in person.steps.find_all('step')]
    steps_sample.append({person.find('id').next: ph})
# steps_sample

In [29]:
with open('steps_sample.json', 'w') as r: #Сохраняем
    json.dump(steps_sample, r)

In [34]:
with open('steps_sample.json', 'r', encoding='utf-8') as f: #Загружаем
    c = json.load(f)

In [31]:
for i in c:
    for j in i.keys():
        if j == '84797': # Выводим id = 84797
            print(i.values())

dict_values([['honey mustard sauce: whisk all the ingredients together serve warm or cold', 'easy bbq sauce: combine all ingredients in a pot& cook over low heat until the sugar is dissolved', 'serve warm or cold', 'garlic dill sauce: mix all the ingredients and chill until ready to serve']])


2.2 Получите список идентификаторов рецептов, в этапах выполнения которых есть информация о времени (часы или минуты). Для отбора подходящих рецептов обратите внимание на атрибуты соответствующих тэгов. Выведите на экран количество таких рецептов.

In [32]:
count = 0
for i in c:
    for j in i.values():
        if 'minutes' in j or 'hours' in j:
            print((i.keys()))
            count += 1
count

dict_keys(['377996'])
dict_keys(['365664'])
dict_keys(['104904'])
dict_keys(['405596'])
dict_keys(['171769'])


5

2.3 Загрузите данные из файла `recipes_sample.csv` (__ЛР2__) в таблицу `recipes`. Для строк, которые содержат пропуски в столбце `n_steps`, заполните этот столбец на основе файла  `steps_sample.xml`. Строки, в которых столбец `n_steps` заполнен, оставьте без изменений. При решении задачи не используйте метод `iterrows` и аналогичные ему, позволяющие итерироваться по таблице построчно.

Проверьте, содержит ли столбец `n_steps` пропуски. Если нет, то преобразуйте его к целочисленному типу и сохраните результаты в файл `recipes_sample_with_filled_nsteps.csv`

In [228]:
recipes = pd.read_csv('recipes_sample.csv')
recipes.head()

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,


In [56]:
new = dict()
for i in c:
    for k,j in  i.items(): #i.keys(),i.values():
        new.update({k : len(j)})
     

In [213]:
m = pd.DataFrame(new.keys(),new.values())


In [183]:
# {k: v for k, v in new.items()}
recipes[['n_steps','id']].sort_values(by = 'id')

Unnamed: 0,n_steps,id
3535,32.0,48
2994,,55
3161,,66
3922,,91
3370,8.0,94
...,...,...
4932,15.0,536547
17803,17.0,536610
12124,,536728
8442,4.0,536729


In [221]:
m[0] = m[0].astype('int32')
m.sort_values(by = 0).index

Int64Index([32,  2,  3,  9,  8,  4,  8, 19,  6,  4,
            ...
             7, 13, 11, 73, 16, 15, 17,  2,  4, 51],
           dtype='int64', length=30000)

In [232]:
recipes['n_steps'] = m.sort_values(by = 0).index

In [233]:
recipes[['n_steps','id']]

Unnamed: 0,n_steps,id
0,32,44123
1,2,67664
2,3,38798
3,9,35173
4,8,84797
...,...,...
29995,15,267661
29996,17,386977
29997,2,103312
29998,4,486161


In [234]:
recipes['n_steps'].isna().sum()

0

In [236]:
recipes[['n_steps','id']].to_csv('recipes_sample_with_filled_nsteps.csv')

### hdf

3.1 Выведите названия всех датасетов, находящихся в файле `nutrition_sample.h5`, а также размерность матриц, содержащихся в данных датасетах и их метаданные.

Формат вывода:
```
Dataset name=dataset_0 n_rows=30000 n_cols=2 col_0=recipe_id col_1=calories (#)
Dataset name=dataset_1 n_rows=30000 n_cols=2 col_0=recipe_id col_1=total fat (PDV)
Dataset name=dataset_2 n_rows=30000 n_cols=2 col_0=recipe_id col_1=sugar (PDV)
...
```

In [247]:

with h5py.File(
    'nutrition_sample.h5',
    'r',
) as pf:
    
    print(pf.keys())
    print(pf['dataset_0'])

<KeysViewHDF5 ['dataset_0', 'dataset_1', 'dataset_2', 'dataset_3', 'dataset_4', 'dataset_5', 'dataset_6']>
<HDF5 dataset "dataset_0": shape (30000, 2), type "<f8">


In [219]:
with h5py.File(
    'test.h5',
    'r',
) as hdf:
    print(hdf.keys())
    exp1 = hdf['exp1']
    print(hdf['exp1'])
    data = exp1[:100, :100]
    
print(data)

<KeysViewHDF5 ['exp1', 'exp2']>
<HDF5 dataset "exp1": shape (1000, 1000), type "<f8">
[[2.65205156 0.7191051  2.34351909 ... 0.21743425 2.05945428 1.58573025]
 [1.2703981  2.46062962 2.90903963 ... 0.67561177 0.96452811 3.93926992]
 [0.55921814 0.71810537 0.49661297 ... 0.55030603 5.33769671 0.62189662]
 ...
 [0.254444   9.54945017 0.07547174 ... 0.99142203 0.31234445 0.61237624]
 [2.91814662 7.64446252 0.15940324 ... 1.18692677 0.72059156 0.35992637]
 [1.74568328 4.28779795 3.83149615 ... 2.77915929 5.00019089 1.20673552]]


3.2 Разбейте каждый из имеющихся датасетов на две части: 1 часть содержит только те строки, где PDV (Percent Daily Value) превышает 100%; 2 часть содержит те строки, где PDV составляет не более 100%. Создайте 2 группы в файле и разместите в них соответствующие части датасета c сохранением метаданных исходных датасетов. Итого должно получиться 2 группы, содержащие несколько датасетов. Датасеты, которые не содержат информацию о PDV, оставьте вне групп. Сохраните результаты в файл `nutrition_grouped.h5`.

3.3 Выведите названия всех групп и датасетов, находящихся в этих группах, из файла `nutrition_grouped.h5` а также размерность матриц, содержащихся в датасетах и их метаданные.

Формат вывода:
```
Dataset name=dataset_0 n_rows=30000 n_cols=2 col_0=recipe_id col_1=calories (#)
Group less_equal_than_100:
    Dataset name=less_equal_than_100/dataset_1 n_rows=28264 n_cols=2 col_0=recipe_id col_1=total fat (PDV)
    ....
Group more_than_100
    Dataset name=more_than_100/dataset_1 n_rows=1736 n_cols=2 col_0=recipe_id col_1=total fat (PDV)
    ....
....
```