# Форматы данных (1)

Материалы:
* Макрушин С.В. "Лекция 4: Форматы данных"
* https://docs.python.org/3/library/json.html
* https://docs.python.org/3/library/pickle.html
* https://www.crummy.com/software/BeautifulSoup/bs4/doc.ru/bs4ru.html
* Уэс Маккини. Python и анализ данных

## Задачи для совместного разбора

1. Вывести все адреса электронной почты, содержащиеся в адресной книге `addres-book.json`

In [15]:
import json

In [16]:
def read_json(path: str):
    with open(path) as file:
        return json.load(file)

In [20]:
address_book = read_json('data/addres-book.json')
address_book

[{'name': 'Faina Lee',
  'email': 'faina@mail.ru',
  'birthday': '22.08.1994',
  'phones': [{'phone': '232-19-55'}, {'phone': '+7 (916) 232-19-55'}]},
 {'name': 'Robert Lee',
  'email': 'robert@mail.ru',
  'birthday': '22.08.1994',
  'phones': [{'phone': '111-19-55'}, {'phone': '+7 (916) 445-19-55'}]}]

In [22]:
emails = [address.get('email') for address in address_book]
emails

['faina@mail.ru', 'robert@mail.ru']

2. Вывести телефоны, содержащиеся в адресной книге `addres-book.json`

In [26]:
phones = []
for address in address_book:
    phones.extend([phone['phone'] for phone in address.get('phones')])

phones

['232-19-55', '+7 (916) 232-19-55', '111-19-55', '+7 (916) 445-19-55']

3. По данным из файла `addres-book-q.xml` сформировать список словарей с телефонами каждого из людей.

In [28]:
from bs4 import BeautifulSoup as bs

In [29]:
def read_xml(path: str):
    with open(path) as file:
        return bs(''.join(file.readlines()), 'lxml')

In [31]:
soup = read_xml('data/addres-book-q.xml')
soup

'<?xml version="1.0" encoding="UTF-8" ?>\n<html>\n <body>\n  <address_book>\n   <country name="algeria">\n    <address id="1">\n     <gender>\n      m\n     </gender>\n     <name>\n      Aicha Barki\n     </name>\n     <email>\n      aiqraa.asso@caramail.com\n     </email>\n     <position>\n      Presidente\n     </position>\n     <company>\n      Association Algerienne d\'Alphabetisation Iqraa\n     </company>\n     <phones>\n      <phone type="work">\n       + (213) 6150 4015\n      </phone>\n      <phone type="personal">\n       + (213) 2173 5247\n      </phone>\n     </phones>\n    </address>\n   </country>\n   <country name="angola">\n    <address id="2">\n     <gender>\n      m\n     </gender>\n     <name>\n      Francisco Domingos\n     </name>\n     <email>\n      frandomingos@hotmail.com\n     </email>\n     <position>\n      Directeur General\n     </position>\n     <company>\n      Institut National de Education des Adultes\n     </company>\n     <phones>\n      <phone type=

In [39]:
phone_book = []
for address in soup.find_all('address'):
    name = address.find('name').string
    phones = [phone.string for phone in address.find_all('phone')]
    phone_book.append({
        'name': name,
        'phones': phones
    })


phone_book

[{'name': 'Aicha Barki', 'phones': ['+ (213) 6150 4015', '+ (213) 2173 5247']},
 {'name': 'Francisco Domingos',
  'phones': ['+ (244-2) 325 023', '+ (244-2) 325 023']},
 {'name': 'Maria Luisa', 'phones': ['+ (244) 4232 2836']},
 {'name': 'Abraao Chanda',
  'phones': ['+ (244-2) 325 023', '+ (244-2) 325 023']},
 {'name': 'Beatriz Busaniche', 'phones': ['+ (54-11) 4784 1159']},
 {'name': 'Francesca Beddie',
  'phones': ['+ (61-2) 6274 9500', '+ (61-2) 6274 9513']},
 {'name': 'Graham John Smith', 'phones': ['+ (61-3) 9807 4702']}]

## Лабораторная работа №4

### JSON

1.1 Считайте файл `contributors_sample.json`. Воспользовавшись модулем `json`, преобразуйте содержимое файла в соответствующие объекты python. Выведите на экран информацию о первых 3 пользователях.

In [43]:
contributors = read_json('data/contributors_sample.json')
contributors[:3]

[{'username': 'uhebert',
  'name': 'Lindsey Nguyen',
  'sex': 'F',
  'address': '01261 Cameron Spring\nTaylorfurt, AK 97791',
  'mail': 'jsalazar@gmail.com',
  'jobs': ['Energy engineer',
   'Engineer, site',
   'Environmental health practitioner',
   'Biomedical scientist',
   'Jewellery designer'],
  'id': 35193},
 {'username': 'vickitaylor',
  'name': 'Cheryl Lewis',
  'sex': 'F',
  'address': '66992 Welch Brooks\nMarshallshire, ID 56004',
  'mail': 'bhudson@gmail.com',
  'jobs': ['Music therapist',
   'Volunteer coordinator',
   'Designer, interior/spatial'],
  'id': 91970},
 {'username': 'sheilaadams',
  'name': 'Julia Allen',
  'sex': 'F',
  'address': 'Unit 1632 Box 2971\nDPO AE 23297',
  'mail': 'darren44@yahoo.com',
  'jobs': ['Management consultant',
   'Engineer, structural',
   'Lecturer, higher education',
   'Theatre manager',
   'Designer, textile'],
  'id': 1848091}]

1.2 Выведите уникальные почтовые домены, содержащиеся в почтовых адресах людей

In [45]:
mail_domains = set()
for contributor in contributors:
    mail_domain = contributor['mail'].split('@')[-1]
    mail_domains.add(mail_domain)

mail_domains

{'gmail.com', 'hotmail.com', 'yahoo.com'}

1.3 Напишите функцию, которая по `username` ищет человека и выводит информацию о нем. Если пользователь с заданным `username` отсутствует, возбудите исключение `ValueError`

1.4 Посчитайте, сколько мужчин и женщин присутсвует в этом наборе данных.

1.5 Создайте `pd.DataFrame` `contributors`, имеющий столбцы `id`, `username` и `sex`.

1.6 Загрузите данные из файла `recipes_sample.csv` (__ЛР2__) в таблицу `recipes`. Объедините `recipes` с таблицей `contributors` с сохранением строк в том случае, если информация о человеке отсутствует в JSON-файле. Для скольких человек информация отсутствует? 

### pickle

2.1 На основе файла `contributors_sample.json` создайте словарь следующего вида: 
```
{
    должность: [список username людей, занимавших эту должность]
}
```

2.2 Сохраните результаты в файл `job_people.pickle` и в файл `job_people.json` с использованием форматов pickle и JSON соответственно. Сравните объемы получившихся файлов. При сохранении в JSON укажите аргумент `indent`.

2.3 Считайте файл `job_people.pickle` и продемонстрируйте, что данные считались корректно. 

### XML

3.1 По данным файла `steps_sample.xml` сформируйте словарь с шагами по каждому рецепту вида `{id_рецепта: ["шаг1", "шаг2"]}`. Сохраните этот словарь в файл `steps_sample.json`

3.2 По данным файла `steps_sample.xml` сформируйте словарь следующего вида: `кол-во_шагов_в_рецепте: [список_id_рецептов]`

3.3 Получите список рецептов, в этапах выполнения которых есть информация о времени (часы или минуты). Для отбора подходящих рецептов обратите внимание на атрибуты соответствующих тэгов.

3.4 Загрузите данные из файла `recipes_sample.csv` (__ЛР2__) в таблицу `recipes`. Для строк, которые содержат пропуски в столбце `n_steps`, заполните этот столбец на основе файла  `steps_sample.xml`. Строки, в которых столбец `n_steps` заполнен, оставьте без изменений.

3.5 Проверьте, содержит ли столбец `n_steps` пропуски. Если нет, то преобразуйте его к целочисленному типу и сохраните результаты в файл `recipes_sample_with_filled_nsteps.csv`