# Форматы данных (1)

Материалы:
* Макрушин С.В. "Лекция 4: Форматы данных"
* https://docs.python.org/3/library/json.html
* https://docs.python.org/3/library/pickle.html
* https://www.crummy.com/software/BeautifulSoup/bs4/doc.ru/bs4ru.html
* Уэс Маккини. Python и анализ данных

## Задачи для совместного разбора

In [28]:
import json

In [29]:
from bs4 import BeautifulSoup

1. Вывести все адреса электронной почты, содержащиеся в адресной книге `addres-book.json`

In [30]:
with open("./data/addres-book.json", "r") as file:
    data = json.load(file)

[item["email"] for item in data]

['faina@mail.ru', 'robert@mail.ru']

2. Вывести телефоны, содержащиеся в адресной книге `addres-book.json`

In [31]:
with open("./data/addres-book.json", "r") as file:
    data = json.load(file)

[[subitem["phone"] for subitem in item["phones"]] for item in data]

[['232-19-55', '+7 (916) 232-19-55'], ['111-19-55', '+7 (916) 445-19-55']]

3. По данным из файла `addres-book-q.xml` сформировать список словарей с телефонами каждого из людей. 

In [41]:
content = open("./data/addres-book-q.xml","r").read()
soup = BeautifulSoup(content,'xml')

result_list = []
for address in soup.find_all('address'):
    user_name = address.find("name").get_text()
    for phone in address.find_all('phone'):
        phone_str = phone.get_text()
        result_list.append({user_name: phone_str})

result_list

[{'Aicha Barki': '+ (213) 6150 4015'},
 {'Aicha Barki': '+ (213) 2173 5247'},
 {'Francisco Domingos': '+ (244-2) 325 023'},
 {'Francisco Domingos': '+ (244-2) 325 023'},
 {'Maria Luisa': '+ (244) 4232 2836'},
 {'Abraao Chanda': '+ (244-2) 325 023'},
 {'Abraao Chanda': '+ (244-2) 325 023'},
 {'Beatriz Busaniche': '+ (54-11) 4784 1159'},
 {'Francesca Beddie': '+ (61-2) 6274 9500'},
 {'Francesca Beddie': '+ (61-2) 6274 9513'},
 {'Graham John Smith': '+ (61-3) 9807 4702'}]

## Лабораторная работа №4

### JSON

1.1 Считайте файл `contributors_sample.json`. Воспользовавшись модулем `json`, преобразуйте содержимое файла в соответствующие объекты python. Выведите на экран информацию о первых 3 пользователях.

In [71]:
from typing import List, Dict
from datetime import datetime

In [72]:
class User:
    """Класс пользователя"""
    def __init__(self, username: str, name: str, sex: str, address : str, mail: str, jobs: List[str], id: int) -> None:
        self._username = username
        self._name = name
        self._sex = sex
        self._address = address
        self._mail = mail
        self._jobs = jobs
        self._id = id
    
    def __str__(self) -> str:
        jobs_str = ", ".join(self._jobs)
        return f"----\nId: {self._id}\nUsername: {self._username}\nName: {self._name}\nSex: {self._sex}\naddress: {self._address}\nmail: {self._mail}\njobs: {jobs_str}\n" 

    @property
    def mail_domain(self):
        domain = self._mail.split("@")
        return domain[1]
        
with open("./data/contributors_sample.json", "r") as file:
    data = json.load(file)

users_list = [User(**item) for item in data]
for user in users_list[:3]:
    print(user)

----
Id: 35193
Username: uhebert
Name: Lindsey Nguyen
Sex: F
address: 01261 Cameron Spring
Taylorfurt, AK 97791
mail: jsalazar@gmail.com
jobs: Energy engineer, Engineer, site, Environmental health practitioner, Biomedical scientist, Jewellery designer

----
Id: 91970
Username: vickitaylor
Name: Cheryl Lewis
Sex: F
address: 66992 Welch Brooks
Marshallshire, ID 56004
mail: bhudson@gmail.com
jobs: Music therapist, Volunteer coordinator, Designer, interior/spatial

----
Id: 1848091
Username: sheilaadams
Name: Julia Allen
Sex: F
address: Unit 1632 Box 2971
DPO AE 23297
mail: darren44@yahoo.com
jobs: Management consultant, Engineer, structural, Lecturer, higher education, Theatre manager, Designer, textile



1.2 Выведите уникальные почтовые домены, содержащиеся в почтовых адресах людей

In [74]:
domains = set([user.mail_domain for user in users_list])
domains

{'gmail.com', 'hotmail.com', 'yahoo.com'}

1.3 Напишите функцию, которая по `username` ищет человека и выводит информацию о нем. Если пользователь с заданным `username` отсутствует, возбудите исключение `ValueError`

1.4 Посчитайте, сколько мужчин и женщин присутсвует в этом наборе данных.

1.5 Создайте `pd.DataFrame` `contributors`, имеющий столбцы `id`, `username` и `sex`.

1.6 Загрузите данные из файла `recipes_sample.csv` (__ЛР2__) в таблицу `recipes`. Объедините `recipes` с таблицей `contributors` с сохранением строк в том случае, если информация о человеке отсутствует в JSON-файле. Для скольких человек информация отсутствует? 

### pickle

2.1 На основе файла `contributors_sample.json` создайте словарь следующего вида: 
```
{
    должность: [список username людей, занимавших эту должность]
}
```

2.2 Сохраните результаты в файл `job_people.pickle` и в файл `job_people.json` с использованием форматов pickle и JSON соответственно. Сравните объемы получившихся файлов. При сохранении в JSON укажите аргумент `indent`.

2.3 Считайте файл `job_people.pickle` и продемонстрируйте, что данные считались корректно. 

### XML

3.1 По данным файла `steps_sample.xml` сформируйте словарь с шагами по каждому рецепту вида `{id_рецепта: ["шаг1", "шаг2"]}`. Сохраните этот словарь в файл `steps_sample.json`

3.2 По данным файла `steps_sample.xml` сформируйте словарь следующего вида: `кол-во_шагов_в_рецепте: [список_id_рецептов]`

3.3 Получите список рецептов, в этапах выполнения которых есть информация о времени (часы или минуты). Для отбора подходящих рецептов обратите внимание на атрибуты соответствующих тэгов.

3.4 Загрузите данные из файла `recipes_sample.csv` (__ЛР2__) в таблицу `recipes`. Для строк, которые содержат пропуски в столбце `n_steps`, заполните этот столбец на основе файла  `steps_sample.xml`. Строки, в которых столбец `n_steps` заполнен, оставьте без изменений.

3.5 Проверьте, содержит ли столбец `n_steps` пропуски. Если нет, то преобразуйте его к целочисленному типу и сохраните результаты в файл `recipes_sample_with_filled_nsteps.csv`