# Форматы данных (1)

Материалы:
* Макрушин С.В. "Лекция 4: Форматы данных"
* https://docs.python.org/3/library/json.html
* https://docs.python.org/3/library/pickle.html
* https://www.crummy.com/software/BeautifulSoup/bs4/doc.ru/bs4ru.html
* Уэс Маккини. Python и анализ данных

## Задачи для совместного разбора

1. Вывести все адреса электронной почты, содержащиеся в адресной книге `addres-book.json`

2. Вывести телефоны, содержащиеся в адресной книге `addres-book.json`

3. По данным из файла `addres-book-q.xml` сформировать список словарей с телефонами каждого из людей. 

## Лабораторная работа №4

### JSON

1.1 Считайте файл `contributors_sample.json`. Воспользовавшись модулем `json`, преобразуйте содержимое файла в соответствующие объекты python. Выведите на экран информацию о первых 3 пользователях.

1.2 Выведите уникальные почтовые домены, содержащиеся в почтовых адресах людей

1.3 Напишите функцию, которая по `username` ищет человека и выводит информацию о нем. Если пользователь с заданным `username` отсутствует, возбудите исключение `ValueError`

1.4 Посчитайте, сколько мужчин и женщин присутсвует в этом наборе данных.

1.5 Создайте `pd.DataFrame` `contributors`, имеющий столбцы `id`, `username` и `sex`.

1.6 Загрузите данные из файла `recipes_sample.csv` (__ЛР2__) в таблицу `recipes`. Объедините `recipes` с таблицей `contributors` с сохранением строк в том случае, если информация о человеке отсутствует в JSON-файле. Для скольких человек информация отсутствует? 

### pickle

2.1 На основе файла `contributors_sample.json` создайте словарь следующего вида: 
```
{
    должность: [список username людей, занимавших эту должность]
}
```

2.2 Сохраните результаты в файл `job_people.pickle` и в файл `job_people.json` с использованием форматов pickle и JSON соответственно. Сравните объемы получившихся файлов. При сохранении в JSON укажите аргумент `indent`.

2.3 Считайте файл `job_people.pickle` и продемонстрируйте, что данные считались корректно. 

### XML

3.1 По данным файла `steps_sample.xml` сформируйте словарь с шагами по каждому рецепту вида `{id_рецепта: ["шаг1", "шаг2"]}`. Сохраните этот словарь в файл `steps_sample.json`

In [9]:
import xml.etree.ElementTree as ET
import json

# Парсим XML файл
tree = ET.parse('steps_sample.xml')
root = tree.getroot()

# Создаем словарь для хранения шагов по каждому рецепту
steps_dict = {}

# Обходим все элементы <recipe> в XML и извлекаем шаги
for recipe in root.findall('recipe'):
    recipe_id = recipe.find('id').text.strip()
    steps = [step.text.strip() for step in recipe.findall('steps/step')]
    steps_dict[recipe_id] = steps

# Сохраняем словарь в JSON файл
with open('steps_sample.json', 'w', encoding='utf-8') as json_file:
    json.dump(steps_dict, json_file, ensure_ascii=False, indent=4)

print("Словарь успешно сохранен в файл steps_sample.json")


Словарь успешно сохранен в файл steps_sample.json


3.2 По данным файла `steps_sample.xml` сформируйте словарь следующего вида: `кол-во_шагов_в_рецепте: [список_id_рецептов]`

In [10]:
import xml.etree.ElementTree as ET
import json
from collections import defaultdict

# Парсим XML файл
tree = ET.parse('steps_sample.xml')
root = tree.getroot()

# Создаем словарь для хранения количества шагов в рецепте и соответствующих идентификаторов рецептов
steps_count_dict = defaultdict(list)

# Обходим все элементы <recipe> в XML и считаем количество шагов
for recipe in root.findall('recipe'):
    recipe_id = recipe.find('id').text.strip()
    steps_count = len(recipe.findall('steps/step'))
    steps_count_dict[steps_count].append(recipe_id)

# Преобразуем defaultdict в обычный словарь
steps_count_dict = dict(steps_count_dict)

# Сохраняем словарь в JSON файл
with open('steps_count_sample.json', 'w', encoding='utf-8') as json_file:
    json.dump(steps_count_dict, json_file, ensure_ascii=False, indent=4)

print("Словарь успешно сохранен в файл steps_count_sample.json")


Словарь успешно сохранен в файл steps_count_sample.json


3.3 Получите список рецептов, в этапах выполнения которых есть информация о времени (часы или минуты). Для отбора подходящих рецептов обратите внимание на атрибуты соответствующих тэгов.

In [11]:
import xml.etree.ElementTree as ET

# Парсим XML файл
tree = ET.parse('steps_sample.xml')
root = tree.getroot()

# Создаем список для хранения идентификаторов рецептов с информацией о времени в шагах
recipes_with_time_info = []

# Обходим все элементы <recipe> в XML
for recipe in root.findall('recipe'):
    recipe_id = recipe.find('id').text.strip()
    
    # Проверяем каждый шаг выполнения на наличие атрибута времени
    for step in recipe.findall('steps/step'):
        if 'has_minutes' in step.attrib or 'has_hours' in step.attrib:
            recipes_with_time_info.append(recipe_id)
            break  # Если найдено хотя бы одно упоминание времени, выходим из цикла шагов

# Убираем дубликаты рецептов из списка
recipes_with_time_info = list(set(recipes_with_time_info))

print("Список рецептов с информацией о времени в шагах выполнения:")
print(recipes_with_time_info)


Список рецептов с информацией о времени в шагах выполнения:
['308219', '165808', '99439', '413226', '93775', '337244', '74359', '205568', '284558', '350044', '176441', '14464', '502785', '279036', '242975', '246872', '145448', '126615', '182725', '217239', '34169', '417227', '398095', '332582', '502389', '369241', '54400', '72407', '459738', '487153', '54383', '109068', '239886', '268616', '49808', '86282', '420069', '491444', '259180', '509963', '434085', '298923', '185114', '111877', '214713', '395273', '227771', '55706', '166934', '67705', '226749', '65628', '99524', '57593', '477032', '336871', '268569', '80566', '151748', '206611', '423614', '411056', '139248', '80387', '382536', '272649', '371012', '243844', '315567', '97559', '296107', '477440', '70216', '443064', '55609', '146662', '148807', '136241', '179176', '359641', '194923', '113103', '278257', '432761', '477504', '204185', '52580', '368925', '305021', '12706', '505658', '359145', '93960', '315843', '345739', '189385', '1

3.4 Загрузите данные из файла `recipes_sample.csv` (__ЛР2__) в таблицу `recipes`. Для строк, которые содержат пропуски в столбце `n_steps`, заполните этот столбец на основе файла  `steps_sample.xml`. Строки, в которых столбец `n_steps` заполнен, оставьте без изменений.

In [14]:
import pandas as pd
import xml.etree.ElementTree as ET

# Загрузка данных из CSV файла
recipes_df = pd.read_csv('recipes_sample.csv')

# Парсим XML файл для получения количества шагов в каждом рецепте
tree = ET.parse('steps_sample.xml')
root = tree.getroot()

# Создаем словарь для хранения количества шагов по каждому рецепту
steps_count_dict = {}

# Обходим все элементы <recipe> в XML и считаем количество шагов
for recipe in root.findall('recipe'):
    recipe_id = recipe.find('id').text.strip()
    steps_count = len(recipe.findall('steps/step'))
    steps_count_dict[recipe_id] = steps_count

# Заполнение пропущенных значений в столбце n_steps на основе словаря steps_count_dict
recipes_df['n_steps'] = recipes_df['n_steps'].fillna(recipes_df['id'].astype(str).map(steps_count_dict))

# Сохраняем обновленные данные в CSV файл
recipes_df.to_csv('recipes_updated.csv', index=False)

print("Данные успешно обновлены и сохранены в файл recipes_updated.csv")


Данные успешно обновлены и сохранены в файл recipes_updated.csv


3.5 Проверьте, содержит ли столбец `n_steps` пропуски. Если нет, то преобразуйте его к целочисленному типу и сохраните результаты в файл `recipes_sample_with_filled_nsteps.csv`

In [15]:
import pandas as pd

# Загрузка данных из CSV файла
recipes_df = pd.read_csv('recipes_updated.csv')

# Проверка наличия пропущенных значений в столбце n_steps
if recipes_df['n_steps'].isnull().any():
    print("Столбец n_steps содержит пропуски")
else:
    # Преобразование столбца n_steps к целочисленному типу
    recipes_df['n_steps'] = recipes_df['n_steps'].astype(int)
    # Сохранение результатов в файл
    recipes_df.to_csv('recipes_sample_with_filled_nsteps.csv', index=False)
    print("Столбец n_steps не содержит пропуски. Данные успешно сохранены в файл recipes_sample_with_filled_nsteps.csv")


Столбец n_steps не содержит пропуски. Данные успешно сохранены в файл recipes_sample_with_filled_nsteps.csv
