# Форматы данных (1)

Материалы:
* Макрушин С.В. "Лекция 4: Форматы данных"
* https://docs.python.org/3/library/json.html
* https://docs.python.org/3/library/pickle.html
* https://www.crummy.com/software/BeautifulSoup/bs4/doc.ru/bs4ru.html
* Уэс Маккини. Python и анализ данных

## Задачи для совместного разбора

1. Вывести все адреса электронной почты, содержащиеся в адресной книге `addres-book.json`

In [1]:
import json

with open('data/addres-book.json', 'r', encoding = 'utf-8') as f:
    ab = json.load(f)
    
for i in ab:
    print(i['email'])

faina@mail.ru
robert@mail.ru


2. Вывести телефоны, содержащиеся в адресной книге `addres-book.json`

In [2]:
for j in ab:
    for phone in j['phones']:
        print(phone)

{'phone': '232-19-55'}
{'phone': '+7 (916) 232-19-55'}
{'phone': '111-19-55'}
{'phone': '+7 (916) 445-19-55'}


3. По данным из файла `addres-book-q.xml` сформировать список словарей с телефонами каждого из людей. 

In [3]:
import requests
from bs4 import BeautifulSoup

with open('data/addres-book-q.xml') as f:
    abq = BeautifulSoup(f, 'xml')
abq

<?xml version="1.0" encoding="utf-8"?>
<address_book>
<country name="algeria">
<address id="1">
<gender>m</gender>
<name>Aicha Barki</name>
<email>aiqraa.asso@caramail.com</email>
<position>Presidente</position>
<company>Association Algerienne d'Alphabetisation Iqraa</company>
<phones>
<phone type="work">+ (213) 6150 4015</phone>
<phone type="personal">+ (213) 2173 5247</phone>
</phones>
</address>
</country>
<country name="angola">
<address id="2">
<gender>m</gender>
<name>Francisco Domingos</name>
<email>frandomingos@hotmail.com</email>
<position>Directeur General</position>
<company>Institut National de Education des Adultes</company>
<phones>
<phone type="work">+ (244-2) 325 023</phone>
<phone type="personal">+ (244-2) 325 023</phone>
</phones>
</address>
<address id="3">
<gender>f</gender>
<name>Maria Luisa</name>
<email>luisagrilo@ebonet.net</email>
<position>Directrice Nationale</position>
<company>Institut National de Education des Adultes</company>
<phones>
<phone type="person

In [4]:
people_phones = {}
for i in abq.address_book.find_all('address'):
    n = [ph.text for ph in i.phones.find_all('phone')]
    people_phones[i.find('name').text] = n
people_phones

{'Aicha Barki': ['+ (213) 6150 4015', '+ (213) 2173 5247'],
 'Francisco Domingos': ['+ (244-2) 325 023', '+ (244-2) 325 023'],
 'Maria Luisa': ['+ (244) 4232 2836'],
 'Abraao Chanda': ['+ (244-2) 325 023', '+ (244-2) 325 023'],
 'Beatriz Busaniche': ['+ (54-11) 4784 1159'],
 'Francesca Beddie': ['+ (61-2) 6274 9500', '+ (61-2) 6274 9513'],
 'Graham John Smith': ['+ (61-3) 9807 4702']}

## Лабораторная работа №4

### JSON

1.1 Считайте файл `contributors_sample.json`. Воспользовавшись модулем `json`, преобразуйте содержимое файла в соответствующие объекты python. Выведите на экран информацию о первых 3 пользователях.

In [5]:
import json

with open('data\contributors_sample.json', 'r', encoding = 'utf-8') as f:
    users = json.load(f)
    
for user in users[:3]:
    print(user)
    

{'username': 'uhebert', 'name': 'Lindsey Nguyen', 'sex': 'F', 'address': '01261 Cameron Spring\nTaylorfurt, AK 97791', 'mail': 'jsalazar@gmail.com', 'jobs': ['Energy engineer', 'Engineer, site', 'Environmental health practitioner', 'Biomedical scientist', 'Jewellery designer'], 'id': 35193}
{'username': 'vickitaylor', 'name': 'Cheryl Lewis', 'sex': 'F', 'address': '66992 Welch Brooks\nMarshallshire, ID 56004', 'mail': 'bhudson@gmail.com', 'jobs': ['Music therapist', 'Volunteer coordinator', 'Designer, interior/spatial'], 'id': 91970}
{'username': 'sheilaadams', 'name': 'Julia Allen', 'sex': 'F', 'address': 'Unit 1632 Box 2971\nDPO AE 23297', 'mail': 'darren44@yahoo.com', 'jobs': ['Management consultant', 'Engineer, structural', 'Lecturer, higher education', 'Theatre manager', 'Designer, textile'], 'id': 1848091}


1.2 Выведите уникальные почтовые домены, содержащиеся в почтовых адресах людей

In [6]:
unique_mail = [] 
for user in users:
    domen = user['mail'].split('@')[1]
    if domen not in unique_mail:
        unique_mail.append(domen)
        
print(unique_mail)


['gmail.com', 'yahoo.com', 'hotmail.com']


In [7]:
import numpy as np

mail = []
for user in users:
    mail.append(user['mail'].split('@')[1])

np.unique(mail)

array(['gmail.com', 'hotmail.com', 'yahoo.com'], dtype='<U11')

1.3 Напишите функцию, которая по `username` ищет человека и выводит информацию о нем. Если пользователь с заданным `username` отсутствует, возбудите исключение `ValueError`

In [8]:
def user_info(username):
    flag = False
    for user in users:
        if user['username'] == username:
            for i, j in user.items():
                print(f'{i}: {j}')
            flag = True
            break
    if not flag:
        raise ValueError('пользователь с заданным username отсутствует')
        

In [9]:
user_info('uhebert')

username: uhebert
name: Lindsey Nguyen
sex: F
address: 01261 Cameron Spring
Taylorfurt, AK 97791
mail: jsalazar@gmail.com
jobs: ['Energy engineer', 'Engineer, site', 'Environmental health practitioner', 'Biomedical scientist', 'Jewellery designer']
id: 35193


In [10]:
user_info('stargazer')

ValueError: пользователь с заданным username отсутствует

1.4 Посчитайте, сколько мужчин и женщин присутсвует в этом наборе данных.

In [None]:
f_count = 0
m_count = 0
for user in users:
    if user['sex'] == 'F':
        f_count += 1
    else: 
        m_count += 1

print(f'Количество женщин - {f_count}')
print(f'Количество мужчин - {m_count}')


1.5 Создайте `pd.DataFrame` `contributors`, имеющий столбцы `id`, `username` и `sex`.

In [None]:
import pandas as pd

contributors = pd.DataFrame(columns = ['id', 'username', 'sex'])
for user in users:
    info = []
    info.append(user['id'])
    info.append(user['username'])
    info.append(user['sex'])
    contributors.loc[len(contributors)] = info

In [None]:
contributors


1.6 Загрузите данные из файла `recipes_sample.csv` (__ЛР2__) в таблицу `recipes`. Объедините `recipes` с таблицей `contributors` с сохранением строк в том случае, если информация о человеке отсутствует в JSON-файле. Для скольких человек информация отсутствует? 

In [None]:
import pandas as pd

In [None]:
recipes = pd.read_csv('data/recipes_sample.csv')

# Объединение таблиц recipes и contributors
merged_data = pd.merge(recipes, contributors, left_on='contributor_id', right_on='id', how='left')
# Определение количества человек, для которых информация отсутствует в JSON-файле
missing_contributors = merged_data[merged_data['id_y'].isnull()]
missing_count = missing_contributors['contributor_id'].nunique()
display(merged_data)
# Вывод результата
print("Количество человек, для которых информация отсутствует в JSON-файле:", missing_count)

### pickle

2.1 На основе файла `contributors_sample.json` создайте словарь следующего вида: 
```
{
    должность: [список username людей, занимавших эту должность]
}
```

In [None]:
jobs = {}
for user in users:
    for i in user['jobs']:
        if i not in jobs:
            jobs[i] = [user['username']]
        else:
            jobs[i].append(user['username'])

for i, j in jobs.items():
    print(f'{i}: {j}')
    print()

2.2 Сохраните результаты в файл `job_people.pickle` и в файл `job_people.json` с использованием форматов pickle и JSON соответственно. Сравните объемы получившихся файлов. При сохранении в JSON укажите аргумент `indent`.

In [None]:
with open('job_people.json', 'w', encoding = 'utf-8') as f:
    json.dump(jobs, f, indent = 4)

In [None]:
import pickle

with open('job_people.pickle', 'wb') as f:
    pickle.dump(jobs, f)

2.3 Считайте файл `job_people.pickle` и продемонстрируйте, что данные считались корректно. 

In [None]:
with open('job_people.pickle', 'rb') as f:
    data = pickle.load(f)
    
data

### XML

3.1 По данным файла `steps_sample.xml` сформируйте словарь с шагами по каждому рецепту вида `{id_рецепта: ["шаг1", "шаг2"]}`. Сохраните этот словарь в файл `steps_sample.json`

In [None]:
import requests
from bs4 import BeautifulSoup

In [None]:
with open('data\steps_sample.xml') as f:
    steps_sample = BeautifulSoup(f, 'xml')
steps_sample

In [None]:
d_steps = {}
for i in steps_sample.recipes.find_all('recipe'):
    d_steps[i.id.text] = [st.text for st in i.steps.find_all('step')]
d_steps

3.2 По данным файла `steps_sample.xml` сформируйте словарь следующего вида: `кол-во_шагов_в_рецепте: [список_id_рецептов]`

In [None]:
count_steps = {}
for i in steps_sample.recipes.find_all('recipe'):
    n = [st.text for st in i.steps.find_all('step')]
    if len(n) in count_steps:
        count_steps[len(n)].append(i.id.text)
    else:
        count_steps[len(n)] = [i.id.text]
count_steps


3.3 Получите список рецептов, в этапах выполнения которых есть информация о времени (часы или минуты). Для отбора подходящих рецептов обратите внимание на атрибуты соответствующих тэгов.

In [None]:
with_time = []
for i in steps_sample.recipes.find_all('recipe'):
    for _ in i.find_all('step', has_minutes = "1"):
        with_time.append(i.id.text)
        break
    for _ in i.find_all('step', has_hours = "1"):
        with_time.append(i.id.text)
        break
print(with_time)


3.4 Загрузите данные из файла `recipes_sample.csv` (__ЛР2__) в таблицу `recipes`. Для строк, которые содержат пропуски в столбце `n_steps`, заполните этот столбец на основе файла  `steps_sample.xml`. Строки, в которых столбец `n_steps` заполнен, оставьте без изменений.

In [None]:
import pandas as pd

recipes = pd.read_csv('data/recipes_sample.csv')

def steps_count(recipe_id, recipes):
    for recipe in recipes.find_all('recipe'):
        if int(recipe.find('id').text) == recipe_id:
            return len(recipe.find_all('step'))

with open('data/steps_sample.xml', 'r') as f:
    sample = f.read()
rec = BeautifulSoup(sample, 'xml')
for index, row in recipes.iterrows():
    if pd.isna(row['n_steps']):
        recipes.at[index, 'n_steps'] = steps_count(row['id'],rec)


3.5 Проверьте, содержит ли столбец `n_steps` пропуски. Если нет, то преобразуйте его к целочисленному типу и сохраните результаты в файл `recipes_sample_with_filled_nsteps.csv`

In [None]:
if recipes['n_steps'].isnull().values.any():
    pass
else:
    recipes['n_steps'] = recipes['n_steps'].astype(int)
    recipes.to_csv('recipes_sample_with_filled_nsteps.csv', index=False)
