# Форматы данных

In [2]:
import pandas as pd
import json
import lxml
from bs4 import BeautifulSoup
import pprint

## Задачи для совместного разбора

1. Вывести все адреса электронной почты, содержащиеся в адресной книге `addres-book.json`

In [3]:
with open("../data sources/addres-book.json", encoding="utf-8") as file:
    emails = json.load(file)
    
emails

[{'name': 'Faina Lee',
  'email': 'faina@mail.ru',
  'birthday': '22.08.1994',
  'phones': [{'phone': '232-19-55'}, {'phone': '+7 (916) 232-19-55'}]},
 {'name': 'Robert Lee',
  'email': 'robert@mail.ru',
  'birthday': '22.08.1994',
  'phones': [{'phone': '111-19-55'}, {'phone': '+7 (916) 445-19-55'}]}]

In [4]:
[dct["email"] for dct in emails]

['faina@mail.ru', 'robert@mail.ru']

2. Вывести телефоны, содержащиеся в адресной книге `addres-book.json`

In [5]:
[f'Телефон: {sub["phone"]}' for dct in emails for sub in dct["phones"]]

['Телефон: 232-19-55',
 'Телефон: +7 (916) 232-19-55',
 'Телефон: 111-19-55',
 'Телефон: +7 (916) 445-19-55']

3. По данным из файла `addres-book-q.xml` сформировать список словарей с телефонами каждого из людей. 

In [6]:
content = open("../data sources/addres-book-q.xml","r").read()
soup = BeautifulSoup(content, 'xml')

answer = []
for address in soup.find_all('address'):
    user_name = address.find("name").get_text()
    for phone in address.find_all('phone'):
        
        answer.append({user_name: phone.get_text()})

answer

[{'Aicha Barki': '+ (213) 6150 4015'},
 {'Aicha Barki': '+ (213) 2173 5247'},
 {'Francisco Domingos': '+ (244-2) 325 023'},
 {'Francisco Domingos': '+ (244-2) 325 023'},
 {'Maria Luisa': '+ (244) 4232 2836'},
 {'Abraao Chanda': '+ (244-2) 325 023'},
 {'Abraao Chanda': '+ (244-2) 325 023'},
 {'Beatriz Busaniche': '+ (54-11) 4784 1159'},
 {'Francesca Beddie': '+ (61-2) 6274 9500'},
 {'Francesca Beddie': '+ (61-2) 6274 9513'},
 {'Graham John Smith': '+ (61-3) 9807 4702'}]

## Лабораторная работа

### JSON

1.1 Считайте файл `contributors_sample.json`. Воспользовавшись модулем `json`, преобразуйте содержимое файла в соответствующие объекты python. Выведите на экран информацию о первых 3 пользователях.

In [7]:
with open("../data sources/contributors_sample.json", encoding="utf-8") as file:
    data = json.load(file)
    
pprint.pprint(data[:3], indent=2)

[ { 'address': '01261 Cameron Spring\nTaylorfurt, AK 97791',
    'id': 35193,
    'jobs': [ 'Energy engineer',
              'Engineer, site',
              'Environmental health practitioner',
              'Biomedical scientist',
              'Jewellery designer'],
    'mail': 'jsalazar@gmail.com',
    'name': 'Lindsey Nguyen',
    'sex': 'F',
    'username': 'uhebert'},
  { 'address': '66992 Welch Brooks\nMarshallshire, ID 56004',
    'id': 91970,
    'jobs': [ 'Music therapist',
              'Volunteer coordinator',
              'Designer, interior/spatial'],
    'mail': 'bhudson@gmail.com',
    'name': 'Cheryl Lewis',
    'sex': 'F',
    'username': 'vickitaylor'},
  { 'address': 'Unit 1632 Box 2971\nDPO AE 23297',
    'id': 1848091,
    'jobs': [ 'Management consultant',
              'Engineer, structural',
              'Lecturer, higher education',
              'Theatre manager',
              'Designer, textile'],
    'mail': 'darren44@yahoo.com',
    'name': 'Julia Allen

1.2 Выведите уникальные почтовые домены, содержащиеся в почтовых адресах людей

In [8]:
uniq_domans = set(i['mail'].split("@")[1] for i in data)
uniq_domans

{'gmail.com', 'hotmail.com', 'yahoo.com'}

1.3 Напишите функцию, которая по `username` ищет человека и выводит информацию о нем. Если пользователь с заданным `username` отсутствует, возбудите исключение `ValueError`

In [9]:
def get_info(username, data):
    for user in data:
        if user['username'] == username:
            return user
    raise ValueError('Пользователя с таким username не найдено')

    
pprint.pprint(get_info('sheilaadams', data))

print(f'\n\n{"*"*50}\nВозбуждаем исключение:\n')
pprint.pprint(get_info('ibbvs', data))

{'address': 'Unit 1632 Box 2971\nDPO AE 23297',
 'id': 1848091,
 'jobs': ['Management consultant',
          'Engineer, structural',
          'Lecturer, higher education',
          'Theatre manager',
          'Designer, textile'],
 'mail': 'darren44@yahoo.com',
 'name': 'Julia Allen',
 'sex': 'F',
 'username': 'sheilaadams'}


**************************************************
Возбуждаем исключение:



ValueError: Пользователя с таким username не найдено

1.4 Посчитайте, сколько мужчин и женщин присутсвует в этом наборе данных.

In [10]:
n = len(data)

f = sum(map(lambda x: x['sex'].lower() == 'f', data))
m = len(list(filter(lambda x: x['sex'].lower() == 'm', data)))

print(f'Общее количество людей в данном датасете = {n}\nКоличество мужчин = {m}\nКоличество женщин = {f}')

Общее количество людей в данном датасете = 4200
Количество мужчин = 2064
Количество женщин = 2136


1.5 Создайте `pd.DataFrame` `contributors`, имеющий столбцы `id`, `username` и `sex`.

In [11]:
solution = [{
    "id": user['id'],
    "username": user['username'],
    "sex": user['sex']
} for user in data]


contributors = pd.DataFrame.from_dict(solution)
contributors

Unnamed: 0,id,username,sex
0,35193,uhebert,F
1,91970,vickitaylor,F
2,1848091,sheilaadams,F
3,50969,nicole82,F
4,676820,jean67,M
...,...,...,...
4195,423555,stevenspencer,F
4196,35251,rwilliams,M
4197,135887,lmartinez,F
4198,212714,brendahill,M


1.6 Загрузите данные из файла `recipes_sample.csv` в таблицу `recipes`. Объедините `recipes` с таблицей `contributors` с сохранением строк в том случае, если информация о человеке отсутствует в JSON-файле. Для скольких человек информация отсутствует? 

In [12]:
recipes = pd.read_csv("../data sources/recipes_sample.csv")
recipes.head()

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,


In [13]:
contributors_recipes = pd.merge(recipes, contributors,  right_on="id", left_on="contributor_id", how="left")

contributors_recipes.head()

Unnamed: 0,name,id_x,minutes,contributor_id,submitted,n_steps,description,n_ingredients,id_y,username,sex
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0,35193.0,uhebert,F
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,,91970.0,vickitaylor,F
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0,,,
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,,,,
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,,,,


In [14]:
print(f"Для скольких человек информация отсутствует?\n{contributors_recipes['id_y'].isna().sum()} строк имеют значение NaN\n\n")
print(f"Для скольких человек информация присутствует?\n{contributors_recipes['id_y'].notna().sum()} строк НЕ имеют значение NaN")

Для скольких человек информация отсутствует?
15059 строк имеют значение NaN


Для скольких человек информация присутствует?
14941 строк НЕ имеют значение NaN


### pickle

2.1 На основе файла `contributors_sample.json` создайте словарь следующего вида: 
```
{
    должность: [список username людей, занимавших эту должность]
}
```

In [15]:
data[:2]

[{'username': 'uhebert',
  'name': 'Lindsey Nguyen',
  'sex': 'F',
  'address': '01261 Cameron Spring\nTaylorfurt, AK 97791',
  'mail': 'jsalazar@gmail.com',
  'jobs': ['Energy engineer',
   'Engineer, site',
   'Environmental health practitioner',
   'Biomedical scientist',
   'Jewellery designer'],
  'id': 35193},
 {'username': 'vickitaylor',
  'name': 'Cheryl Lewis',
  'sex': 'F',
  'address': '66992 Welch Brooks\nMarshallshire, ID 56004',
  'mail': 'bhudson@gmail.com',
  'jobs': ['Music therapist',
   'Volunteer coordinator',
   'Designer, interior/spatial'],
  'id': 91970}]

In [19]:
from collections import defaultdict
from itertools import chain



jobs = set(chain(*[i['jobs'] for i in data]))

result = defaultdict(list)
for job in jobs:
    result[job] = list(map(lambda x: x['username'], filter(lambda x: job in x['jobs'], data)))

    
#Проверка: Вывел юзернеймы всех кто занимал должность "Catering manager"
pprint.pprint(result["Catering manager"]) 

['amberunderwood',
 'pattersonstephanie',
 'ygray',
 'nmartinez',
 'crystalsmith',
 'pjohnson',
 'davidjohnson',
 'stephaniehouse',
 'xstephens',
 'linda24',
 'stewartjohn',
 'melinda48',
 'xflores',
 'nicholas92',
 'wdixon',
 'aguirremichelle',
 'ashley12',
 'amandatyler',
 'nelsonstephen',
 'margaretpowell',
 'aaroncase',
 'amy79']


In [21]:
# Проверка: Передал в функцию username из списка выше
pprint.pprint(get_info('amy79', data))

{'address': '47155 Jill Fork\nNorth Gregoryland, FL 40917',
 'id': 718854,
 'jobs': ['Art therapist',
          'Dance movement psychotherapist',
          'Surveyor, land/geomatics',
          'Chief Executive Officer',
          'Catering manager'],
 'mail': 'josephcharles@yahoo.com',
 'name': 'John Hood',
 'sex': 'M',
 'username': 'amy79'}


2.2 Сохраните результаты в файл `job_people.pickle` и в файл `job_people.json` с использованием форматов pickle и JSON соответственно. Сравните объемы получившихся файлов. При сохранении в JSON укажите аргумент `indent`.

In [22]:
import os.path
import os
import pickle

#более корректное отображение, без него так же работает
'''
lst = []
for position, usernames in result.items():
    lst.append({
        'position': position,
        'usernames': usernames
    })
with open('job_people.pkl', 'wb') as f1, open('job_people.json', 'w', encoding='utf-8') as f2:
    pickle.dump(lst, f1)
    json.dump(lst, f2, indent=4)
'''

with open('../data sources/job_people.pkl', 'wb') as f1, open('../data sources/job_people.json', 'w', encoding='utf-8') as f2:
    pickle.dump(result, f1)
    json.dump(result, f2, indent=4)
    
    
print(f'Вес pickle-файла: {round(os.path.getsize("../data sources/job_people.pkl") / 1024, 2)} KB\nВес json-файла: {round(os.path.getsize("../data sources/job_people.json") / 1024, 2)} КВ.')


Вес pickle-файла: 129.06 KB
Вес json-файла: 397.11 КВ.


2.3 Считайте файл `job_people.pickle` и продемонстрируйте, что данные считались корректно. 

In [26]:
with open('../data sources/job_people.pkl', 'rb') as file:
    obj = pickle.load(file)
    

pprint.pprint(obj["Catering manager"])

print(f'\n\n\nДанные считались корректно - {result["Catering manager"] == obj["Catering manager"]}')

['amberunderwood',
 'pattersonstephanie',
 'ygray',
 'nmartinez',
 'crystalsmith',
 'pjohnson',
 'davidjohnson',
 'stephaniehouse',
 'xstephens',
 'linda24',
 'stewartjohn',
 'melinda48',
 'xflores',
 'nicholas92',
 'wdixon',
 'aguirremichelle',
 'ashley12',
 'amandatyler',
 'nelsonstephen',
 'margaretpowell',
 'aaroncase',
 'amy79']



Данные считались корректно - True


### XML

3.1 По данным файла `steps_sample.xml` сформируйте словарь с шагами по каждому рецепту вида `{id_рецепта: ["шаг1", "шаг2"]}`. Сохраните этот словарь в файл `steps_sample.json`

In [28]:
content = open("../data sources/steps_sample.xml","r").read()
soup = BeautifulSoup(content, 'xml')

result_dict = {}

for recipe in soup.find_all('recipe'):
    recipe_id = int(recipe.find("id").get_text())
    result_dict[recipe_id] = []
    
    for step in recipe.find_all("step"):
        text = step.get_text()
        result_dict[recipe_id].append(text)



In [38]:
# Из-за большого количества ключ-значений, вывел только первые 5
print(f"Количество ключ-значений в словаре result_dict = {len(result_dict.keys())}")
print(f"Первые 5 ключей: {list(result_dict.keys())[:5]}")

#Проверка: шаги для рецепта с id=44123, количество шагов - 11
result_dict[44123]

Количество ключ-значений в словаре result_dict = 30000
Первые 5 ключей: [44123, 67664, 38798, 35173, 84797]


['in 1 / 4 cup butter , saute carrots , onion , celery and broccoli stems for 5 minutes',
 'add thyme , oregano and basil',
 'saute 5 minutes more',
 'add wine and deglaze pan',
 'add hot chicken stock and reduce by one-third',
 'add worcestershire sauce , tabasco , smoked chicken , beans and broccoli florets',
 'simmer 5 minutes',
 'add cream , simmer 5 minutes more and season to taste',
 'drop in remaining butter , piece by piece , stirring until melted and serve immediately',
 'smoked chicken: on a covered grill , slightly smoke boneless chicken , cooking to medium rare',
 'chef meskan uses applewood chips and does not allow the grill to become too hot']

3.2 По данным файла `steps_sample.xml` сформируйте словарь следующего вида: `кол-во_шагов_в_рецепте: [список_id_рецептов]`

In [40]:
#Множество со всевозможными количествами шагов в рецептах
seen = set(len(v) for k, v in result_dict.items())

result_dict2 = {}

for num in seen:
    result_dict2[num] = list(map(lambda x: x[0], filter(lambda x: num == len(x[1]), result_dict.items())))


# Проверка: Вывел 5 первых id у которых количество шагов = 11, среди них и id=44123 у которого как показала проверка кол-во шагов=11    
result_dict2[11][:5]

[44123, 302399, 375376, 140610, 374703]

In [45]:
# Проверка: обращаюсь по ключу = 1 - это количество шагов в рецепте. На принт выходят все id у которых количество шагов = 1
print(result_dict2[1])

[33246, 125721, 8827, 281241, 351371, 455529, 485158, 276396, 67666, 284868, 229602, 323477, 112725, 275046, 512016, 404419, 61105, 213993, 269631, 269186, 23353, 153053, 10633, 367819, 14450, 45544, 21332, 207929, 306297, 215579, 286717, 245056, 150063, 141231, 171900, 377604, 156521, 219708, 257358, 299621, 121166, 507169, 40568, 459993, 246787, 377416, 260015, 71746, 366389, 255007, 310004, 14782, 53106, 7697, 195792, 269776, 297839, 257710, 462416, 458432, 219142, 11774, 352312, 129180, 2560, 339164, 20791, 116966, 47084, 501494, 433185, 136445, 312922, 503010, 19961, 417021, 118359, 83171, 116718, 130134, 56394, 28389, 123591, 414936, 504772, 382927, 36139, 392676, 494731, 483181, 246581, 380234, 287180, 217537, 45773, 475219, 471981, 408186, 55949, 16252, 72010, 209928, 290710, 369105, 78355, 374373, 279936, 427550, 471432, 410346, 212687, 168150, 486169, 44999, 474356, 380740, 292585, 241327, 188152, 70879, 200025, 158152, 224272, 368431, 469158, 128429, 264935, 318574, 209536, 

In [50]:
# Беру первый элемент данного списка. Он равен 33246
idx1 = result_dict2[1][0]
idx1

33246

In [51]:
# Передаю его в другой словарь, у которого ключами являются id рецептов а значениями - список шагов
# Как видно, всё работает у id=33246 кол-во шагов = 1
result_dict[idx1]

['bake 50 minutes at 400 degrees']

In [52]:
# Проверка: теперь из того же списка с кол-вом шагов = 1 возьму последний id
idx2 = result_dict2[1][-1]
result_dict[idx2]

['mix well , serve in tea cups']

3.3 Получите список рецептов, в этапах выполнения которых есть информация о времени (часы или минуты). Для отбора подходящих рецептов обратите внимание на атрибуты соответствующих тэгов.

In [53]:

time_recipes = []

for recipe in soup.find_all('recipe'):
    recipe_id = int(recipe.find("id").get_text())
    for recipe in recipe.findAll("step"):
        if recipe.has_attr('has_hours') or recipe.has_attr('has_minutes'):
            time_recipes.append(recipe_id)
            break
            

            
print(len(time_recipes))
time_recipes[:5]

23469


[44123, 35173, 453467, 306168, 50662]

In [55]:
#Проверка: смотрю id=44123, как видно, там есть упоминания времени - часов или минут.
result_dict[44123]

['in 1 / 4 cup butter , saute carrots , onion , celery and broccoli stems for 5 minutes',
 'add thyme , oregano and basil',
 'saute 5 minutes more',
 'add wine and deglaze pan',
 'add hot chicken stock and reduce by one-third',
 'add worcestershire sauce , tabasco , smoked chicken , beans and broccoli florets',
 'simmer 5 minutes',
 'add cream , simmer 5 minutes more and season to taste',
 'drop in remaining butter , piece by piece , stirring until melted and serve immediately',
 'smoked chicken: on a covered grill , slightly smoke boneless chicken , cooking to medium rare',
 'chef meskan uses applewood chips and does not allow the grill to become too hot']

3.4 Загрузите данные из файла `recipes_sample.csv` в таблицу `recipes`. Для строк, которые содержат пропуски в столбце `n_steps`, заполните этот столбец на основе файла  `steps_sample.xml`. Строки, в которых столбец `n_steps` заполнен, оставьте без изменений.

In [168]:
recipes = pd.read_csv("../data sources/recipes_sample.csv")
recipes.head()

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,


In [56]:
solution = []

for k, lst in result_dict2.items():
    for idx in lst:
        solution.append({
            "id": idx,
            "n_steps": k
        })


df_steps = pd.DataFrame.from_dict(solution)


In [57]:
recipes = pd.merge(recipes, df_steps, left_on="id", right_on="id", how="outer")
recipes["n_steps_x"].fillna(recipes["n_steps_y"], inplace=True)

recipes = recipes[["name", "id", "minutes", "contributor_id", "submitted", "n_steps_x", "description", "n_ingredients"]]
recipes.rename(columns={"n_steps_x":"n_steps"}, inplace=True)

recipes.head()

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,11.0,an original recipe created by chef scott meska...,18.0
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,3.0,my children and their friends ask for my homem...,
2,i can t believe it s spinach,38798,30,1533,2002-08-29,5.0,"these were so go, it surprised even me.",8.0
3,italian gut busters,35173,45,22724,2002-07-27,7.0,my sister-in-law made these for us at a family...,
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,


3.5 Проверьте, содержит ли столбец `n_steps` пропуски. Если нет, то преобразуйте его к целочисленному типу и сохраните результаты в файл `recipes_sample_with_filled_nsteps.csv`

In [58]:
print(f"Количество пропусков в столбце 'n_steps': {recipes['n_steps'].isna().sum()}\n\n\n\n")
recipes["n_steps"] = recipes["n_steps"].astype("int64")
recipes.info()

Количество пропусков в столбце 'n_steps': 0




<class 'pandas.core.frame.DataFrame'>
Int64Index: 30000 entries, 0 to 29999
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   name            30000 non-null  object 
 1   id              30000 non-null  int64  
 2   minutes         30000 non-null  int64  
 3   contributor_id  30000 non-null  int64  
 4   submitted       30000 non-null  object 
 5   n_steps         30000 non-null  int64  
 6   description     29377 non-null  object 
 7   n_ingredients   21120 non-null  float64
dtypes: float64(1), int64(4), object(3)
memory usage: 2.1+ MB


In [59]:
recipes.to_csv("recipes_sample_with_filled_nsteps.csv")