In [None]:
# Исследовать структуру xml-файлов, чтобы произвести парсинг всех данных. 
# В каждом файле содержится информация об одном или нескольких объектах из случайной предметной области. 
# Перечень всех характеристик объекта может меняться (у отдельного объекта могут отсутствовать некоторые характеристики). 
# Полученные данные собрать и записать в json. 
# Выполните также ряд операций с данными:
# отсортируйте значения по одному из доступных полей
# выполните фильтрацию по другому полю (запишите результат отдельно)
# для одного выбранного числового поля посчитайте статистические характеристики (сумма, мин/макс, среднее и т.д.)
# для одного текстового поля посчитайте частоту меток

In [2]:
from bs4 import BeautifulSoup
import re
import json
import math
import collections
import pandas as pd
import xml

In [3]:
def handle_file(file_name):
    items = []
    with open(file_name, encoding = 'utf-8') as file:
        text = ""
        for row in file.readlines():
            text += row
        root = BeautifulSoup(text, 'lxml')
        for clothing in root.find_all("clothing"):
            item = {}
            for i in clothing.contents:
                if i.name is None:
                    continue
                elif i.name == "price" or i.name == "reviews":
                    item[i.name] = int(i.get_text().strip())
                elif i.name == "price" or i.name == "rating":
                    item[i.name] = float(i.get_text().strip())
                elif i.name == "new":
                    item[i.name] = i.get_text().strip() == '+'
                elif i.name == "exclusive" or i.name == "sporty":
                    item[i.name] = i.get_text().strip() == 'yes'
                else:
                    item[i.name] = i.get_text().strip()
            items.append(item)
    return items

In [14]:
items = []
for i in range(1,101):
  file_name = f'./4/{i}.xml'
  result = handle_file(file_name)
  items += result
print(items[1:2])

[{'id': '329936680', 'name': 'Brooks Pants P-3037', 'category': 'Pants', 'size': 'XL', 'color': 'Красный', 'material': 'Шелк', 'price': 777176, 'rating': 4.21, 'reviews': 95170, 'new': True, 'exclusive': True}]


In [15]:
with open('result_all_17_4.json', 'w', encoding = 'utf-8') as f:
    f.write(json.dumps(items, ensure_ascii=False))

In [18]:
# Сортировка значений по полю 'price' в убывающем порядке
items = sorted(items, key = lambda x: x['price'], reverse = True)
print(items[1:5])

[{'id': '677328804', 'name': 'Vans Sweater L-6420', 'category': 'Sweater', 'size': 'XL', 'color': 'Оранжевый', 'material': 'Шерсть', 'price': 999386, 'rating': 1.56, 'reviews': 572984, 'exclusive': False, 'sporty': False}, {'id': '602286011', 'name': 'Fila Handbags D-7572', 'category': 'Handbags', 'size': 'M', 'color': 'Зеленый', 'material': 'Нейлон', 'price': 999051, 'rating': 2.24, 'reviews': 724075, 'new': True, 'exclusive': True, 'sporty': False}, {'id': '760371393', 'name': 'Vans Blouse Y-4713', 'category': 'Blouse', 'size': 'L', 'color': 'Фиолетовый', 'material': 'Хлопок', 'price': 998986, 'rating': 4.01, 'reviews': 570773, 'new': True, 'exclusive': True, 'sporty': False}, {'id': '124984297', 'name': 'Nike Socks P-9850', 'category': 'Socks', 'size': 'M', 'color': 'Красный', 'material': 'Хлопок', 'price': 998700, 'rating': 2.51, 'reviews': 749253, 'new': False, 'exclusive': False}]


In [19]:
# Выполним фильтрацию по полю ['size']:
filtered_items = []
for size in items:
    if size['size'] == 'M':
        filtered_items.append(size)
print(filtered_items[1:5])     

[{'id': '124984297', 'name': 'Nike Socks P-9850', 'category': 'Socks', 'size': 'M', 'color': 'Красный', 'material': 'Хлопок', 'price': 998700, 'rating': 2.51, 'reviews': 749253, 'new': False, 'exclusive': False}, {'id': '772160776', 'name': 'Adidas Blouse Z-9093', 'category': 'Blouse', 'size': 'M', 'color': 'Зеленый', 'material': 'Хлопок', 'price': 998517, 'rating': 2.62, 'reviews': 995355, 'new': False, 'exclusive': True, 'sporty': False}, {'id': '178506825', 'name': 'Addidas Skirt W-1390', 'category': 'Skirt', 'size': 'M', 'color': 'Желтый', 'material': 'Хлопок', 'price': 996643, 'rating': 3.5, 'reviews': 687155, 'new': False, 'exclusive': True}, {'id': '387480370', 'name': 'Puma Umbrellas B-7039', 'category': 'Umbrellas', 'size': 'M', 'color': 'Синий', 'material': 'Лен', 'price': 995052, 'rating': 3.52, 'reviews': 892965, 'exclusive': True}]


In [20]:
with open("result_filtered_17_4.json", "w", encoding = 'utf-8') as file:
    file.write(json.dumps(filtered_items, ensure_ascii=False))

In [21]:
# для числового поля ['reviews'] посчитаем статистические характеристики (сумма, мин/макс, среднее и т.д.)
stats_items = []
df = pd.DataFrame(items)
pd.set_option('display.float_format', '{:.1f}'.format)
stats = df['reviews'].agg(['max', 'min', 'mean', 'median', 'std']).to_dict()
stats_items.append(stats)
print(stats_items)

[{'max': 999781.0, 'min': 1825.0, 'mean': 502653.1551076187, 'median': 504970.0, 'std': 283653.0096127634}]


In [23]:
# для текстового поля ['category'] посчитайте частоту меток
text_items = []
category = [item['category'] for item in items]
f1 = collections.Counter(category)
text_items.append(f1)
print(text_items)

[Counter({'Shoes': 204, 'Socks': 201, 'Umbrellas': 198, 'Skirt': 197, 'Jacket': 194, 'Handbags': 194, 'Blouse': 194, 'Sweater': 189, 'Jeans': 184, 'Hat': 183, 'Pants': 175, 'Dress': 172, 'T-shirt': 169, 'Shirt': 163, 'Belts': 162, 'Gloves': 148})]
