In [24]:
import json
import re

In [25]:
# Gender mapping rules
gender_mapping = {
    'Unisex': 'U',
    'M': 'M',
    'Men': 'M',
    'W': 'W',
    'Woman': 'W',
    'Women': 'W',
    'Nữ': 'W',
    'Nữ': 'W',
    'Nam': 'M',
    'Nam/Nữ': 'U',
    'Kid': 'U',
    'U': 'U',
    None: 'U'
}

# Read data

In [26]:
# Load the merged data from 'shoes_data.json'
with open('./data_clean/shoes_data.json', 'r', encoding='utf-8') as file:
    data_list = json.load(file)  # data_list is a list of objects

Check all distinct value

In [27]:
def get_distinct_value(data):
    distinct_values = {}
    for data in data_list:
        for key, value in data.items():
            if key not in distinct_values:
                distinct_values[key] = set()  # Initialize a set for each new key
            distinct_values[key].add(value)  # Add value to the set (automatically handles duplicates)

    # Convert sets to lists for easier output (if needed)
    distinct_values = {key: list(values) for key, values in distinct_values.items()}
    return distinct_values

# Gender

In [28]:
print(get_distinct_value(data_list)['gender'])

['Nam', 'U', 'Nam/Nữ', 'Woman', 'Women', 'Nữ', None, 'Men', 'Nữ', 'Kid', 'Unisex', 'W', 'M']


In [29]:
# Process each object in the list to convert gender values
for data in data_list:
    # Apply gender mapping
    if 'gender' in data and data['gender'] in gender_mapping:
        data['gender'] = gender_mapping[data['gender']]

In [30]:
print(get_distinct_value(data_list)['gender'])

['U', 'W', 'M']


# Color

In [31]:
print(get_distinct_value(data_list)['color'])
print(len(get_distinct_value(data_list)['color']))

['Rằn Ri', 'Đỏ Hồng', '(Tiger Floral) black/true white', 'Xanh Họa Tiết', '(Logo Repeat) black/true white', 'Multi', 'nau', 'BLACK/WHITE/BLACK', 'Hong', 'Tím', 'Blue', 'Nhiều Màu', 'Dép Xỏ Ngón Nữ Crocs Tulum Flip', 'Dép Thể Thao Nam Under Armour Atlantic Dune T', 'Đỏ (Rish Red White)', 'BLACK/MARSHMALLOW', 'Teal Universe/Egret/Black', 'Navy/Black', 'Dép Quai Ngang Unisex Crocs Mellow Slide', 'Đen/Trắng', 'Dép Nam New Balance 100 Lifestyle', 'Giày Bóng Rổ Nam Under Armour 3Z5', 'Almond', 'Bright Brown', 'High risk red/true white', 'Green', 'Cream', 'True Navy/White', 'YELLOW', 'Multi Check/True White', 'Xanh Quân Đội', 'Speed Yellow/White/Wild Mango', 'Giày Thời Trang Nam Nike Jordan Air Nfh', 'White/Black/Gum Honey', 'WHITE', '(MoMA) Edvard Munch', 'Giày Bóng Đá Nam Nike Phantom Gx Club Tf (Dành Cho Sân Cỏ Nhân Tạo)', '(Tiger Patchwork) black/true white', 'COLOR THEORY CHECKERBOARD ROSE SMOKE', 'Kem (Marshmallow/True White)', 'Black/White/Gum', 'Blackout', 'Dép Unisex Crocs Classic Sa

In [32]:
# Define the list of distinct colors
distinct_colors = [
    'red', 'blue', 'green', 'yellow', 'black', 'white', 'purple',
    'pink', 'gray', 'orange', 'brown', 'beige', 'gold', 'silver',
    'teal', 'cyan', 'navy', 'cream', 'mauve', 'violet', 'olive',
    'aqua', 'burgundy', 'lavender', 'caramel', 'mint', 'khaki',
    'copper', 'indigo', 'xanh dương', 'đỏ', 'vàng', 'trắng', 
    'đen', 'nâu', 'hồng', 'tím', 'xám', 'cam', 'xanh', 'cam', 'do', 'vang', 
    'trang', 'den', 'tim', 'xanh la', 'xanh duong', 'xam', 'hong'
]

In [33]:
pattern = re.compile(r'\b(' + '|'.join(distinct_colors) + r')\b', re.IGNORECASE)

In [34]:
# Process each object in the data
for item in data_list:
    if item.get('color') is None:
        continue
    # Get the color attribute
    color_attr = item.get('color', '').strip()

    # Find all matching colors
    matches = pattern.findall(color_attr)
    
    if matches:
        # Convert matches to lower case and join with '/'
        item['color'] = '/'.join(sorted(set(color.lower() for color in matches)))
    else:
        item['color'] = None

In [35]:
print(get_distinct_value(data_list)['color'])
print(len(get_distinct_value(data_list)['color']))

['khaki', 'red/white/đỏ', 'black/blue/navy', 'green/white', 'black/pink', 'gray/white', 'trắng', 'yellow', 'xám/đỏ', 'trang', 'red', 'blue/gray', 'blue/olive', 'pink/purple', 'black/violet', 'white', 'purple', 'black/blue', 'pink/white', 'orange', 'black', 'tim', 'pink/red/white', 'hồng/đỏ', 'gray', 'green', 'xám', 'cam', 'xanh dương', 'black/khaki', 'vàng', 'purple/white', 'black/blue/white', None, 'vang', 'black/navy', 'hồng', 'xanh', 'xam', 'olive/xanh', 'green/olive', 'black/yellow', 'hồng/tím/đen', 'black/teal', 'black/red/white', 'navy/white', 'black/đen', 'white/yellow', 'tím', 'vàng/white', 'hồng/tím', 'black/white/đen', 'trắng/đen', 'red/white', 'vàng/xanh', 'olive', 'tím/xanh/xám/đen', 'black/white', 'blue/white', 'đỏ', 'xám/đen', 'brown', 'đen', 'indigo', 'black/teal/white', 'silver', 'gold/purple', 'mint/xanh', 'aqua/navy', 'gold/white', 'blue', 'navy', 'beige', 'trắng/đỏ', 'navy/xanh', 'trắng/xanh', 'black/cream', 'pink', 'blue/red', 'cream', 'hong', 'cam/đen', 'nâu']
83


In [36]:
print(len(data_list))

3140


In [37]:
# Count the number of objects with a non-None color attribute
valid_colors_count = len([obj for obj in data_list if obj.get('color') is not None])

# Print the count
print(valid_colors_count)

2701


# Material

In [38]:
print(get_distinct_value(data_list)['material'])
print(len(get_distinct_value(data_list)['material']))

print(len([obj for obj in data_list if obj.get('material') is not None]))

['100% Recycled Polyester', 'Da Synthetic', '', 'Canvas, Cao su', 'Vải - Da', 'Xốp mềm', '8% Leather, 92% Textile', 'Vải Canvas/Da Lộn', '47.84% Da, 52.16% Vải', '54% Leather; 46% Textile', 'Tổng hợp', 'Vải dệt, Cao su', 'High Quality Eva', 'Polyester, Lưới tổng hợp', 'Vải/Da Lộn', '50% Recycled Cotton, 50% Hemp upper', 'Da/Nylon', 'Leather', 'Da tổng hợp, Tổng hợp, Vải dệt', 'Lưới tổng hợp, Da lộn', 'Canvas', 'Vải Canvas', '100% EVA', 'Da tổng hợp, Da lộn, Lưới tổng hợp', 'Lưới tổng hợp, Vải dệt', 'Da tổng hợp', 'Vải dệt, Lưới tổng hợp', 'Leather 56,2%, Textile 43,8%', 'Cao su', 'Textile Upper', 'EVA + PU', 'Da tổng hợp, Vải dệt, Tổng hợp', 'Polyethylene', 'Da lộn, Lưới tổng hợp, Vải dệt', 'Tổng hợp, Da lộn', 'Suede/Textile', '100% Suede', 'Leather 30.5%, Textile 69.5%', 'Da', 'Da tổng hợp, Cao su', '100% Da', 'PVC', 'Nhựa Croslite', 'Da tổng hợp, Vải dệt', 'Da lộn, Vải dệt', 'Organic Cotton', 'Synthetic', '56.2% Suede, 43.8% Textile', None, '49.09% Leather, 50.91% Textile', '95% Poly

In [39]:
distinct_materials = [
    'Vải dệt', 'Lưới tổng hợp', 'Da tổng hợp', 'Moleskin n Cotton', 'EVA', 
    'Nylon', 'Lông nhân tạo', 'Cao su', 'Vải', 
    'Synthetic', 'Da', 'PVC', 'Sợi gai dầu', 'Organic Cotton', 
    'Canvas', 'Suede', 'Textile', 'Da lộn', 
    'Vải Knit', 'Microfiber', 'Nubuck', 'Recycled Cotton', 'TPU', 'Polyester', 
    'Vải lưới', 'Tổng hợp',
]

# Process material attribute
for obj in data_list:
    if obj['material'] is None: 
        continue

    materials_found = []
    for material in distinct_materials:
        if material.lower() in obj['material'].lower(): 
            materials_found.append(material)


    obj['material'] = "/".join(materials_found) if materials_found else None

In [40]:
print(get_distinct_value(data_list)['material'])
print(len(get_distinct_value(data_list)['material']))


valid_materials_count = len([obj for obj in data_list if obj.get('material') is not None])
print(valid_materials_count)

['Vải/Vải lưới', 'Vải/Vải Knit', 'Cao su/Canvas', 'Vải dệt/Vải/TPU', 'Vải dệt/Vải/Da/Da lộn', 'Suede/Textile', 'Vải dệt/Lưới tổng hợp/Vải/Tổng hợp', 'Da tổng hợp/Cao su/Da/Tổng hợp', 'Vải/Da/Canvas/Da lộn', 'Vải/Canvas', 'Nylon', 'Nylon/Polyester', 'Suede', 'Da tổng hợp/Da/Polyester/Tổng hợp', 'Tổng hợp', 'Lưới tổng hợp/Da tổng hợp/Da/Da lộn/Tổng hợp', 'Da', 'TPU', 'Da tổng hợp/Da/Tổng hợp', 'Textile', 'Vải dệt/Da tổng hợp/Vải/Da/Tổng hợp', 'Vải/Da', 'PVC', 'Da/Da lộn/Tổng hợp', 'Nylon/Da', 'Da tổng hợp/Da/Da lộn/Tổng hợp', 'Organic Cotton', 'Synthetic', 'Polyester/Tổng hợp', 'Cao su/Tổng hợp', 'Lưới tổng hợp/Tổng hợp', 'Microfiber', 'Canvas', 'Canvas/Polyester', None, 'Moleskin n Cotton/Polyester', 'Lưới tổng hợp/Polyester/Tổng hợp', 'Vải dệt/Cao su/Vải', 'Vải', 'Lưới tổng hợp/Da/Da lộn/Tổng hợp', 'Lông nhân tạo', 'Recycled Cotton', 'Vải dệt/Vải/Tổng hợp', 'Lưới tổng hợp/Da tổng hợp/Da/Tổng hợp', 'Vải dệt/Lưới tổng hợp/Vải/Da/Da lộn/Tổng hợp', 'Polyester', 'Nubuck/Polyester', 'Vải dệt

# Lining

In [41]:
print(get_distinct_value(data_list)['lining'])
print(len(get_distinct_value(data_list)['lining']))

print(len([obj for obj in data_list if obj.get('lining') is not None]))

['', 'Lưới tổng hợp, Vải', 'Da lộn', 'Da lộn, Lưới tổng hợp, Vải dệt', 'Tổng hợp, Da lộn', 'Tổng hợp, Da tổng hợp', 'Da tổng hợp, Da lộn', 'PET, Canvas', 'Tổng hợp, Vải dệt', 'Da lộn, Lưới tổng hợp, Tổng hợp', 'Nubuck, Polyester', 'Canvas, Cao su', 'Xốp mềm', 'Tổng hợp', 'Da', 'Da tổng hợp, Cao su', 'chất liệu tổng hợp', 'TPU', 'Vải dệt, Cao su', 'Da tổng hợp, Vải dệt, Tổng hợp', 'vải dệt và chất liệu tổng hợp', 'Polyester, Nylon', 'Da lộn, Tổng hợp', 'Polyester, Lưới tổng hợp', 'Nhựa Croslite', 'Da tổng hợp, Vải dệt', 'vải dệt và lót giày', 'Polyester, Tổng hợp', 'Polyethylene', 'vải dệt thoải mái', 'da và lót giày', 'Da lộn, Vải dệt', 'Tổng hợp, Lưới tổng hợp', 'Vải dệt, Tổng hợp', 'da', 'Lưới tổng hợp, Da lộn', 'Vải dệt', 'Da tổng hợp, Tổng hợp, Vải dệt', 'Tổng hợp, Cao su', 'Da tổng hợp, Polyester', 'Microfiber', 'Vải lưới', 'Recycled Polyester', 'Da tổng hợp, Tổng hợp', 'Sợi gai dầu (hemp), Cotton', None, 'Lưới tổng hợp, Polyester', 'Da tổng hợp, Lưới tổng hợp', 'Vải', 'Vải', 'Lô

In [42]:
distinct_lining = ['Vải dệt', 'Lưới tổng hợp', 'Da tổng hợp', 'Nubuck',
    'Polyester', 'Vải', 'EVA', 'Lông nhân tạo','Cao su',
    'Recycled Polyester', 'Microfiber', 'Canvas', 'TPU', 'OrthoLite',
    'Nhựa Croslite', 'Xốp mềm', 'Sợi gai dầu', 'Cotton', 'Da',
    'Da lộn', 'Tổng hợp', 'PET', 'Polyethylene'
]

In [43]:
cnt = 0
for obj in data_list:
    if obj['lining'] is None: 
        continue
    cnt += 1
    lining_found = []
 
    for lining in distinct_lining:
        check = False

        if lining.lower() in obj['lining'].lower():
            lining_found.append(lining)


    obj['lining'] = "/".join(lining_found) if lining_found else None
print(cnt)

2240


In [44]:
print(get_distinct_value(data_list)['lining'])
print(len(get_distinct_value(data_list)['lining']))


['Cao su/Canvas', 'Vải dệt/Vải/TPU', 'Vải dệt/Vải/Da/Da lộn', 'Vải dệt/Lưới tổng hợp/Vải/Tổng hợp', 'Da tổng hợp/Cao su/Da/Tổng hợp', 'Vải dệt/Vải/Cao su', 'Xốp mềm', 'Da tổng hợp/Polyester/Da/Tổng hợp', 'Tổng hợp', 'Lưới tổng hợp/Da tổng hợp/Da/Da lộn/Tổng hợp', 'Da', 'TPU', 'Da tổng hợp/Da/Tổng hợp', 'Vải dệt/Da tổng hợp/Vải/Da/Tổng hợp', 'Da/Da lộn/Tổng hợp', 'Nhựa Croslite', 'Da tổng hợp/Da/Da lộn/Tổng hợp', 'Polyester/Tổng hợp', 'Cao su/Tổng hợp', 'Lưới tổng hợp/Tổng hợp', 'Microfiber', 'Canvas', None, 'Canvas/PET', 'Sợi gai dầu/Cotton', 'Lưới tổng hợp/Polyester/Tổng hợp', 'Vải', 'Lưới tổng hợp/Da/Da lộn/Tổng hợp', 'Lông nhân tạo', 'Lưới tổng hợp/Da tổng hợp/Da/Tổng hợp', 'Vải dệt/Vải/Tổng hợp', 'Vải dệt/Lưới tổng hợp/Vải/Da/Da lộn/Tổng hợp', 'Polyester/Recycled Polyester', 'Polyester', 'Nubuck/Polyester', 'Vải dệt/Vải', 'EVA', 'OrthoLite', 'Cao su', 'Lưới tổng hợp/Vải/Tổng hợp', 'Polyethylene', 'Da/Da lộn']
42
1771


In [45]:
with open('./data_clean/processed_shoes_data.json', 'w', encoding='utf-8') as outfile:
    json.dump(data_list, outfile, ensure_ascii=False, indent=4)

print("Save")

Save
