In [1]:
# Імпорт бібліотек і завантаження даних, виведення загальної інформації

import requests  # Імпорт бібліотеки для HTTP-запитів.
import json      # Імпорт бібліотеки для роботи з JSON-файлами.
import pandas as pd  # Імпорт бібліотеки для аналізу даних (Pandas).


# Завантаження даних із JSON-файлу, який був збережений раніше.
file_path = "makeup_all_products.json"  # Вказівка на файл із даними.
df = pd.read_json(file_path)    # Завантаження даних у DataFrame для аналізу.

# Виведення загальної інформації про DataFrame.
print("Загальна інформація про дані:")
print(df.info())  # Показує кількість рядків і стовпців, типи даних, використання пам'яті.


Загальна інформація про дані:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 931 entries, 0 to 930
Data columns (total 19 columns):
 #   Column              Non-Null Count  Dtype              
---  ------              --------------  -----              
 0   id                  931 non-null    int64              
 1   brand               919 non-null    object             
 2   name                931 non-null    object             
 3   price               917 non-null    float64            
 4   price_sign          368 non-null    object             
 5   currency            368 non-null    object             
 6   image_link          931 non-null    object             
 7   product_link        931 non-null    object             
 8   website_link        931 non-null    object             
 9   description         930 non-null    object             
 10  rating              340 non-null    float64            
 11  category            517 non-null    object             
 12  produc

In [2]:
# Виведення переліку стовпців
columns = df.columns.tolist()  # Отримання списку стовпців
print("Перелік стовпців у DataFrame:")
print(columns)


Перелік стовпців у DataFrame:
['id', 'brand', 'name', 'price', 'price_sign', 'currency', 'image_link', 'product_link', 'website_link', 'description', 'rating', 'category', 'product_type', 'tag_list', 'created_at', 'updated_at', 'product_api_url', 'api_featured_image', 'product_colors']


In [23]:
# Перевірка  кількість NaN,  пустих рядків і рядків з нуль

# import pandas as pd
# import json

# Шлях до файлу
# file_path = "makeup_all_products.json"

# Завантаження даних
with open(file_path, "r", encoding="utf-8") as f:
    data = json.load(f)

# Перетворення у DataFrame
df = pd.DataFrame(data)

# Підготовка результату
result = []

for col in df.columns:
    total_nan = df[col].isna().sum()
    total_empty_str = (df[col] == "").sum()
    total_zeros = df[col][pd.to_numeric(df[col], errors="coerce") == 0].count() if pd.api.types.is_numeric_dtype(df[col]) or df[col].dtype == object else 0

    result.append({
        "column": col,
        "NaN_count": total_nan,
        "empty_string_count": total_empty_str,
        "zero_count": total_zeros
    })

# Перетворення в зручну таблицю
summary_df = pd.DataFrame(result)

# Вивід
print(summary_df.sort_values(by=["NaN_count", "empty_string_count", "zero_count"], ascending=False))


                column  NaN_count  empty_string_count  zero_count
10              rating        591                   0           0
4           price_sign        563                   0           0
5             currency        563                   0           0
11            category        414                  10           0
3                price         14                   0          40
1                brand         12                   0           0
9          description          1                  24           0
0                   id          0                   0           0
2                 name          0                   0           0
6           image_link          0                   0           0
7         product_link          0                   0           0
8         website_link          0                   0           0
12        product_type          0                   0           0
13            tag_list          0                   0           0
14        

In [3]:
# Статистична інформація про всі числові стовпці

# Перетворення всіх стовпців у числовий формат, якщо це необхідно
# Конвертує стовпці у числовий формат, якщо вони містять текстові дані.
df['price'] = pd.to_numeric(df['price'], errors='coerce')
df['rating'] = pd.to_numeric(df['rating'], errors='coerce')

# Генерація статистичної інформації для всіх числових стовпців
# Цей метод обчислює ключові показники: count, mean, std, min, max, квартилі.
numeric_stats = df.describe()

# Виведення результатів у консоль
# Відображає статистичну інформацію для числових даних у DataFrame.
print("\nСтатистична інформація про всі числові стовпці:")
print(numeric_stats)



Статистична інформація про всі числові стовпці:
                id       price      rating
count   931.000000  917.000000  340.000000
mean    531.163265   16.508593    4.319118
std     311.054915   11.028035    0.675849
min       1.000000    0.000000    1.500000
25%     263.000000    8.990000    4.000000
50%     518.000000   13.990000    4.500000
75%     814.500000   22.000000    5.000000
max    1048.000000   77.000000    5.000000


In [4]:
# Обчислення кількості унікальних значень для стовпців id, name, brand, category
# Для кожного стовпця рахуємо кількість унікальних значень за допомогою функції `nunique`.
unique_counts = {
    'id': df['id'].nunique(),                # Унікальні значення у стовпці id
    'name': df['name'].nunique(),            # Унікальні значення у стовпці name
    'brand': df['brand'].nunique(),          # Унікальні значення у стовпці brand
    'category': df['category'].nunique(),    # Унікальні значення у стовпці category
    'product_type': df['product_type'].nunique()  # Унікальні значення у стовпці product_type
}

# Виведення результатів
# Показуємо кількість унікальних значень для кожного стовпця.
print("Кількість унікальних значень у кожному стовпці:")
for column, count in unique_counts.items():
    print(f"{column}: {count}")



Кількість унікальних значень у кожному стовпці:
id: 931
name: 928
brand: 57
category: 15
product_type: 10


In [5]:

# id, name, brand, category, product_colors, description, price, rating для 'name', які повторюються

# Підрахунок кількості появ кожного 'name'
# Рахуємо, скільки разів кожне 'name' зустрічається.
name_counts = df['name'].value_counts()

# Фільтрація для отримання 'name', які повторюються
# Залишаємо тільки ті рядки, де 'name' зустрічається більше одного разу.
repeated_names = name_counts[name_counts > 1].index  # Список повторюваних 'name'
filtered_df = df[df['name'].isin(repeated_names)]  # Фільтрація рядків за повторюваними 'name'

# Сортування результатів за 'name'
# Сортуємо фільтрований DataFrame у порядку зростання за 'name'.
sorted_df = filtered_df.sort_values(by='name')

# Вибір потрібних стовпців
result = sorted_df[['id', 'name', 'brand', 'category', 'product_colors', 'description', 'price', 'rating']]

# Виведення результатів
print("Рядки, відсортовані за 'name', де 'name' повторюється більше одного разу (id, name, brand, category, product_colors, description, price, rating):")
print(result)

# Підрахунок загальної кількості повторюваних значень 'name' і кількості унікальних 'name'
print(f"\nЗагальна кількість повторюваних 'name': {len(repeated_names)}")
print(f"Кількість унікальних повторюваних 'name': {len(result['name'].unique())}")


Рядки, відсортовані за 'name', де 'name' повторюється більше одного разу (id, name, brand, category, product_colors, description, price, rating):
      id                                name                brand   category  \
18  1030                           Lip Gloss  penny lane organics  lip_gloss   
26  1022                           Lip Gloss           marienatie  lip_gloss   
4   1044                            Lipstick                boosh   lipstick   
25  1023                            Lipstick           marienatie   lipstick   
12  1036  Multi Purpose Powder - Blush & Eye      rejuva minerals              
13  1035  Multi Purpose Powder - Blush & Eye      rejuva minerals     powder   

                                       product_colors  \
18  [{'hex_value': '#2F1513', 'colour_name': 'Blac...   
26  [{'hex_value': '#D5A291', 'colour_name': 'Posh...   
4   [{'hex_value': '#CB4975', 'colour_name': 'Babs...   
25  [{'hex_value': '#9D5E4F', 'colour_name': 'Evel...   
12  [{'h

In [6]:
import pandas as pd

# Завантаження даних із JSON-файлу
file_path = "makeup_all_products.json"  # Шлях до вашого JSON-файлу
df = pd.read_json(file_path)  # Завантаження даних у DataFrame

# Кількість унікальних category для кожного product_type
categories_per_product_type = df.groupby('product_type')['category'].nunique()

# Кількість унікальних product_type для кожної category
product_types_per_category = df.groupby('category')['product_type'].nunique()

# Виведення результатів
print("Кількість унікальних категорій (category) для кожного типу продукту (product_type):")
print(categories_per_product_type)

print("\nКількість унікальних типів продуктів (product_type) для кожної категорії (category):")
print(product_types_per_category)


Кількість унікальних категорій (category) для кожного типу продукту (product_type):
product_type
blush          2
bronzer        1
eyebrow        1
eyeliner       4
eyeshadow      4
foundation     8
lip_liner      1
lipstick       4
mascara        1
nail_polish    0
Name: category, dtype: int64

Кількість унікальних типів продуктів (product_type) для кожної категорії (category):
category
               2
bb_cc          1
concealer      1
contour        1
cream          4
gel            1
highlighter    1
lip_gloss      1
lip_stain      1
lipstick       1
liquid         3
mineral        1
palette        1
pencil         4
powder         3
Name: product_type, dtype: int64


In [7]:
#оновлений обєднаний щапит про ціни

# Імпорт необхідних бібліотек
import pandas as pd

# Завантаження даних із JSON-файлу
file_path = "makeup_all_products.json"
df = pd.read_json(file_path)

# Фільтрація даних, де ціна > 0
filtered_prices = df[df['price'] > 0]['price']

# Обчислення базових статистичних показників
average_price = filtered_prices.mean()
min_price = filtered_prices.min()
max_price = filtered_prices.max()

# Виведення базової статистики
print("Базова статистика цін (без урахування 0):")
print(f"Середня ціна: {average_price}")
print(f"Мінімальна ціна: {min_price}")
print(f"Максимальна ціна: {max_price}")
print()

# Обчислення процентилів
percentiles = {
    "10%": filtered_prices.quantile(0.10),
    "25%": filtered_prices.quantile(0.25),
    "50% (медіана)": filtered_prices.quantile(0.50),
    "75%": filtered_prices.quantile(0.75),
    "90%": filtered_prices.quantile(0.90),
    "95%": filtered_prices.quantile(0.95),
    "99%": filtered_prices.quantile(0.99)
}

# Виведення процентилів
print("Процентилі цін:")
for label, value in percentiles.items():
    print(f"{label}: {value}")
print()

# Розподіл по діапазонах на основі 25% і 75%
count_less_25 = filtered_prices[filtered_prices < percentiles["25%"]].count()
count_25_to_75 = filtered_prices[(filtered_prices >= percentiles["25%"]) & (filtered_prices <= percentiles["75%"])].count()
count_more_75 = filtered_prices[filtered_prices > percentiles["75%"]].count()

df_percentile_25_75 = pd.DataFrame({
    "Діапазон": ["< 25%", "25%-75%", "> 75%"],
    "Кількість": [count_less_25, count_25_to_75, count_more_75],
    "Процентильні значення": [
        f"< {percentiles['25%']}",
        f"{percentiles['25%']} до {percentiles['75%']}",
        f"> {percentiles['75%']}"
    ]
})

print("Розподіл по діапазонах (25%-75%):")
print(df_percentile_25_75)
print()

# Розподіл по діапазонах на основі 10% і 90%
count_less_10 = filtered_prices[filtered_prices < percentiles["10%"]].count()
count_10_to_90 = filtered_prices[(filtered_prices >= percentiles["10%"]) & (filtered_prices <= percentiles["90%"])].count()
count_more_90 = filtered_prices[filtered_prices > percentiles["90%"]].count()

df_percentile_10_90 = pd.DataFrame({
    "Діапазон": ["< 10%", "10%-90%", "> 90%"],
    "Кількість": [count_less_10, count_10_to_90, count_more_90],
    "Процентильні значення": [
        f"< {percentiles['10%']}",
        f"{percentiles['10%']} до {percentiles['90%']}",
        f"> {percentiles['90%']}"
    ]
})

print("Розподіл по діапазонах (10%-90%):")
print(df_percentile_10_90)
print()

# Кількість позицій вище 90%, 95% та 99% процентилів
extreme_counts = {
    "90%": filtered_prices[filtered_prices > percentiles["90%"]].count(),
    "95%": filtered_prices[filtered_prices > percentiles["95%"]].count(),
    "99%": filtered_prices[filtered_prices > percentiles["99%"]].count()
}

print("Кількість позицій, де ціна перевищує вказані процентилі:")
for label, count in extreme_counts.items():
    print(f"> {label} процентиль: {count}")


Базова статистика цін (без урахування 0):
Середня ціна: 17.261550741163056
Мінімальна ціна: 1.99
Максимальна ціна: 77.0

Процентилі цін:
10%: 6.99
25%: 9.5
50% (медіана): 14.79
75%: 23.0
90%: 31.0
95%: 38.099999999999966
99%: 50.24000000000001

Розподіл по діапазонах (25%-75%):
  Діапазон  Кількість Процентильні значення
0    < 25%        218                 < 9.5
1  25%-75%        451           9.5 до 23.0
2    > 75%        208                > 23.0

Розподіл по діапазонах (10%-90%):
  Діапазон  Кількість Процентильні значення
0    < 10%         85                < 6.99
1  10%-90%        708          6.99 до 31.0
2    > 90%         84                > 31.0

Кількість позицій, де ціна перевищує вказані процентилі:
> 90% процентиль: 84
> 95% процентиль: 44
> 99% процентиль: 9
