# Етапи виконання проєкту

## Попередні дії  

### **Файл 1:** `1. makeup_api_loading.ipynb`  
- Реалізація коду для завантаження та збереження даних.  
- Підключення до API за URL: [https://makeup-api.herokuapp.com/api/v1/products.json](https://makeup-api.herokuapp.com/api/v1/products.json).  
- Збереження отриманих даних у файл `makeup_all_products.json`.  

### **Файл 2:** `2. makeup_research_dataset.ipynb`  
- Імпорт даних 

## Поточні дії  

### **Файл 3:** `3. makeup_data_preparation.ipynb`  
- Обробка даних, їхнє підготовлення для подальшого аналізу.  
- Застосування необхідних перетворень та перевірок.  

## Наступні дії  

### **Файл 4:** `.4. makeup_color table.ipynb`  
- Вибір палітри, яка буде використовуватись у побудові графіків.
- Створення таблиці кольорів для візуалізації даних.


### **Файл 5:** `5. makeup_project_visualization.ipynb`  
- Створення візуалізації для аналізу даних.  
- Відображення ключових взаємозв’язків та статистичних характеристик.  




## Виконані дії у файлі  
**Назва файлу:** `3.makeup_data_preparation.ipynb`

### Короткий огляд коду, реалізованого у файлі:

### **Код 1:** Завантаження даних  
- Імпорт даних із JSON-файлу `makeup_all_products.json`.  
- Виведення списку стовпців для перевірки структури даних.


### **Код 2:** Розділення даних  
- Завантаження даних із файлу `makeup_all_products.json`.  
- Оцінка цілісності даних — перевірка на наявність усіх ключових колонок.  
- Розподіл даних на три окремі частини:  
  - **`makeup_valid_prices.csv`:** продукти з валідною ціною (>0), підготовлені для аналітики.  
  - **`makeup_no_prices.csv`:** продукти без визначеної ціни (ціна = 0, відсутня або NaN).  
  - **`makeup_additional_info.csv`:** допоміжна інформація, що включає посилання, API-шляхи тощо.  
- Збереження отриманих файлів у форматі `.csv` для подальшої роботи.


### **Код 3:** Оцінка відсутніх даних  
- Перевірка на пропущені значення в ключових колонках для аналізу необхідності їх заповнення.


### **Код 4:** Заповнення пропусків  
- Імпорт даних із файлу `makeup_valid_prices.csv`.  
- Заповнення пропущених значень у колонках `category` та `brand`.  
- Збереження оновлених даних у файл `makeup_valid_prices_filled.csv`.


### **Код 5:** Перевірка після заповнення  
- Оцінка наявності пропущених значень у колонках після виконаного заповнення (`category` та `brand`).
- Джерело: `makeup_valid_prices_filled.csv`.


### **Код 6:** Статистичний аналіз цін  
- Аналіз розподілу даних у колонці `price` для визначення категорій.  
- Створення нової колонки `categorize_price` для класифікації продуктів за ціною.  
- Джерело: `makeup_valid_prices_filled.csv`.


### **Код 7:** Додавання нових колонок  
- Створення додаткових колонок для аналітики:  
  - `categorize_price`,  
  - `brand_popularity`,  
  - `category_product_type`,  
  - `brand_category_product_type`.  
- Збереження оновлених даних у файл `makeup_valid_prices_filled_columns.csv`.


### **Код 8:** Перевірка оновлених даних  
- Оцінка наявності пропущених значень після додавання нових колонок.  
- Джерело: `makeup_valid_prices_filled_columns.csv`.


### **Код 9:** Аналіз унікальних значень  
- Підрахунок кількості унікальних значень для кожної колонки даних.  
- Джерело: `makeup_valid_prices_filled_columns.csv`.


### **Код 10:** Статистичний аналіз числових даних  
- Оцінка основних статистичних показників для числових колонок.



In [1]:
## **Код 1:Завантаження даних  

# Імпорт бібліотек і завантаження даних, виведення загальної інформації
import requests  # Імпорт бібліотеки для HTTP-запитів.
import json      # Імпорт бібліотеки для роботи з JSON-файлами.
import pandas as pd  # Імпорт бібліотеки для аналізу даних (Pandas).


# Завантаження даних із JSON-файлу, який був збережений раніше.
file_path = "makeup_all_products.json"  # Вказівка на файл із даними.
df = pd.read_json(file_path)    # Завантаження даних у DataFrame для аналізу.

# Виведення переліку стовпців
columns = df.columns.tolist()  # Отримання списку стовпців
print("Перелік стовпців у DataFrame:")
print(columns)


Перелік стовпців у DataFrame:
['id', 'brand', 'name', 'price', 'price_sign', 'currency', 'image_link', 'product_link', 'website_link', 'description', 'rating', 'category', 'product_type', 'tag_list', 'created_at', 'updated_at', 'product_api_url', 'api_featured_image', 'product_colors']


In [2]:
### Код 2: Розділення даних  
# Поділ даних на три частини з відповідним збереженням у .csv-файли.
# Усі набори містять колонку id, і структура даних не порушується:

import pandas as pd
import numpy as np

# Завантаження JSON-файлу
file_path = "makeup_all_products.json"
df = pd.read_json(file_path)

# Перелік усіх початкових колонок
full_columns = ['id', 'brand', 'name', 'price', 'price_sign', 'currency', 'image_link', 'product_link', 
                'website_link', 'description', 'rating', 'category', 'product_type', 'tag_list', 
                'created_at', 'updated_at', 'product_api_url', 'api_featured_image', 'product_colors']

# Перевірка наявності всіх очікуваних колонок
missing = [col for col in full_columns if col not in df.columns]
if missing:
    print("Відсутні колонки:", missing)
else:
    print("Усі колонки на місці")

# 1. Товари з валідною ціною (price > 0)
df_valid = df[df["price"].apply(lambda x: pd.notna(x) and x > 0)].copy()

# 2. Товари без визначеної ціни: ціна == 0, або NaN, або порожня
df_no_price = df[df["price"].isna() | (df["price"] == 0)].copy()

# 3. Додаткові дані (не для аналізу, окремий файл)
additional_columns = ['id', 'price_sign', 'currency', 'image_link', 'product_link', 'website_link', 
                      'tag_list', 'created_at', 'updated_at', 'product_api_url', 'api_featured_image']
df_additional = df[additional_columns].copy()

# Колонки, які залишаємо в аналітичних наборах:
analysis_columns = ['id', 'brand', 'name', 'price', 'description', 'rating', 'category', 'product_type', 'product_colors']
df_valid = df_valid[analysis_columns]
df_no_price = df_no_price[analysis_columns]

# Збереження у CSV
df_valid.to_csv("makeup_valid_prices.csv", index=False)
df_no_price.to_csv("makeup_no_prices.csv", index=False)
df_additional.to_csv("makeup_additional_info.csv", index=False)

print("Файли збережено: makeup_valid_prices.csv, makeup_no_prices.csv, makeup_additional_info.csv")


Усі колонки на місці
Файли збережено: makeup_valid_prices.csv, makeup_no_prices.csv, makeup_additional_info.csv


In [3]:
### Код 3:Оцінка відсутніх даних 
# Перевірка даних на відсутеість значень з меною визначення потреби для заповнення 

import pandas as pd

# Завантаження даних із файлу CSV
file_path = "makeup_valid_prices.csv"
df = pd.read_csv(file_path)

# Функція для підрахунку пропущених значень у кожній колонці
def calculate_missing_values(dataframe):
    missing_stats = pd.DataFrame({
        'NaN_count': dataframe.isna().sum(),  # Кількість NaN
        'empty_string_count': (dataframe == '').sum(),  # Кількість пустих рядків
        'zero_count': (dataframe == 0).sum(),  # Кількість нульових значень
    })
    missing_stats['total_missing'] = missing_stats.sum(axis=1)  # Загальна кількість пропущених значень
    return missing_stats

# Підрахунок пропущених значень
missing_values = calculate_missing_values(df)

# Виведення результату
print("Статистика пропущених значень для кожної колонки:")
print(missing_values)


Статистика пропущених значень для кожної колонки:
                NaN_count  empty_string_count  zero_count  total_missing
id                      0                   0           0              0
brand                  12                   0           0             12
name                    0                   0           0              0
price                   0                   0           0              0
description            23                   0           0             23
rating                537                   0           0            537
category              405                   0           0            405
product_type            0                   0           0              0
product_colors          0                   0           0              0


У наступному коді буде виконано заповнення пропущених даних:

Завантажено данді з файлу makeup_valid_prices.csv.


Заповнення пропущених категорій та брендів у колонках `category` та `brand`

Заповнення пропущених значень у колонці `category`:

1. Автоматичне заповнення за типом продукту: Для кожного типу продукту визначено найбільш поширену категорію серед продуктів, де категорія вже була заповнена. Це дозволило автоматично заповнити пропущені категорії для всіх продуктів з однаковим типом.

2. Ручне заповнення: Для деяких типів продуктів, таких як:
   - `mascara` — категорія заповнена як `liquid`
   - `bronzer` — категорія заповнена як `powder`
   - `nail_polish` — категорія заповнена як `gel`
   - `eyebrow` — категорія заповнена як `pencil`

   Це було зроблено вручну, на основі знань про типи цих продуктів.

3. Результат: Всі пропущені категорії були заповнені, і кількість пропущених значень у колонці `category` знизилась до нуля.

Заповнення пропущених значень у колонці `brand`:

Заповнені значення в колонці `brand` були визначені за допомогою словника `type_brand_map`, який відповідає найбільш поширеному бренду для кожного типу продукту (`product_type`). Якщо для певного типу продукту у словнику не було відповідного бренду, значення заповнювалось як `np.nan`.

Наприклад, якщо в колонці `brand` було пропущене значення (NaN) або порожній рядок, функція брала відповідний бренд зі словника `type_brand_map` на основі значення в колонці `product_type`.

Цей підхід дозволив коректно заповнити пропущені значення у колонках `category` та `brand`, що забезпечує повноту даних для подальшого аналізу.

Заповнені дані збережені в файл makeup_valid_prices_filled.csv

In [4]:
### Код 4:Заповнення пропусків  
# Заповнення пропущених значень у колонках  `category` та `brand

import pandas as pd
import numpy as np

# Завантаження даних
file_path = "makeup_valid_prices.csv"  # Вказуємо правильний шлях до файлу
df = pd.read_csv(file_path)

# Перевірка пропущених значень у колонках 'category' та 'brand'
print(f"Початково пропущених значень у 'category': {df['category'].isna().sum()}")
print(f"Початково пропущених значень у 'brand': {df['brand'].isna().sum()}")

# Заповнення категорій
manual_category_fallback = {
    'mascara': 'liquid',  # Приклад для mascara
    'bronzer': 'powder',  # Для bronzer
    'nail_polish': 'gel',  # Для nail_polish
    'eyebrow': 'pencil',  # Для eyebrow
}

# Перевірка пропущених значень для категорій
empty_or_nan_cat = df['category'].isna() | (df['category'].str.strip() == '')

# Створення мапи product_type → найбільш поширена категорія
type_cat_map = (
    df[~empty_or_nan_cat]
    .groupby('product_type')['category']
    .agg(lambda x: x.value_counts().index[0])
    .to_dict()
)

# Об’єднання автоматично отриманої мапи з ручними категоріями
type_cat_map.update({k: v for k, v in manual_category_fallback.items() if k not in type_cat_map})

# Функція для заповнення категорії
def fill_category(row):
    if pd.isna(row['category']) or row['category'].strip() == '':
        return type_cat_map.get(row['product_type'], np.nan)
    return row['category']

# Заповнення категорій
df['category'] = df.apply(fill_category, axis=1)

# Заповнення брендів
empty_or_nan_brand = df['brand'].isna() | (df['brand'].str.strip() == '')

# Створення мапи product_type → найбільш поширений бренд (для заповнення пропущених значень)
type_brand_map = (
    df[~empty_or_nan_brand]
    .groupby('product_type')['brand']
    .agg(lambda x: x.value_counts().index[0])  # Найбільш поширений бренд для кожного типу продукту
    .to_dict()
)

# Функція для заповнення бренду
def fill_brand(row):
    if pd.isna(row['brand']) or row['brand'].strip() == '':
        # Використовуємо найбільш поширений бренд для конкретного типу продукту
        return type_brand_map.get(row['product_type'], np.nan)
    return row['brand']

# Заповнення пропущених значень у 'brand'
df['brand'] = df.apply(fill_brand, axis=1)

# Перевірка кількості пропущених значень після обробки
print(f"Після обробки залишилось пропущених значень у 'category': {df['category'].isna().sum()}")
print(f"Після обробки залишилось пропущених значень у 'brand': {df['brand'].isna().sum()}")

# Збереження результату в новий файл "makeup_valid_prices_filled.csv"
df.to_csv("makeup_valid_prices_filled.csv", index=False)


Початково пропущених значень у 'category': 405
Початково пропущених значень у 'brand': 12
Після обробки залишилось пропущених значень у 'category': 0
Після обробки залишилось пропущених значень у 'brand': 0


In [5]:
### Код 5: Перевірка після заповнення  
# Перевірка пропущених значень для кожної колонки після виконання заповнення у колонках `category` та `brand`

import pandas as pd

# Завантаження даних із файлу CSV
file_path = "makeup_valid_prices_filled.csv"
df = pd.read_csv(file_path)

# Функція для підрахунку пропущених значень у кожній колонці
def calculate_missing_values(dataframe):
    missing_stats = pd.DataFrame({
        'NaN_count': dataframe.isna().sum(),  # Кількість NaN
        'empty_string_count': (dataframe == '').sum(),  # Кількість пустих рядків
        'zero_count': (dataframe == 0).sum(),  # Кількість нульових значень
    })
    missing_stats['total_missing'] = missing_stats.sum(axis=1)  # Загальна кількість пропущених значень
    return missing_stats

# Підрахунок пропущених значень
missing_values = calculate_missing_values(df)

# Виведення результату
print("Статистика пропущених значень для кожної колонки:")
print(missing_values)


Статистика пропущених значень для кожної колонки:
                NaN_count  empty_string_count  zero_count  total_missing
id                      0                   0           0              0
brand                   0                   0           0              0
name                    0                   0           0              0
price                   0                   0           0              0
description            23                   0           0             23
rating                537                   0           0            537
category                0                   0           0              0
product_type            0                   0           0              0
product_colors          0                   0           0              0


In [6]:
### Код 6: Статистичний аналіз цін  
# Перевірка статистичних даних в колонці price для висначення категорій в колонці categorize_price

import pandas as pd

# Завантаження даних із файлу CSV
file_path = "makeup_valid_prices_filled.csv"
df = pd.read_csv(file_path)

# Фільтрація даних, де ціна > 0
filtered_prices = df[df['price'] > 0]['price']

# Обчислення базових статистичних показників
average_price = filtered_prices.mean()
min_price = filtered_prices.min()
max_price = filtered_prices.max()

# Виведення базової статистики
print("Базова статистика цін:")
print(f"Мінімальна ціна: {min_price}")
print(f"Середня ціна: {average_price}")
print(f"Максимальна ціна: {max_price}")
print()

# Обчислення процентилів
percentiles = {
    "25%": filtered_prices.quantile(0.25),
    "75%": filtered_prices.quantile(0.75),
    "99%": filtered_prices.quantile(0.99)
}

# Виведення процентилів
print("Процентилі цін:")
for label, value in percentiles.items():
    print(f"{label}: {value}")



Базова статистика цін:
Мінімальна ціна: 1.99
Середня ціна: 17.261550741163056
Максимальна ціна: 77.0

Процентилі цін:
25%: 9.5
75%: 23.0
99%: 50.24000000000001


Наступний код виконує  донавання нових колонок categorize_price, brand_popularity, category_product_type, brand_category_product_typ

Створення колонки categorize_price
Поділ на категорії базується на ключових процентилях:
•	low (<10) — 25% процентиль 9.5 Для зручності ціна  округлена 10.
•	mid (10–25) — середній сегмент між ~ 25-м і 75-м процентилями, включає медіану. 25%: 9.5 - 75%: 23.0
•	high (25–50) — охоплює товари від 75-го до майже 99-го процентиля. 99%: 50.24
•	premium (>50) —  1% товарів із дуже високою ціною, але це не викиди, а окрема категорія.


In [7]:
### Код 7: Додавання нових колонок  
# Додавання нових колонок categorize_price, brand_popularity, category_product_type, brand_category_product_type
# categorize_price: low (<10),  mid (10–25), high (25–50), premium (>50) 

import pandas as pd

# Завантаження даних із файлу CSV
file_path = "makeup_valid_prices_filled.csv"
df = pd.read_csv(file_path)

# 1. Цінова категорія на основі фіксованих порогів
def categorize_price(price):
    if price < 10:
        return 'low'
    elif price < 25:
        return 'mid'
    elif price < 50:
        return 'high'
    else:
        return 'premium'

df['price_category'] = df['price'].apply(categorize_price)

# 2. Кількість товарів з валідною ціною в межах бренду
brand_popularity = df.groupby('brand')['price'].count()
df['brand_popularity'] = df['brand'].map(brand_popularity)

# 3. Комбінація категорії та типу товару
df['category_product_type'] = df['category'] + "_" + df['product_type']

# 4. Комбінація бренду, категорії та типу товару
df['brand_category_product_type'] = df['brand'] + "_" + df['category'] + "_" + df['product_type']

# Збереження оновлених даних у новий файл
df.to_csv("makeup_valid_prices_filled_columns.csv", index=False)


In [22]:
### **Код 8:** Перевірка оновлених даних 
# Перевірка пропущених значень для кожної колонки після додавання нових стовпців

import pandas as pd

# Завантаження даних із файлу CSV
file_path = "makeup_valid_prices_filled_columns.csv"
df = pd.read_csv(file_path)

# Функція для підрахунку пропущених значень у кожній колонці
def calculate_missing_values(dataframe):
    missing_stats = pd.DataFrame({
        'NaN_count': dataframe.isna().sum(),  # Кількість NaN
        'empty_string_count': (dataframe == '').sum(),  # Кількість пустих рядків
        'zero_count': (dataframe == 0).sum(),  # Кількість нульових значень
    })
    missing_stats['total_missing'] = missing_stats.sum(axis=1)  # Загальна кількість пропущених значень
    return missing_stats

# Підрахунок пропущених значень
missing_values = calculate_missing_values(df)

# Виведення результату
print("Статистика пропущених значень для кожної колонки:")
print(missing_values)


Статистика пропущених значень для кожної колонки:
                             NaN_count  empty_string_count  zero_count  \
id                                   0                   0           0   
brand                                0                   0           0   
name                                 0                   0           0   
price                                0                   0           0   
description                         23                   0           0   
rating                             537                   0           0   
category                             0                   0           0   
product_type                         0                   0           0   
product_colors                       0                   0           0   
price_category                       0                   0           0   
brand_popularity                     0                   0           0   
category_product_type                0                   0    

In [8]:
### Код 9: Аналіз унікальних значень  

import pandas as pd

# Завантаження даних із файлу CSV
file_path = "makeup_valid_prices_filled_columns.csv"
df = pd.read_csv(file_path)

# Підрахунок кількості унікальних значень для кожної колонки
unique_counts = df.nunique()

# Виведення результату
print("Кількість унікальних значень для кожної колонки:")
print(unique_counts)


Кількість унікальних значень для кожної колонки:
id                             877
brand                           44
name                           877
price                          156
description                    820
rating                          26
category                        14
product_type                    10
product_colors                 625
price_category                   4
brand_popularity                24
category_product_type           26
brand_category_product_type    251
dtype: int64


In [9]:
### Код 10: Статистичний аналіз числових даних 

import pandas as pd

# Завантаження даних із файлу CSV
file_path = "makeup_valid_prices_filled_columns.csv"
df = pd.read_csv(file_path)

# Перетворення колонки 'price' на числовий тип
df['price'] = pd.to_numeric(df['price'], errors='coerce')  # 'errors="coerce"' перетворює некоректні значення на NaN

# Генерація статистичних даних для всіх числових колонок
statistics = df.describe()

# Виведення статистичних даних
print("Статистичні дані для числових колонок:")
print(statistics)


Статистичні дані для числових колонок:
                id       price      rating  brand_popularity
count   877.000000  877.000000  340.000000        877.000000
mean    507.942987   17.261551    4.319118         69.342075
std     302.830003   10.684513    0.675849         56.367286
min       1.000000    1.990000    1.500000          1.000000
25%     249.000000    9.500000    4.000000         27.000000
50%     487.000000   14.790000    4.500000         54.000000
75%     791.000000   23.000000    5.000000         93.000000
max    1048.000000   77.000000    5.000000        172.000000
