<a href="https://colab.research.google.com/github/cpython-projects/python_da_06_11_25/blob/main/lesson_14.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Шкали

## Номінальна шкала (Nominal Scale)

**Визначення:**
Номінальна шкала — це **категоріальні дані без упорядкування**.
Вона використовується для класифікації об’єктів за групами, які не мають кількісного або логічного порядку.

**Приклади:**

* Кольори: `red`, `blue`, `green`
* Тип продукту: `smartphone`, `laptop`
* Країна: `Ukraine`, `Germany`, `Japan`
* Стать: `male`, `female`

**Ключові особливості:**

* Значення не мають математичного сенсу (не можна додавати або усереднювати кольори)
* Можна обчислювати лише частоту (моду) — найчастіше значення
* Основні способи візуалізації: **кругові діаграми** та **стовпчикові графіки**

In [None]:
import pandas as pd

# Приклад: дані про клієнтів та їхні вподобання щодо кольору і типу продукту

data = {
    'Color': ['red', 'blue', 'green', 'blue', 'blue', 'red', 'green', 'red', 'red', 'blue'],
    'Product': ['smartphone', 'laptop', 'smartphone', 'tablet', 'laptop', 'tablet', 'laptop', 'smartphone', 'tablet', 'laptop'],
    'Country': ['Ukraine', 'Germany', 'Japan', 'Ukraine', 'Japan', 'Germany', 'Ukraine', 'Japan', 'Ukraine', 'Germany'],
    'Gender': ['male', 'female', 'female', 'male', 'male', 'female', 'male', 'female', 'female', 'male']
}

df = pd.DataFrame(data)
df.head()

Unnamed: 0,Color,Product,Country,Gender
0,red,smartphone,Ukraine,male
1,blue,laptop,Germany,female
2,green,smartphone,Japan,female
3,blue,tablet,Ukraine,male
4,blue,laptop,Japan,male


## Порядкова шкала (Ordinal Scale)

**Визначення:**
Порядкова шкала — це **категоріальні дані з упорядкуванням**,
але **інтервали між значеннями не рівні і не підлягають точному вимірюванню**.

**Приклади:**

* Рівень освіти: `primary < secondary < tertiary`
* Оцінка продукту: `1★ < 2★ < 5★`
* Стадія хвороби: `mild < moderate < severe`
* Рівень доходу: `low < medium < high`

**Ключові особливості:**

* Порядок **має значення**, але різниця між категоріями **не кількісна**
* Підходящі статистики: **медіана**, **ранг**
* Візуалізація: **упорядковані стовпчикові графіки**, **шкали Лайкерта**

In [None]:
# Приклад даних: рівень задоволеності клієнтів

data = {
    'Satisfaction': ['very low', 'low', 'medium', 'high', 'very high', 'medium', 'low', 'medium', 'high', 'very high']
}

df = pd.DataFrame(data)
df

Unnamed: 0,Satisfaction
0,very low
1,low
2,medium
3,high
4,very high
5,medium
6,low
7,medium
8,high
9,very high


In [None]:
# Вказуємо порядок категорій вручну (від низького до високого)

order = ['very low', 'low', 'medium', 'high', 'very high']
df['Satisfaction'] = pd.Categorical(df['Satisfaction'], categories=order, ordered=True)
df

Unnamed: 0,Satisfaction
0,very low
1,low
2,medium
3,high
4,very high
5,medium
6,low
7,medium
8,high
9,very high


### Якщо порядок **НЕ заданий** (`ordered=False`, значення за замовчуванням)

Pandas просто зберігає набір міток (labels), **не знаючи, яка "вище" чи "нижче"**.
Тобто `“low”` і `“high”` будуть розглядатися просто як різні категорії — **без логічного порядку**.


In [None]:
df = pd.DataFrame({'Satisfaction': ['low', 'medium', 'high']})
df['Satisfaction'] = df['Satisfaction'].astype('category')
print(df['Satisfaction'].cat.ordered)

False


➡️ При цьому:

* сортування (`sort_values`) відбувається **за алфавітом**, а не за смисловим порядком;
* не можна порівнювати (`<`, `>`) категорії — це викличе помилку;
* медіану або ранги коректно обчислити неможливо.


### Якщо порядок **ЗАДАНИЙ** (`ordered=True`)

Тепер pandas розуміє, що `very low < low < medium < high < very high`.


In [None]:
order = ['very low', 'low', 'medium', 'high', 'very high']
df['Satisfaction'] = pd.Categorical(df['Satisfaction'], categories=order, ordered=True)
print(df['Satisfaction'].cat.ordered)

True


Тепер можливі:

* **порівняння:**

  ```python
  df['Satisfaction'] > 'medium'
  ```

  поверне логічні значення;
* **коректне сортування:**

  ```python
  df.sort_values('Satisfaction')
  ```

  впорядкує дані не за алфавітом, а за смислом;
* **обчислення рангів і медіани за смисловим порядком.**


In [None]:
df['Satisfaction'] > 'medium'

Unnamed: 0,Satisfaction
0,False
1,False
2,True


In [None]:
df.sort_values('Satisfaction')

Unnamed: 0,Satisfaction
0,low
1,medium
2,high


### Короткий висновок

| Сценарій                               | ordered=False | ordered=True |
| -------------------------------------- | ------------- | ------------ |
| Можна сортувати за змістом             | ❌             | ✅            |
| Можна порівнювати категорії (`>`, `<`) | ❌             | ✅            |
| Медіана/ранг має сенс                  | ❌             | ✅            |
| Підходить для номінальних даних        | ✅             | ❌            |
| Підходить для порядкових даних         | ❌             | ✅            |

---

### Рекомендація

* Для **Nominal Scale** (`колір`, `країна`, `тип продукту`) → `ordered=False`
* Для **Ordinal Scale** (`low`, `medium`, `high`) → `ordered=True`


## Кількісна шкала (Quantitative Scale)

**Визначення:**
Кількісна шкала використовується для **числових даних, що мають математичний сенс**.
Вона дозволяє виконувати арифметичні операції: додавання, віднімання, множення та ділення.

**Підтипи:**

* **Дискретні (цілі значення)** — кількість товарів, число дітей у сім’ї
* **Неперервні (дробові значення)** — вага, зріст, температура, час доставки

**Приклади:**

* Вік: `25`, `30.5`
* Зарплата: `$50,000`
* Час доставки: `2.5 години`
* Перегляди сайту: `1,000,000`

**Ключові особливості:**

* Застосовні всі математичні операції (`+`, `−`, `×`, `÷`)
* Основні статистики: **середнє, стандартне відхилення, дисперсія**
* Типові візуалізації: **гістограми**, **boxplots**, **scatter plots**


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Приклад кількісних даних: вік, зарплата, час доставки

data = {
    'Age': [23, 29, 35, 42, 45, 50, 56, 61, 65, 70],
    'Salary': [3000, 3500, 4000, 4500, 4800, 5200, 6000, 7000, 7200, 7500],
    'Delivery_time': [2.1, 2.5, 2.3, 2.0, 2.6, 2.8, 3.0, 2.9, 3.2, 2.7]
}

df = pd.DataFrame(data)
df


Unnamed: 0,Age,Salary,Delivery_time
0,23,3000,2.1
1,29,3500,2.5
2,35,4000,2.3
3,42,4500,2.0
4,45,4800,2.6
5,50,5200,2.8
6,56,6000,3.0
7,61,7000,2.9
8,65,7200,3.2
9,70,7500,2.7


## Порівняння типів шкал даних (Comparison of Scales)

| Критерій                                   | Nominal                | Ordinal                          | Quantitative                                             |
| ------------------------------------------ | ---------------------- | -------------------------------- | -------------------------------------------------------- |
| **Наявність порядку (Order)**              | ✘ Ні                   | ✔ Є                              | ✔ Є                                                      |
| **Рівні інтервали (Equal Intervals)**      | ✘ Ні                   | ✘ Ні                             | ✔ Так                                                    |
| **Математичні операції (Math Operations)** | ✘ Не застосовні        | ✘ Обмежені (тільки ранги)        | ✔ Всі арифметичні операції                               |
| **Основні статистики (Statistics)**        | Мода, частота          | Медіана, мода, ранги             | Середнє, медіана, мода, дисперсія, стандартне відхилення |
| **Приклади (Examples)**                    | Стать, кольори, країни | Рейтинги, освіта, стадії хвороби | Вага, зріст, температура, вік                            |

---

### Важливі зауваження

* ⚠️ **Типова помилка:** обчислювати середнє значення для порядкових даних (наприклад, "середня оцінка = 3.8") —
  математично некоректно, бо інтервали між категоріями не рівні.
* ✅ **Правило:** вибір статистичних методів і візуалізацій **залежить від типу шкали**.
  Перед аналізом завжди перевіряйте, чи відповідає ваш метод типу даних.


# Зведена статистика


**Поняття:**
Зведена статистика — це частина описової статистики, яка надає **коротке числове резюме даних**.
Вона допомагає швидко зрозуміти, як розподілені значення, де центр і який розкид.
Зведені показники (наприклад, середнє, медіана, стандартне відхилення) описують основні характеристики вибірки.

**Чому це важливо:**

* Допомагає зрозуміти загальну структуру даних.
* Дозволяє виявляти закономірності, тенденції та потенційні проблеми (наприклад, пропуски або викиди).
* Створює основу для подальшого аналізу, візуалізації або побудови моделей машинного навчання.

**Приклади зведених статистик:**

* Середнє значення (`mean`)
* Медіана (`median`)
* Мода (`mode`)
* Мінімум та максимум (`min`, `max`)
* Стандартне відхилення (`std`)