# Machine Learning

**Типи даних**

Для аналізу даних важливо знати, з якими типами даних ми маємо справу.

Ми можемо розділити типи даних на три основні категорії:

- Числовий
- Категоріальний
- Порядковий
-
Числові дані є числами, і їх можна розділити на дві числові категорії:

Дискретні дані
- підраховані дані, обмежені цілими числами. Приклад: кількість автомобілів, що проїжджають.
Безперервні дані
- виміряні дані, які можуть бути будь-якими. Приклад: ціна товару або розмір товару

Категоріальні дані – це значення, які не можна порівняти одне з одним. Приклад: значення кольору або будь-які значення так/ні.

Порядкові дані схожі на категоріальні дані, але їх можна порівняти один з одним.
Приклад: шкільні оцінки, де А краще, ніж Б тощо.

Знаючи тип даних вашого джерела даних, ви зможете знати, яку техніку використовувати під час їх аналізу.

### Mean, Median, and Mode

Що ми можемо дізнатися, дивлячись на групу чисел?

У машинному навчанні (і в математиці) часто нас цікавлять три значення:

- `Mean` - середнє значення
- `Median` - середнє значення
- `Mode` - найпоширеніше значення

Приклад: ми зареєстрували швидкість 13 автомобілів:

In [47]:
speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]

Яке середнє, середнє чи найпоширеніше значення швидкості?

**Mean**

*Mean* значення є середнім значенням.
Щоб обчислити середнє значення, знайдіть суму всіх значень і розділіть суму на кількість значень:
$$(99+86+87+88+111+86+103+87+94+78+77+85+86) / 13 = 89.77$$

In [48]:
x = sum(speed) / len(speed)
print(f"{x = }")

x = 89.76923076923077


Модуль NumPy має метод для цього.

In [49]:
import numpy

x = numpy.mean(speed)
print('x =', x)

x = 89.76923076923077


In [50]:
print(f"{x = }")

x = np.float64(89.76923076923077)


**Median**

*Median* – це значення посередині після того, як ви відсортували всі значення:

77, 78, 85, 86, 86, 86, `87`, 87, 88, 94, 99, 103, 111

*Важливо, щоб числа були відсортовані, перш ніж ви зможете знайти медіану.*

Модуль NumPy має для цього метод:

In [51]:
x = numpy.median(speed)

print(x)

87.0


*Якщо в середині є два числа, поділіть суму цих чисел на два.*

77, 78, 85, 86, 86, `86`, `87`, 87, 94, 98, 99, 103

$$(86 + 87) / 2 = 86.5$$

In [52]:
speed2 = [99,86,87,88,86,103,87,94,78,77,85,86]

x = numpy.median(speed2)

print(x)

86.5


**Mode**

Значення *Mode* — це значення, яке з’являється найбільшу кількість разів:

99, `86`, 87, 88, 111, `86`, 103, 87, 94, 78, 77, 85, `86` = $86$

Модуль SciPy має для цього метод.

In [53]:
from scipy import stats

x = stats.mode(speed)

print(x)

ModeResult(mode=np.int64(86), count=np.int64(3))


Середнє значення, медіана та мода – це методи, які часто використовуються в машинному навчанні, тому важливо розуміти концепцію, що стоїть за ними.

### What is Standard Deviation?

Стандартне відхилення – це число, яке описує, наскільки розкидані значення.

Низьке стандартне відхилення означає, що більшість чисел близькі до середнього (середнього) значення.

Високе стандартне відхилення означає, що значення розповсюджені в більш широкому діапазоні.

Приклад: Цього разу ми зареєстрували швидкість 7 автомобілів:

In [54]:
speed = [86,87,88,86,87,85,86]

Стандартне відхилення: $0.9$ - Це означає, що більшість значень знаходяться в діапазоні 0,9 від середнього значення, яке становить 86,4.

Давайте зробимо те саме з вибором чисел із ширшим діапазоном:

In [55]:
speed = [32,111,138,28,59,77,97]

Стандартне відхилення: $37.85$ - Це означає, що більшість значень знаходиться в діапазоні 37,85 від середнього значення, яке становить 77,4.

Як бачите, більш високе стандартне відхилення вказує на те, що значення розподілені в більш широкому діапазоні.

Модуль NumPy має метод обчислення стандартного відхилення:

In [56]:
speed = [86,87,88,86,87,85,86]

x = numpy.std(speed)

print(x)

0.9035079029052513


### Формула обчислення

Внутрішньо, стандартне відхилення обчислюється за такою формулою:

1. Спочатку обчислюється середнє значення елементів масиву (якщо не передано через параметр `mean`)
2. Для кожного елемента обчислюється квадрат різниці між ним і середнім значенням
3. Сума цих квадратів ділиться на (N - ddof), де N — кількість елементів
4. Результат — це квадратний корінь від отриманого значення

Математично це виглядає так:
```
std = sqrt(sum(|x_i - mean|²) / (N - ddof))
```

Для комплексних чисел береться абсолютне значення різниці перед піднесенням до квадрату.

### Використання ddof

Параметр `ddof` (або `correction`) впливає на знаменник формули:
- При `ddof=0` (за замовчуванням) це "стандартне відхилення генеральної сукупності"
- При `ddof=1` це "стандартне відхилення вибірки" з поправкою Бесселя

### Оптимізація з параметром mean

Параметр `mean` дозволяє передати попередньо обчислене середнє значення, що може значно прискорити обчислення (до 30% за даними з прикладу у документації), якщо середнє значення вже було обчислено раніше.

### Типові випадки використання

- Обчислення стандартного відхилення всього масиву: `np.std(a)`
- Обчислення по осі: `np.std(a, axis=0)` або `np.std(a, axis=1)`
- Обчислення з поправкою Бесселя: `np.std(a, ddof=1)`
- Обчислення з вищою точністю: `np.std(a, dtype=np.float64)`

Функція `std()` дуже корисна в статистичному аналізі даних для вимірювання розкиду значень відносно середнього.

In [57]:
speed = [32,111,138,28,59,77,97]

x = numpy.std(speed)

print(x)

37.84501153334721


In [58]:
import math

x2 = math.sqrt(sum([(i - numpy.mean(speed))**2 for i in speed]) / len(speed))

x2

37.84501153334721

In [59]:
x3 = math.sqrt(sum([(i - sum(speed) / len(speed))**2 for i in speed]) / len(speed))

x3

37.84501153334722

In [60]:
print(f"{x2 = }")
print(f"{x3 = }")
print(x2 == x3)

x2 = 37.84501153334721
x3 = 37.84501153334722
False


In [61]:
# Використання math.isclose() (рекомендований спосіб у Python)
print(math.isclose(x2, x3))  # True

# Або перевірка, чи відрізняються значення менше, ніж на певну малу величину
epsilon = 1e-10
print(abs(x2 - x3) < epsilon)  # True

# Або використання numpy
print(numpy.isclose(x2, x3))  # True

True
True
True


### Variance

Дисперсія – це ще одне число, яке вказує на те, наскільки розкидані значення.

Насправді, якщо взяти квадратний корінь з дисперсії, ви отримаєте стандартне відхилення!

Або навпаки, якщо ви помножите стандартне відхилення саме на нього, ви отримаєте дисперсію!

Щоб розрахувати дисперсію, потрібно зробити наступне:

1. Знайти середнє:

In [62]:
m = sum(speed) / len(speed)
print(f"{m = }")

m = 77.42857142857143


$(32+111+138+28+59+77+97) / 7 = 77.4$

2. Для кожного значення: знайти різницю від середнього:

In [63]:
delta = [i - m for i in speed]
delta

[-45.42857142857143,
 33.57142857142857,
 60.57142857142857,
 -49.42857142857143,
 -18.42857142857143,
 -0.4285714285714306,
 19.57142857142857]

32 - 77.4 = -45.4

111 - 77.4 =  33.6

138 - 77.4 =  60.6

28 - 77.4 = -49.4

59 - 77.4 = -18.4

77 - 77.4 = - 0.4

97 - 77.4 =  19.6

3. Для кожної різниці знайдіть значення квадрата:

In [64]:
qd = [d**2 for d in delta]
qd

[2063.7551020408164,
 1127.0408163265304,
 3668.8979591836733,
 2443.183673469388,
 339.6122448979593,
 0.18367346938775683,
 383.04081632653055]

(-45.4)2 = 2061.16

(33.6)2 = 1128.96

(60.6)2 = 3672.36

(-49.4)2 = 2440.36

(-18.4)2 =  338.56

(- 0.4)2 =    0.16

(19.6)2 =  384.16

4. Дисперсія - це середнє число цих квадратів різниць:

In [65]:
V = sum(qd)/len(qd)
V

1432.2448979591838

$(2061.16+1128.96+3672.36+2440.36+338.56+0.16+384.16) / 7 = 1432.2$

На щастя, у NumPy є метод для обчислення дисперсії:

In [66]:
v = numpy.var(speed)

print(v)

1432.2448979591834


In [67]:
diff = V - v
diff

np.float64(4.547473508864641e-13)

In [68]:
float(diff)

4.547473508864641e-13

### Standard Deviation

Як ми дізналися, формула для визначення стандартного відхилення є квадратним коренем із дисперсії:

In [69]:
sd = math.sqrt(v)
sd

37.84501153334721

$\sqrt{1432.25} = 37.85$

Або, як у попередньому прикладі, використовуйте NumPy для обчислення стандартного відхилення:

In [70]:
sd = numpy.std(speed)

print(sd)

37.84501153334721


### Символи
Стандартне відхилення часто позначається символом сигма: $\sigma$

Дисперсію часто позначають символом сигма-квадрат: $\sigma^2$

Стандартне відхилення та дисперсія – це терміни, які часто використовуються в машинному навчанні, тому важливо розуміти, як їх отримати та концепцію, що стоїть за ними.