# Лекція 2: Python для Інтелектуального Аналізу Даних

## Пререквізити

- Базовий синтаксис Python (змінні, функції, цикли, умови)
- Розуміння структур керування потоком виконання

## 1. Чому Python для Інтелектуального Аналізу Даних?

Python став **де-факто стандартом** для науки про дані та інтелектуального аналізу даних завдяки кільком ключовим перевагам:

#### **1. Багата Екосистема**
- **NumPy**: Ефективні чисельні обчислення з N-вимірними масивами
- **Pandas**: Потужні інструменти для маніпуляції та аналізу даних
- **Matplotlib/Seaborn**: Можливості візуалізації даних
- **SciPy**: Функції наукових обчислень

#### **2. Простота Використання**
- **Читабельний синтаксис**, близький до природної мови
- **Можливості швидкого прототипування**
- **Інтерактивна розробка** з Jupyter notebooks
- **Плавна крива навчання** для початківців

#### **3. Продуктивність**
- **C розширення** для обчислювально інтенсивних завдань
- **Векторизовані операції** для ефективної обробки даних
- **Ефективні структури даних** з точки зору пам'яті
- **Підтримка паралельної обробки**

#### **4. Спільнота та Підтримка**
- **Велика, активна спільнота** науковців з даних
- **Обширна документація** та навчальні матеріали
- **Регулярні оновлення** та покращення
- **Прийняття в індустрії** серед великих компаній

### Підзавдання ІАД та Інструменти в Python

- Збір даних -> Pandas/Requests
- Очищення даних -> Pandas/NumPy
- Дослідницький аналіз -> Pandas/Matplotlib
- Інженерія ознак -> Pandas/NumPy
- Аналіз даних -> Pandas/NumPy
- Візуалізація -> Matplotlib/Seaborn

### Огляд Ключових Бібліотек

| Бібліотека | Призначення | Ключові Особливості |
|------------|-------------|---------------------|
| **NumPy** | Чисельні обчислення | Масиви, лінійна алгебра, випадкові числа |
| **SciPy** | Наукові обчислення | Статистика, оптимізація, обробка сигналів |
| **Pandas** | Маніпуляція даними | DataFrames, очищення даних, аналіз |
| **Matplotlib** | Візуалізація | Графіки, діаграми, графі |


## 2. Jupyter Notebooks

Перш ніж ми заглибимося в Python для інтелектуального аналізу даних, давайте зрозуміємо середовище, в якому ми працюватимемо: **Jupyter Notebooks**.

#### **Що таке Jupyter?**

Jupyter — це інтерактивне середовище обчислень, яке дозволяє створювати та ділитися документами, що містять живий код, рівняння, візуалізації та описовий текст. Воно особливо популярне в науці про дані, оскільки підтримує:

- **Інтерактивну розробку**: Запускає код комірка за коміркою (cell)
- **Багатий вивід**: Відображає графіки, таблиці та відформатований текст
- **Документацію**: Поєднує код з поясненнями та markdown
- **Відтворюваність**: Демонструє повний робочий процес аналізу

#### **Ключові Концепції**

##### **1. Комірки**
Jupyter notebook складається з **комірок** — окремих одиниць, які можуть містити:
- **Комірки коду**: Виконуваний код Python
- **Markdown комірки**: Відформатований текст, рівняння та документація

##### **2. Виконання Комірок**
- **Виконати комірку**: Натисніть `Shift + Enter` або натисніть кнопку "Run"
- **Виконати та залишитися**: Натисніть `Ctrl + Enter` (Windows/Linux) або `Cmd + Enter` (Mac)


##### **3. Стани Комірок**
- **Порожня**: Немає вмісту
- **Код**: Містить виконуваний код Python
- **Markdown**: Містить відформатований текст
- **Виконана**: Код було запущено (показує результат нижче)

##### **4. Ядро та Стан**
- **Ядро (Kernel)**: Інтерпретатор Python, який виконує ваш код
- **Стан**: Змінні та імпорти зберігаються між виконаннями комірок
- **Перезапуск (Restart)**: Очищає всі змінні та починає заново

#### **Корисні Гарячі Клавіші**

| Гаряча клавіша | Дія |
|----------------|-----|
| `Shift + Enter` | Запустити комірку та перейти до наступної |
| `Ctrl + Enter` | Запустити комірку та залишитися |
| `A` | Вставити комірку зверху |
| `B` | Вставити комірку знизу |
| `DD` | Видалити комірку |
| `M` | Перетворити на Markdown |
| `Y` | Перетворити на Код |
| `Z` | Скасувати видалення комірки |
| `Shift + M` | Об'єднати комірки |

#### **Вивід та Відображення**

Jupyter автоматично відображає результат останнього виразу в комірці:

In [None]:
2+2

4

In [19]:
print(2+2)

4


In [20]:
2+2
2+10

12

#### **Магічні Команди**

Jupyter надає спеціальні команди, які називаються "магічними командами" та починаються з `%` або `%%`:

```python
# Впливає лише на один рядок
%timeit sum(range(1000))  # Виміряти час виконання
%matplotlib inline        # Увімкнути вбудовану побудову графіків

# Впливає на всю комірку
%%time
# Вся ця комірка буде заміряна
import time
time.sleep(1)
```

#### **Поради**

- **Запускайте комірки по порядку**: Змінні залежать від попередніх комірок
- **Перезапускайте ядро**: Якщо все стає заплутаним, перезапустіть та запустіть всі комірки
- **Зберігайте часто**: Використовуйте `Ctrl + S` (Windows/Linux) або `Cmd + S` (Mac)
- **Використовуйте markdown**: Документуйте свій процес мислення
- **Прибирайте**: Видаляйте непотрібні комірки перед тим як ділитись notebook.

## 3. Типи Даних та Структури Python

### Типи Даних

В інтелектуальному аналізі даних ми працюємо з різними типами даних, кожен з яких вимагає специфічних підходів до обробки:

#### **1. Базові Типи Даних Python**

```python
# Числові типи
integer_value = 42
float_value = 3.14159
complex_value = 3 + 4j

# Тип рядка
string_value = "Hello, Data Mining!"

# Булевий тип
boolean_value = True

# Колекції
list_data = [1, 2, 3, 4, 5]
tuple_data = (1, 2, 3, 4, 5)
dictionary_data = {"name": "Alice", "age": 30, "city": "New York"}
set_data = {1, 2, 3, 4, 5}
```

#### **2. Типи Даних у Контексті Інтелектуального Аналізу Даних**

| Тип Даних | Опис | Випадки Використання | Приклад |
|-----------|------|----------------------|---------|
| **Числовий** | Ціле/Дробове | Обчислення, вимірювання | Вік: 25, Ціна: $19.99 |
| **Категоріальний** | Рядки/Переліки | Категорії, мітки | Колір: "Red", Статус: "Active" |
| **Булевий** | True/False | Бінарні рішення | Is_Premium: True |
| **DateTime** | Мітки часу | Дані часових рядів | "2024-01-15 14:30:00" |
| **Текст** | Рядки | Природна мова | Відгуки, описи |
| **Відсутні** | None/NaN | Невідомі значення | Відсутні точки даних |

### Структури Даних для Інтелектуального Аналізу Даних

#### **1. Списки проти Масивів**
- **Списки**: Гнучкі, можуть містити змішані типи, повільніші для числових операцій
- **Масиви**: Однорідні, оптимізовані для чисельних обчислень, ефективні з точки зору пам'яті

#### **2. Словники для Структурованих Даних**
- **Пари ключ-значення**: Ідеально для представлення записів
- **Швидкий пошук**: O(1) у середньому випадку
- **Гнучка структура**: Може представляти складні зв'язки даних

#### **3. Множини для Унікальних Значень**
- **Унікальні елементи**: Автоматично видаляє дублікати
- **Операції з множинами**: Об'єднання, перетин, різниця
- **Швидка перевірка належності**: O(1) у середньому випадку

### Пам'ять та Продуктивність

#### **Ефективність Пам'яті**
```python
# Неефективно: Список змішаних типів
mixed_list = [1, "hello", 3.14, True]  # Кожен елемент має накладні витрати

# Ефективно: Однорідний масив
import numpy as np
numeric_array = np.array([1, 2, 3, 4, 5])  # Всі елементи одного типу
```

#### **Характеристики Продуктивності**
- **Списки (внутрішньо - масиви)**: O(1) для доступу до елементів, додавання; O(n) для видалення, пошуку
- **Словники**: O(1) для пошуку, O(1) для вставки
- **Множини**: O(1) для перевірки належності

### Перетворення Типів та Валідація

```python
# Перетворення типів
str_to_int = int("42")
float_to_str = str(3.14159)
list_to_set = set([1, 2, 2, 3, 3, 4])

# Перевірка типів
isinstance(42, int)  # True
type(42) == int      # True

# Валідація даних
def validate_age(age):
    if not isinstance(age, (int, float)):
        raise TypeError("Вік повинен бути числом")
    if age < 0 or age > 150:
        raise ValueError("Вік повинен бути між 0 та 150")
    return True
```


## 4. NumPy: Основа Чисельних Обчислень

### Що таке NumPy?

**NumPy** (Numerical Python) — це фундаментальний пакет для наукових обчислень у Python. Він надає:

- **N-вимірні об'єкти масивів** (ndarray)
- **Інструменти для інтеграції коду C/C++ та Fortran**
- **Функції для лінійної алгебри, перетворення Фур'є та генерації випадкових чисел**
- **Функції маніпуляції масивів** для покомпонентних або матричних операцій

### Чому NumPy для Інтелектуального Аналізу Даних?

#### **1. Продуктивність**
- **У 10-100 разів швидше** ніж чистий Python для числових операцій
- **Векторизовані операції** усувають явні цикли
- **Ефективне використання пам'яті** завдяки послідовному розташуванню пам'яті

#### **2. Трансляція**
- **Автоматичне вирівнювання** масивів з різними формами
- **Покомпонентні операції** без явних циклів
- **Ефективне використання пам'яті** для великих наборів даних

#### **3. Математичні Функції**
- **Всеосяжна математична бібліотека**
- **Операції лінійної алгебри**
- **Статистичні функції**
- **Генерація випадкових чисел**

### Основні Концепції

#### **Масиви проти Списків**

| Особливість | Списки Python | Масиви NumPy |
|-------------|---------------|--------------|
| **Тип Даних** | Дозволені змішані типи | Однорідні типи |
| **Пам'ять** | Розкидані в пам'яті | Послідовна пам'ять |
| **Операції** | Покомпонентні цикли | Векторизовані операції |
| **Продуктивність** | Повільніше | Набагато швидше |
| **Математичні** | Обмежені | Обширні |


### Імпорт NumPy

Спочатку давайте імпортуємо NumPy та подивимося, з чим ми працюємо:


In [22]:
import numpy as np

# Перевірити версію NumPy
print(f"Версія NumPy: {np.__version__}")

# NumPy зазвичай імпортується як 'np' за конвенцією
# Це робить код більш читабельним та коротким

Версія NumPy: 2.2.6


### Створення Вашого Першого Масиву

![Numpy arrays](images/2.0-numpy_arrays.png)

[Джерело зображення](https://www.pythontutorial.net/python-numpy/what-is-numpy/)

Створення масивів зі списків Python:


In [None]:
# Створити 1D масив зі списку
arr1d = np.array([1, 2, 3, 4, 5])
print("1D Масив:", arr1d)
print("Тип:", type(arr1d))
print("Тип даних:", arr1d.dtype)

1D Масив: [1 2 3 4 5]
Тип: <class 'numpy.ndarray'>
Тип даних: int64


In [24]:
# Створити 2D масив з вкладених списків
arr2d = np.array([[1, 2, 3], [4, 5, 6]])
print("2D Масив:")
print(arr2d)
print("Форма:", arr2d.shape)
print("Вимірність:", arr2d.ndim)

2D Масив:
[[1 2 3]
 [4 5 6]]
Форма: (2, 3)
Вимірність: 2


### Спеціальне Створення Масивів

NumPy надає багато зручних функцій для створення масивів зі специфічними патернами:


In [None]:
zeros = np.zeros((3, 4))
print("Масив нулів (3x4):")
print(zeros)

Масив нулів (3x4):
[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


In [None]:
ones = np.ones((2, 3))
print("Масив одиниць (2x3):")
print(ones)

Масив одиниць (2x3):
[[1. 1. 1.]
 [1. 1. 1.]]


In [None]:
identity = np.eye(3)
print("Одинична матриця (3x3):")
print(identity)

Одинична матриця (3x3):
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [None]:
range_arr = np.arange(0, 10, 2)  # початок, кінець, крок
print("Масив діапазону (0 до 10, крок 2):")
print(range_arr)

Масив діапазону (0 до 10, крок 2):
[0 2 4 6 8]


In [None]:
linspace = np.linspace(0, 1, 5)  # початок, кінець, кількість точок
print("Лінійний інтервал (0 до 1, 5 точок):")
print(linspace)

Лінійний інтервал (0 до 1, 5 точок):
[0.   0.25 0.5  0.75 1.  ]


In [None]:
np.random.seed(42)

random_arr = np.random.random((3, 3))
print("Випадковий масив (3x3):")
print(random_arr)

Випадковий масив (3x3):
[[0.37454012 0.95071431 0.73199394]
 [0.59865848 0.15601864 0.15599452]
 [0.05808361 0.86617615 0.60111501]]


In [None]:
normal_arr = np.random.normal(0, 1, (3, 3))  # середнє=0, ст.відхил=1
print("Масив нормального розподілу (3x3):")
print(normal_arr)

Масив нормального розподілу (3x3):
[[-0.58087813 -0.52516981 -0.57138017]
 [-0.92408284 -2.61254901  0.95036968]
 [ 0.81644508 -1.523876   -0.42804606]]


### Властивості Масивів

Розуміння властивостей масивів є критичним для маніпуляції даними:


In [None]:
arr = np.array([[1, 2, 3], [4, 5, 6]])

print("Масив:")
print(arr)
print(f"Форма: {arr.shape}")        # (рядки, стовпці)
print(f"Розмір: {arr.size}")          # загальна кількість елементів
print(f"Вимірність: {arr.ndim}")    # кількість вимірів
print(f"Тип даних: {arr.dtype}")    # тип даних елементів
print(f"Розмір елемента: {arr.itemsize}") # байтів на елемент

Масив:
[[1 2 3]
 [4 5 6]]
Форма: (2, 3)
Розмір: 6
Вимірність: 2
Тип даних: int64
Розмір елемента: 8


### Індексація та Зрізи

Доступ до конкретних елементів та підмасивів є фундаментальним для маніпуляції даними:


In [None]:
arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print("Оригінальний масив:")
print(arr)

Оригінальний масив:
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [None]:
element = arr[1, 2]  # рядок 1, стовпець 2
print(f"Елемент на [1, 2]: {element}")

Елемент на [1, 2]: 7


In [None]:
row = arr[1]  # другий рядок (індекс 1)
print(f"Рядок 1: {row}")

Рядок 1: [5 6 7 8]


In [None]:
column = arr[:, 2]  # третій стовпець (індекс 2)
print(f"Стовпець 2: {column}")

Стовпець 2: [ 3  7 11]


In [None]:
subarray = arr[0:2, 1:3]  # рядки 0-1, стовпці 1-2
print("Підмасив [0:2, 1:3]:")
print(subarray)

Підмасив [0:2, 1:3]:
[[2 3]
 [6 7]]


### Булева Індексація

Одна з найпотужніших функцій NumPy — вибір елементів на основі умов:


In [None]:
mask = arr > 5
print("Булева маска (елементи > 5):")
print(mask)

Булева маска (елементи > 5):
[[False False False False]
 [False  True  True  True]
 [ True  True  True  True]]


In [None]:
filtered = arr[mask]
print("Елементи більші за 5:")
print(filtered)

Елементи більші за 5:
[ 6  7  8  9 10 11 12]


### Математичні Операції

NumPy відмінно справляється з векторизованими математичними операціями:


In [None]:
a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])

print("Масив a:", a)
print("Масив b:", b)

Масив a: [1 2 3 4]
Масив b: [5 6 7 8]


In [None]:
print("Додавання:", a + b)
print("Віднімання:", a - b)
print("Множення:", a * b)
print("Ділення:", a / b)

Додавання: [ 6  8 10 12]
Віднімання: [-4 -4 -4 -4]
Множення: [ 5 12 21 32]
Ділення: [0.2        0.33333333 0.42857143 0.5       ]


In [None]:
print("Додати 10 до всіх елементів:", a + 10)
print("Помножити на 2:", a * 2)
print("Ступінь 2:", a ** 2)

Додати 10 до всіх елементів: [11 12 13 14]
Помножити на 2: [2 4 6 8]
Ступінь 2: [ 1  4  9 16]


### Матриці та Вектори

NumPy відмінно справляється з матричними операціями та векторизованими обчисленнями. Давайте дослідимо, як працювати з матрицями та зрозуміти трансляцію:


#### Створення Матриць

Давайте створимо деякі матриці для наших операцій:


In [None]:
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])

print("Матриця A:")
print(A)
print("\nМатриця B:")
print(B)

Матриця A:
[[1 2]
 [3 4]]

Матриця B:
[[5 6]
 [7 8]]


In [None]:
v = np.array([1, 2, 3])
print("Вектор v:")
print(v)
print(f"Форма: {v.shape}")

Вектор v:
[1 2 3]
Форма: (3,)


#### Матричні Операції

Базові матричні операції в NumPy:


In [None]:
element_wise_add = A + B
print("Покомпонентне додавання (A + B):")
print(element_wise_add)

Покомпонентне додавання (A + B):
[[ 6  8]
 [10 12]]


In [None]:
matrix_mult = np.dot(A, B)
print("Множення матриць (A @ B):")
print(matrix_mult)

Множення матриць (A @ B):
[[19 22]
 [43 50]]


In [None]:
matrix_mult_alt = A @ B
print("Множення матриць (A @ B) - альтернативний синтаксис:")
print(matrix_mult_alt)

Множення матриць (A @ B) - альтернативний синтаксис:
[[19 22]
 [43 50]]


In [None]:
A_transpose = A.T
print("Транспонована матриця A:")
print(A_transpose)

Транспонована матриця A:
[[1 3]
 [2 4]]


In [None]:
A_inverse = np.linalg.inv(A)
print("Обернена матриця A:")
print(A_inverse)

Обернена матриця A:
[[-2.   1. ]
 [ 1.5 -0.5]]


In [None]:
identity_check = A @ A_inverse
print("A @ A_inverse (має бути одиничною матрицею):")
print(identity_check)

A @ A_inverse (має бути одиничною матрицею):
[[1.0000000e+00 0.0000000e+00]
 [8.8817842e-16 1.0000000e+00]]


In [None]:
det_A = np.linalg.det(A)
print(f"Визначник A: {det_A}")

Визначник A: -2.0000000000000004


#### Трансляція

Трансляція — одна з найпотужніших функцій NumPy — вона дозволяє операції між масивами різних форм:


In [None]:
scalar = 5
result = A + scalar
print("Матриця A + скаляр 5:")
print(result)

Матриця A + скаляр 5:
[[6 7]
 [8 9]]


In [None]:
# Трансляція: вектор з матрицею
# Створити рядковий вектор
row_vector = np.array([10, 20])
print("Рядковий вектор:", row_vector)
print("Форма:", row_vector.shape)

# Додати рядковий вектор до матриці (транслюється до кожного рядка)
result = A + row_vector
print("Матриця A + рядковий вектор:")
print(result)

Рядковий вектор: [10 20]
Форма: (2,)
Матриця A + рядковий вектор:
[[11 22]
 [13 24]]


In [None]:
# Трансляція: стовпцевий вектор з матрицею
# Створити стовпцевий вектор
col_vector = np.array([[10], [20]])
print("Стовпцевий вектор:")
print(col_vector)
print("Форма:", col_vector.shape)

# Додати стовпцевий вектор до матриці (транслюється до кожного стовпця)
result = A + col_vector
print("Матриця A + стовпцевий вектор:")
print(result)

Стовпцевий вектор:
[[10]
 [20]]
Форма: (2, 1)
Матриця A + стовпцевий вектор:
[[11 12]
 [23 24]]


#### Правила Трансляції

Розуміння, коли трансляція працює:


In [None]:
# Трансляція з різними формами
# Масив 1: (3, 1) - стовпцевий вектор
arr1 = np.array([[1], [2], [3]])
print("Форма масиву 1:", arr1.shape)
print("Масив 1:")
print(arr1)

# Масив 2: (1, 4) - рядковий вектор  
arr2 = np.array([[10, 20, 30, 40]])
print("\nФорма масиву 2:", arr2.shape)
print("Масив 2:")
print(arr2)

Форма масиву 1: (3, 1)
Масив 1:
[[1]
 [2]
 [3]]

Форма масиву 2: (1, 4)
Масив 2:
[[10 20 30 40]]


In [None]:
# Трансляція: (3,1) + (1,4) = (3,4)
result = arr1 + arr2
print("Форма результату трансляції:", result.shape)
print("Результат:")
print(result)

Форма результату трансляції: (3, 4)
Результат:
[[11 21 31 41]
 [12 22 32 42]
 [13 23 33 43]]


In [None]:
# Трансляція не працює, коли форми несумісні
try:
    # Це не спрацює - несумісні форми
    incompatible = np.array([1, 2, 3]) + np.array([1, 2])
    print(incompatible)
except ValueError as e:
    print("Помилка трансляції:", e)

Помилка трансляції: operands could not be broadcast together with shapes (3,) (2,) 


#### Векторні Операції

Робота з векторами та скалярними добутками:


In [None]:
# Створити два вектори
v1 = np.array([1, 2, 3])
v2 = np.array([4, 5, 6])

print("Вектор 1:", v1)
print("Вектор 2:", v2)

Вектор 1: [1 2 3]
Вектор 2: [4 5 6]


In [None]:
# Скалярний добуток векторів
dot_product = np.dot(v1, v2)
print(f"Скалярний добуток: {dot_product}")

# Альтернативний синтаксис
dot_product_alt = v1 @ v2
print(f"Скалярний добуток (альтернатива): {dot_product_alt}")

Скалярний добуток: 32
Скалярний добуток (альтернатива): 32


In [None]:
# Довжина вектора (норма)
magnitude_v1 = np.linalg.norm(v1)
magnitude_v2 = np.linalg.norm(v2)

print(f"Довжина v1: {magnitude_v1:.2f}")
print(f"Довжина v2: {magnitude_v2:.2f}")

Довжина v1: 3.74
Довжина v2: 8.77


In [None]:
# Векторний добуток (для 3D векторів)
cross_product = np.cross(v1, v2)
print(f"Векторний добуток: {cross_product}")

Векторний добуток: [-3  6 -3]


#### Матрично-Векторні Операції

Множення матриць на вектори:


In [None]:
# Створити матрицю 3x2 та вектор з 2 елементів
M = np.array([[1, 2], [3, 4], [5, 6]])
w = np.array([2, 3])

print("Матриця M (3x2):")
print(M)
print(f"\nВектор w: {w}")

Матриця M (3x2):
[[1 2]
 [3 4]
 [5 6]]

Вектор w: [2 3]


In [None]:
# Множення матриці на вектор
result = M @ w
print("Множення матриці на вектор (M @ w):")
print(result)
print(f"Форма результату: {result.shape}")

Множення матриці на вектор (M @ w):
[ 8 18 28]
Форма результату: (3,)


### Статистичні Функції

NumPy надає всеосяжні статистичні функції:


In [None]:
# Створити дані для статистики
data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
print("Дані:", data)

Дані: [ 1  2  3  4  5  6  7  8  9 10]


In [None]:
# Базова статистика
print(f"Середнє: {np.mean(data)}")
print(f"Медіана: {np.median(data)}")
print(f"Стандартне відхилення: {np.std(data):.2f}")
print(f"Дисперсія: {np.var(data):.2f}")
print(f"Мінімум: {np.min(data)}")
print(f"Максимум: {np.max(data)}")

Середнє: 5.5
Медіана: 5.5
Стандартне відхилення: 2.87
Дисперсія: 8.25
Мінімум: 1
Максимум: 10


In [None]:
# Сума та добуток
print(f"Сума: {np.sum(data)}")
print(f"Добуток: {np.prod(data)}")
print(f"Сума квадратів: {np.sum(data**2)}")

Сума: 55
Добуток: 3628800
Сума квадратів: 385


### Зміна Форми Масивів

Зміна форми масивів є поширеною в обробці даних:


In [None]:
# Створити 1D масив
arr = np.arange(12)
print("Оригінальний 1D масив:")
print(arr)
print(f"Форма: {arr.shape}")

Оригінальний 1D масив:
[ 0  1  2  3  4  5  6  7  8  9 10 11]
Форма: (12,)


In [None]:
# Змінити форму на 3x4
reshaped = arr.reshape(3, 4)
print("Змінено форму на 3x4:")
print(reshaped)
print(f"Нова форма: {reshaped.shape}")

Змінено форму на 3x4:
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
Нова форма: (3, 4)


In [None]:
# Транспонувати масив
transposed = reshaped.T
print("Транспонований (4x3):")
print(transposed)
print(f"Форма транспонованого: {transposed.shape}")

Транспонований (4x3):
[[ 0  4  8]
 [ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]]
Форма транспонованого: (4, 3)


In [None]:
# Розгорнути назад до 1D
flattened = reshaped.flatten()
print("Розгорнуто назад до 1D:")
print(flattened)

Розгорнуто назад до 1D:
[ 0  1  2  3  4  5  6  7  8  9 10 11]


## 5. Pandas: Маніпуляція та Аналіз Даних

### Що таке Pandas?

**Pandas** — це потужна, гнучка та проста у використанні бібліотека для аналізу та маніпуляції даними, побудована на основі NumPy. Вона надає:

- **DataFrame**: 2D структура даних з мітками (як електронна таблиця)
- **Series**: 1D масив з мітками (як стовпець в електронній таблиці)
- **Інструменти очищення та попередньої обробки даних**
- **Функції агрегації та групування даних**
- **Можливості аналізу часових рядів**

### Чому Pandas для Інтелектуального Аналізу Даних?

#### **1. Структура Даних**
- **Табличне представлення даних** подібне до баз даних та електронних таблиць
- **Фіксовані осі** (рядки та стовпці) для легкого доступу до даних
- **Різнорідні типи даних** в різних стовпцях
- **Обробка відсутніх даних** зі значеннями NaN

#### **2. Маніпуляція Даними**
- **Легке фільтрування, сортування та групування**
- **Трансформація та зміна форми даних**
- **Операції об'єднання та з'єднання** як у SQL
- **Зведені таблиці та перехресні таблиці**

#### **3. Аналіз Даних**
- **Описова статистика**
- **Інтеграція візуалізації даних**
- **Аналіз часових рядів**
- **Експорт/імпорт даних** у різних форматах


### Імпорт Pandas

Давайте почнемо з імпорту Pandas та розуміння його базової структури:


In [None]:
import pandas as pd

# Перевірити версію Pandas
print(f"Версія Pandas: {pd.__version__}")

# Pandas зазвичай імпортується як 'pd' за конвенцією

Версія Pandas: 2.3.2


### Створення Вашого Першого Series

**Series** — це одновимірний масив з мітками — уявіть його як один стовпець з електронної таблиці:


In [None]:
data = [1, 2, 3, 4, 5]
series = pd.Series(data)
print("Series зі списку:")
print(series)
print(f"Тип: {type(series)}")

Series зі списку:
0    1
1    2
2    3
3    4
4    5
dtype: int64
Тип: <class 'pandas.core.series.Series'>


In [None]:
# Створити Series з користувацьким індексом
data = [1, 2, 3, 4, 5]
index = ['a', 'b', 'c', 'd', 'e']
series_with_index = pd.Series(data, index=index)
print("Series з користувацьким індексом:")
print(series_with_index)

Series з користувацьким індексом:
a    1
b    2
c    3
d    4
e    5
dtype: int64


In [None]:
# Властивості Series
print(f"Значення: {series_with_index.values}")
print(f"Індекс: {series_with_index.index}")
print(f"Тип даних: {series_with_index.dtype}")
print(f"Розмір: {series_with_index.size}")

Значення: [1 2 3 4 5]
Індекс: Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
Тип даних: int64
Розмір: 5


In [None]:
# Створити DataFrame зі словника
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'Diana'],
    'Age': [25, 30, 35, 28],
    'City': ['New York', 'London', 'Tokyo', 'Paris'],
    'Salary': [50000, 60000, 70000, 55000]
}
df = pd.DataFrame(data)
print("DataFrame зі словника:")
print(df)

DataFrame зі словника:
      Name  Age      City  Salary
0    Alice   25  New York   50000
1      Bob   30    London   60000
2  Charlie   35     Tokyo   70000
3    Diana   28     Paris   55000


In [None]:
# Властивості DataFrame
print(f"Форма: {df.shape}")
print(f"Стовпці: {df.columns.tolist()}")
print(f"Індекс: {df.index.tolist()}")
print(f"Типи даних:\n{df.dtypes}")

Форма: (4, 4)
Стовпці: ['Name', 'Age', 'City', 'Salary']
Індекс: [0, 1, 2, 3]
Типи даних:
Name      object
Age        int64
City      object
Salary     int64
dtype: object


### Дослідження Даних

Давайте дослідимо наш DataFrame, щоб зрозуміти його вміст:


In [None]:
print("Перші 3 рядки:")
print(df.head(3))

Перші 3 рядки:
      Name  Age      City  Salary
0    Alice   25  New York   50000
1      Bob   30    London   60000
2  Charlie   35     Tokyo   70000


In [None]:
print("Останні 2 рядки:")
print(df.tail(2))

Останні 2 рядки:
      Name  Age   City  Salary
2  Charlie   35  Tokyo   70000
3    Diana   28  Paris   55000


In [None]:
print("Інформація про DataFrame:")
df.info()

Інформація про DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    4 non-null      object
 1   Age     4 non-null      int64 
 2   City    4 non-null      object
 3   Salary  4 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 256.0+ bytes


In [None]:
print("Статистичний підсумок:")
print(df.describe())

Статистичний підсумок:
             Age        Salary
count   4.000000      4.000000
mean   29.500000  58750.000000
std     4.203173   8539.125638
min    25.000000  50000.000000
25%    27.250000  53750.000000
50%    29.000000  57500.000000
75%    31.250000  62500.000000
max    35.000000  70000.000000


### Вибір Даних

Вибір конкретних даних з DataFrame є фундаментальним для аналізу даних:


In [None]:
names = df['Name']
print("Стовпець імен:")
print(names)
print(f"Тип: {type(names)}")

Стовпець імен:
0      Alice
1        Bob
2    Charlie
3      Diana
Name: Name, dtype: object
Тип: <class 'pandas.core.series.Series'>


In [None]:
subset = df[['Name', 'Age']]
print("Стовпці Name та Age:")
print(subset)

Стовпці Name та Age:
      Name  Age
0    Alice   25
1      Bob   30
2  Charlie   35
3    Diana   28


In [None]:
first_row = df.iloc[0]
print("Перший рядок:")
print(first_row)

Перший рядок:
Name         Alice
Age             25
City      New York
Salary       50000
Name: 0, dtype: object


In [None]:
alice_row = df.loc[df['Name'] == 'Alice']
print("Рядок, де Name дорівнює Alice:")
print(alice_row)

Рядок, де Name дорівнює Alice:
    Name  Age      City  Salary
0  Alice   25  New York   50000


In [None]:
high_salary = df[df['Salary'] > 60000]
print("Працівники з зарплатою > 60000:")
print(high_salary)

Працівники з зарплатою > 60000:
      Name  Age   City  Salary
2  Charlie   35  Tokyo   70000


### Очищення Даних

Реальні дані часто мають відсутні значення та потребують очищення:


In [None]:
# Створити DataFrame з деякими відсутніми значеннями
data_with_missing = {
    'Name': ['Alice', 'Bob', 'Charlie', 'Diana', 'Eve'],
    'Age': [25, 30, None, 28, 32],
    'City': ['New York', 'London', 'Tokyo', None, 'Paris'],
    'Salary': [50000, 60000, 70000, 55000, None]
}
df_missing = pd.DataFrame(data_with_missing)
print("DataFrame з відсутніми значеннями:")
print(df_missing)

DataFrame з відсутніми значеннями:
      Name   Age      City   Salary
0    Alice  25.0  New York  50000.0
1      Bob  30.0    London  60000.0
2  Charlie   NaN     Tokyo  70000.0
3    Diana  28.0      None  55000.0
4      Eve  32.0     Paris      NaN


In [None]:
# Перевірити відсутні значення
print("Кількість відсутніх значень у стовпеці:")
print(df_missing.isnull().sum())

Відсутні значення на стовпець:
Name      0
Age       1
City      1
Salary    1
dtype: int64


In [None]:
df_filled = df_missing.copy()
df_filled['Age'] = df_filled['Age'].fillna(df_filled['Age'].mean())
df_filled['Salary'] = df_filled['Salary'].fillna(df_filled['Salary'].mean())
print("Після заповнення відсутніх числових значень:")
print(df_filled)

Після заповнення числових відсутніх значень:
      Name    Age      City   Salary
0    Alice  25.00  New York  50000.0
1      Bob  30.00    London  60000.0
2  Charlie  28.75     Tokyo  70000.0
3    Diana  28.00      None  55000.0
4      Eve  32.00     Paris  58750.0


In [None]:
df_filled['City'] = df_filled['City'].fillna('Unknown')
print("Після заповнення категоріальних відсутніх значень:")
print(df_filled)

Після заповнення категоріальних відсутніх значень:
      Name    Age      City   Salary
0    Alice  25.00  New York  50000.0
1      Bob  30.00    London  60000.0
2  Charlie  28.75     Tokyo  70000.0
3    Diana  28.00   Unknown  55000.0
4      Eve  32.00     Paris  58750.0


### Трансформація Даних

Давайте додамо нові стовпці та трансформуємо наші дані:


In [None]:
df['Age_Group'] = df['Age'].apply(lambda x: 'Young' if x < 30 else 'Old')
print("DataFrame зі стовпцем Age_Group:")
print(df)

DataFrame зі стовпцем Age_Group:
      Name  Age      City  Salary Age_Group
0    Alice   25  New York   50000     Young
1      Bob   30    London   60000       Old
2  Charlie   35     Tokyo   70000       Old
3    Diana   28     Paris   55000     Young


In [None]:
df['Salary_K'] = df['Salary'] / 1000
print("DataFrame з зарплатою в тисячах:")
print(df[['Name', 'Salary', 'Salary_K']])

DataFrame з зарплатою в тисячах:
      Name  Salary  Salary_K
0    Alice   50000      50.0
1      Bob   60000      60.0
2  Charlie   70000      70.0
3    Diana   55000      55.0


### Групування та Агрегація Даних

Групування даних є важливим для аналізу:


In [None]:
grouped_by_city = df.groupby('City')
print("Згруповано за City:")
print(grouped_by_city['Salary'].mean())

Згруповано за City:
City
London      60000.0
New York    50000.0
Paris       55000.0
Tokyo       70000.0
Name: Salary, dtype: float64


In [None]:
grouped_multi = df.groupby(['City', 'Age_Group'])
print("Згруповано за City та Age_Group:")
print(grouped_multi['Salary'].mean())

Згруповано за City та Age_Group:
City      Age_Group
London    Old          60000.0
New York  Young        50000.0
Paris     Young        55000.0
Tokyo     Old          70000.0
Name: Salary, dtype: float64


In [None]:
agg_result = df.groupby('City').agg({
    'Age': ['mean', 'min', 'max'],
    'Salary': ['sum', 'count']
})
print("Користувацька агрегація за City:")
print(agg_result)

Користувацька агрегація за City:
           Age         Salary      
          mean min max    sum count
City                               
London    30.0  30  30  60000     1
New York  25.0  25  25  50000     1
Paris     28.0  28  28  55000     1
Tokyo     35.0  35  35  70000     1


### Зведені Таблиці

Зведені таблиці чудово підходять для підсумування даних:


In [None]:
pivot = df.pivot_table(
    values='Salary',
    index='City',
    columns='Age_Group',
    aggfunc='mean',
    fill_value=0
)
print("Зведена таблиця - Середня зарплата за City та Age Group:")
print(pivot)

Зведена таблиця - Середня зарплата за City та Age Group:
Age_Group      Old    Young
City                       
London     60000.0      0.0
New York       0.0  50000.0
Paris          0.0  55000.0
Tokyo      70000.0      0.0


In [None]:
crosstab = pd.crosstab(df['City'], df['Age_Group'])
print("Перехресна таблиця - Кількість за City та Age Group:")
print(crosstab)

Перехресна таблиця - Кількість за City та Age Group:
Age_Group  Old  Young
City                 
London       1      0
New York     0      1
Paris        0      1
Tokyo        1      0


### Об'єднання Даних

Поєднання кількох DataFrame є поширеним в аналізі даних:


In [None]:
df1 = pd.DataFrame({
    'ID': [1, 2, 3, 4],
    'Name': ['Alice', 'Bob', 'Charlie', 'Diana']
})

df2 = pd.DataFrame({
    'ID': [1, 2, 3, 5],
    'Department': ['HR', 'IT', 'Finance', 'Marketing']
})

print("DataFrame 1:")
print(df1)
print("\nDataFrame 2:")
print(df2)

DataFrame 1:
   ID     Name
0   1    Alice
1   2      Bob
2   3  Charlie
3   4    Diana

DataFrame 2:
   ID Department
0   1         HR
1   2         IT
2   3    Finance
3   5  Marketing


In [None]:
inner_merged = pd.merge(df1, df2, on='ID', how='inner')
print("Внутрішнє з'єднання:")
print(inner_merged)

Внутрішнє з'єднання:
   ID     Name Department
0   1    Alice         HR
1   2      Bob         IT
2   3  Charlie    Finance


In [None]:
left_merged = pd.merge(df1, df2, on='ID', how='left')
print("Ліве з'єднання:")
print(left_merged)

Ліве з'єднання:
   ID     Name Department
0   1    Alice         HR
1   2      Bob         IT
2   3  Charlie    Finance
3   4    Diana        NaN


### Рядкові Операції

Pandas надає потужні можливості маніпуляції рядками:


In [None]:
# Рядкові методи
df['Name_Upper'] = df['Name'].str.upper()
df['Name_Lower'] = df['Name'].str.lower()
df['Name_Length'] = df['Name'].str.len()

print("Рядкові операції:")
print(df[['Name', 'Name_Upper', 'Name_Lower', 'Name_Length']])

Рядкові операції:
      Name Name_Upper Name_Lower  Name_Length
0    Alice      ALICE      alice            5
1      Bob        BOB        bob            3
2  Charlie    CHARLIE    charlie            7
3    Diana      DIANA      diana            5


In [None]:
contains_a = df[df['Name'].str.contains('a', case=False)]
print("Імена, що містять 'a':")
print(contains_a[['Name']])

Імена, що містять 'a':
      Name
0    Alice
2  Charlie
3    Diana


### Читання та Запис CSV Файлів

CSV (Comma-Separated Values) файли є одним з найпоширеніших форматів для зберігання табличних даних. Pandas робить легким читання з та запис у CSV файли:


#### Запис Даних у CSV

Давайте збережемо наш DataFrame у CSV файл:


In [None]:
# Зберегти DataFrame у CSV
df.to_csv('employee_data.csv', index=False)
print("DataFrame збережено у 'employee_data.csv'")

# Перевірити, чи файл було створено
import os
if os.path.exists('employee_data.csv'):
    print("✓ Файл успішно створено!")
else:
    print("✗ Помилка створення файлу")

DataFrame збережено у 'employee_data.csv'
✓ Файл успішно створено!


In [None]:
# Зберегти з різними опціями
df.to_csv('employee_data_with_index.csv', index=True)  # Включити індекс рядків
df.to_csv('employee_data_separator.csv', sep=';', index=False)  # Використати роздільник крапка з комою

print("Додаткові CSV файли створено:")
print("- employee_data_with_index.csv (з індексом рядків)")
print("- employee_data_separator.csv (розділено крапкою з комою)")

Додаткові CSV файли створено:
- employee_data_with_index.csv (з індексом рядків)
- employee_data_separator.csv (розділено крапкою з комою)


#### Читання Даних з CSV

Тепер давайте прочитаємо CSV файл назад у DataFrame:


In [None]:
# Прочитати CSV файл
df_from_csv = pd.read_csv('employee_data.csv')
print("DataFrame прочитано з CSV:")
print(df_from_csv)
print(f"\nФорма: {df_from_csv.shape}")
print(f"Типи даних:\n{df_from_csv.dtypes}")

DataFrame прочитано з CSV:
      Name  Age      City  Salary Age_Group  Salary_K Name_Upper Name_Lower  \
0    Alice   25  New York   50000     Young      50.0      ALICE      alice   
1      Bob   30    London   60000       Old      60.0        BOB        bob   
2  Charlie   35     Tokyo   70000       Old      70.0    CHARLIE    charlie   
3    Diana   28     Paris   55000     Young      55.0      DIANA      diana   

   Name_Length  
0            5  
1            3  
2            7  
3            5  

Форма: (4, 9)
Типи даних:
Name            object
Age              int64
City            object
Salary           int64
Age_Group       object
Salary_K       float64
Name_Upper      object
Name_Lower      object
Name_Length      int64
dtype: object


In [None]:
# Прочитати CSV з різними опціями
df_with_index = pd.read_csv('employee_data_with_index.csv', index_col=0)  # Використати перший стовпець як індекс
df_semicolon = pd.read_csv('employee_data_separator.csv', sep=';')  # Роздільник крапка з комою

print("DataFrame з індексом:")
print(df_with_index)
print(f"\nІндекс: {df_with_index.index.tolist()}")

DataFrame з індексом:
      Name  Age      City  Salary Age_Group  Salary_K Name_Upper Name_Lower  \
0    Alice   25  New York   50000     Young      50.0      ALICE      alice   
1      Bob   30    London   60000       Old      60.0        BOB        bob   
2  Charlie   35     Tokyo   70000       Old      70.0    CHARLIE    charlie   
3    Diana   28     Paris   55000     Young      55.0      DIANA      diana   

   Name_Length  
0            5  
1            3  
2            7  
3            5  

Індекс: [0, 1, 2, 3]


In [None]:
# Очищення

import os

files_to_delete = [
    'employee_data.csv',
    'employee_data_with_index.csv',
    'employee_data_separator.csv'
]

for file in files_to_delete:
    if os.path.exists(file):
        os.remove(file)
        print(f"Видалено: {file}")
    else:
        print(f"Файл не знайдено (не видалено): {file}")

Видалено: employee_data.csv
Видалено: employee_data_with_index.csv
Видалено: employee_data_separator.csv
