## Тема 1. Заняття 5. Пошук інформації в інформаційно-аналітичних системах.
1. Структура даних в інформаційно-аналітичних системах.
2. Алгоритми пошуку в інформаційно-аналітичних системах.

## 2. Мотивація та актуалізація знань

### 2.1. Актуальність теми
У сучасному світі обсяг даних постійно зростає, і швидкий доступ до потрібної інформації стає критично важливим. Інформаційно-аналітичні системи (ІАС) використовуються в банківській сфері, маркетингу, державному секторі, медицині та багатьох інших галузях. Уміння ефективно організовувати дані й знаходити необхідну інформацію:
- Допомагає приймати виважені рішення.
- Забезпечує зручність у користуванні складними системами.
- Дозволяє автоматизувати рутинні процеси пошуку (наприклад, пошук за ключовими словами).

З огляду на це, алгоритми пошуку та ефективні структури даних (JSON, XML тощо) мають визначальне значення в побудові швидких та надійних програмних рішень.

### 2.2. Зв’язок з попередньою темою
У попередньому занятті слухачі ознайомилися з:
- Основами теорії алгоритмів (Тема 1.4).  
- Поняттями відлагодження та тестування програмних засобів.

Ці знання є фундаментом для розуміння того, як правильно підійти до пошуку в даних:
- Алгоритмічне мислення потрібне, щоб побудувати оптимальний або принаймні ефективний пошуковий алгоритм.
- Відлагодження (debugging) та тестування (testing) допоможуть переконатися, що алгоритми працюють коректно та швидко з реальними даними (у форматах JSON, XML тощо).

### 2.3. Мотиваційний приклад на Python
Щоб проілюструвати важливість швидкого пошуку інформації, розглянемо найпростіший випадок: пошук елемента у списку (лінійний пошук). Уявімо, що в нас є список користувачів, і ми хочемо перевірити, чи існує користувач із певним ідентифікатором (ID).

```python
# Припустимо, що це наш список користувачів
users = [
    {"id": 1, "name": "Alice", "role": "admin"},
    {"id": 2, "name": "Bob",   "role": "user"},
    {"id": 3, "name": "Charlie", "role": "user"}
]

def linear_search_by_id(users_list, user_id):
    """
    Проста функція для лінійного пошуку користувача за 'id'.
    Повертає словник з інформацією про користувача або None, якщо не знайдено.
    """
    for user in users_list:
        if user["id"] == user_id:
            return user
    return None

# Спробуємо знайти користувача з ID=2
found_user = linear_search_by_id(users, 2)

if found_user:
    print(f"Користувач знайдений: {found_user}")
else:
    print("Користувача з таким ID не існує.")
```

**Як це працює і чому це важливо:**
1. Функція `linear_search_by_id` проходить послідовно за списком.
2. При знаходженні збігу за полем `id` функція повертає дані про користувача.
3. Якщо нічого не знайдено, повертає `None`.

У невеликому списку це працює швидко. Але уявімо, що таких записів тисячі чи навіть мільйони. Лінійний пошук може стати занадто повільним. Тут і виникає потреба в інших алгоритмах (бінарний пошук, хеш-пошук тощо) та ефективних структурах даних.

Таким чином, приклад мотивує слухачів замислитись над тим, як побудувати ІАС так, щоб можна було:
- Швидко знаходити потрібну інформацію (наприклад, пошук у JSON або XML).
- Правильно структурувати дані, аби зменшити час на доступ до них.
- Пам’ятати про важливість правильного тестування та відлагодження алгоритмів, аби вчасно виявляти проблеми на великих масивах даних.

> **Підсумок:** Мотивація слухачів полягає в усвідомленні того, наскільки важливий пошук в інформаційно-аналітичних системах. Адже від ефективності цього пошуку часто залежить оперативність ухвалення рішень у різних сферах.

## 3. Основна частина

### 3.1. Структура даних в інформаційно-аналітичних системах

Інформаційно-аналітичні системи (ІАС) зазвичай оперують різноманітними форматами даних. Серед найпоширеніших — JSON та XML. Правильний вибір та розуміння структури цих форматів дає змогу організовувати дані ефективно та забезпечує швидкий доступ до них.

#### 3.1.1. Основні формати подання даних (JSON, XML)

1. **JSON (JavaScript Object Notation)**  
   - Легко зчитується людиною та обробляється машиною.  
   - Складається зі структур **об’єктів** (object: `{}`), **масивів** (array: `[]`), **пар ключ-значення** (key-value pairs).
   - У Python робота з JSON виконується за допомогою стандартного модуля `json`.

   **Приклад структури JSON:**
   ```json
   {
     "users": [
       { "id": 1, "name": "Alice", "role": "admin" },
       { "id": 2, "name": "Bob",   "role": "user" },
       { "id": 3, "name": "Charlie", "role": "user" }
     ],
     "metadata": {
       "description": "List of users",
       "version": "1.0"
     }
   }
   ```

   **Як прочитати та обробити у Python:**
   ```python
   import json

   with open('data.json', 'r', encoding='utf-8') as f:
       data = json.load(f)
   
   # Наприклад, виведемо всіх користувачів
   users = data.get('users', [])
   for user in users:
       print(user['name'], ":", user['role'])
   ```

2. **XML (Extensible Markup Language)**  
   - Гнучка розмітка для зберігання та обміну даними в ієрархічній структурі.
   - Складається з **тегів** (наприклад, `<user>`), **атрибутів** (наприклад, `id="1"`), **вкладених елементів**.
   - У Python часто працюють з модулем `xml.etree.ElementTree` або сторонньою бібліотекою `lxml`.

   **Приклад структури XML:**
   ```xml
   <root>
     <users>
       <user id="1" role="admin">Alice</user>
       <user id="2" role="user">Bob</user>
       <user id="3" role="user">Charlie</user>
     </users>
     <metadata>
       <description>List of users</description>
       <version>1.0</version>
     </metadata>
   </root>
   ```

   **Як прочитати та обробити у Python:**
   ```python
   import xml.etree.ElementTree as ET

   tree = ET.parse('data.xml')
   root = tree.getroot()

   # Приклад доступу до вузлів
   users_element = root.find('users')  # знаходимо елемент <users>
   if users_element is not None:
       for user_element in users_element.findall('user'):
           user_name = user_element.text
           user_id = user_element.get('id')
           user_role = user_element.get('role')
           print(f"ID={user_id}, Name={user_name}, Role={user_role}")
   ```

#### 3.1.2. Типові структури даних (списки, словники, деревоподібні структури)
1. **Списки (list)**  
   - Ітераційний доступ (лінійна складність пошуку, якщо не використовується додаткова обробка).
   - Застосовуються, коли важлива послідовність елементів або порядок обробки.

2. **Словники (dict)**  
   - Швидкий доступ за ключем (очікувана складність пошуку — *O(1)*).
   - Зручні, коли потрібно часто виконувати пошук за унікальним ідентифікатором або полем.

3. **Деревоподібні структури**  
   - Зокрема, XML безпосередньо формується як дерево.  
   - Застосовуються, коли дані мають ієрархічну природу або складну вкладеність.  
   - Можна ефективно рухатися по вузлах дерева, проте пошук за певною ознакою може потребувати обходу багатьох елементів, якщо не зберігати додаткові індекси.

**Приклад створення простого словника для індексованого доступу до даних про користувачів:**
```python
# Припустимо, в нас є список словників (з JSON або XML)
users_data = [
    {"id": 1, "name": "Alice", "role": "admin"},
    {"id": 2, "name": "Bob",   "role": "user"},
    {"id": 3, "name": "Charlie", "role": "user"}
]

# Створимо словник, де ключ - це 'id', а значення - це весь словник користувача
users_dict = {user['id']: user for user in users_data}

# Тепер, щоб отримати користувача з id=2, достатньо
user_2 = users_dict.get(2, None)
if user_2:
    print("Знайдений користувач:", user_2)
else:
    print("Користувача з таким ID немає.")
```

### 3.2. Алгоритми пошуку в інформаційно-аналітичних системах

Для ефективної роботи ІАС важливо вміти правильно обрати та реалізувати алгоритм пошуку. Розглянемо основні варіанти.

#### 3.2.1. Види пошуку

1. **Лінійний пошук (Sequential/Linear Search)**  
   - Перевіряє елемент за елементом, доки не знайде збіг або не дійде до кінця списку.
   - Часова складність: *O(n)* (у середньому й найгіршому випадку).
   - Простий у реалізації, але повільний на великих обсягах даних.

   ```python
   def linear_search(data_list, target):
       for item in data_list:
           if item == target:
               return True
       return False
   ```

2. **Бінарний пошук (Binary Search)**  
   - Працює на відсортованих структурах (списках).
   - Кожен крок ділить пошуковий простір навпіл.
   - Часова складність: *O(log n)*.
   - Використовується, коли дані впорядковані за певним ключем або індексом.

   ```python
   def binary_search(sorted_list, target):
       left, right = 0, len(sorted_list) - 1
       while left <= right:
           mid = (left + right) // 2
           if sorted_list[mid] == target:
               return True
           elif sorted_list[mid] < target:
               left = mid + 1
           else:
               right = mid - 1
       return False
   ```

3. **Пошук за ключем у хеш-структурах (Hash-based search)**  
   - За допомогою словників (dict) або множин (set) у Python.
   - Часова складність: *O(1)* в середньому випадку.
   - Ідеально підходить, коли потрібно часто звертатися до елемента за унікальним ідентифікатором.

   ```python
   # Приклад пошуку за ключем у словнику
   users_dict = {user['id']: user for user in users_data}
   user_id_to_find = 2
   found_user = users_dict.get(user_id_to_find, None)
   if found_user:
       print("Знайдений:", found_user)
   else:
       print("Не знайдений")
   ```

4. **Рекурсивні та ітеративні підходи**  
   - Пошук можна реалізувати ітеративно або рекурсивно (з викликом самого себе).
   - Рекурсивні підходи зручні для дерева чи графових структур (XML ієрархія).
   - Однак рекурсія може бути менш ефективною через додаткові витрати на виклик функцій і обмеження глибини стека у Python.

#### 3.2.2. Приклади реалізації пошуку в JSON та XML

1. **Пошук у JSON**  
   Якщо дані зберігаються у форматі JSON (наприклад, список об’єктів), можна використати лінійний пошук або словник.  

   **Лінійний пошук за певним ключем:**
   ```python
   import json

   def find_user_by_key_in_json(json_file, key, value):
       with open(json_file, 'r', encoding='utf-8') as f:
           data = json.load(f)
       
       users = data.get('users', [])
       results = []
       for user in users:
           if user.get(key) == value:
               results.append(user)
       
       return results

   # Приклад використання
   found_users = find_user_by_key_in_json('data.json', 'role', 'user')
   print("Знайдені користувачі з role='user':", found_users)
   ```

   Якщо дані часто змінюються, можна формувати словник у пам’яті для швидшого доступу за індексом (наприклад, `{'id': {...}}`).

2. **Пошук у XML**  
   XML часто використовується для ієрархічних даних. У Python зручно шукати елементи через методи `find()`, `findall()`, `iter()`.

   ```python
   import xml.etree.ElementTree as ET

   def find_users_in_xml(xml_file, role_value):
       tree = ET.parse(xml_file)
       root = tree.getroot()

       result = []
       users_element = root.find('users')
       if users_element is not None:
           for user_element in users_element.findall('user'):
               if user_element.get('role') == role_value:
                   # 'text' елемента user може містити ім'я
                   user_info = {
                       'id': user_element.get('id'),
                       'name': user_element.text,
                       'role': user_element.get('role')
                   }
                   result.append(user_info)
       return result

   # Приклад використання
   found_users_xml = find_users_in_xml('data.xml', 'user')
   print("Користувачі з role='user':", found_users_xml)
   ```

#### 3.2.3. Порівняння алгоритмів пошуку
- **Лінійний пошук**: простий, але повільний на великих обсягах даних.
- **Бінарний пошук**: швидший (logarithmic time), проте потребує відсортованих даних.
- **Пошук за хешем (dict у Python)**: найшвидший у більшості випадків (*O(1)*), але потребує додаткової пам’яті для побудови хеш-таблиць.
- **У випадку XML**: якщо структура вкладена, може знадобитися обхід у глибину (DFS) або індексування. Без додаткових індексів лінійний чи деревоподібний обхід будуть мати складність *O(n)*.

> **Висновок**: Обираючи алгоритм пошуку, слід враховувати:
> - Обсяг даних.
> - Частоту запитів.
> - Необхідність сортування або індексування.
> - Особливості формату даних (JSON vs XML).

---

Таким чином, **структурування даних** у правильному форматі (JSON, XML, або інші) та **вибір алгоритму пошуку** (лінійний, бінарний, хеш) є ключовими моментами для ефективного функціонування будь-якої інформаційно-аналітичної системи.

## 4. Практична робота

У цій частині слухачі набудуть практичних навичок роботи зі структурованими даними у форматах JSON та XML, а також реалізують різні алгоритми пошуку (лінійний, бінарний, пошук за хешем).

---

### 4.1. Налаштування середовища
1. Перевірити наявність встановленого **Python** (рекомендовано Python 3.7+).  
2. Перевірити наявність стандартних бібліотек:  
   - `json` (для роботи з JSON)  
   - `xml.etree.ElementTree` (для роботи з XML)  
3. Підготувати зразки файлів:  
   - **`data.json`** – міститиме набір даних у форматі JSON (список користувачів, товари, тощо).  
   - **`data.xml`** – аналогічні дані у форматі XML.

---

### 4.2. Завдання 1: Пошук у JSON

#### Крок 1. Створення або використання готового файлу `data.json`
Приклад вмісту (`data.json`):
```json
{
  "users": [
    { "id": 1, "name": "Alice", "role": "admin" },
    { "id": 2, "name": "Bob",   "role": "user" },
    { "id": 3, "name": "Charlie", "role": "user" },
    { "id": 4, "name": "Diana", "role": "manager" }
  ]
}
```

#### Крок 2. Реалізація лінійного пошуку
1. Створити функцію для лінійного пошуку користувача за певним ключем та значенням (наприклад, `key='name'`, `value='Alice'`).

```python
import json

def linear_search_in_json(json_file, key, value):
    """
    Лінійний пошук у файлі JSON за заданим ключем і значенням.
    Повертає список знайдених об'єктів або порожній список, якщо немає збігів.
    """
    with open(json_file, 'r', encoding='utf-8') as f:
        data = json.load(f)

    # Припустимо, що потрібні об'єкти знаходяться в полі "users"
    users = data.get("users", [])
    results = []
    for user in users:
        if user.get(key) == value:
            results.append(user)
    return results

# Перевірка роботи функції:
found_users = linear_search_in_json('data.json', 'role', 'user')
print("Знайдені користувачі з role='user':", found_users)
```

2. Запустити скрипт і перевірити результат у терміналі/консолі.

#### Крок 3. Побудова індексованої структури (словник)
1. Якщо дані часто змінюються, можна зчитати їх один раз і побудувати словник (`dict`) для пришвидшення пошуку.

```python
def build_dict_from_json(json_file, key='id'):
    """
    Зчитує дані з JSON, повертає словник, де ключ - це обране поле (наприклад, 'id'),
    а значення - відповідний об'єкт.
    """
    with open(json_file, 'r', encoding='utf-8') as f:
        data = json.load(f)

    users = data.get("users", [])
    data_dict = {user[key]: user for user in users if key in user}
    return data_dict

# Приклад використання:
users_dict = build_dict_from_json('data.json', key='id')
print("Швидкий пошук користувача з ID=2:", users_dict.get(2))
```

2. Для пошуку за певним `id` не потрібно перебирати весь список (лінійний пошук), бо доступ за ключем у словнику в середньому відбувається за **O(1)**.

---

### 4.3. Завдання 2: Пошук у XML

#### Крок 1. Створення або використання готового файлу `data.xml`
Приклад вмісту (`data.xml`):
```xml
<root>
  <users>
    <user id="1" role="admin">Alice</user>
    <user id="2" role="user">Bob</user>
    <user id="3" role="user">Charlie</user>
    <user id="4" role="manager">Diana</user>
  </users>
</root>
```

#### Крок 2. Читання XML та реалізація лінійного пошуку
1. У Python зручно шукати потрібні елементи через `xml.etree.ElementTree`.

```python
import xml.etree.ElementTree as ET

def search_in_xml(xml_file, role_value):
    """
    Пошук усіх елементів <user> з атрибутом role=role_value.
    Повертає список словників із даними про знайдених користувачів.
    """
    tree = ET.parse(xml_file)
    root = tree.getroot()

    result = []
    users_element = root.find('users')
    if users_element is not None:
        for user_element in users_element.findall('user'):
            if user_element.get('role') == role_value:
                user_info = {
                    "id": user_element.get("id"),
                    "name": user_element.text,
                    "role": user_element.get("role")
                }
                result.append(user_info)
    return result

# Перевірка
found_xml_users = search_in_xml('data.xml', 'user')
print("Користувачі із role='user':", found_xml_users)
```

2. За потреби можна ускладнити умову пошуку (наприклад, шукати за `id` та `role` одночасно).

---

### 4.4. Алгоритми пошуку: додаткові приклади

#### 4.4.1. Бінарний пошук у відсортованому списку
Припустимо, що в JSON дані про користувачів відсортовані за `id`. Тоді можна використати бінарний пошук для пришвидшення операції пошуку.

```python
def binary_search_in_list(sorted_list, target_id):
    left, right = 0, len(sorted_list) - 1
    while left <= right:
        mid = (left + right) // 2
        if sorted_list[mid]['id'] == target_id:
            return sorted_list[mid]
        elif sorted_list[mid]['id'] < target_id:
            left = mid + 1
        else:
            right = mid - 1
    return None

# Приклад
users_sorted = [
    {"id": 1, "name": "Alice", "role": "admin"},
    {"id": 2, "name": "Bob",   "role": "user"},
    {"id": 3, "name": "Charlie", "role": "user"},
    {"id": 4, "name": "Diana", "role": "manager"}
]
print("Знайдений користувач:", binary_search_in_list(users_sorted, 3))
```

> **Зверніть увагу**: Щоб застосувати бінарний пошук, список повинен бути відсортований за полем `id`.

---

### 4.5. Порівняльний аналіз (експеримент)

1. **Тестові дані**: Згенеруйте або підготуйте достатньо великий набір (наприклад, 10000 елементів у JSON та аналогічну структуру в XML).  
2. **Вимірювання часу**:  
   - Скористайтесь модулем `time` (або `timeit`) для оцінки швидкості різних алгоритмів пошуку:
     ```python
     import time

     start_time = time.time()
     # ... виклик функції пошуку ...
     end_time = time.time()
     print(f"Час виконання: {end_time - start_time} секунд")
     ```
   - Порівняйте результати для лінійного, бінарного пошуку та пошуку за хешем (dict).  
3. **Аналіз результатів**:  
   - Зверніть увагу, наскільки бінарний пошук чи пошук за ключем у словнику (`dict`) може бути швидшим за лінійний на великих обсягах даних.  
   - Переконайтесь, що при конвертації JSON/XML у внутрішні структури (список чи словник) також враховується час на розбір (парсинг) даних.

---

### 4.6. Розширення (додаткове завдання)

1. **Пошук із кількома критеріями**: Наприклад, знайти всіх користувачів, у яких `role="user"` та `name` починається з `B`.  
2. **Індексування даних у XML**: Замість послідовного пошуку у всіх `<user>` елементах, спробуйте побудувати індекс (наприклад, словник у Python) під час першого читання XML. Тоді пошук можна робити за ключем без повторного проходу по всьому дереву.  
3. **Використання модуля `csv`**: Якщо є потреба працювати з таблицями, порівняйте роботу з CSV, JSON та XML за швидкодією.

---

**Підсумково** під час виконання практичних завдань слухачі:
- Навчилися читати та обробляти JSON-файли (модуль `json`).
- Освоїли базову роботу з XML (модуль `xml.etree.ElementTree`).
- Реалізували лінійний пошук, бінарний пошук та пошук за хеш-ключем у Python.
- Провели базовий аналіз швидкодії та побачили, як різні формати та структури даних впливають на продуктивність пошуку.

## 5. Підсумки заняття

### 5.1. Обговорення отриманих результатів
1. **Робота з форматами даних (JSON та XML)**  
   - Слухачі на практиці побачили відмінності у зберіганні та структурі інформації в JSON (об’єкти, масиви) та XML (ієрархія елементів, атрибути).  
   - Було продемонстровано, як у Python за допомогою стандартних модулів `json` та `xml.etree.ElementTree` виконувати читання й обробку цих форматів.

2. **Алгоритми пошуку (лінійний, бінарний, пошук за хешем)**  
   - Лінійний пошук виявився найпростішим у реалізації, але повільним при збільшенні обсягу даних.  
   - Бінарний пошук значно швидший, але потребує, щоб дані були відсортовані.  
   - Пошук у словниках (dict) демонструє *O(1)* середню складність, однак вимагає додаткової пам’яті на зберігання хеш-структур.

3. **Відлагодження та тестування**  
   - Для перевірки коректності алгоритмів учасники могли використовувати прості тести (перевірка відсутніх значень, некоректних ключів тощо).  
   - З’ясувалося, що помилки зазвичай виникають при неправильному читанні даних (некоректна структура JSON/XML) або при відсутності поля, за яким виконується пошук.

4. **Порівняльний аналіз (швидкодія)**  
   - Учасники пересвідчилися на власних спостереженнях, що бінарний пошук і пошук у словнику можуть бути в рази й на порядки швидші за лінійний, особливо для великих обсягів даних.  
   - Використання таймерів (`time`, `timeit`) допомогло об’єктивно оцінити продуктивність реалізованих алгоритмів.

---

### 5.2. Повторення основних моментів
1. **Формати даних (JSON, XML)**:  
   - JSON зручний для структурування «плоскіших» об’єктів та списків, читабельний і компактний.  
   - XML забезпечує ієрархічну структуру, підходить для складних об’єктів з багаторівневою вкладеністю.

2. **Алгоритми пошуку**:  
   - **Лінійний пошук**: простий, але *O(n)*.  
   - **Бінарний пошук**: *O(log n)*, потребує попереднього сортування.  
   - **Хеш-пошук (dict)**: *O(1)* у середньому, відмінний вибір для частої вибірки за ключем.

3. **Відлагодження та тестування**:  
   - Важливо перевіряти роботу пошуку з нетиповими й граничними значеннями.  
   - Тестові набори даних (JSON/XML) мають містити різні сценарії (порожні поля, неіснуючі ключі, некоректний формат).

---

### 5.3. Рефлексія слухачів
1. **Які складнощі виникали**:
   - Інколи складно зорієнтуватися у вкладеній структурі XML.  
   - Забували перевірити, чи в ключі дійсно є значення перед зверненням до нього (можливі помилки `KeyError` у JSON).  
   - Неправильно налаштований шлях до файлу або кодування могли спричиняти помилки читання.

2. **Що здалося цікавим**:
   - Порівняння часу виконання різних алгоритмів пошуку на великих масивах (ефект експоненціального росту часу при лінійному пошуку).  
   - Можливість швидко перебудовувати структуру даних для покращення продуктивності (наприклад, створення словника із JSON).

3. **Використання отриманих знань у подальших проєктах**:
   - У будь-якій системі, де обробляються дані користувачів (e-commerce, CRM, банківські системи), слід уважно добирати формат та алгоритм пошуку.  
   - Аналітика великих даних (Big Data) теж ґрунтується на правильному структуруванні та доступі до даних.

---

### 5.4. Завдання для закріплення (домашнє)
1. **Поглиблена робота з JSON/XML**:  
   - Створити власні файли з даними, що містять більшу кількість полів і вкладених об’єктів.  
   - Реалізувати пошук одночасно за декількома критеріями (наприклад, `role="user"` і `name` починається з літери «B»).

2. **Оптимізація пошуку**:  
   - Реалізувати функції сортування (наприклад, за `id`) та застосувати бінарний пошук замість лінійного.  
   - Порівняти час виконання бінарного пошуку з лінійним для великих наборів даних.

3. **Реалізація індексів для XML** (за бажанням):  
   - Прочитати XML один раз, сформувати словник чи інший індекс, а потім виконувати пошук у пам’яті.  
   - Перевірити, наскільки це пришвидшує процес пошуку.

---

**Загальний висновок**:  
У ході заняття слухачі не лише познайомилися з формальним механізмом роботи з JSON та XML, а й навчилися обирати оптимальні методи пошуку залежно від характеру і обсягу даних. Це є фундаментальним умінням для ефективної розробки сучасних інформаційно-аналітичних систем.