## Тема 2. Заняття 2.  Методи збору даних для ІАЗ ОУВ
### 1. Основи збору даних через мережу Internet.


##### Вступ
Збір даних через Інтернет є однією з ключових складових інформаційно-аналітичного забезпечення (ІАЗ) органів управління військами (ОУВ). Інтернет надає доступ до величезних обсягів інформації, які можуть бути корисними для аналізу та підтримки прийняття рішень в оперативних і стратегічних умовах. У військовому контексті, цей процес охоплює як відкриті джерела (OSINT — Open Source Intelligence), так і різні методи моніторингу, аналізу й обробки даних.

##### Основні джерела даних з Інтернету
1. **Відкриті джерела інформації (OSINT)**:
   - **ЗМІ (News Media)**: Аналіз статей, новин, блогів, онлайн-публікацій дає змогу отримувати оперативну інформацію про події, військові операції, соціально-політичні зміни.
   - **Соціальні мережі (Social Media Intelligence, SOCMINT)**: Моніторинг соціальних мереж, таких як Twitter, Facebook, YouTube, дає можливість відслідковувати настрої, взаємодії, місця перебування, а також виявляти дезінформацію або пропаганду.
   - **Геопросторові дані (GEOINT)**: Супутникові знімки, дані картографічних сервісів, таких як Google Maps або OpenStreetMap, використовуються для аналізу місцевості, переміщення військових сил та інфраструктури.

2. **Технологічні інструменти для збору даних**:
   - **Веб-скрейпінг (Web Scraping)**: Збір даних з відкритих вебсайтів за допомогою автоматизованих інструментів (наприклад, Python з бібліотеками BeautifulSoup або Scrapy). Цей метод дозволяє отримати великі масиви даних з різних джерел, таких як публічні бази даних, новинні сайти та урядові ресурси.
   - **Методики моніторингу соціальних мереж**: Спеціалізовані інструменти для моніторингу соціальних мереж (наприклад, Hootsuite, Meltwater, Brandwatch) дозволяють відслідковувати тренди, ключові слова та аналізувати вміст у реальному часі.

3. **Інструменти для аналізу великих обсягів даних**:
   - **Big Data аналітика**: Використання аналітичних платформ для обробки великих даних, таких як Apache Hadoop або Spark, дозволяє ефективно аналізувати дані з різних джерел.
   - **Штучний інтелект (AI) і машинне навчання (ML)**: Використовуються для автоматизації аналізу даних, виявлення шаблонів і прогнозування загроз на основі історичних даних.

##### Виклики та ризики збору даних через Інтернет
- **Інформаційне перевантаження**: Великий обсяг інформації може ускладнювати її ефективну обробку та аналіз. Необхідно розробити методики фільтрації даних для виділення релевантної інформації.
- **Вірогідність дезінформації**: В Інтернеті існує значна кількість фальшивих новин та дезінформаційних кампаній. Важливо забезпечити перевірку джерел і достовірність отриманих даних.
- **Захист персональних даних та безпека**: Збір даних з Інтернету повинен проводитися з урахуванням правових і етичних норм, щоб уникнути порушення конфіденційності та безпеки.

##### Висновок
Збір даних через Інтернет є важливою складовою сучасного ІАЗ ОУВ. Військові аналітики повинні володіти навичками використання технологій для збору та обробки даних з різних відкритих джерел, а також мати можливість оцінювати надійність і актуальність отриманої інформації.

Цей матеріал допоможе студентам зрозуміти основи збору даних через Інтернет та їх використання для ефективного інформаційно-аналітичного забезпечення у військовому контексті.

Ось приклад коду на Python для **web scraping** з використанням бібліотеки `BeautifulSoup` та `requests` для збору даних із вебсайту:

```python
import requests
from bs4 import BeautifulSoup

# URL сайту, з якого будемо збирати дані
url = "https://example.com"

# Використання requests для отримання HTML-коду сторінки
response = requests.get(url)

# Перевіряємо статус запиту
if response.status_code == 200:
    # Створюємо об'єкт BeautifulSoup для аналізу HTML
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # Приклад: витягаємо всі заголовки (теги <h1>, <h2>, <h3> тощо)
    headers = soup.find_all(['h1', 'h2', 'h3'])
    
    # Виводимо знайдені заголовки
    for header in headers:
        print(header.text.strip())

else:
    print(f"Failed to retrieve data. HTTP Status code: {response.status_code}")
```

### Пояснення:
1. **requests.get()** — надсилає запит до вебсайту і отримує HTML-код сторінки.
2. **BeautifulSoup()** — створює об'єкт для аналізу HTML-коду.
3. **soup.find_all()** — шукає всі заголовки (`<h1>`, `<h2>`, `<h3>`) на сторінці та витягує їх текстовий вміст.
4. **strip()** — очищує текст від зайвих пробілів.

### Вимоги:
1. Встановіть бібліотеки, якщо вони ще не інстальовані:
   ```bash
   pip install requests beautifulsoup4
   ```

Цей код є простим прикладом для збору текстових даних із заголовків на вебсайті. Його можна модифікувати для збору інших елементів сторінки або аналізу специфічних структур даних.

In [None]:
# %pip install pandas

Collecting pandas
  Downloading pandas-2.2.3-cp311-cp311-win_amd64.whl.metadata (19 kB)
Collecting numpy>=1.23.2 (from pandas)
  Downloading numpy-2.2.1-cp311-cp311-win_amd64.whl.metadata (60 kB)
     ---------------------------------------- 0.0/60.8 kB ? eta -:--:--
     ---------------------------------------- 60.8/60.8 kB 1.6 MB/s eta 0:00:00
Collecting pytz>=2020.1 (from pandas)
  Downloading pytz-2024.2-py2.py3-none-any.whl.metadata (22 kB)
Collecting tzdata>=2022.7 (from pandas)
  Downloading tzdata-2024.2-py2.py3-none-any.whl.metadata (1.4 kB)
Downloading pandas-2.2.3-cp311-cp311-win_amd64.whl (11.6 MB)
   ---------------------------------------- 0.0/11.6 MB ? eta -:--:--
    --------------------------------------- 0.2/11.6 MB 2.5 MB/s eta 0:00:05
   - -------------------------------------- 0.4/11.6 MB 2.5 MB/s eta 0:00:05
   - -------------------------------------- 0.5/11.6 MB 2.5 MB/s eta 0:00:05
   -- ------------------------------------- 0.7/11.6 MB 2.4 MB/s eta 0:00:05
   -


[notice] A new release of pip is available: 24.0 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [3]:
# %pip install requests beautifulsoup4

Collecting requests
  Downloading requests-2.32.3-py3-none-any.whl.metadata (4.6 kB)
Collecting beautifulsoup4
  Downloading beautifulsoup4-4.12.3-py3-none-any.whl.metadata (3.8 kB)
Collecting charset-normalizer<4,>=2 (from requests)
  Downloading charset_normalizer-3.4.1-cp311-cp311-win_amd64.whl.metadata (36 kB)
Collecting idna<4,>=2.5 (from requests)
  Downloading idna-3.10-py3-none-any.whl.metadata (10 kB)
Collecting urllib3<3,>=1.21.1 (from requests)
  Downloading urllib3-2.3.0-py3-none-any.whl.metadata (6.5 kB)
Collecting certifi>=2017.4.17 (from requests)
  Downloading certifi-2024.12.14-py3-none-any.whl.metadata (2.3 kB)
Collecting soupsieve>1.2 (from beautifulsoup4)
  Downloading soupsieve-2.6-py3-none-any.whl.metadata (4.6 kB)
Downloading requests-2.32.3-py3-none-any.whl (64 kB)
   ---------------------------------------- 0.0/64.9 kB ? eta -:--:--
   ------------------ --------------------- 30.7/64.9 kB 660.6 kB/s eta 0:00:01
   ------------------------- -------------- 41.0/6


[notice] A new release of pip is available: 24.0 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [11]:
import requests
from bs4 import BeautifulSoup

# URL сайту, з якого будемо збирати дані
url = "https://nuou.org.ua/"

# Використання requests для отримання HTML-коду сторінки
response = requests.get(url)

# Перевіряємо статус запиту
if response.status_code == 200:
    # Створюємо об'єкт BeautifulSoup для аналізу HTML
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # Приклад: витягаємо всі заголовки та посилання (теги <h1>, <h2>, <h3>, <a> тощо)
    headers = soup.find_all(['h1', 'h2', 'h3', 'a'])
    
    # Виводимо знайдені заголовки
    for header in headers:
        print(header.text.strip())

else:
    print(f"Failed to retrieve data. HTTP Status code: {response.status_code}")


adl.mil.gov.ua
adl.nuou.org.ua
Університет
Загальні відомості
Керівництво
Новини
Статут
Оголошення
Структурні підрозділи
Міжнародне співробітництво
Документи
Кошторис університету
Фінансова звітність
Запобігання корупції
Анонси подій
Профспілкова організація
Державні закупівлі
Робота з громадянами
Очищення влади
Академічна доброчесність
Музей
Опитування
Освіта
Концепція освітньої діяльності
Освітні проєкти
Вступникам
Слухачам
Курсантам
Студентам
Лідерські курси
Редакційно-видавнича діяльність
Наука
Робота спеціалізованих вчених рад
Вступникам до докторантури та ад’юнктури
Докторантам, ад’юнктам
Наукові публікації
Конференції та семінари
Наукові товариства
Угоди та меморандуми про співробітництво
Рада молодих вчених
Освітньо-наукові програми підготовки здобувачів ступеня доктора філософії
Доступ до наукометричних баз та повнотекстових наукових ресурсів
Доступ до Національної електронної науково-інформаційної системи NAUKA
Контакти


en
Університет
Загальні відомості
Керівництво
Новини
С

### 2. Збір даних з використанням формалізованих документів.

Збір даних з використанням формалізованих документів є одним із основних методів інформаційно-аналітичного забезпечення (ІАЗ), особливо в умовах військового управління. Формалізовані документи забезпечують структуровану, стандартизовану інформацію, що полегшує її обробку, аналіз та інтеграцію в системи ІАЗ.

### 1. **Визначення формалізованих документів**
Формалізовані документи – це документи, які мають чітко визначену структуру, формат та зміст, що відповідає встановленим стандартам або протоколам. Вони часто використовуються в державних установах, армії, наукових та ділових сферах. Формат таких документів може бути як електронний, так і паперовий, з обов’язковим використанням загальноприйнятих схем для обміну даними (наприклад, XML, JSON, CSV).

### 2. **Типи формалізованих документів**
- **Оперативні звіти та донесення**: Військові організації використовують стандартизовані форми для передачі інформації про оперативну обстановку, рух військ, виявлення противника, статус ресурсів та інше. Прикладом є стандартні форми НАТО, що полегшують взаємодію між союзниками.
- **Статистичні та аналітичні звіти**: Ці документи містять числову та аналітичну інформацію про результати операцій, використання ресурсів, витрати та інші ключові показники.
- **Технічні документи**: Опис систем озброєнь, обладнання, інфраструктурних об’єктів або методологій їх використання. Ці документи можуть бути стандартизовані для полегшення впровадження в різних підрозділах.
- **Нормативні документи**: Стандарти, інструкції та протоколи, що визначають правила поведінки або процеси, які необхідно дотримуватися у певних ситуаціях.

### 3. **Інструменти збору даних із формалізованих документів**
Збір даних з формалізованих документів може відбуватися різними методами:
- **Оцифрування документів**: Документи в паперовому вигляді можна оцифрувати за допомогою сканерів і технологій оптичного розпізнавання тексту (OCR). Це дозволяє перетворити документи у формат, який можна аналізувати автоматично.
- **Використання стандартів обміну даними**: Стандартизовані формати, такі як XML, JSON або CSV, полегшують автоматичний збір та обробку даних з документів. Інформаційно-аналітичні системи можуть інтегрувати ці документи та автоматично витягувати ключову інформацію для подальшого аналізу.
- **Програмне забезпечення для обробки документів**: Існують спеціалізовані програми для автоматизованого збирання даних із формалізованих документів. Наприклад, системи керування документами (DMS) дозволяють автоматизувати процес збору та зберігання документів для їх подальшого використання в аналітиці.

### 4. **Процес збору даних із формалізованих документів**
- **Ідентифікація типу документа**: Першим кроком є визначення, який тип документу необхідно зібрати, і яку саме інформацію потрібно отримати. Це можуть бути звіти, таблиці, текстові дані тощо.
- **Структурований аналіз**: Формалізовані документи мають чітку структуру, що дозволяє використовувати автоматизовані інструменти для витягнення інформації. Наприклад, для документів у форматі XML можна використовувати спеціальні парсери для витягнення даних за відповідними тегами.
- **Аналіз та інтеграція даних**: Після збору дані підлягають аналізу та інтеграції в інформаційно-аналітичні системи. Це дозволяє створювати агреговані звіти, карти, прогнози або рекомендації для прийняття рішень.

### 5. **Переваги використання формалізованих документів**
- **Стандартизація**: Формалізовані документи дозволяють використовувати стандарти для збору та обробки даних, що підвищує їх точність і надійність.
- **Швидкість обробки**: Оскільки документи мають фіксовану структуру, їх можна обробляти автоматизовано, що значно прискорює процес збору даних.
- **Інтеграція з іншими системами**: Формалізовані документи легко інтегруються з існуючими інформаційними системами, такими як системи керування базами даних, аналітичні платформи та інші інструменти.

### 6. **Приклад використання формалізованих документів**
Уявімо ситуацію, коли необхідно зібрати дані про стан технічного забезпечення підрозділів. Використовуючи стандартизовані форми звітів, військові аналітики можуть швидко отримати структуровані дані від усіх підрозділів, агрегувати їх і створити зведений звіт для командування. Такий процес дозволяє скоротити час на підготовку звітів та знизити ризик помилок під час обробки даних.

### Висновок
Збір даних із використанням формалізованих документів є важливою складовою ІАЗ, оскільки забезпечує швидку і точну обробку інформації, необхідної для прийняття рішень. Використання сучасних технологій автоматизації дозволяє зменшити витрати часу та підвищити точність аналітики.

Такий контент дозволить студентам отримати розуміння ключових аспектів збору даних із формалізованих документів та їх роль в інформаційно-аналітичному забезпеченні органів управління військами.

### Стандартизовані формати для збору даних: XML, JSON, CSV

**1. XML (Extensible Markup Language)**  
XML — це текстовий формат для представлення структурованої інформації, що часто використовується для обміну даними між різними системами. XML є самодокументованим, оскільки теги вказують на зміст даних.

**Основні риси XML**:
- **Гнучка структура**: Можна визначати власні теги для різних типів даних.
- **Самодокументованість**: Дані легко читаються людьми і можуть бути перевірені на правильність.
- **Використання в системах**: Широко використовується в системах, де потрібно передавати великі обсяги даних у вигляді деревоподібних структур (наприклад, SOAP, RSS).
  
**Приклад XML**:
```xml
<document>
    <title>Report</title>
    <date>2024-10-01</date>
    <author>John Doe</author>
</document>
```

**2. JSON (JavaScript Object Notation)**  
JSON — це легкий формат обміну даними, що легко читається людьми та обробляється машинами. Він популярний завдяки своїй простоті та підтримці багатьма мовами програмування.

**Основні риси JSON**:
- **Компактність**: JSON займає менше місця, ніж XML, що робить його зручнішим для веб- та мобільних додатків.
- **Підтримка структурованих даних**: Можна легко створювати об’єкти та масиви даних.
- **Простота обробки**: Легко інтегрується з мовами програмування, особливо JavaScript.

**Приклад JSON**:
```json
{
    "title": "Report",
    "date": "2024-10-01",
    "author": "John Doe"
}
```

**3. CSV (Comma-Separated Values)**  
CSV — це простий формат для зберігання табличних даних, де кожен рядок представляє запис, а значення розділені комами або іншими роздільниками (наприклад, крапка з комою або табуляція).

**Основні риси CSV**:
- **Простота використання**: Легко створювати та відкривати у більшості текстових редакторів або електронних таблиць.
- **Оптимальний для табличних даних**: Використовується для зберігання базових таблиць і списків.
- **Широка підтримка**: Підтримується різними програмами для обробки даних, такими як Excel або Google Sheets.

**Приклад CSV**:
```csv
title,date,author
Report,2024-10-01,John Doe
```

### Використання формалізованих форматів в ІАЗ:
- **XML** часто використовується для обміну даними між системами, які повинні підтримувати складні, ієрархічні структури, такі як звіти чи розпорядження.
- **JSON** зручний для передачі даних через API і використовується в системах, що потребують швидкої інтеграції та аналізу даних (наприклад, системи реального часу).
- **CSV** є оптимальним для роботи з великими обсягами табличних даних (наприклад, для зведених звітів чи статистики).

Використання цих форматів в ІАЗ полегшує обробку даних, підвищує точність аналізу та сприяє інтеграції з іншими інформаційними системами.

Ось приклад коду на Python для роботи з трьома основними форматами даних: **CSV**, **JSON**, та **XML**.

### 1. Робота з **CSV**

```python
import csv

# Створення CSV-файлу
with open('data.csv', mode='w', newline='') as file:
    writer = csv.writer(file)
    writer.writerow(['title', 'date', 'author'])
    writer.writerow(['Report', '2024-10-01', 'John Doe'])

# Читання CSV-файлу
with open('data.csv', mode='r') as file:
    reader = csv.reader(file)
    for row in reader:
        print(row)
```

### 2. Робота з **JSON**

```python
import json

# Дані у форматі JSON
data = {
    "title": "Report",
    "date": "2024-10-01",
    "author": "John Doe"
}

# Запис у файл JSON
with open('data.json', 'w') as file:
    json.dump(data, file, indent=4)

# Читання JSON-файлу
with open('data.json', 'r') as file:
    data = json.load(file)
    print(data)
```

### 3. Робота з **XML**

```python
import xml.etree.ElementTree as ET

# Створення XML-структури
root = ET.Element("document")
title = ET.SubElement(root, "title")
title.text = "Report"
date = ET.SubElement(root, "date")
date.text = "2024-10-01"
author = ET.SubElement(root, "author")
author.text = "John Doe"

# Запис у файл XML
tree = ET.ElementTree(root)
tree.write("data.xml")

# Читання XML-файлу
tree = ET.parse('data.xml')
root = tree.getroot()
for elem in root:
    print(elem.tag, ":", elem.text)
```

### Опис:
1. **CSV**: Використовується для запису та читання табличних даних.
2. **JSON**: Легко використовується для зберігання структурованих даних і передачі їх через мережу.
3. **XML**: Підходить для зберігання даних з ієрархічною структурою.

Ці приклади демонструють, як зберігати та читати дані з файлів різних форматів, що може бути корисним для інтеграції з інформаційними системами.

Ось приклад коду Google Apps Script для створення Google Форми для формалізованого збору даних:

### Кроки:
1. Відкрийте Google Диск.
2. Створіть новий файл скрипта: **New > Google Apps Script**.
3. Вставте наступний код у редактор скрипта:

```javascript
function createForm() {
  // Створення нової форми
  var form = FormApp.create('Formalized Data Collection');
  
  // Додавання поля для введення тексту
  form.addTextItem()
      .setTitle('Full Name')
      .setRequired(true);
  
  // Додавання поля для вибору дати
  form.addDateItem()
      .setTitle('Date of Submission')
      .setRequired(true);
  
  // Додавання поля для вибору з кількох варіантів
  form.addMultipleChoiceItem()
      .setTitle('Select Department')
      .setChoiceValues(['IT', 'HR', 'Finance', 'Operations'])
      .setRequired(true);
  
  // Додавання поля для введення числового значення
  form.addTextItem()
      .setTitle('Employee ID')
      .setRequired(true);

  // Додавання текстової області для введення коментарів
  form.addParagraphTextItem()
      .setTitle('Additional Comments');
  
  // Вивести URL форми
  Logger.log('Form URL: ' + form.getEditUrl());
}
```

### Опис:
- **FormApp.create()**: Створює нову форму.
- **addTextItem()**: Додає текстове поле для введення (наприклад, ім'я).
- **addDateItem()**: Додає поле для вибору дати.
- **addMultipleChoiceItem()**: Додає варіант вибору з кількох опцій (наприклад, департамент).
- **addParagraphTextItem()**: Додає текстову область для введення коментарів.
- **Logger.log()**: Виводить URL створеної форми в журналі.

### Як запустити:
1. Натисніть "Запуск" (Run) для виконання скрипта.
2. Після виконання відкрийте журнал (View > Logs) та скопіюйте URL форми.

Цей приклад створює Google Форму для збору формалізованих даних, яку можна використовувати для автоматизації процесу збору інформації.

Ось приклад коду на Python для збору даних з формалізованої таблиці Excel за допомогою бібліотеки **`pandas`**:

### Кроки:
1. Встановіть бібліотеку `pandas` (якщо ще не встановлена):
   ```bash
   pip install pandas openpyxl
   ```

2. Використовуйте наступний код для читання даних із файлу Excel:

```python
import pandas as pd

# Читання Excel-файлу
file_path = 'data.xlsx'  # Вкажіть шлях до файлу
df = pd.read_excel(file_path, sheet_name='Sheet1')  # Задайте ім'я аркуша, якщо він відомий

# Виведення першого рядка таблиці
print(df.head())

# Збір конкретних даних (наприклад, стовпці 'Name' та 'Date')
name_column = df['Name']  # Стовпець із іменами
date_column = df['Date']  # Стовпець із датами

# Виведення зібраних даних
print('Names:', name_column.tolist())
print('Dates:', date_column.tolist())

# Приклад обробки: фільтрація за датою
filtered_data = df[df['Date'] > '2024-01-01']
print(filtered_data)
```

### Опис:
1. **`pd.read_excel()`**: Використовується для читання даних з Excel-файлу. Аргумент `sheet_name` дозволяє вказати конкретний аркуш, з якого ви хочете зібрати дані.
2. **`df.head()`**: Виводить перші кілька рядків таблиці для швидкого перегляду структури даних.
3. **Фільтрація**: Приклад фільтрації даних за датою — збираються лише записи, де дата більше зазначеної.

### Вимоги:
- Формалізована таблиця Excel повинна містити відповідні заголовки стовпців, такі як **'Name'** та **'Date'**, або ви можете змінити назви на ті, що відповідають вашому файлу.

Цей код дозволяє збирати, обробляти та аналізувати дані з таблиці Excel в Python, що може бути корисним для автоматизації збору даних з формалізованих документів.