## Розширений план групового заняття  
**Тема 4. Заняття 12. Використання репозиторіїв аналітичних моделей для аналізу даних (Transfer Learning). Основи використання методів навчання з підкріпленням (Reinforcement Learning).**

---

### **1. Мета заняття**
- Ознайомити слухачів із концепцією Transfer Learning та методами використання попередньо навчених моделей з репозиторіїв для аналізу даних.
- Ввести основні поняття та принципи Reinforcement Learning (RL), демонструючи їх застосування у військових інформаційно-аналітичних системах.
- Забезпечити практичні навички роботи з Transfer Learning та базовими алгоритмами RL через інтерактивні вправи та групові проєкти.

### **2. Очікувані результати**
Після завершення заняття слухачі зможуть:
- Розуміти основні принципи Transfer Learning та його переваги у військовому аналізі даних.
- Використовувати попередньо навчені моделі з репозиторіїв (TensorFlow Hub, PyTorch Model Zoo, Hugging Face Model Hub) для вирішення конкретних задач.
- Знати основні компоненти та алгоритми Reinforcement Learning.
- Реалізовувати прості RL-агенти для вирішення базових задач.
- Оцінювати можливості та обмеження Transfer Learning та RL у військових застосуваннях.

### **3. Структура заняття**

| Час       | Активність                                                                 |
|-----------|----------------------------------------------------------------------------|
| 0-10 хв   | **Вступ та огляд**<br>- Привітання.<br>- Короткий огляд попередніх занять.<br>- Мета та структура поточного заняття. |
| 10-30 хв  | **Transfer Learning: Теоретичний огляд**<br>- Визначення та принципи Transfer Learning.<br>- Переваги використання Transfer Learning у військових задачах.<br>- Репозиторії попередньо навчених моделей (TensorFlow Hub, PyTorch Model Zoo, Hugging Face Model Hub). |
| 30-60 хв  | **Практична частина: Використання попередньо навчених моделей**<br>- Демонстрація використання TensorFlow Hub/PyTorch Model Zoo.<br>- Завдання для груп: Вибір моделі та адаптація до конкретної задачі (наприклад, класифікація бойової техніки на зображеннях).<br>- Обговорення результатів. |
| 60-70 хв  | **Перерва**                                                              |
| 70-90 хв  | **Reinforcement Learning: Теоретичний огляд**<br>- Визначення та основні компоненти RL.<br>- Основні алгоритми: Q-Learning, Deep Q-Network (DQN), Policy Gradients, Actor-Critic.<br>- Застосування RL у військових системах. |
| 90-120 хв | **Практична частина: Створення простого RL-агента**<br>- Введення у середовище OpenAI Gym.<br>- Створення та навчання простого агента DQN для гри CartPole.<br>- Обговорення результатів та можливих удосконалень. |
| 120-130 хв| **Груповий проєкт**<br>- Розподіл слухачів на групи.<br>- Завдання: Розробити концепцію використання Transfer Learning або RL для конкретної військової задачі.<br>- Обговорення та підготовка презентацій. |
| 130-140 хв| **Презентація груп**<br>- Кожна група презентує свою концепцію.<br>- Обговорення та зворотний зв'язок від викладача та інших груп. |
| 140-150 хв| **Підсумки та завершення**<br>- Основні висновки заняття.<br>- Відповіді на питання.<br>- Оголошення домашнього завдання (за потреби). |

---

### **4. Детальний навчальний контент**

#### **4.1. Transfer Learning: Використання репозиторіїв аналітичних моделей**

##### **4.1.1. Теоретичний огляд Transfer Learning**
- **Визначення:** Transfer Learning — це метод машинного навчання, при якому знання, набуті при вирішенні однієї задачі, використовуються для вирішення іншої, пов'язаної задачі.
- **Принципи:**
  - Використання попередньо навчених моделей.
  - Адаптація моделей до нових задач шляхом fine-tuning або заміни певних шарів.
- **Переваги:**
  - Зменшення часу навчання.
  - Покращення точності моделей, особливо при обмеженості даних.
  - Економія обчислювальних ресурсів.

##### **4.1.2. Репозиторії попередньо натренованих моделей**
- **TensorFlow Hub:** [https://tfhub.dev/](https://tfhub.dev/)  
  Набір моделей для класифікації зображень, обробки тексту тощо.
- **PyTorch Model Zoo:** [https://pytorch.org/docs/stable/torchvision/models.html](https://pytorch.org/docs/stable/torchvision/models.html)  
  Попередньо навчені моделі для різних задач.
- **Hugging Face Model Hub:** [https://huggingface.co/models](https://huggingface.co/models)  
  Моделі для обробки природної мови, такі як BERT, GPT, T5.

##### **4.1.3. Адаптація моделей під конкретне військове завдання**
- **Fine-tuning:** Процес подальшого навчання попередньо натренованої моделі на новому наборі даних.
- **Кроки Fine-tuning:**
  1. Вибір відповідної попередньо натренованої моделі.
  2. Заморожування шарів, що не потребують оновлення.
  3. Додавання нових шарів (наприклад, новий вихідний шар для класифікації).
  4. Навчання моделі на нових даних з меншою швидкістю навчання.

##### **4.1.4. Прикладний кейс: Переднавчена CNN для аналізу зображень бойової техніки**

**Задача:** Ідентифікація типу військової техніки на супутникових знімках.

**Інструменти:** PyTorch, torchvision, попередньо навчені моделі ResNet.

**Приклад коду: Fine-tuning ResNet на новому наборі даних**

```python
import torch
import torch.nn as nn
import torchvision
from torchvision import datasets, transforms, models
from torch.optim import lr_scheduler
import time
import copy
import os

# 1. Підготовка даних
data_dir = 'path_to_your_dataset'  # Замість цього шляху вкажіть шлях до вашого набору даних
data_transforms = {
    'train': transforms.Compose([
        transforms.Resize((224, 224)),
        transforms.RandomHorizontalFlip(),
        transforms.ToTensor(),
        transforms.Normalize([0.485, 0.456, 0.406], 
                             [0.229, 0.224, 0.225])
    ]),
    'val': transforms.Compose([
        transforms.Resize((224, 224)),
        transforms.ToTensor(),
        transforms.Normalize([0.485, 0.456, 0.406], 
                             [0.229, 0.224, 0.225])
    ]),
}

image_datasets = {x: datasets.ImageFolder(os.path.join(data_dir, x), 
                                          data_transforms[x])
                  for x in ['train', 'val']}
dataloaders = {x: torch.utils.data.DataLoader(image_datasets[x], 
                                              batch_size=32, shuffle=True, num_workers=4)
               for x in ['train', 'val']}
dataset_sizes = {x: len(image_datasets[x]) for x in ['train', 'val']}
class_names = image_datasets['train'].classes

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

# 2. Завантаження попередньо навченого ResNet
model = models.resnet50(pretrained=True)

# 3. Заморожування шарів
for param in model.parameters():
    param.requires_grad = False

# 4. Заміна вихідного шару
num_ftrs = model.fc.in_features
model.fc = nn.Linear(num_ftrs, len(class_names))

model = model.to(device)

# 5. Визначення критерію та оптимізатора
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.fc.parameters(), lr=0.001)

# 6. Навчання моделі
num_epochs = 25
best_model_wts = copy.deepcopy(model.state_dict())
best_acc = 0.0
since = time.time()

for epoch in range(num_epochs):
    print(f'Epoch {epoch+1}/{num_epochs}')
    print('-' * 10)
    
    # Кожен епох розділений на тренувальний та валідаційний
    for phase in ['train', 'val']:
        if phase == 'train':
            model.train()  # режим навчання
        else:
            model.eval()   # режим валідації
        
        running_loss = 0.0
        running_corrects = 0
        
        # Ітерація по даних
        for inputs, labels in dataloaders[phase]:
            inputs = inputs.to(device)
            labels = labels.to(device)
            
            optimizer.zero_grad()
            
            # Прямий прохід
            with torch.set_grad_enabled(phase == 'train'):
                outputs = model(inputs)
                _, preds = torch.max(outputs, 1)
                loss = criterion(outputs, labels)
                
                # Зворотний прохід + оптимізація тільки в тренувальному режимі
                if phase == 'train':
                    loss.backward()
                    optimizer.step()
            
            running_loss += loss.item() * inputs.size(0)
            running_corrects += torch.sum(preds == labels.data)
        
        epoch_loss = running_loss / dataset_sizes[phase]
        epoch_acc = running_corrects.double() / dataset_sizes[phase]
        
        print(f'{phase} Loss: {epoch_loss:.4f} Acc: {epoch_acc:.4f}')
        
        # Збереження найкращої моделі
        if phase == 'val' and epoch_acc > best_acc:
            best_acc = epoch_acc
            best_model_wts = copy.deepcopy(model.state_dict())
    
    print()
    
time_elapsed = time.time() - since
print(f'Training complete in {time_elapsed // 60:.0f}m {time_elapsed % 60:.0f}s')
print(f'Best val Acc: {best_acc:4f}')

# Завантаження найкращої моделі
model.load_state_dict(best_model_wts)

# Збереження моделі
torch.save(model.state_dict(), 'fine_tuned_resnet.pth')
```

**Пояснення коду:**
1. **Підготовка даних:** Використовуються стандартні трансформації для попередньої обробки зображень (Resize, RandomHorizontalFlip, ToTensor, Normalize).
2. **Завантаження моделі:** Використовується попередньо навчена модель ResNet50 з бібліотеки torchvision.
3. **Заморожування шарів:** Всі шари попередньо навченої моделі заморожуються (`requires_grad = False`), щоб зберегти вже набуті представлення.
4. **Заміна вихідного шару:** Вихідний шар змінюється на новий, що відповідає кількості класів у вашому наборі даних.
5. **Визначення критерію та оптимізатора:** Використовується CrossEntropyLoss та Adam-оптимізатор для навчання нового шару.
6. **Навчання:** Модель навчається лише останнього шару на новому наборі даних. Під час тренувальної фази відбувається оновлення ваг, а під час валідаційної фази модель оцінюється без оновлення ваг.
7. **Збереження моделі:** Збереження найкращої моделі на основі валідаційної точності.

##### **4.1.5. Приклад застосування Transfer Learning у військовій сфері**

**Сценарій:** Використання переднавченої моделі CNN для класифікації типів військової техніки на супутникових знімках.

**Кроки:**
1. **Збір даних:** Зібрати та анотувати супутникові знімки різних типів військової техніки (танки, БТР, літаки тощо).
2. **Fine-tuning:** Використати попередньо навчену модель (наприклад, ResNet50) та адаптувати її до нової задачі, як показано в прикладі коду.
3. **Валідація:** Перевірити точність моделі на валідаційному наборі даних, виявити потенційні помилки.
4. **Розгортання:** Інтегрувати модель у військову інформаційну систему для автоматизованої класифікації техніки в режимі реального часу.

**Очікувані результати:**
- **Автоматична класифікація:** Модель здатна автоматично класифікувати техніку на зображеннях, що значно спрощує роботу аналітиків.
- **Покращена точність:** Використання переднавченої моделі дозволяє досягти високої точності навіть з обмеженими даними.

---

#### **4.2. Основи навчання з підкріпленням (Reinforcement Learning, RL)**

##### **4.2.1. Визначення та базові елементи RL**

**Reinforcement Learning (RL)** — це підхід у машинному навчанні, де агент навчається приймати рішення шляхом взаємодії зі середовищем для максимізації кумулятивної винагороди.

**Основні компоненти RL:**
- **Середовище (Environment):** Все, з чим взаємодіє агент (наприклад, гра, симуляція бойових дій).
- **Агент (Agent):** Система, яка приймає рішення (наприклад, БПЛА, система логістики).
- **Стан (State):** Поточний стан середовища (наприклад, позиція БПЛА, стан ресурсів).
- **Дія (Action):** Рішення, яке приймає агент (наприклад, рух у певному напрямку, збір ресурсів).
- **Винагорода (Reward):** Зворотний зв'язок від середовища про якість дії агента (наприклад, успішний збір ресурсів, уникнення загрози).

##### **4.2.2. Політика, функція винагороди та функція цінності**

- **Політика (Policy):** Стратегія агента, яка визначає, яку дію виконати в кожному стані. Позначається як π(a|s).
- **Функція винагороди (Reward Function):** Визначає, яку винагороду отримає агент за певну дію в певному стані. Позначається як R(s, a).
- **Функція цінності (Value Function):** Визначає очікувану кумулятивну винагороду, яку агент отримає, перебуваючи в певному стані та дотримуючись політики π. Позначається як V^π(s).

##### **4.2.3. Сучасні методи RL**

- **Q-Learning:** Метод без політики, де агент навчається оцінювати цінність дії в певному стані.
- **Deep Q-Network (DQN):** Використовує глибокі нейронні мережі для апроксимації Q-функції.
- **Policy Gradients:** Метод, який напряму оптимізує політику агента.
- **Actor-Critic:** Комбінує політично-градієнтні методи (Actor) з оцінкою функції цінності (Critic).

##### **4.2.4. Приклади застосування RL у військовому контексті**

- **Оптимізація логістичних маршрутів:** Навчання агента ефективно переміщувати ресурси в умовах динамічних загроз.
- **Автоматизоване керування безпілотними системами:** Навчання агентів приймати рішення в реальних або симульованих бойових умовах.
- **Моделювання та планування операцій:** Використання RL для створення оптимальних стратегій у варіативних сценаріях.

##### **4.2.5. Приклад коду: Простий агент DQN для гри CartPole**

**Інструменти:** Python, PyTorch, OpenAI Gym.

**Приклад коду: Реалізація DQN для гри CartPole**

```python
import gym
import torch
import torch.nn as nn
import torch.optim as optim
import random
import numpy as np
from collections import deque

# 1. Визначення нейронної мережі
class DQN(nn.Module):
    def __init__(self, state_size, action_size, hidden_size=24):
        super(DQN, self).__init__()
        self.fc1 = nn.Linear(state_size, hidden_size)
        self.fc2 = nn.Linear(hidden_size, hidden_size)
        self.out = nn.Linear(hidden_size, action_size)
    
    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = torch.relu(self.fc2(x))
        return self.out(x)

# 2. Ініціалізація середовища
env = gym.make('CartPole-v1')
state_size = env.observation_space.shape[0]
action_size = env.action_space.n

# 3. Параметри DQN
batch_size = 64
gamma = 0.99
epsilon = 1.0
epsilon_min = 0.01
epsilon_decay = 0.995
learning_rate = 0.001
memory = deque(maxlen=2000)

# 4. Ініціалізація моделі та оптимізатора
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = DQN(state_size, action_size).to(device)
optimizer = optim.Adam(model.parameters(), lr=learning_rate)
criterion = nn.MSELoss()

# 5. Функція для вибору дії
def act(state):
    global epsilon
    if random.random() < epsilon:
        return random.randrange(action_size)
    state = torch.FloatTensor(state).unsqueeze(0).to(device)
    with torch.no_grad():
        q_values = model(state)
    return torch.argmax(q_values).item()

# 6. Функція для навчання моделі
def replay():
    global epsilon
    if len(memory) < batch_size:
        return
    minibatch = random.sample(memory, batch_size)
    states, actions, rewards, next_states, dones = zip(*minibatch)
    
    states = torch.FloatTensor(states).to(device)
    actions = torch.LongTensor(actions).unsqueeze(1).to(device)
    rewards = torch.FloatTensor(rewards).unsqueeze(1).to(device)
    next_states = torch.FloatTensor(next_states).to(device)
    dones = torch.FloatTensor(dones).unsqueeze(1).to(device)
    
    # Поточні Q-значення
    q_values = model(states).gather(1, actions)
    
    # Мети Q-значень
    next_q_values = model(next_states).max(1)[0].unsqueeze(1)
    targets = rewards + (gamma * next_q_values * (1 - dones))
    
    # Обчислення втрат та зворотний прохід
    loss = criterion(q_values, targets)
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
    
    # Зменшення epsilon
    if epsilon > epsilon_min:
        epsilon *= epsilon_decay

# 7. Навчання агента
num_episodes = 1000
for e in range(num_episodes):
    state = env.reset()
    done = False
    total_reward = 0
    while not done:
        action = act(state)
        next_state, reward, done, _ = env.step(action)
        memory.append((state, action, reward, next_state, done))
        state = next_state
        total_reward += reward
        replay()
    print(f'Episode {e+1}/{num_episodes}, Reward: {total_reward}, Epsilon: {epsilon:.2f}')

# 8. Збереження моделі
torch.save(model.state_dict(), 'dqn_cartpole.pth')
```

**Пояснення коду:**
1. **Нейронна мережа DQN:** Простий багатошаровий перцептрон для оцінки Q-функції.
2. **Середовище:** Використовується OpenAI Gym середовище CartPole.
3. **Параметри DQN:** Визначаються основні параметри навчання, такі як розмір батчу, коефіцієнт дисконтування, параметри epsilon.
4. **Функція `act`:** Вибір дії на основі політики epsilon-greedy.
5. **Функція `replay`:** Навчання моделі на випадкових батчах з пам'яті.
6. **Навчання агента:** Проходить через визначену кількість епох, де агент взаємодіє зі середовищем та навчається.
7. **Збереження моделі:** Збереження навчених ваг для подальшого використання.

##### **4.2.6. Переваги та виклики RL у військових застосуваннях**

**Переваги:**
- **Адаптивність:** Агент може самостійно навчатися оптимальним стратегіям у динамічному середовищі.
- **Ефективність:** Може знаходити нетривіальні рішення, які важко визначити вручну.
- **Автоматизація:** Зменшує потребу у ручному плануванні та управлінні складними системами.

**Виклики:**
- **Обчислювальні ресурси:** Навчання RL-моделей може вимагати значних обчислювальних потужностей.
- **Стабільність навчання:** RL-моделі часто нестабільні та важко налаштовуються.
- **Безпека:** Потрібно забезпечити, щоб агент не приймав небезпечні дії та був захищений від зовнішніх атак.

---

### **5. Груповий проєкт**

#### **5.1. Завдання для груп**
- **Група 1:** Розробити концепцію використання Transfer Learning для класифікації типів військової техніки на зображеннях. Описати вибір моделі, підготовку даних, процес fine-tuning та очікувані результати.
- **Група 2:** Розробити концепцію використання Reinforcement Learning для управління безпілотним літальним апаратом (БПЛА) у бойових умовах. Описати середовище, цілі агента, вибір алгоритму RL, очікувані переваги та виклики.

#### **5.2. Вимоги до проєкту**
- **Докладний опис:** Визначення задачі, вибір методів та інструментів, очікувані результати.
- **Використання коду:** Інтеграція прикладів коду або розробка власних реалізацій.
- **Презентація:** Коротка (5-10 хв) презентація концепції перед класом.

---

### **6. Підсумки та обговорення**

- **Основні висновки:**
  - Transfer Learning дозволяє ефективно використовувати попередньо навчені моделі для нових задач, зменшуючи час та ресурси, необхідні для навчання.
  - Reinforcement Learning надає можливість створювати адаптивних агентів, здатних приймати оптимальні рішення в динамічних середовищах.
  - Практичні приклади демонструють реальну застосовність цих методів у військових інформаційно-аналітичних системах.
- **Обговорення питань:** Відкрите обговорення викликів та можливостей впровадження Transfer Learning та RL у військові системи.
- **Домашнє завдання (за потреби):** Наприклад, реалізувати fine-tuning попередньо навченої моделі на власному наборі даних або створити простого RL-агента для іншої гри чи симуляції.

---

### **7. Рекомендована література та джерела**

1. **Ian Goodfellow, Yoshua Bengio, Aaron Courville.** *Deep Learning*. MIT Press, 2016.
2. **Francois Chollet.** *Deep Learning with Python*. Manning Publications, 2018.
3. **Sutton R.S., Barto A.G.** *Reinforcement Learning: An Introduction*. MIT Press, 2018.
4. **Jeremy Howard, Sylvain Gugger.** *Deep Learning for Coders with Fastai and PyTorch*. O'Reilly Media, 2020.
5. **TensorFlow Hub:** [https://tfhub.dev/](https://tfhub.dev/)
6. **PyTorch Model Zoo:** [https://pytorch.org/docs/stable/torchvision/models.html](https://pytorch.org/docs/stable/torchvision/models.html)
7. **Hugging Face Model Hub:** [https://huggingface.co/models](https://huggingface.co/models)
8. **OpenAI Gym:** [https://gym.openai.com/](https://gym.openai.com/)
9. **Матеріали конференцій MILCOM, ICLR, ICML, NeurIPS:** сучасні дослідження з машинного та глибокого навчання, зокрема у військовому та безпековому контексті.

---

### **8. Додаткові ресурси та матеріали**

- **Відео-лекції та туторіали:**
  - YouTube-канали, такі як **deeplizard**, **sentdex**, **PyTorch**, **TensorFlow**, які пропонують детальні відео-уроки з Transfer Learning та Reinforcement Learning.
- **Онлайн-курси:**
  - **Coursera:** *Deep Learning Specialization* від Andrew Ng.
  - **edX:** *Reinforcement Learning* від Microsoft.
  - **Udemy:** Курси з Transfer Learning та RL.
- **Документація та туторіали:**
  - **PyTorch Tutorials:** [https://pytorch.org/tutorials/](https://pytorch.org/tutorials/)
  - **TensorFlow Tutorials:** [https://www.tensorflow.org/tutorials](https://www.tensorflow.org/tutorials)
  - **Hugging Face Tutorials:** [https://huggingface.co/transformers/tutorials.html](https://huggingface.co/transformers/tutorials.html)
  - **OpenAI Gym Documentation:** [https://gym.openai.com/docs/](https://gym.openai.com/docs/)

---

**Примітка:** Для ефективного засвоєння матеріалу рекомендується активна участь у практичних завданнях, обговореннях та групових проєктах. Викладач може адаптувати складність завдань залежно від рівня підготовки слухачів та доступних ресурсів.

---

**Завершення:** Це заняття націлене на поглиблення розуміння слухачами сучасних методів машинного навчання та їх застосування у військовій сфері, забезпечуючи необхідні теоретичні знання та практичні навички для ефективного використання Transfer Learning та Reinforcement Learning у реальних інформаційно-аналітичних задачах.