 
**Тема 4. Заняття 7. Основи використання методів глибокого навчання для аналізу даних**

---

### 1. Мета та завдання заняття
- **Мета**: Ознайомити слухачів з основними методами глибокого навчання, навчити застосовувати їх для розв’язання базових задач регресії, класифікації та розпізнавання зображень.
- **Завдання**:
  1. Надати огляд основних концепцій та архітектур глибокого навчання.
  2. Розглянути процес побудови та навчання глибокої нейронної мережі в середовищі TensorFlow.
  3. Відпрацювати практичні навички застосування глибокого навчання для задач:
     - Регресії (приклад: прогнозування певної кількісної змінної).
     - Класифікації (приклад: класифікація ірисів чи інший відкритий набір даних).
     - Розпізнавання рукописних цифр (MNIST).

---

### 2. Структура заняття

1. **Організаційний момент (5 хв.)**  
   - Перевірка присутності.
   - Ознайомлення з планом і цілями заняття.

2. **Актуалізація знань (10 хв.)**  
   - Коротке повторення базових понять машинного навчання:
     - Що таке нейронна мережа.
     - Чим відрізняється глибоке навчання від звичайного (менш глибокого) машинного навчання.
     - Приклади успішного застосування глибоких нейронних мереж.

3. **Теоретичний блок (20 хв.)**
   - **3.1. Огляд основних методів глибокого навчання**  
     - Перцептрон, багатошарова нейронна мережа (Multilayer Perceptron, MLP).  
     - Згорткові нейронні мережі (CNN) для аналізу зображень.  
     - Рекурентні нейронні мережі (RNN) та LSTM/GRU для послідовних даних (текст, тимчасові ряди).  
     - Трансформери (оглядово).  
   - **3.2. Основи використання методів глибокого навчання для аналізу даних**  
     - Структура проєкту глибокого навчання:  
       1. Завантаження та попередня обробка даних.  
       2. Розподіл на тренувальний/валідаційний/тестовий набори.  
       3. Побудова моделі (визначення архітектури).  
       4. Вибір функції втрат, метрик та оптимізатора.  
       5. Навчання, валідація та оцінка результатів.  
       6. Тонке налаштування (Hyperparameter Tuning).  
     - Ключові поняття (епохи, батчі, функції активації, регуляризація).

4. **Практичний блок (45–60 хв.)**
   1. **Задача регресії** (приклад на базі вбудованого датасету або відкритого набору з `tensorflow.keras.datasets` чи іншого джерела).  
      - Приклад: Прогнозування цін на нерухомість (якщо використовувати класичний датасет Boston Housing, що зараз доступний здебільшого поза пакетом keras, або інший схожий набір).
   2. **Задача класифікації** (приклад класифікації ірисів або іншого датасету).  
      - Приклад: Вбудований датасет Iris (не входить до `tf.keras.datasets`, але можна завантажити з інших публічних джерел), або `fashion_mnist`, `reuters`, тощо.
   3. **Задача розпізнавання рукописних цифр** (MNIST).  
      - Використання вбудованого `tf.keras.datasets.mnist`.

   У кожному прикладі розглянути:
   - Як підготувати дані.
   - Як побудувати нейронну мережу (MLP або CNN для зображень).
   - Як налаштувати параметри навчання.
   - Як інтерпретувати результати (точність, втрата, візуалізація).

5. **Підсумкове обговорення (10 хв.)**
   - Питання та відповіді.
   - Коротка рефлексія: з якими труднощами зіткнулися, що вдалося найкраще.

6. **Завдання для самостійної роботи**
   - Самостійно обрати інший набір даних та спробувати побудувати регресійну або класифікаційну модель.  
   - Погратися з різними параметрами (кількість шарів, кількість нейронів, функції активації) та оцінити вплив на якість прогнозу.

---

### 3. Приклади коду

Нижче наведено спрощені приклади використання `TensorFlow`/`Keras` для вирішення задач регресії, класифікації та розпізнавання цифр MNIST. Код можна адаптувати під конкретне завдання та набір даних.

---

#### 3.1. Завдання регресії (Приклад: Boston Housing)

> **Примітка**: Набір даних Boston Housing було вилучено з `tf.keras.datasets` з етичних міркувань. Його можна завантажити з інших джерел або використати інший набір даних для регресії (наприклад, California Housing чи власний CSV). Нижче – умовний приклад, якщо дані вже доступні.

```python
import numpy as np
import tensorflow as tf
from tensorflow.keras import layers, models
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 1. Завантаження та підготовка даних (приклад Boston, якщо доступний)
boston = load_boston()
X = boston.data
y = boston.target

# Нормалізація
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Розподіл на тренувальні та тестові дані
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, 
                                                    test_size=0.2, 
                                                    random_state=42)

# 2. Створення моделі
model = models.Sequential()
model.add(layers.Dense(64, activation='relu', input_shape=(X_train.shape[1],)))
model.add(layers.Dense(64, activation='relu'))
model.add(layers.Dense(1))  # Для регресії вихід 1

# 3. Компіляція моделі
model.compile(optimizer='adam', 
              loss='mse', 
              metrics=['mae'])

# 4. Навчання
history = model.fit(X_train, y_train,
                    validation_split=0.2,
                    epochs=50,
                    batch_size=16,
                    verbose=1)

# 5. Оцінка
test_loss, test_mae = model.evaluate(X_test, y_test, verbose=0)
print(f"Test MAE: {test_mae:.4f}")

# 6. Прогноз
predictions = model.predict(X_test[:5])
print("Real values:", y_test[:5])
print("Predicted values:", predictions.reshape(-1))
```

---

#### 3.2. Завдання класифікації (Приклад з Iris)

```python
import numpy as np
import tensorflow as tf
from tensorflow.keras import layers, models
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelBinarizer

# 1. Завантаження набору даних Iris (скористаємося sklearn)
iris = load_iris()
X = iris.data
y = iris.target

# Перетворення міток у one-hot (якщо потрібно)
lb = LabelBinarizer()
y_onehot = lb.fit_transform(y)

# Нормалізація ознак
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Розподіл на тренувальні/тестові дані
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y_onehot,
                                                    test_size=0.2,
                                                    random_state=42)

# 2. Створення моделі (MLP)
model = models.Sequential()
model.add(layers.Dense(16, activation='relu', input_shape=(X_train.shape[1],)))
model.add(layers.Dense(16, activation='relu'))
model.add(layers.Dense(3, activation='softmax'))  # 3 класи

# 3. Компіляція
model.compile(optimizer='adam',
              loss='categorical_crossentropy',
              metrics=['accuracy'])

# 4. Навчання
history = model.fit(X_train, y_train,
                    validation_split=0.2,
                    epochs=50,
                    batch_size=8,
                    verbose=1)

# 5. Оцінка
test_loss, test_acc = model.evaluate(X_test, y_test, verbose=0)
print(f"Test Accuracy: {test_acc:.4f}")

# 6. Прогноз
predictions = model.predict(X_test)
predicted_classes = np.argmax(predictions, axis=1)
true_classes = np.argmax(y_test, axis=1)

print("Predicted classes:", predicted_classes[:10])
print("True classes:     ", true_classes[:10])
```

---

#### 3.3. Розпізнавання рукописних цифр (MNIST)

```python
import tensorflow as tf
from tensorflow.keras import layers, models

# 1. Завантаження даних
(x_train, y_train), (x_test, y_test) = tf.keras.datasets.mnist.load_data()

# 2. Попередня обробка
x_train = x_train.reshape(-1, 28, 28, 1).astype('float32') / 255.0
x_test = x_test.reshape(-1, 28, 28, 1).astype('float32') / 255.0

# One-hot для міток
y_train = tf.keras.utils.to_categorical(y_train, 10)
y_test = tf.keras.utils.to_categorical(y_test, 10)

# 3. Створення моделі (CNN)
model = models.Sequential([
    layers.Conv2D(32, (3,3), activation='relu', input_shape=(28,28,1)),
    layers.MaxPooling2D((2,2)),
    layers.Conv2D(64, (3,3), activation='relu'),
    layers.MaxPooling2D((2,2)),
    layers.Flatten(),
    layers.Dense(64, activation='relu'),
    layers.Dense(10, activation='softmax')
])

# 4. Компіляція
model.compile(optimizer='adam',
              loss='categorical_crossentropy',
              metrics=['accuracy'])

# 5. Навчання
model.fit(x_train, y_train, 
          validation_split=0.1,
          epochs=5, 
          batch_size=64)

# 6. Оцінка
test_loss, test_acc = model.evaluate(x_test, y_test, verbose=0)
print(f"Test accuracy: {test_acc:.4f}")

# 7. Приклад передбачення
import numpy as np
predictions = model.predict(x_test[:5])
predicted_classes = np.argmax(predictions, axis=1)
true_classes = np.argmax(y_test[:5], axis=1)

print("Predicted classes:", predicted_classes)
print("Real classes:     ", true_classes)
```

---

### 4. Поради щодо організації групової роботи

1. **Робота в малих групах**: слухачів можна розділити на підгрупи, кожна з яких зосередиться на певному типі задач (регресія, класифікація або зображення).  
2. **Обговорення результатів**: кожна підгрупа ділиться знахідками, порівнює точність, MAE, метрики класифікації тощо.  
3. **Колективна рефлексія**: які кроки дали найкраще поліпшення, який вплив мало збільшення кількості шарів чи зміна оптимізатора і т.д.  

---

### 5. Підсумки заняття

- слухачи ознайомилися з базовою архітектурою нейронних мереж та з практичними прикладами використання `TensorFlow/Keras` для розв’язання задач регресії, класифікації та розпізнавання образів.  
- Отримали початковий досвід роботи з популярними наборами даних і розглянули ключові аспекти проектування та тренування глибоких моделей.

---

**Рекомендовані ресурси для самостійного опрацювання**:
- [Офіційна документація TensorFlow](https://www.tensorflow.org/).
- Книга “Deep Learning with Python” (François Chollet).
- Онлайн-курси з глибокого навчання (Coursera, Udemy, edX).

**Завдання додому**:  
- Повторити наведені приклади коду, змінити кількість шарів та нейронів, оцінити вплив на точність/помилку.  
- Спробувати застосувати CNN-модель на іншому наборі зображень (наприклад, Fashion MNIST).  
- Попрацювати з Callbacks (наприклад, EarlyStopping, ModelCheckpoint) для вдосконалення процесу тренування.  



Нижче подано зміст **Розділу 3. Теоретичний блок** з детальними поясненнями та невеликими фрагментами коду, що ілюструють ключові ідеї. Цей блок охоплює два підрозділи: **3.1. Огляд основних методів глибокого навчання** та **3.2. Основи використання методів глибокого навчання для аналізу даних**.

---

## 3. Теоретичний блок

### 3.1. Огляд основних методів глибокого навчання

**Зміст**:

1. **Перцептрон** і **багатошарова нейронна мережа (MLP, Multilayer Perceptron)**  
   - Базова ідея: дані послідовно проходять через кілька «щільних» (Dense) шарів.  
   - Застосування: табличні дані, прості класифікаційні та регресійні задачі, де немає яскраво вираженої просторової чи послідовної структури.

2. **Згорткові нейронні мережі (CNN)**  
   - Використовуються для обробки зображень та інших даних, що мають просторову структуру (наприклад, 2D-розташування пікселів).  
   - Ключова операція – згортка (convolution), яка виділяє локальні ознаки на зображенні.  
   - Застосування: розпізнавання образів, класифікація зображень, обробка медичних знімків тощо.

3. **Рекурентні нейронні мережі (RNN), LSTM, GRU**  
   - Підходять для роботи з послідовностями (текст, часові ряди, аудіодані).  
   - LSTM і GRU розв’язують проблему згасаючих градієнтів, що часто виникає у звичайних RNN.  
   - Застосування: обробка природної мови, прогнозування часових рядів, генерація послідовностей.

4. **Трансформери (Transformers)**  
   - Сучасна альтернатива RNN для послідовних даних, яка активно використовується в NLP (Natural Language Processing) і не тільки.  
   - Ґрунтується на механізмі «уваги» (attention), що дозволяє моделі вчитися визначати важливі частини входу, не покладаючись на послідовну обробку.  
   - Застосування: машинний переклад, генерація текстів (ChatGPT), обробка зображень і мультизадачні моделі.

---

#### Мініфрагмент коду (порівняльний огляд MLP і CNN)

Нижче наведемо короткий приклад для демонстрації **MLP** та **CNN**-архітектур (лише для ілюстрації):

```python
import tensorflow as tf
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense, Conv2D, MaxPooling2D, Flatten

# MLP для табличних даних (наприклад, shape=(None, 10))
model_mlp = Sequential([
    Dense(32, activation='relu', input_shape=(10,)),
    Dense(16, activation='relu'),
    Dense(1, activation='sigmoid')  # Припустимо, бінарна класифікація
])

# CNN для зображень (наприклад, розмір 28х28, 1 канал)
model_cnn = Sequential([
    Conv2D(32, (3,3), activation='relu', input_shape=(28,28,1)),
    MaxPooling2D((2,2)),
    Conv2D(64, (3,3), activation='relu'),
    MaxPooling2D((2,2)),
    Flatten(),
    Dense(64, activation='relu'),
    Dense(10, activation='softmax')  # Припустимо, 10 класів
])

model_mlp.summary()
model_cnn.summary()
```

> **Пояснення**:  
> - Перший приклад (MLP) складається з «Dense» шарів, які використовуються для звичайних табличних даних без просторової структури.  
> - Другий приклад (CNN) показує, як додати `Conv2D` і `MaxPooling2D` шари для обробки зображень.

---

### 3.2. Основи використання методів глибокого навчання для аналізу даних

**Зміст**:

1. **Ключові етапи проєкту глибокого навчання**  
   1. **Завантаження та попередня обробка даних**  
      - Очищення даних, заповнення пропусків, нормалізація чи стандартизація.  
      - Підготовка (reshape) для CNN або перетворення послідовностей для RNN.  
   2. **Розподіл на тренувальний, валідаційний і тестовий набори**  
      - Тренувальний набір використовується для навчання моделі.  
      - Валідаційний – для підбору гіперпараметрів (або перевірки пере-/недонавчання).  
      - Тестовий – для фінальної оцінки якості.  
   3. **Побудова (визначення архітектури) моделі**  
      - Вибір типу мережі: MLP, CNN, RNN чи комбінована архітектура.  
      - Визначення кількості шарів, кількості нейронів, функцій активації.  
   4. **Вибір функції втрат, метрик та оптимізатора**  
      - Функція втрат (наприклад, `mse` для регресії, `categorical_crossentropy` для багатокласової класифікації).  
      - Метрики (MAE, RMSE, accuracy, F1-score тощо).  
      - Оптимізатор (`sgd`, `adam`, `rmsprop` і т.д.).  
   5. **Навчання, валідація та оцінка результатів**  
      - Параметри навчання: кількість епох, розмір батчу, темп навчання (learning rate).  
      - Відстеження метрик на train/val для виявлення можливого пере-/недонавчання.  
   6. **Тонке налаштування (Hyperparameter Tuning)**  
      - Зміна гіперпараметрів (кількість шарів, нейронів, learning rate, тип оптимізатора, типи шарів і т.п.) з метою покращення результатів.  

2. **Основні поняття**:  
   - **Епоха (epoch)**: один повний цикл проходу по тренувальному набору даних.  
   - **Міні-вибірка (batch)**: підмножина даних, яка використовується для одного кроку оновлення ваг.  
   - **Функція активації**: (sigmoid, ReLU, tanh, softmax) – нелінійні перетворення, що додають мережі здатність до складного моделювання.  
   - **Регуляризація** (L2, Dropout, BatchNormalization): методи, що допомагають уникнути перенавчання.  

---

#### Мініфрагмент коду (демонстрація типової послідовності дій)

```python
import numpy as np
import tensorflow as tf
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Припустимо, що ми маємо дані з 1000 зразків і 10 ознак (для класифікації)
X_data = np.random.rand(1000, 10).astype(np.float32)
y_data = np.random.randint(0, 2, size=(1000,))  # двокласова мітка 0 або 1

# 1. Попередня обробка (нормалізація)
scaler = StandardScaler()
X_data_scaled = scaler.fit_transform(X_data)

# 2. Розділ на train/test
X_train, X_test, y_train, y_test = train_test_split(
    X_data_scaled, y_data, test_size=0.2, random_state=42
)

# 3. Побудова моделі (MLP)
model = Sequential([
    Dense(16, activation='relu', input_shape=(X_train.shape[1],)),
    Dense(8, activation='relu'),
    Dense(1, activation='sigmoid')  # Бінарна класифікація
])

# 4. Компіляція
model.compile(optimizer='adam',
              loss='binary_crossentropy',
              metrics=['accuracy'])

# 5. Навчання (валід. split можна взяти 0.2)
history = model.fit(X_train, y_train,
                    validation_split=0.2,
                    epochs=10,
                    batch_size=32,
                    verbose=1)

# 6. Оцінка результатів на тестових даних
loss, acc = model.evaluate(X_test, y_test, verbose=0)
print(f"Test Accuracy: {acc:.4f}")

# При бажанні - гіперпараметричний пошук, регуляризація, зміна оптимізатора тощо
```

> **Пояснення**:  
> - Це *мінімальний приклад*, що ілюструє типові кроки. У реальних задачах використовуються розгалуженіші процедури попередньої обробки, складніші архітектури, ретельна перевірка результатів.  
> - Суть полягає в тому, щоб підкреслити **основний pipeline**: (1) підготовка даних → (2) розподіл на набори → (3) створення моделі → (4) компіляція → (5) навчання → (6) оцінка.

---

### Підсумок розділу 3

- У **підрозділі 3.1** ми розглянули **основні типи глибоких нейронних мереж** – від класичного MLP до сучасних Трансформерів, звернувши увагу на найбільш поширені галузі застосування кожного методу.  
- У **підрозділі 3.2** описали **типовий процес (pipeline) глибокого навчання** та кроки, необхідні для коректного проєктування, навчання та оцінки моделей.  
- Короткі **мініфрагменти коду** демонструють, як саме виглядають ці кроки на практиці, що допомагає слухачам краще зрозуміти суть теоретичних концепцій і підготуватися до розгорнутих практичних завдань (розділ «Практичний блок»).

Таким чином, теоретичний блок надає міцне підґрунтя для свідомого використання глибоких нейронних мереж у реальних задачах аналізу даних.

Нижче наведено три приклади розв’язання задач глибокого навчання на різних наборах даних із детальними поясненнями кожного кроку.  

1. **Каліфорнійське житло (California Housing)** – **регресія**  
2. **IMDB** – **класифікація текстів (сентимент-аналіз)**  
3. **Fashion MNIST** – **класифікація зображень**  

Усі приклади можна запустити в Google Colab, Jupyter Notebook або іншому середовищі Python із встановленим TensorFlow та (за потреби) scikit-learn.

---

## 1. Регресія на наборі `California Housing`

### 1.1. Опис задачі

- **Мета**: передбачити середню вартість будинків у певному районі Каліфорнії (середня ціна у тисячах доларів).  
- **Джерело**: `sklearn.datasets.fetch_california_housing`.  
- **Тип задачі**: регресія (необхідно отримати числове значення).  

### 1.2. Покрокове рішення

```python
# КРОК 0. Імпорт необхідних бібліотек
import numpy as np
import tensorflow as tf
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# КРОК 1. Завантаження даних
data = fetch_california_housing()
X = data.data      # Матриця ознак (кількісні показники районів)
y = data.target    # Вектор цільової змінної (середня вартість)

# Перевіримо розміри
print("Форма X:", X.shape)
print("Форма y:", y.shape)

# КРОК 2. Попередня обробка даних
# 2.1. Розділяємо дані на тренувальний і тестовий набори
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# 2.2. Нормалізація ознак
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled  = scaler.transform(X_test)

# КРОК 3. Побудова моделі
# Послідовна модель (MLP) з кількома Dense-шарами
model = Sequential()
model.add(Dense(64, activation='relu', input_shape=(X_train.shape[1],)))
model.add(Dense(32, activation='relu'))
model.add(Dense(1))  # Вихід: 1 нейрон для регресії

# КРОК 4. Компіляція
model.compile(
    optimizer='adam', 
    loss='mse',        # Середньоквадратична помилка
    metrics=['mae']    # Середня абсолютна похибка
)

# КРОК 5. Навчання (фітинг)
history = model.fit(
    X_train_scaled, y_train, 
    validation_split=0.2,    # виділяємо 20% від тренувальних даних на валідацію
    epochs=20,               # кількість епох
    batch_size=32,           # розмір міні-вибірки
    verbose=1                # виводимо прогрес навчання
)

# КРОК 6. Оцінка на тестових даних
test_loss, test_mae = model.evaluate(X_test_scaled, y_test, verbose=0)
print(f"Test MSE: {test_loss:.4f}")
print(f"Test MAE: {test_mae:.4f}")

# КРОК 7. Приклад прогнозу
predictions = model.predict(X_test_scaled[:5])
print("Справжні значення:", y_test[:5])
print("Прогнози моделі:   ", predictions.reshape(-1))
```

### 1.3. Пояснення ключових моментів

1. **Завантаження даних**: функція `fetch_california_housing()` повертає `data.data` (матриця ознак) та `data.target` (вартість).  
2. **Розділення Train/Test**: використовуємо `train_test_split`, щоб модель «не бачила» тестові дані під час навчання.  
3. **Нормалізація**: `StandardScaler` приводить ознаки до нульового середнього та одиничного стандартного відхилення. Це покращує збіжність нейронної мережі.  
4. **Архітектура**:  
   - Два приховані шари (64 і 32 нейрони).  
   - Активація ReLU – стандартний вибір для прихованих шарів.  
   - Вихідний шар з 1 нейроном без активації (для регресії).  
5. **Функція втрат** – `mse` (Mean Squared Error), метрика – `mae` (Mean Absolute Error).  
6. **Оцінка (evaluate)**: отримуємо `MSE` та `MAE` на тестовому наборі.  
7. **Прогноз (predict)**: робимо передбачення на кількох перших прикладах, порівнюємо з реальними значеннями.

---

## 2. Класифікація текстів (IMDB)

### 2.1. Опис задачі

- **Мета**: визначити, чи є відгук про фільм (review) позитивним або негативним.  
- **Джерело**: `tf.keras.datasets.imdb`.  
- **Тип задачі**: бінарна класифікація (позитив / негатив).  

### 2.2. Покрокове рішення

```python
import tensorflow as tf
import numpy as np
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense
from tensorflow.keras.preprocessing.sequence import pad_sequences

# КРОК 1. Завантаження даних
# num_words=10000 - залишимо 10 000 найбільш вживаних слів
num_words = 10000
(x_train, y_train), (x_test, y_test) = tf.keras.datasets.imdb.load_data(num_words=num_words)

print("Кількість тренувальних прикладів:", len(x_train))
print("Приклад тексту (список індексів слів):", x_train[0])
print("Мітка (0 - негатив, 1 - позитив):", y_train[0])

# КРОК 2. Попередня обробка
# З метою уніфікації довжини рецензій виконуємо паддінг (доповнення) до сталої довжини (наприклад, 200 слів)
maxlen = 200
x_train_padded = pad_sequences(x_train, maxlen=maxlen, padding='post', truncating='post')
x_test_padded  = pad_sequences(x_test,  maxlen=maxlen, padding='post', truncating='post')

print("Форма x_train_padded:", x_train_padded.shape)
print("Форма x_test_padded:", x_test_padded.shape)

# КРОК 3. Побудова моделі
# Використовуємо Embedding для перетворення індексів слів у вектори,
# потім LSTM-шар для вилучення контекстної інформації, і Dense для класифікації
model = Sequential([
    Embedding(input_dim=num_words, output_dim=64, input_length=maxlen),
    LSTM(64),
    Dense(1, activation='sigmoid')
])

# КРОК 4. Компіляція
model.compile(
    optimizer='adam',
    loss='binary_crossentropy',
    metrics=['accuracy']
)

# КРОК 5. Навчання
history = model.fit(
    x_train_padded, y_train,
    validation_split=0.2,
    epochs=3,       # для демонстрації достатньо 2-3 епох (можна збільшити)
    batch_size=128,
    verbose=1
)

# КРОК 6. Оцінка на тестових даних
test_loss, test_acc = model.evaluate(x_test_padded, y_test, verbose=0)
print(f"Test accuracy: {test_acc:.4f}")

# КРОК 7. Приклад передбачення
example_review = x_test[0]  # беремо перший відгук
example_review_padded = pad_sequences([example_review], maxlen=maxlen)
prediction = model.predict(example_review_padded)[0][0]
print("Ймовірність позитивного відгуку:", prediction)
print("Реальна мітка:", y_test[0])
```

### 2.3. Пояснення ключових моментів

1. **Завантаження**: `imdb.load_data(num_words=...)` залишає лише найчастіші слова, решту позначає як `oov_token`.  
2. **Паддінг**:  
   - Різні рецензії мають різну довжину. Для обробки LSTM шаром треба вирівняти їх розмір (наприклад, до 200 токенів).  
   - `pad_sequences` додасть нулі в кінець або обріже довгий відгук.  
3. **Архітектура**:  
   - `Embedding(...)` перетворює індекси слів у вектори розміром `output_dim=64`.  
   - `LSTM(64)` – рекурентний шар, що «зчитує» послідовність і зберігає контекст.  
   - `Dense(1, activation='sigmoid')` – бінарна класифікація (0 чи 1).  
4. **Функція втрат** – `binary_crossentropy`, оскільки маємо бінарні мітки (позитив / негатив).  
5. **Оцінка** – `evaluate` дає значення втрати та точність (accuracy) на тесті.  
6. **Прогноз** – для прикладу беремо першу рецензію з `x_test`, отримуємо ймовірність «позитиву».

> **Примітка**: для кращих результатів можна збільшити `epochs` (наприклад, до 5–10), зробити глибшу архітектуру (додати ще один LSTM/GRU-шар), або використати двонапрямний LSTM (`Bidirectional`).

---

## 3. Класифікація зображень (Fashion MNIST)

### 3.1. Опис задачі

- **Мета**: класифікувати зображення предметів одягу в 10 категорій (наприклад, футболка, штани, сукня, кросівки тощо).  
- **Джерело**: `tf.keras.datasets.fashion_mnist`.  
- **Тип задачі**: мультикласова класифікація (10 класів).  

### 3.2. Покрокове рішення

```python
import tensorflow as tf
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense

# КРОК 1. Завантаження даних
(x_train, y_train), (x_test, y_test) = tf.keras.datasets.fashion_mnist.load_data()

print("Розміри x_train:", x_train.shape)
print("Розміри x_test:", x_test.shape)

# КРОК 2. Попередня обробка
# Перетворимо [28,28] у [28,28,1] і нормалізуємо до [0..1]
x_train = x_train.reshape(-1, 28, 28, 1).astype('float32') / 255.0
x_test  = x_test.reshape(-1, 28, 28, 1).astype('float32') / 255.0

# КРОК 3. Побудова моделі (CNN)
model = Sequential([
    Conv2D(32, (3,3), activation='relu', input_shape=(28,28,1)),
    MaxPooling2D((2,2)),
    Conv2D(64, (3,3), activation='relu'),
    MaxPooling2D((2,2)),
    Flatten(),
    Dense(64, activation='relu'),
    Dense(10, activation='softmax')  # 10 класів
])

# КРОК 4. Компіляція
model.compile(
    optimizer='adam',
    loss='sparse_categorical_crossentropy',  # оскільки y_train - цілі числа (0..9)
    metrics=['accuracy']
)

# КРОК 5. Навчання
history = model.fit(
    x_train, y_train,
    validation_split=0.1,  # 10% на валідацію
    epochs=5,
    batch_size=64,
    verbose=1
)

# КРОК 6. Оцінка
test_loss, test_acc = model.evaluate(x_test, y_test, verbose=0)
print(f"Test accuracy: {test_acc:.4f}")

# КРОК 7. Приклад передбачення
import numpy as np
predictions = model.predict(x_test[:5])
predicted_classes = np.argmax(predictions, axis=1)
print("Модель передбачила класи:", predicted_classes)
print("Справжні класи:", y_test[:5])
```

### 3.3. Пояснення ключових моментів

1. **Формат даних**:  
   - `x_train`, `y_train`, `x_test`, `y_test` отримуємо з `fashion_mnist.load_data()`.  
   - Початково `x_train` має форму `(60000, 28, 28)` – тобто 60 000 прикладів.  
2. **Підготовка**:  
   - Переформат у 4D: `(кількість, висота, ширина, канали)`. Тут 1 канал (відтінки сірого).  
   - Ділимо пікселі на 255.0, щоб привести їх у діапазон [0..1].  
3. **Архітектура (CNN)**:  
   - Перший `Conv2D(32, (3,3), ...)` шукає 32 фільтри 3×3, MaxPooling2D зменшує просторовий розмір.  
   - Другий `Conv2D(64, (3,3), ...)`, знову MaxPooling2D.  
   - `Flatten()` перетворює 2D-карту ознак у вектор.  
   - `Dense(64, ...)` прихований шар і `Dense(10, softmax)` вихід на 10 класів (0..9).  
4. **Функція втрат** – `sparse_categorical_crossentropy`, оскільки мітки (0..9) у вигляді звичайних цілих чисел. Якщо б ми застосували one-hot-кодування, тоді була б `categorical_crossentropy`.  
5. **Точність (accuracy)**: показує частку вірних передбачень.  
6. **Оцінка** – `evaluate` на тестовому наборі (10 000 зображень).  
7. **Прогноз** – `predict(x_test[:5])` дає ймовірності для кожного з 10 класів, `argmax` вибирає найвірогідніший.

> **Примітка**: для кращої точності можна збільшити кількість епох і покращити архітектуру (додати більше шарів, використати Dropout тощо).

---

## Загальний підсумок

1. **California Housing** – класичний приклад регресії з використанням MLP.  
2. **IMDB** – приклад бінарної класифікації тексту з використанням рекурентних мереж (LSTM).  
3. **Fashion MNIST** – приклад мультикласової класифікації зображень за допомогою згорткових нейронних мереж (CNN).

Кожен із прикладів демонструє однакову структуру робочого процесу (pipeline) у глибокому навчанні:

1. **Завантаження та підготовка даних** (очищення, нормалізація / паддінг, розділення на train/test).  
2. **Побудова моделі** (визначення архітектури шарів, функцій активації).  
3. **Компіляція** (вибір оптимізатора, функції втрат, метрик).  
4. **Навчання** (fit).  
5. **Оцінка** (evaluate).  
6. **Прогноз** (predict).  

Ці кроки є типовими для більшості задач глибокого навчання. Надалі можна експериментувати з гіперпараметрами (кількість шарів, нейронів, тип оптимізатора) або додавати механізми регуляризації (Dropout, BatchNorm) для досягнення кращих результатів.