# Что такое CNN?
- ***Свёрточные нейронные сети*** (CNN) — это специализированный класс искусственных нейронных сетей, разработанный для задач, где важна *пространственная структура данных*, например, обработка изображений или видео. Впервые их идея была предложена Яном Лекуном в 1988 году, а широкую известность они получили после победы **AlexNet** в конкурсе ImageNet в 2012 году. CNN вдохновлены биологией: в зрительной коре мозга есть нейроны, реагирующие на локальные области, и эта концепция легла в основу их архитектуры.

- Сегодня CNN применяются повсеместно: от распознавания лиц в смартфонах до анализа медицинских снимков и управления беспилотными автомобилями. 

# Почему CNN эффективны?


-  **Почему обычные сети не подходят?**
     - Полносвязные нейронные сети, где каждый нейрон соединён со всеми нейронами предыдущего слоя, плохо работают с изображениями. Для картинки 100x100 пикселей (10 000 входов) и скрытого слоя с 100 нейронами потребуется 1 миллион весов. Это не только медленно, но и не учитывает, что соседние пиксели связаны между собой (например, образуют края или текстуры). CNN решают эту проблему с помощью локальных операций.

- **Операция свёртки**
     - Свёртка — это процесс, где небольшое ядро (фильтр) скользит по изображению и вычисляет новые значения, выделяя локальные признаки.


- **Преимущество сверточных нейронных сетей** заключается в их способности *автоматически изучать признаки на основе необработанных данных изображений*. В старых методах машинного обучения исследователям приходилось вручную определять, какие признаки важны. Сверточные нейронные сети устраняют это ограничение, позволяя модели ***самостоятельно выявлять закономерности***.

- **Вот почему CNN особенно эффективны**:

    - ***Инвариантность перевода***: Кошка остается кошкой, независимо от того, где она находится — в верхнем левом или нижнем правом углу изображения.
    - ***Эффективность параметра***: Вместо того чтобы изучать отдельные веса для каждого пикселя, сверточные нейронные сети повторно используют фильтры, что делает их вычислительно эффективными.
    - **Иерархическое обучение признакам**: Нижние слои фиксируют базовые формы, в то время как более глубокие слои фиксируют концепции высокого уровня.
Такое сочетание позволяет сверточным нейронным сетям достигать почти человеческой или даже сверхчеловеческой производительности при решении задач классификации изображений.

# Математика свертки
Для изображения $I$ и ядра $K$ размером $m \times n$:

$(I * K)$ $(x, y)$ = **$\sum_{i=0}^{m-1} $** **$\sum_{j=0}^{n-1}$** $I(x+i, y+j) \cdot K(i, j)$ 

Пример:

$$
\text{Изображение } I \text{ (5×5):} \quad
I = 
\begin{bmatrix}
1 & 2 & 3 & 4 & 5 \\
2 & 3 & 4 & 5 & 6 \\
3 & 4 & 5 & 6 & 7 \\
4 & 5 & 6 & 7 & 8 \\
5 & 6 & 7 & 8 & 9 \\
\end{bmatrix}
\quad
\text{Ядро } K \text{ (3×3, вертикальные края):} \quad
K = 
\begin{bmatrix}
-1 & 0 & 1 \\
-1 & 0 & 1 \\
-1 & 0 & 1 \\
\end{bmatrix}
$$
$$\text{Свёртка  в   позиции } (1,1): (-1) \cdot 1 + 0 \cdot 2 + 1 \cdot 3 + (-1) \cdot 2 + 0 \cdot 3 + 1 \cdot 4 + (-1) \cdot 3 + 0 \cdot 4 + 1 \cdot 5 = -1 + 3 - 2 + 4 - 3 + 5 = 6$$
**Результат** — карта признаков, где яркие области показывают вертикальные края.

##### **Параметры**
**Размер ядра**: обычно 3x3 или 5x5.

**Шаг (stride)**: расстояние сдвига ядра (1 или 2).

**Дополнение (padding)**: добавление значений по краям (same padding — сохраняет размер, valid — уменьшает).


Перейдя по этой ссылке ( https://setosa.io/ev/image-kernels/) можно отлично увидеть как работает свёртка.

# Dropout и Batch Normalization
***Dropout*** предполагает случайный кик нейронов из процесса обучения, обеспечивает, чтобы нейронная сеть не стала слишком зависимой от любого одного узла. Сравнить это можно с dropout в спортивных играх. Там это стратегия, которая заставляет каждого игрока команды играть лучше, а не полагаться только на одного звездного товарища.

***Batch Normalization*** в свою очередь улучшает производительность и стабильность нейронных сетей путем нормализации входных данных каждого слоя.

### **Dropout**

- Основная идея Dropout заключается в **случайном «выключении»** (то есть временном исключении из обучения) определенного процента нейронов в сети на каждом шаге обучения. Это означает, что во время каждого прохода обучения (или каждой эпохи) случайно выбранный набор нейронов игнорируется. Это помогает предотвратить ***чрезмерную зависимость модели от конкретных путей и узлов в сети***, что может привести к **переобучению**.

- *Сначала выбирается вероятность **p**, с которой каждый нейрон будет исключаться*. Обычно pнаходится в диапазоне от **0.2 до 0.5**.

- Для каждого слоя, где применяется Dropout, генерируется **случайная маска**. Эта маска имеет *ту же размерность, что и слой*, и каждый её элемент является бинарным **(0 или 1)**, где **1** соответствует активации нейрона, а **0** — его отключению. Эта маска генерируется заново для каждого прохода обучения и для каждого обучающего примера. Активации нейронов умножаются на эту маску, эффективно «выключая» некоторые нейроны.

- В процессе обратного распространения ошибки, *градиенты рассчитываются только для **активных нейронов***. Нейроны, которые были временно «выключены», не получают обновлений весов.

- Во время тестирования или инференции Dropout отключается. Однако, активации нейронов масштабируются на коэффициент, равный вероятности p, чтобы компенсировать большее количество активных нейронов по сравнению с обучением. Это масштабирование помогает сохранить общую сумму активаций на похожем уровне между обучением и тестированием.

- Математически, *Dropout можно интерпретировать как ансамблевый метод*. Каждый проход обучения использует случайно отобранную «тонкую» сеть, что похоже на обучение множества разных моделей и усреднение их прогнозов.

### **Подходы к определению оптимальной степени Dropout**

 — Положение слоев **DropВ CNN Dropout** часто помещают после сверточных и пулинговых слоев. Это помогает снизить переадаптацию к тренировочным данным, сохраняя при этом пространственные особенности изображений.

 — Меньшие значения: Для CNN значения Dropout обычно ниже, чем для MLP(многослойный перцептрон), так как сверточные слои менее склонны к переобучению. Общие значения находятся в **диапазоне от 0.1 до 0.3**.

### **Batch Normalization**
 
 - **Batch Normalization (BN)** предназначен для улучшения скорости, производительности и стабильности обучения нейронных сетей.

 - В основе Batch Normalization лежит решение проблемы «внутреннего ковариационного сдвига» (Internal Covariate Shift). Этот термин описывает явление, при котором распределение входных данных каждого слоя нейронной сети меняется в процессе обучения, из-за чего сети становится сложнее обучать. Это происходит из-за того, что параметры предыдущих слоев изменяются во время обучения, влияя на данные текущего слоя.

 - **Batch Normalization решает эту проблему**, нормализуя выход каждого слоя. Нормализация заключается в преобразовании входных данных каждого слоя таким образом, чтобы **среднее значение было приближено к нулю**, а **стандартное отклонение — к единице**. Это делает сеть менее чувствительной к масштабу входных данных и улучшает общую стабильность процесса обучения.

К примеру, для мини-пакета алгоритм будет следующим:

где **$m$** — размер мини-пакета, BN трансформирует каждый вход **$x_i$** следующим образом:
1. Вычисление среднего:  
$\mu_B = \frac{1}{m} \sum_{i=1}^{m} x_i$

2. Вычисление дисперсии:  
$\sigma_B^2 = \frac{1}{m} \sum_{i=1}^{m} (x_i - \mu_B)^2$

3. Нормализация:  
$\hat{x}_i = \frac{x_i - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}}$
где $\epsilon$ — маленькое число для избежания деления на ноль.

4. Масштабирование и сдвиг:  
$y_i = \gamma \hat{x}_i + \beta$  
где $\gamma$ и $\beta$ — параметры, которые сеть обучается настраивать.


- В CNN, BN обычно размещается сразу после сверточных слоев (Convolutional Layers) и перед активационной функцией, такой как ReLU. Порядок обычно следующий: **Свертка → Batch Normalization → Активация**.

- В сверточных слоях BN применяется отдельно к каждому каналу выходных данных свертки. Это означает, что для каждого фильтра сверточного слоя вычисляется собственное среднее и дисперсия.

- При этом сохраняется пространственная структура выходных данных, т.е. нормализация не влияет на пространственное расположение признаков.

- В некоторых случаях BN может служить регуляризатором, уменьшая необходимость в Dropout.

# **VGG**

### **Что такое VGG ?**

- VGG (*Visual Geometry Group*, Оксфорд) — семейство простых, но глубоких сверточных сетей, предложенное в 2014 (Simonyan & Zisserman). **Главное отличие — последовательность маленьких 3×3 свёрток вместо больших ядер.** Это показало, что глубина сети (количество слоёв) важнее сложных структур: VGG простая, предсказуемая, и хорошо работает как «фиче-экстрактор».

**Основные варианты:**
 - VGG16 — 16 слоёв, содержащих веса (13 conv + 3 FC).
 - VGG19 — 19 слоёв с весами (16 conv + 3 FC).

Обычно используются входы 224×224×3 (как в ImageNet). Сеть обучали на ImageNet (≈1.2M изображений, 1000 классов).

### **Архитектура**
<img src="./CNN/vgg.jpg" width="1000" height="400" align="center">

**Вход:** 224×224×3  
→ **Две свертки 3×3×64** → MaxPool 2×2 → 112×112×64  
→ **Две свертки 3×3×128** → MaxPool 2×2 → 56×56×128  
→ **Три свертки 3×3×256** → MaxPool 2×2 → 28×28×256  
→ **Три свертки 3×3×512** → MaxPool 2×2 → 14×14×512  
→ **Три свертки 3×3×512** → MaxPool 2×2 → 7×7×512  
→ **Flatten** → **Три полносвязных слоя**: 4096 → 4096 → 1000 

###  **Почему именно 3×3 свертки**

- **Два слоя 3×3** дают рецептивное поле, эквивалентное одной свертке 5×5,  
  но с **меньше параметров** и **двумя нелинейностями ReLU**.
- Увеличивается глубина сети → выражательная способность.
- Простота и универсальность.


###  Формула для вычисления выходного размера

$$
O = \left\lfloor \frac{W - K + 2P}{S} \right\rfloor + 1
$$

Где:

- \( W \) — размер входа  
- \( K \) — размер ядра (kernel size)  
- \( P \) — паддинг (padding)  
- \( S \) — страйд (stride)

- Для свертки 3×3 с `padding=1, stride=1`:  
размер не изменяется.  
- MaxPool 2×2 (`stride=2`) уменьшает размер в 2 раза.


### Размеры после каждого блока (для входа 224×224×3)

| Блок | Операции | Выходной размер |
|------|-----------|----------------|
| 1 | 2×Conv3×3(64) + Pool | 112×112×64 |
| 2 | 2×Conv3×3(128) + Pool | 56×56×128 |
| 3 | 3×Conv3×3(256) + Pool | 28×28×256 |
| 4 | 3×Conv3×3(512) + Pool | 14×14×512 |
| 5 | 3×Conv3×3(512) + Pool | 7×7×512 |
| FC | Flatten → 4096 → 4096 → 1000 | — |


###  Количество параметров

| Модель | Кол-во параметров | Размер (прибл.) |
|---------|-------------------|-----------------|
| **VGG16** | ≈ 138 млн | ~528 МБ |
| **VGG19** | ≈ 144 млн | ~550 МБ |

Большая часть параметров приходится на FC-слои (первый FC: 25088×4096 ≈ 102 млн).



###  Формула подсчета параметров в Conv-слое

$$
\text{params} = F \times (C_{in} \times K \times K) + F
$$
где  
$F$ — число фильтров,  
$C_{in}$ — число входных каналов,  
$K$ — размер ядра,  
$F$ (в конце) — смещения (bias).

**Пример:** Conv(3×3, 3→64)  
→ $( 64 \times (3 \times 3 \times 3) + 64 = 1,792 )$ параметра.


###  Отличия VGG16 vs VGG19

| Характеристика | VGG16 | VGG19 |
|----------------|--------|--------|
| Conv-слоёв | 13 | 16 |
| FC-слоёв | 3 | 3 |
| Параметров | ~138 млн | ~144 млн |
| Скорость | Быстрее | Медленнее |
| Точность | Чуть ниже | Немного выше |


###  Плюсы и минусы

**Плюсы:**
- Простая, логичная архитектура.
- Хорошо переносится на новые задачи (transfer learning).
- Отличная модель для обучения принципов CNN.

**Минусы:**
- Очень много параметров → тяжёлая и медленная.
- Неэффективна для мобильных и edge-устройств.
- FC-часть занимает 90% веса модели.


###  Использование в transfer learning

- Удаляем/замораживаем FC-слои.
- Используем выход feature maps (7×7×512) как эмбеддинги.
- Дообучаем только верхние слои на новой задаче.

**PyTorch пример:**
```python
import torch
from torchvision import models
import torch.nn as nn

vgg16 = models.vgg16(pretrained=True)
for param in vgg16.features.parameters():
    param.requires_grad = False

vgg16.classifier[6] = nn.Linear(4096, 10)  # новые 10 классов

# **GoogleNet (Inception v1)**

### **Что такое GoogleNet?**
- GoogleNet (Inception v1) — архитектура сверточной нейронной сети, предложенная в 2014 году командой Google (Szegedy et al., 2014).  
- Основная идея — использовать **Inception-блок**, который параллельно применяет свертки разных размеров (1×1, 3×3, 5×5) и MaxPooling, а затем конкатенирует результаты.  
- Цель — увеличить **выразительность сети**, сохраняя **вычислительную эффективность** (меньше параметров по сравнению с VGG).

### **Основные характеристики**
- Глубина: 22 слоя с весами.  
- Вход: 224×224×3 (как в ImageNet).  
- Обучена на ImageNet (~1.2 млн изображений, 1000 классов).  
- Использует **1×1 свертки** для уменьшения размерности и вычислительной нагрузки.  
- В GoogleNet почти нет полностью связанных слоев (только небольшой FC слой в конце).

### **Архитектура**

Блок Inception с параллельными фильтрами и последующей конкатенацией

Global Average Pooling → Fully Connected слой → Output
1. Начало сети:  
   Input → Conv 7×7, stride=2 → MaxPool 3×3, stride=2 → Conv 1×1 → Conv 3×3 → MaxPool 3×3  
2. Основная часть — Inception-блоки:

<img src="./CNN/googlenet.png" width="1000" height="400" align="center">

- В Inception-блоке **каждая ветка получает вход с предыдущего слоя**, затем результаты объединяются.  
- После нескольких Inception-блоков → Global Average Pooling → FC(1000) → Softmax.

### **Почему именно 1×1, 3×3 и 5×5 свертки**
- **1×1 Conv:** уменьшает количество каналов → уменьшение параметров.  
- **3×3 и 5×5 Conv:** захватывают информацию на разных масштабах.  
- **MaxPool:** добавляет устойчивость к локальным сдвигам.  

### **Формула для подсчета параметров Conv-слоя**
$$
\text{params} = F \times (C_{in} \times K \times K) + F
$$
- $F$ — число фильтров, $C_{in}$ — число входных каналов, $K$ — размер ядра.  
- **Пример:** Conv 1×1, 192 входных каналов, 64 фильтра → $64 \times (192 \times 1 \times 1) + 64 = 12352$ параметров.

### **Размер выходов после Inception-блоков**
- Если вход $W \times H \times C$, а stride=1, padding подобран так, чтобы размер не менялся → выход тоже $W \times H \times C'$  
- После Global Average Pooling: $1 \times 1 \times 1024$

### **Количество параметров**
| Модель       | Кол-во параметров | Размер |
|-------------|-----------------|--------|
| GoogleNet   | ≈ 6.8 млн       | ~27 МБ |

- Значительно меньше, чем у VGG (~138 млн).  
- Много параметров экономится за счет **1×1 сверток** и отсутствия больших FC слоев.

### **Плюсы и минусы**
**Плюсы:**  
- Компактная и эффективная по памяти.  
- Высокая точность на ImageNet.  
- Многоуровневое представление с разных масштабов.  

**Минусы:**  
- Сложнее архитектура → труднее для понимания.  
- Для мобильных устройств лучше использовать Inception v3 или v4 с оптимизациями.

### **Использование в transfer learning**
- Можно удалить FC слой и использовать **выход Global Average Pooling** как feature vector.  
- Дообучение только верхних слоев или добавление нового классификатора.

**PyTorch пример:**
```python
import torch
from torchvision import models
import torch.nn as nn

googlenet = models.googlenet(pretrained=True)
for param in googlenet.parameters():
    param.requires_grad = False

# заменяем FC слой на 10 классов
googlenet.fc = nn.Linear(1024, 10)


# **ResNet**

### **Что такое ResNet ?**

- ResNet (*Residual Network*, Microsoft Research) — семейство глубоких сверточных сетей, предложенное в 2015 (He et al.).  
- **Главная идея — residual connections (остаточные соединения)**, позволяющие строить очень глубокие сети без проблемы исчезающего градиента.

**Основные варианты:**
- **ResNet18** — 18 слоёв (8 conv-блоков + FC).  
- **ResNet34** — 34 слоя.  
- **ResNet50** — 50 слоёв (с использованием bottleneck-блоков).  
- **ResNet101, ResNet152** — ещё глубже, для более сложных задач.

- Обучена на ImageNet (224×224×3, 1000 классов, ≈1.2M изображений).  
- Цель: точное извлечение признаков из изображений при минимальной потере градиента в глубоких сетях.


### **Архитектура ResNet50**
<img src="./CNN/resnet50.png" width="1000" height="400" align="center">

**Входной этап:** 
 - **Zero Padding**: нулевое заполнение входного изображения для сохранения размерности.
 - **Conv2D**: начальная свертка (обычно 7x7, stride=2) для извлечения признаков. 
 - **BatchNorm**: нормализация активаций по пакету — стабилизирует обучение. 
 - **ReLU**: нелинейность для введения сложных зависимостей. 
 - **MaxPool**: уменьшение пространственного размера (обычно 3x3, stride=2). 

**Основные блоки (Residual Blocks):** 
 - Повторяется 4 раза (каждый "блок" = группа слоев с одинаковым размером карты признаков). 
 - Каждый блок начинается с Conv Block — изменяет количество каналов и/или размер карты (downsampling).
 - За ним следует N × ID Block (Identity Block) — сохраняет размер карты, содержит skip connection (суммирование входа и выхода).
 - Skip connections позволяют градиентам проходить напрямую, решая проблему затухания градиента. 

**Выходной этап:** 
 - Avg Pool: глобальное среднее пулинг по всем пространственным размерностям → вектор фиксированной длины.
 - Flattening: преобразование в одномерный вектор (если не сделано в Avg Pool).
 - FC (Fully Connected): полносвязный слой с softmax (для классификации) или другим выходным слоем.

### **Пример параметров ResNet50 по этапам**

| Этап | Блоки | Выходной размер карты признаков |
|------|-------|-------------------------------|
| Conv1 + MaxPool | — | 56×56×64 |
| Stage2 | 1 Conv Block + 2 Identity Block | 56×56×256 |
| Stage3 | 1 Conv Block + 3 Identity Block | 28×28×512 |
| Stage4 | 1 Conv Block + 5 Identity Block | 14×14×1024 |
| Stage5 | 1 Conv Block + 2 Identity Block | 7×7×2048 |
| AvgPool | — | 1×1×2048 |
| FC | — | 1000 классов |


### **Residual Block (Остаточный блок)**

- Основная формула:
$$
\mathbf{y} = F(\mathbf{x}) + \mathbf{x}
$$
- $(F(\mathbf{x})$) — нелинейное преобразование (Conv → BN → ReLU).  
- $(\mathbf{x}$) — вход блока.  

**Особенности:**
- Легкое прохождение градиента через skip connection.  
- Сеть может «игнорировать» некоторые блоки (обнулять F(x)) при необходимости.  
- Использование bottleneck уменьшает число параметров, сохраняя большую глубину.


### **Почему residual connections важны**

- Без них глубокие сети (>50 слоев) плохо обучаются из-за исчезающих градиентов.  
- Позволяют строить сверхглубокие сети (ResNet101, ResNet152) без потери точности.  
- Skip connections → ускорение сходимости и более стабильное обучение.


### **Формула подсчета выходного размера**

$$
O = \left\lfloor \frac{W - K + 2P}{S} \right\rfloor + 1
$$

- Padding = stride/2 обычно сохраняет размерность.  
- Downsampling происходит с помощью stride=2 в Conv Block.


### **Количество параметров ResNet**

| Модель | Параметры | Размер (прибл.) |
|--------|-----------|----------------|
| ResNet18 | 11.7 млн | 44 МБ |
| ResNet34 | 21.8 млн | 83 МБ |
| ResNet50 | 25.6 млн | 98 МБ |
| ResNet101 | 44.5 млн | 170 МБ |
| ResNet152 | 60.2 млн | 230 МБ |

<br><br/>
> Замечание: ResNet гораздо легче VGG при схожей или лучшей точности благодаря skip connections и меньшему числу FC-слоев.



### **Плюсы и минусы**

**Плюсы:**
- Возможность строить сверхглубокие сети (50–152 слоя и выше).  
- Отличная точность на ImageNet.  
- Skip connections ускоряют обучение и улучшают распространение градиента.  
- Bottleneck блоки уменьшают количество параметров.

**Минусы:**
- Архитектура сложнее, чем у VGG.  
- Иногда дороже вычислительно (особенно при bottleneck блоках).  
- Меньше «интуитивной наглядности» слоев.


### **Использование в Transfer Learning**

- Заморозка feature extractor (сверточных слоев).  
- Замена FC слоя на новый для нужного числа классов.  
- ResNet feature maps обычно: 7×7×2048 (ResNet50).

**PyTorch пример:**
```python
import torch
from torchvision import models
import torch.nn as nn

# Загружаем pretrained ResNet50
resnet50 = models.resnet50(pretrained=True)

# Замораживаем все свертки
for param in resnet50.parameters():
    param.requires_grad = False

# Заменяем классификатор
num_ftrs = resnet50.fc.in_features
resnet50.fc = nn.Linear(num_ftrs, 10)  # новые 10 классов

# Пример forward pass
x = torch.randn(2, 3, 224, 224)  # batch из 2 изображений
outputs = resnet50(x)
print(outputs.shape)  # torch.Size([2, 10])


# **EfficientNetB7**

### **Что такое EfficientNet?**

- EfficientNet (Google Research, 2019) — семейство сверточных сетей, созданное для **оптимального баланса точности и вычислительной эффективности**.  
- **Ключевая идея — compound scaling (компаунд-масштабирование)**: одновременно увеличиваем глубину, ширину и разрешение сети по заранее найденным коэффициентам, а не только один параметр, как в ResNet.

**Основные преимущества:**
- Эффективное использование ресурсов.  
- Высокая точность при относительно малом числе параметров.  
- Легко масштабируется: B0 → B7, где B7 — самая крупная и точная модель.


### **Основные варианты EfficientNet**

| Модель | Параметры | Input size | Top-1 Accuracy |
|--------|-----------|------------|----------------|
| B0     | 5.3 млн   | 224×224    | 77.1%          |
| B1     | 7.8 млн   | 240×240    | 79.2%          |
| B2     | 9.2 млн   | 260×260    | 80.2%          |
| …      | …         | …          | …              |
| B7     | 66.3 млн  | 600×600    | 84.3%          |

<br><br/>
> Замечание: B7 имеет меньше параметров, чем ResNet152 (~60.2 млн), но превосходит её по точности благодаря более эффективной архитектуре.


### **Архитектура EfficientNetB7**

<img src="./CNN/B7.png" width="1000" height="400" align="center">

**Входной этап:**
 - Input Image (600×600×3) → Preprocessing (нормализация, аугментация)

**Основной блок (MBConv):**
 - Использует MobileNetV2-подобные MBConv блоки (Mobile Inverted Bottleneck Convolution)
 - Содержат depthwise conv + pointwise conv + SE (Squeeze-and-Excitation) attention
 - Включают skip connection (аналог ResNet, но с SE-блоком)

**Структура:**
 - Stage 1: Initial Conv (3x3, stride=2) → BN → Swish
 - Stages 2–9: Повторяющиеся MBConv блоки с разными размерами ядер и количеством каналов
 - Global Average Pooling → Dropout → Dense Layer → Softmax


 ### **MBConv Block**

1. **Pointwise Conv (1x1)** → расширение числа каналов  
2. **Depthwise Conv (3x3 или 5x5)** → пространственная фильтрация  
3. **Squeeze-and-Excitation (SE)** → attention механизм, взвешивание каналов  
4. **Pointwise Conv (1x1)** → сжатие до исходного числа каналов  
5. **Skip Connection** (если input == output) → суммирование  

**Преимущества:** низкие вычислительные затраты, высокая точность, встроенный attention.


### **Compound Scaling**

Формула масштабирования:
$$
\text{depth} = \alpha^\phi, \quad \text{width} = \beta^\phi, \quad \text{resolution} = \gamma^\phi
$$
- α, β, γ — коэффициенты, найденные через grid search (α≈1.2, β≈1.1, γ≈1.15)  
- φ — коэффициент масштабирования (для B7: φ=7)  

Пример для B7:  
- Глубина: B0 × 1.2⁷ ≈ 8.5× больше  
- Ширина: B0 × 1.1⁷ ≈ 2× больше  
- Разрешение: B0 × 1.15⁷ ≈ 2.7× больше (вход 600×600 вместо 224×224)


### **Размеры входа и выхода**

- **Input:** 600×600×3  
- **Output feature map:** 10×10×2560 (после последнего сверточного слоя)  
- **Global AvgPool:** 2560-dim vector  
- **FC layer:** 1000 классов (ImageNet)


### **Плюсы и минусы**

**Плюсы:**  
- Высокая точность при меньшем числе параметров, чем ResNet152  
- Эффективное использование ресурсов благодаря compound scaling  
- MBConv + SE attention улучшают качество признаков  
- Отлично подходит для transfer learning и edge-устройств  
- Легко масштабируется B0–B7  

**Минусы:**  
- Большой входной размер → высокие требования к памяти  
- Вычислительно дорого для инференса (особенно B7)  
- Более сложная архитектура, чем VGG/ResNet — труднее интерпретировать  
- Может требовать fine-tuning на малых датасетах


### **Transfer Learning с EfficientNetB7 (PyTorch)**

```python
import torch
from torchvision import models
import torch.nn as nn
import timm  # pip install timm

# Загрузка EfficientNetB7 pretrained
model = timm.create_model('efficientnet_b7', pretrained=True)

# Заморозка всех слоев
for param in model.parameters():
    param.requires_grad = False

# Замена последнего полносвязного слоя на новый (для N классов)
num_ftrs = model.classifier.in_features  # обычно 2560 для B7
model.classifier = nn.Linear(num_ftrs, 10)  # пример: 10 классов

# Пример forward pass
x = torch.randn(2, 3, 600, 600)  # batch из 2 изображений
outputs = model(x)
print(outputs.shape)  # torch.Size([2, 10])