<a href="https://colab.research.google.com/github/KwonHo-geun/AI_Study/blob/main/25_07_16_MobileNet.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 📱 MobileNet 시리즈 : V1, V2, V3

---

## ✅ MobileNet 개요

MobileNet은 Google이 2017년부터 개발한 **경량화 합성곱 신경망 (CNN)** 아키텍처입니다.  
주요 목적은 다음과 같습니다:

- **모바일 및 임베디드 장치에서도 실시간 추론이 가능하도록 설계**
- **적은 연산량(MACs), 작은 모델 크기, 낮은 지연시간(Latency)**을 달성
- 하지만 정확도도 일정 수준 이상 유지

> MobileNet은 V1 → V2 → V3로 발전하면서, 점점 더 높은 정확도와 효율성을 달성했습니다.


## 🔹 MobileNetV1 (2017)

### ✨ 핵심 아이디어: **Depthwise Separable Convolution**

일반적인 Convolution은 **공간 필터링 + 채널 혼합**을 한 번에 수행하지만,  
MobileNetV1은 이 과정을 **둘로 분리**합니다.

#### ✅ Depthwise Separable Convolution이란?

> 기존 Conv 연산을 아래 두 단계로 나눈 것:

1. **Depthwise Convolution**
   - 각 입력 채널마다 하나의 필터를 적용 (공간적 필터링만 수행)
2. **Pointwise Convolution (1x1 Conv)**
   - 모든 채널을 조합하여 정보 통합 (채널 간 연산)

#### ✅ 연산량 감소 효과

- 일반 Conv 연산량: `Dk×Dk×M×N×H×W`
- Depthwise Separable Conv: `Dk×Dk×M×H×W + M×N×H×W`
- 연산량 약 **8~9배 감소**, 정확도 손실은 크지 않음

### 🔍 구조 예시

### 📈 성능 향상 요소

- V1 대비 파라미터 수는 비슷하지만, **정확도 대폭 향상**
- MobileNetV2는 EfficientNet, YOLOv4 등의 **백본(backbone)**으로도 활용됨

---

## 🔹 MobileNetV3 (2019)

### ✨ 목적: "최고의 효율을 자동으로 찾자!"

MobileNetV3는 **NAS(Neural Architecture Search)** 기반으로 설계되었으며,  
구조는 V2를 기반으로 하되, 다양한 **최적화 요소**가 포함되었습니다.

---

### ✅ 주요 구성 요소

| 구성 요소 | 설명 |
|-----------|------|
| ✅ NAS 기반 구조 설계 | Google AutoML로 블록 구조 자동 탐색 |
| ✅ Squeeze-and-Excitation(SE) | 채널 간 중요한 특징을 강조 |
| ✅ h-swish Activation | swish 함수의 경량 근사 버전 |
| ✅ 다양한 block 조합 | stage마다 적절한 layer 수를 자동 탐색 |
| ✅ 두 가지 모델 제공 | MobileNetV3-Large / MobileNetV3-Small |

---

## 📊 MobileNet 시리즈 비교 요약

| 항목 | MobileNetV1 | MobileNetV2 | MobileNetV3 |
|------|-------------|-------------|-------------|
| 주요 기술 | Depthwise Separable Conv | Inverted Residual + Linear Bottleneck | NAS + SE + h-swish |
| 연산 효율 | 매우 높음 | 높음 | 최고 수준 |
| 정확도 | 낮음 | 개선됨 | 가장 우수 |
| 활용도 | 모바일 앱 | 실시간 추론 백본 | SOTA 모델, EfficientNet-Lite 등 |

---

## 💡 실전 활용 예시

- TensorFlow Lite / ONNX로 변환 후 모바일 앱에 탑재
- Raspberry Pi + OpenCV 기반 실시간 영상 분석
- YOLOv4-Tiny, BlazeFace 등 경량 Object Detection의 backbone

---

## 📚 참고 자료

- [MobileNetV1 Paper (2017)](https://arxiv.org/abs/1704.04861)
- [MobileNetV2 Paper (2018)](https://arxiv.org/abs/1801.04381)
- [MobileNetV3 Paper (2019)](https://arxiv.org/abs/1905.02244)

---


In [17]:
import torch, torchvision
import torchvision.models as models
import torchvision.datasets as datasets

import matplotlib.pyplot as plt
from PIL import Image

## MobileNet V2

https://arxiv.org/abs/1801.04381

https://pytorch.org/vision/0.12/_modules/torchvision/models/mobilenetv2.html#mobilenet_v2

In [None]:
models.mobilenet_v2()

## MobileNet V3

https://arxiv.org/abs/1905.02244


https://pytorch.org/vision/0.12/models.html#mobilenet-v3


In [18]:
mobilenet_v3_large = models.mobilenet_v3_large()
mobilenet_v3_small = models.mobilenet_v3_small()
mobilenet_v3_small

MobileNetV3(
  (features): Sequential(
    (0): Conv2dNormActivation(
      (0): Conv2d(3, 16, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
      (1): BatchNorm2d(16, eps=0.001, momentum=0.01, affine=True, track_running_stats=True)
      (2): Hardswish()
    )
    (1): InvertedResidual(
      (block): Sequential(
        (0): Conv2dNormActivation(
          (0): Conv2d(16, 16, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), groups=16, bias=False)
          (1): BatchNorm2d(16, eps=0.001, momentum=0.01, affine=True, track_running_stats=True)
          (2): ReLU(inplace=True)
        )
        (1): SqueezeExcitation(
          (avgpool): AdaptiveAvgPool2d(output_size=1)
          (fc1): Conv2d(16, 8, kernel_size=(1, 1), stride=(1, 1))
          (fc2): Conv2d(8, 16, kernel_size=(1, 1), stride=(1, 1))
          (activation): ReLU()
          (scale_activation): Hardsigmoid()
        )
        (2): Conv2dNormActivation(
          (0): Conv2d(16, 16, kernel_size=(1, 1), 