# <center> <font color=Blue> Computer Vision </font> </center>
## <center> Scene Recognition Using Neural Networks </center>

***

## S.Alireza Mousavizade

<hr style="height:3px;border:none;color:#333;background-color:#333;" />

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
     در تمرین سری ۳ قسمت ۴ مساله
    <span style="direction: rtl">Scene Recognition</span>
    را به کمک
    <span style="direction: rtl">SVM</span>
    حل کردیم. در این تمرین همان مساله با همان داده های ورودی را این بار به کمک
    <span style="direction: rtl">Neural Network</span>
    حل میکنیم.
</p>

<hr style="height:1px;border:none;color:#333;background-color:#333;" />

## Prerequisites

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    در این تمرین از کتابخانه
    <span style="direction: rtl">Pytorch</span>
    برای یادگیری مدل شبکه عصبی استفاده شده است. همچنین برای بررسی کارکرد مدل شبکه عصبی از
    <span style="direction: rtl">TensorBoard</span>
    استفاده شده است. دستورات زیر کتابخانه های مورد نیاز مذکور را به کمک
    <span style="direction: rtl">Anaconda</span>
    نصب میکند.
</p>

***

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    همچنین پکیح های زیر در فرآیند اجرای برنامه مورد نیاز است.
</p>

In [None]:
import os
import torch
import torch.optim as optim
import torch.utils.data as data
import torchvision.datasets
import torchvision.transforms as transforms
import time
import copy
import torch.nn as nn
import torchvision.models as models
from torch.utils.tensorboard import SummaryWriter

## <span style="float: right; block; font-family: 'Vazir'; direction: rtl; color: red"> نکات مهم در پیاده سازی</span>

<ol style="direction:rtl;text-align:right;">
    <li style="font-family: 'Vazir Thin';">
        با توجه به
        <a href="https://towardsdatascience.com/7-tips-for-squeezing-maximum-performance-from-pytorch-ca4a40951259">این</a>
        مقاله نکات زیر در پیاده سازی انجام شده است:
        برای افزایش سرعت پردازش مدل در
       <span style="direction: rtl">GPU</span>
    ها، آرگومان های
        <code style="">&#x200E;num_worker=4&#x200E;</code>
    و
        <code style="">&#x200E;pin_memory=True&#x200E;</code>
        در سازنده کلاس
       <span style="direction: rtl">Dataloader</span>
        ست شده است.
    </li>
    <li style="font-family: 'Vazir Thin';">
        متد
       <span style="direction: rtl">.item</span>
        از کلاس
       <span style="direction: rtl">Tensor</span>
        ، در واقع عدد درون یک تنسور با یک درایه را خروجی می دهد که قابلیت نگه داشته شدن در
       <span style="direction: rtl">GPU</span>
        را ندارد. بنابراین با هربار فراخوانی تابع مذکور یک انتقال از
               <span style="direction: rtl">GPU</span>
        به
               <span style="direction: rtl">CPU</span>
        داریم که هزینه پردازشی بسیاری دارد.
        به این ترتیب باید از فراخوانی این تابع در کد حتی الامکان خودداری شود. (
        به صورت مشابه برای
        متد های
               <code style="">&#x200E;.cpu()&#x200E;</code>
               و
               <code style="">&#x200E;.numpy()&#x200E;</code>
          نیز این موضوع برقرار است.
        )
    </li>
    <li style="font-family: 'Vazir Thin';">
        برای تعریف تنسور لازم است مستقیما تنسور را در
               <span style="direction: rtl">GPU</span>
        تعریف کنیم.
        تکه کد زیر تنسور را ابتدا در
               <span style="direction: rtl">CPU</span>
        تعریف میکند و سپس آن را به
                       <span style="direction: rtl">GPU</span>
            منتقل میکند:
        <br>
        <center> <code style="">t = torch.rand(2, 2).cuda()&#x200E;</code> </center>
        <br>
        که به جای آن باید از تکه کد زیر استفاده کرد که تنسور را مستقیما در
                       <span style="direction: rtl">GPU</span>
        تعریف میکند:
        <br>
        <center> <code style="">t = torch.rand(2, 2, device=running_device)&#x200E;</code> </center>
        <br>
    </li>
    <li style="font-family: 'Vazir Thin';">
        پیاده سازی
           <span style="direction: rtl">Pytorch</span>
با معماری پیپر اصلی
           <span style="direction: rtl">AlexNet</span>
       تفاوت هایی در لایه اول و دوم
          <span style="direction: rtl">Convolutional</span>
دارد. این موضوع در قسمت های ۱و۲و۳ در نظر گرفته شده است.
    </li>
</ol>


***

## Dataset

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    داده های
        <span style="direction: rtl">Train</span>
    و
        <span style="direction: rtl">Validation</span>
    برای آموزش مدل شبکه عصبی همان داده های تمرین ۳ قسمت ۴ هستند که در فولدر
    <span style="direction: rtl">Data</span>
    آمده اند که شامل ۱۵ کلاس مختلف از صحنه های متفاوت هستند که هر عکس تقریبا
        <span style="direction: rtl">
        256 &#x2715; 256
         </span>
    است.
    همچنین باید به این نکته توجه داشت که تصاویر ورودی شبکه عصبی
        <span style="direction: rtl">AlexNet</span>
    تصاویر رنگی با چنل های قرمز، سبز و آبی هستند. به این ترتیب
    یک راه حل ممکن برای حل این موضوع این است که هر تصویر
            <span style="direction: rtl">Gray Scale</span>
    دیتاست مذکور را ۳ بار تکرار کنیم تا تصویر به یک تصویر با ۳ چنل قرمز، سبر تبدیل شود.
</p>

***

## Load Data

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
     داده های
        <span style="direction: rtl">Train</span>
    و
        <span style="direction: rtl">Validation</span>
     به کمک کلاس
        <code style="">&#x200E;torchvision.datasets.ImageFolder&#x200E;</code>
       هر یک در قالب یک دیتاست لود میشود.
</p>

In [None]:
train_dataset = torchvision.datasets.ImageFolder(train_directory, transform=train_preprocess_transforms)
validation_dataset = torchvision.datasets.ImageFolder(validation_directory, transform=validation_preprocess_transforms)

NameError: name 'train_directory' is not defined


<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    همچنین کلاس
        <code style="">&#x200E;data.DataLoader&#x200E;</code>
    دیتاست های داده های آموزش و اعتبارسنجی را به
        <span style="direction: rtl">Mini Batch</span>
        هایی با اندازه داده شده افراز می کند.
</p>

In [None]:
train_dataloader = data.DataLoader(train_dataset, batch_size=batch_size, shuffle=shuffle,
                                   drop_last=drop_last, num_workers=num_workers, pin_memory=True)

validation_dataloader = data.DataLoader(validation_dataset, batch_size=batch_size, shuffle=shuffle,
                                        drop_last=drop_last, num_workers=num_workers, pin_memory=True)

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    به این ترتیب در فرآیند یادگیری، در هر
        <span style="direction: rtl">Epoch</span>
    به صورت زیر در هر مرحله یک
        <span style="direction: rtl">Batch</span>
    از داده ها به مدل داده میشود. (که البته در فاز اعتبارسنجی لزوما لازم نیست داده ها به صورت
        <span style="direction: rtl">Batch</span>
        به مدل داده شوند.)
</p>

In [None]:
# Train Phase
for i, batch in enumerate(data_loaders[TRAIN_STR]):
    ...

# Validation Phase
for i, batch in enumerate(data_loaders[VALIDATION_STR]):
    ...

***

# Hyper Parameter Tuning

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    برای تنظیم کردن مقادیر ها هایپرپارامترها می توان از روش
        <span style="direction: rtl">Grid Search</span>
    روی مقادیر هایپرپارامترها استفاده کرد. (یک راه دیگر این است که مقادیر هایپرپارامترها به صورت تصادفی به تعداد دفعات مشخص مقدار دهی شوند تا تقریب مناسبی از مقادیر هایپرپارامترها بدست آید.)
</p>

In [None]:
hyper_parameters_space_dict = {
    SIZE_STR: [256, 224, 128],
    BATCH_SIZE_STR: [6, 12, 24, 48, 96],
    LEARNING_RATE_STR: [1e-3, 1e-4, 1e-5],
    EPOCH_NUMBER_STR: [120],
    WEIGHT_DECAY_STR: [1e-3, 1e-4, 1e-5]
}

model, configs, accuracy = NeuralNetworkTrainer(data_directory).
hyper_parameter_tune(hyper_parameters_space_dict).
get_best_model()


***

# Parts Implementations:

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    در هر قسمت موارد زیر توضیح داده میشود:
</p>

- Data (Data Augmentation: Transforms)
- Neural Network Model
- Weight Initialization
- Loss Function
- Optimizer
- Learning Rate Scheduler

<hr style="height:3px;border:none;color:#333;background-color:#333;" />

## Part 1

***

### Data:

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    در ابندا طول و عرض داده های آموزش و اعتبارسنجی با توجه به تاپل
    <span style="direction: rtl">size</span>
    تغییر میکند.
    <br>
    به علت تعداد بسیار محدود مجموعه آموزش، از تکنیک
    <span style="direction: rtl">Data Augmentation</span>
    استفاده میکنیم تا عملا اندازه مجموعه آموزش را افزایش و به داده های آموزش تنوع دهیم. همچنین داده های ورودی به کمک میانگین و انحراف معیاری که به صورت
    تجربی از داده های دیتاست
        <span style="direction: rtl">ImageNet</span>
    بدست آمده نرمال میشوند. این تبدیل روی داده های
        <span style="direction: rtl">Validation</span>
    نیز اعمال میشود.
    رشته کد زیر این قسمت را انجام میدهد:
</p>

In [None]:
probability = .5
# ImageNet mean and std
mean, standard_deviation = [0.485, 0.456, 0.406], [0.229, 0.224, 0.225]
train_preprocess_transforms = transforms.Compose([
    transforms.Resize(size=size, interpolation=transforms.InterpolationMode.BICUBIC),
    transforms.RandomHorizontalFlip(p=probability),
    transforms.RandomPerspective(p=probability, distortion_scale=.5, ),
    transforms.RandomRotation(degrees=(-4, +4)),
    transforms.ColorJitter(),
    transforms.ToTensor(),
    transforms.Normalize(mean, standard_deviation)
])

validation_preprocess_transforms = transforms.Compose([
    transforms.Resize(size=size, interpolation=transforms.InterpolationMode.BICUBIC),
    transforms.ToTensor(),
    transforms.Normalize(mean, standard_deviation)
])

***

### Neural Network Model:

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    معماری مدل شبکه عصبی با توجه به توضیحات این قسمت از داک تمرین به صورت زیر پیاده سازی میشود.
</p>

In [None]:
class Part1NN(nn.Module):
    def __init__(self, num_classes: int) -> None:
        super(Part1NN, self).__init__()
        self.features = nn.Sequential(
            nn.Conv2d(3, 96, kernel_size=(11, 11), stride=(4, 4), padding=2),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=4),
        )
        self.avgpool = nn.AdaptiveAvgPool2d((6, 6))
        self.classifier = nn.Sequential(
            nn.Dropout(),
            nn.Linear(96 * 6 * 6, 4096),
            nn.ReLU(inplace=True),
            nn.Linear(4096, num_classes),
        )

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        x = self.features(x)
        x = self.avgpool(x)
        x = torch.flatten(x, 1)
        x = self.classifier(x)
        return x

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    به صورت زیر از مدل تعریف شده استفاده میشود.
</p>

In [None]:
num_classes = len(train_dataset.classes)
part1_nn = Part1NN(num_classes=num_classes)

***

### Weight Initialization:

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    مقادیر اولیه وزن های مدل طبق روش
        <span style="direction: rtl">He Initialization</span>
    مقدار دهی میشوند. این روش در مقاله
</pr>

#### <center> Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification - He, K. et al. (2015) </center>

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
     ارایه شده است.
    به این ترتیب که برای تابع فعال سازی
        <span style="direction: rtl">Relu , Leaky Relu</span>
    بهتر است از این مقداردهی اولیه استفاده شود.
    پیاده سازی این قسمت به صورت زیر است. (خود کتابخانه از این متد استفاده میکند.)
</p>

In [None]:
# Fully connected layer
init.kaiming_uniform_(layer.weight, a=math.sqrt(3))
if layer.bias is not None:
    fan_in, _ = init._calculate_fan_in_and_fan_out(layer.weight)
    bound = 1 / math.sqrt(fan_in)
    init.uniform_(layer.bias, -bound, bound)

# Convolutional layer
init.kaiming_uniform_(layer.weight, a=math.sqrt(5))
if layer.bias is not None:
    fan_in, _ = init._calculate_fan_in_and_fan_out(layer.weight)
    bound = 1 / math.sqrt(fan_in)
    init.uniform_(layer.bias, -bound, bound)

***

### Loss Function:
<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    برای این قسمت از
            <span style="direction: rtl">Cross Entropy Loss</span>
    استفاده شده است.
    که به نوعی دو روش
            <span style="direction: rtl">LogSoftmax</span>
    و
            <span style="direction: rtl">NLLLoss</span>
    را ترکیب میکند. توضیحات نحوه بدست آوردن این تابع در
    <a href="https://pytorch.org/docs/stable/generated/torch.nn.CrossEntropyLoss.html">اینحا</a>
    آمده است.
</p>

In [None]:
loss_function = nn.CrossEntropyLoss()

***

### Optimizer:
<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    برای این قسمت از
            <span style="direction: rtl">Adam</span>
    استفاده شده است.
    (در مقاله برای آموزش مدل
        <span style="direction: rtl">AlexNet</span>
    از
        <span style="direction: rtl">SGD</span>
    استفاده شده است.)
    <br>
    ضریب
        <span style="direction: rtl">weight_decay_</span>
در واقع نقشی مشابه نقش ضریب 	&lambda; در ترم
        <span style="direction: rtl">L2 Regularization</span>
    که به صورت:
</p>

___

<center>     $\mathbf{ \tilde{E}(w)=E(w) + \frac{\lambda}{2}w^2 }$   </center>

___

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    است، دارد. به این ترتیب که در هر مرحله وزن های شبکه به صورت زیر بروزرسانی می شود:
</p>

___

<center> $\mathbf{w_i \leftarrow (1 - \eta \lambda)w_i - \eta \frac{\partial E}{\partial w_i}}$ </center>

___

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    به این ترتیب این ضریب مانع از بیش از حد بزرگ شدن ضرایب و پیچیدگی بیش از حد مدل می شود، بنابراین از
        <span style="direction: rtl">Overfit</span>
    شدن مدل جلوگیری می شود.
</p>

In [None]:
weight_decay_ = 1e-3
optimizer = optim.Adam(params=part1_nn.parameters(),
                       lr=lr,
                       weight_decay=weight_decay_)


***

### Learning Rate Scheduler:

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    برای این قسمت از
            <span style="direction: rtl">optim.lr_scheduler.ExponentialLR</span>
    استفاده شده است. که در هر مرحله
            <span style="direction: rtl">Learning Rate</span>
    را در عدد کوچکتر از ۱ گاما ضرب می کند.
</p>

In [None]:
gamma = .99
lr_scheduler = optim.lr_scheduler.ExponentialLR(optimizer, gamma=gamma)

<hr style="height:3px;border:none;color:#333;background-color:#333;" />

## Part 2


### Data:
### Weight Initialization:
### Loss Function:
### Optimizer:
### Learning Rate Scheduler:

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    این بخش ها مشابه قسمت قبل انجام می شود.
</p>

***

### Neural Network Model:

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    معماری مدل شبکه عصبی با توجه به توضیحات این قسمت از داک تمرین به صورت زیر پیاده سازی میشود.
</p>

In [None]:
class Part2NN(nn.Module):
    def __init__(self, num_classes: int) -> None:
        super(Part2NN, self).__init__()
        self.features = nn.Sequential(
            nn.Conv2d(3, 96, kernel_size=11, stride=4, padding=2),
            nn.BatchNorm2d(96),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
            nn.Conv2d(96, 192, kernel_size=5, padding=2),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
            nn.Conv2d(192, 256, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=2, stride=2),
        )
        self.avgpool = nn.AdaptiveAvgPool2d((6, 6))
        self.classifier = nn.Sequential(
            nn.Dropout(),
            nn.Linear(256 * 6 * 6, 4096),
            nn.ReLU(inplace=True),
            nn.Dropout(),
            nn.Linear(4096, 4096),
            nn.ReLU(inplace=True),
            nn.Linear(4096, num_classes),
        )

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        x = self.features(x)
        x = self.avgpool(x)
        x = torch.flatten(x, 1)
        x = self.classifier(x)
        return x

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    به صورت زیر از مدل تعریف شده استفاده میشود.
</p>

In [None]:
num_classes = len(train_dataset.classes)
part2_nn = Part2NN(num_classes=num_classes)

<hr style="height:3px;border:none;color:#333;background-color:#333;" />

## Part 3

### Data:
### Weight Initialization:
### Loss Function:
### Optimizer:
### Learning Rate Scheduler:

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    این بخش ها مشابه قسمت قبل انجام می شود.
</p>

***

### Neural Network Model:

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    معماری مدل شبکه عصبی با توجه به توضیحات این قسمت از داک تمرین به صورت زیر پیاده سازی میشود. (بر اساس مستندات کتابخانه
        <span style="direction: rtl">Pytorch</span>
لایه
        <span style="direction: rtl">Average Pooling</span>
    بعد از مجموعه لایه
            <span style="direction: rtl">features</span>
    اضافه شده است.
    )
</p>

In [None]:
class Part3NN(nn.Module):
    def __init__(self, num_classes: int) -> None:
        super(Part3NN, self).__init__()
        self.features = nn.Sequential(
            nn.Conv2d(3, 96, kernel_size=11, stride=4, padding=2),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
            nn.Conv2d(96, 256, kernel_size=5, padding=2),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
            nn.Conv2d(256, 384, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(384, 256, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(256, 256, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
        )
        self.avgpool = nn.AdaptiveAvgPool2d((6, 6))
        self.classifier = nn.Sequential(
            nn.Dropout(),
            nn.Linear(256 * 6 * 6, 4096),
            nn.ReLU(inplace=True),
            nn.Dropout(),
            nn.Linear(4096, 4096),
            nn.ReLU(inplace=True),
            nn.Linear(4096, num_classes),
        )

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        x = self.features(x)
        x = self.avgpool(x)
        x = torch.flatten(x, 1)
        x = self.classifier(x)
        return x


<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    به صورت زیر از مدل تعریف شده استفاده میشود.
</p>

In [None]:
num_classes = len(train_dataset.classes)
part3_nn = Part3NN(num_classes=num_classes)

<hr style="height:3px;border:none;color:#333;background-color:#333;" />

## Additional Layers

### Batch Normalization Layer:

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
       در این سه بخش، میتوان در ابتدای مجموعه
                   <span style="direction: rtl">Learning Rate</span>
    و قبل از تابع فعال سازی
            <span style="direction: rtl">Learning Rate</span>
    یک لایه
                <span style="direction: rtl">Learning Rate</span>
    قرار داد. این لایه اولین بار در مقاله
            <span style="direction: rtl">
                Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift
            </span>
    ارایه شده است. به طوری که تابع زیر روی هر ورودی اعمال میشود. (پارامترهای گاما و بتا به طور پیش فرض به ترتیب برابر ۱ و ۰ مقداردهی می شوند.)
</p>

***

<center> $\mathbf{y = \frac{x - \mathrm{E}[x]}{\sqrt{\mathrm{Var}[x] + \epsilon}} * \gamma + \beta}$ </center>

***

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    که مقادیر امیدریاضی و واریانس برابر میانگین و واریانس نمونه ای
        <span style="direction: rtl">Mini Batch</span>
    است.
</p>

In [None]:
self.classifier = nn.Sequential(
    ...,
    nn.BatchNorm1d(4096, ),
    ...,
)

<hr style="height:3px;border:none;color:#333;background-color:#333;" />

### Drop Out Layer:

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
       در این سه بخش، همچنین میتوان از لایه
                   <span style="direction: rtl">DropOut</span>
    دز میان لایه های
            <span style="direction: rtl">Fully Connected</span>
    استفاده کرد.
    اضافه کردن این لایه همانطور که در کلاس اشاره شد، باعث افزایش قدرت
            <span style="direction: rtl">Generalization</span>
    و
            <span style="direction: rtl">Overfit</span>
    نشدن
مدل می شود.

</p>

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    که مقادیر امیدریاضی و واریانس برابر میانگین و واریانس نمونه ای
        <span style="direction: rtl">Mini Batch</span>
    است.
</p>

In [None]:
self.classifier = nn.Sequential(
    ...,
    nn.Dropout(),
    ...,
)

<hr style="height:3px;border:none;color:#333;background-color:#333;" />


## Part 4

### Data:
### Loss Function:
### Optimizer:
### Learning Rate Scheduler:

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    این بخش ها مشابه قسمت قبل انجام می شود.
</p>

***

### Neural Network Model:

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    در این قسمت برخلاف ۳ قسمت قبل از مدل شبکه عصبی از پیش آموزش داده شده استفاده می کنیم که به صورت زیر قابل فراخوانی است:
</p>

In [None]:
alex_net: models.AlexNet = models.alexnet(pretrained=True, progress=True)

last_classifier_layer_input_features_number = alex_net.classifier[6].in_features
fully_connected_layer = nn.Linear(last_classifier_layer_input_features_number, num_classes)
alex_net.classifier._modules['6'] = fully_connected_layer

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
به این صورت که تنها لایه آخر آن با توجه به تعداد کلاس های مساله جدید، با یک لایه جدید
        <span style="direction: rtl">Fully Connected</span>
    جایگزین می شود.
</p>

***

### Weight Initialization:

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    بر خلاف قسمت قبل، در این بخش وزن های مدل شبکه عصبی از پیش آموزش دیده شده در ۷ لایه ابتدایی حفظ می شود و برای لایه آخر که با لایه آخر معماری
        <span style="direction: rtl">AlexNet</span>
    جایگزین شد،
    مقادیر اولیه وزن های مدل طبق روش
        <span style="direction: rtl">He Initialization</span>
    مقدار دهی میشوند.
</p>

In [None]:
# Fully connected layer
init.kaiming_uniform_(fully_connected_layer.weight, a=math.sqrt(3))
if layer.bias is not None:
    fan_in, _ = init._calculate_fan_in_and_fan_out(fully_connected_layer.weight)
    bound = 1 / math.sqrt(fan_in)
    init.uniform_(fully_connected_layer.bias, -bound, bound)

# Convolutional layer
init.kaiming_uniform_(layer.weight, a=math.sqrt(5))
if layer.bias is not None:
    fan_in, _ = init._calculate_fan_in_and_fan_out(layer.weight)
    bound = 1 / math.sqrt(fan_in)
    init.uniform_(layer.bias, -bound, bound)

***

### Freeze Pretrained Layers Weights

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    برای فریز کردن مقادیر وزن های لایه های از پیش آموزش داده شده به صورت زیر عمل می کنیم.
</pr>

In [None]:
# freeze pretrained layers weights
alex_net: models.AlexNet = models.alexnet(pretrained=True, progress=True)
for parameter in alex_net.parameters():
    parameter.requires_grad = False

fully_connected_layer.requires_grad_(True)

<hr style="height:3px;border:none;color:#333;background-color:#333;" />


## Part 5

### Data:
### Loss Function:
### Optimizer:
### Learning Rate Scheduler:

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    این بخش ها مشابه قسمت قبل انجام می شود.
</p>

***

### Neural Network Model:

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
   در این قسمت برخلاف قسمت ۳ قسمت ابتدایی، از مدل شبکه عصبی از پیش آموزش داده شده استفاده می کنیم که به صورت زیر قابل فراخوانی است.</p>

In [None]:
alex_net: models.AlexNet = models.alexnet(pretrained=True, progress=True)

last_classifier_layer_input_features_number = alex_net.classifier[6].in_features
fully_connected_layer = nn.Linear(last_classifier_layer_input_features_number, num_classes)
alex_net.classifier._modules['6'] = fully_connected_layer

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
به این صورت که تنها لایه آخر آن با توجه به تعداد کلاس های مساله جدید، با یک لایه جدید
        <span style="direction: rtl">Fully Connected</span>
    جایگزین می شود.
</p>

***

### Weight Initialization:

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    بر خلاف ۳ قسمت ابتدایی، در این بخش وزن های مدل شبکه عصبی از پیش آموزش دیده شده در ۷ لایه ابتدایی حفظ می شود
    و
     بر خلاف قسمت ۴
   در این بخش مقادیر وزن های لایه های از پیش آموزش داده شده فریز نمی شوند تا در طی فرآیند آموزش، با توجه به مناسب بودن مقدار دهی ابتدایی وزن ها (وزن ها از مدلی که روی دیتاست
        <span style="direction: rtl">ImageNet</span>
   آموزش دیده است، مقداردهی اولیه می شوند.
    )
    تنظیم دقیق
    (
        <span style="direction: rtl">Fine Tune</span>
    )
    شوند.
     و برای لایه آخر که با لایه آخر معماری
        <span style="direction: rtl">AlexNet</span>
    جایگزین شد،
    مقادیر اولیه وزن های مدل طبق روش
        <span style="direction: rtl">He Initialization</span>
    مقدار دهی میشوند.
</p>

In [None]:
# Fully connected layer
init.kaiming_uniform_(fully_connected_layer.weight, a=math.sqrt(3))
if layer.bias is not None:
    fan_in, _ = init._calculate_fan_in_and_fan_out(fully_connected_layer.weight)
    bound = 1 / math.sqrt(fan_in)
    init.uniform_(fully_connected_layer.bias, -bound, bound)

# Convolutional layer
init.kaiming_uniform_(layer.weight, a=math.sqrt(5))
if layer.bias is not None:
    fan_in, _ = init._calculate_fan_in_and_fan_out(layer.weight)
    bound = 1 / math.sqrt(fan_in)
    init.uniform_(layer.bias, -bound, bound)

***

### Fine Tune Pretrained Layers Weights

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    برای تنظیم دقیق کافی است کردن مقادیر وزن های لایه های از پیش آموزش داده شده و لایه جدید جایگزین شده در هر مرحله بروزرسانی شوند.
</p>

<hr style="height:5px;border:none;color:#333;background-color:#333;" />

# Parts Results:

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
     مشاهده معماری شبکه عصبی به صورت بصری، یک مجموعه تصادفی کوچک از تصاویر به کار گرفته شده برای فاز آموزش، نمودار دقت و خسارت و ...
    با اجرای دستور
            <code style="">tensorboard --logdir=runs</code>
    و باز کردن لینک گفته شده در مرورگر به کمک ابزار
        <span style="direction: rtl">Tensorboard</span>
    ممکن است.
    نمودارهای خسارت و دقت برای هر قسمت در ادامه آمده است.
</p>

***

## Part 1

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    به ازای مقادیر هایپر پارامترهای:
</p>

| Parameter | Value |
| --- | --- |
| Input Size | 256 |
| Batch Size | 12 |
| Learning Rate | $10^{-4}$ |
| Weight Decay | $10^{-4}$ |
| Epochs Number | 60 |

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    نمودارهای خسارت بر حسب شماره
        <span style="direction: rtl">Epoch</span>
    و دقت بر حسب شماره
            <span style="direction: rtl">Epoch</span>
    به صورت زیر است.
</p>

<center>
    <hr style="height:1px;border:none;color:#333;background-color:#333;" />
    <figure>
        <img src='./results/Part1/accuracy.png' alt='missing' />
        <figcaption>Accuracy-Epoch</figcaption>
    </figure>
    <hr style="height:1px;border:none;color:#333;background-color:#333;" />
    <figure>
        <img src='./results/Part1/loss.png' alt='missing' />
        <figcaption>Loss-Epoch</figcaption>
    </figure>
    <hr style="height:1px;border:none;color:#333;background-color:#333;" />
</center>

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    که در کمترین خسارت، دقتی برابر ۷۲ درصد دارد.
</p>

## <span style="float: right; block; font-family: 'Vazir'; direction: rtl; color: red">چرا دقت در فاز اعتبارسنجی بیشتر از دفت در فاز آموزش است؟</span>

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    طبق توضیجات
    <a href="https://www.tensorflow.org/tutorials/images/transfer_learning#learning_curves">این</a>
    مقاله، علت اصلی این نتیجه وجود لایه های
        <span style="direction: rtl">Tensorboard</span>
    و
        <span style="direction: rtl">Tensorboard</span>
    می باشد، زیرا این لایه ها در فاز اعتبارسنجی غیرفعال می شوند و تنها در فاز آموزش فعال هستند. همچنین
    مجموعه آموزش بنا به تبدیلاتی که به فصد
        <span style="direction: rtl">Data Augmentation</span>
    روی آن اعمال کرده ایم، مجموعه داده به مراتب عمومی تر و پیچیده تری است که این مورد روی دقت در فاز آموزش و اعتبارسنجی و تفاوت آن ها اثرگذار است.
</p>


***

## Part 2

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    به ازای مقادیر هایپر پارامترهای:
</p>

| Parameter | Value |
| --- | --- |
| Input Size | 256 |
| Batch Size | 12 |
| Learning Rate | $10^{-4}$ |
| Weight Decay | $10^{-3$ |
| Epochs Number | 75 |

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    نمودارهای خسارت بر حسب شماره
        <span style="direction: rtl">Epoch</span>
    و دقت بر حسب شماره
            <span style="direction: rtl">Epoch</span>
    به صورت زیر است.
</p>

<center>
    <hr style="height:1px;border:none;color:#333;background-color:#333;" />
    <figure>
        <img src='./results/Part2/accuracy.png' alt='missing' />
        <figcaption>Accuracy-Epoch</figcaption>
    </figure>
    <hr style="height:1px;border:none;color:#333;background-color:#333;" />
    <figure>
        <img src='./results/Part2/loss.png' alt='missing' />
        <figcaption>Loss-Epoch</figcaption>
    </figure>
    <hr style="height:1px;border:none;color:#333;background-color:#333;" />
</center>

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    که در کمترین خسارت، دقتی برابر ۷۸ درصد دارد. با توجه به پیچیده تر کردن مدل شبکه عصبی نسبت به قسمت قبل این نتیجه قابل انتظار است.
</p>


***

## Part 3

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    به ازای مقادیر هایپر پارامترهای:
</p>

| Parameter | Value |
| --- | --- |
| Input Size | 256 |
| Batch Size | 12 |
| Learning Rate | $10^{-4}$ |
| Weight Decay | $10^{-3}$ |
| Epochs Number | 120 |

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    نمودارهای خسارت بر حسب شماره
        <span style="direction: rtl">Epoch</span>
    و دقت بر حسب شماره
            <span style="direction: rtl">Epoch</span>
    به صورت زیر است.
</p>

<center>
    <hr style="height:1px;border:none;color:#333;background-color:#333;" />
    <figure>
        <img src='./results/Part3/accuracy.png' alt='missing' />
        <figcaption>Accuracy-Epoch</figcaption>
    </figure>
    <hr style="height:1px;border:none;color:#333;background-color:#333;" />
    <figure>
        <img src='./results/Part3/loss.png' alt='missing' />
        <figcaption>Loss-Epoch</figcaption>
    </figure>
    <hr style="height:1px;border:none;color:#333;background-color:#333;" />
</center>

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    که در کمترین خسارت، دقتی برابر ۸۰ درصد دارد. با توجه به اینکه مدل این قسمت، مدل
        <span style="direction: rtl">AlexNet</span>
     است و برای آموزش شبکه عصبی با این پیچیدگی (تعداد وزن ها و بایاس های بسیار زیاد)، دیتاستی بسیار بزرگ با تنوع بالا لازم است تا مدل به خوبی آموزش یابد و قدرت تعمیم خوبی پیدا کند، قابل انتظار است که با مقادیر اولیه تصادفی مدل با دیتاست کوچک سوال به خوبی آموزش نبیند و نتیجه چندان مطلوب نباشد. (در حدود قسمت ۲)
</p>

***

## Part 4

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    به ازای مقادیر هایپر پارامترهای:
</p>

| Parameter | Value |
| --- | --- |
| Input Size | 256 |
| Batch Size | 12 |
| Learning Rate | $10^{-4}$ |
| Weight Decay | $10^{-4}$ |
| Epochs Number | 45 |

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    نمودارهای خسارت بر حسب شماره
        <span style="direction: rtl">Epoch</span>
    و دقت بر حسب شماره
            <span style="direction: rtl">Epoch</span>
    به صورت زیر است.
</p>

<center>
    <hr style="height:1px;border:none;color:#333;background-color:#333;" />
    <figure>
        <img src='./results/Part4/accuracy.png' alt='missing' />
        <figcaption>Accuracy-Epoch</figcaption>
    </figure>
    <hr style="height:1px;border:none;color:#333;background-color:#333;" />
    <figure>
        <img src='./results/Part4/loss.png' alt='missing' />
        <figcaption>Loss-Epoch</figcaption>
    </figure>
    <hr style="height:1px;border:none;color:#333;background-color:#333;" />
</center>

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    که در کمترین خسارت، دقتی برابر ۸۳ درصد دارد. با توجه به اینکه وزن ها و بایاس های لایه های قبل از لایه آخر فریز شده و ثابت است.
    مشابه قسمت اول می توان استدلال کرد که چرا دقت آموزش کمتر از دقت اعتبارسنجی است.
</p>


***

## Part 5

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    به ازای مقادیر هایپر پارامترهای:
</p>

| Parameter | Value |
| --- | --- |
| Input Size | 256 |
| Batch Size | 12 |
| Learning Rate | .00003 |
| Weight Decay | $10^{-3}$ |
| Epochs Number | 45 |

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
    نمودارهای خسارت بر حسب شماره
        <span style="direction: rtl">Epoch</span>
    و دقت بر حسب شماره
            <span style="direction: rtl">Epoch</span>
    به صورت زیر است.
</p>

<center>
    <hr style="height:1px;border:none;color:#333;background-color:#333;" />
    <figure>
        <img src='./results/Part5/accuracy.png' alt='missing' />
        <figcaption>Accuracy-Epoch</figcaption>
    </figure>
    <hr style="height:1px;border:none;color:#333;background-color:#333;" />
    <figure>
        <img src='./results/Part5/loss.png' alt='missing' />
        <figcaption>Loss-Epoch</figcaption>
    </figure>
    <hr style="height:1px;border:none;color:#333;background-color:#333;" />
</center>

<p style="font-family: 'Vazir Thin'; text-align: right; direction: rtl">
     که در کمترین خسارت، دقتی برابر ۹۰ درصد دارد که همانطور که انتظار می رود با مقدار دهی اولیه وزن ها با مقادیر از پیش آموزش داده شده
     و تنظیم دقیق آن ها به دقت خوبی رسیده ایم.
</p>