<p dir="rtl">
برای استفاده از خودِ <b>PyTorch</b>، یعنی همه‌ی امکانات اصلی مثل ساخت <b>Tensor</b>‌ها و اجرای عملیات روی <b>GPU/CPU</b>
</p>

In [1]:
import torch 


<p dir="rtl">
این خط برای وارد کردن <b>torch.nn</b> است؛ 
کتابخانه‌ای که اجازه می‌دهد لایه‌های شبکه عصبی مانند <b>Conv2d</b> و <b>Pooling</b> را بسازیم.
</p>

In [7]:
import torch.nn as nn

<p dir="rtl">
این خط برای وارد کردن <b>torch.nn.functional</b> است؛
که توابع آماده مانند <b>ReLU</b>، <b>softmax</b> و سایر عملیات ریاضی روی لایه‌ها را فراهم می‌کند.
</p>


In [8]:
import torch.nn.functional as F

<p dir="rtl">
این خط برای وارد کردن <b>torch.optim</b> است؛
که به ما اجازه می‌دهد بهینه‌سازهایی مانند <b>SGD</b> و <b>Adam</b> را برای بروزرسانی وزن‌ها استفاده کنیم.
</p>


In [9]:
import torch.optim as optim

<p dir="rtl">
این خط برای وارد کردن <b>torchvision</b> است؛
کتابخانه‌ای که دیتاست‌ها و ترنسفورم‌های آماده تصاویر مانند <b>MNIST</b> و <b>CIFAR</b> را فراهم می‌کند.
</p>


In [10]:
import torchvision

<p dir="rtl">
این خط برای وارد کردن <b>torchvision.transforms</b> است؛
که امکان انجام تبدیل‌ها و پیش‌پردازش تصاویر مانند <b>Resize</b>، <b>Normalize</b> و تبدیل به <b>Tensor</b> را فراهم می‌کند.
</p>

In [11]:
import torchvision.transforms as transforms

<p dir="rtl">
این خط برای تعریف یک کلاس <b>CNN</b> ساده است.
سازنده <b>__init__</b> آماده می‌شود تا بتوانیم لایه‌ها را در آن اضافه کنیم.
</p>


<p dir="rtl">
استفاده از <b>super()</b> در اینجا برای فراخوانی سازنده کلاس پایه <b>nn.Module</b> است.
این کار لازم است تا <b>CNN</b> ما بتواند تمام امکانات داخلی <b>nn.Module</b> مانند مدیریت پارامترها و ثبت لایه‌ها را داشته باشد.
بدون <b>super()</b> ممکن است شبکه بدرستی عمل نکند یا خطا بدهد.
</p>

In [21]:
class SimpleCNN(nn.Module):
    def __init__(self):
        super(SimpleCNN, self).__init__()
        self.conv1 = nn.Conv2d(
            in_channels=1,  
            out_channels=16,
            kernel_size=3,
            stride=1,
            padding=1
        )
        self.relu = nn.ReLU()

    def forward(self, x):
        x = self.conv1(x)
        x = self.relu(x)
        return x


<p dir="rtl">
این خط یک لایه <b>Conv2d</b> اول در <b>CNN</b> ایجاد می‌کند.
- <b>in_channels=1</b> : تعداد کانال‌های ورودی (مثلاً تصاویر سیاه‌وسفید)  
- <b>out_channels=16</b> : تعداد فیلترهای خروجی  
- <b>kernel_size=3</b> : اندازه کرنل 3×3  
- <b>stride=1</b> : گام حرکت کرنل  
- <b>padding=1</b> : اضافه کردن لبه‌ها برای حفظ ابعاد
</p>


<p dir="rtl">
تعداد <b>out_channels=16</b> در لایه اول <b>Conv2d</b> یک انتخاب متداول و منطقی است.  
- هر فیلتر (کانال خروجی) یک ویژگی خاص تصویر را استخراج می‌کند، پس با 16 فیلتر، شبکه می‌تواند 16 ویژگی مختلف را یاد بگیرد.  
- اگر تعداد فیلترها کمتر باشد (مثلاً 4 یا 8)، ممکن است شبکه نتواند جزئیات تصویر را به خوبی تشخیص دهد.  
- اگر تعداد فیلترها خیلی زیاد باشد (مثلاً 64 یا 128)، حجم محاسبات و مصرف حافظه افزایش می‌یابد و برای لایه‌های ابتدایی معمولاً لازم نیست اینقدر فیلتر داشته باشیم.  
بنابراین 16 یک تعادل مناسب بین <b>قدرت استخراج ویژگی</b> و <b>کارایی محاسباتی</b> ایجاد می‌کند و انتخاب رایجی برای لایه اول CNN است.
</p>



<p dir="rtl">
اندازه <b>kernel_size=3</b> یعنی فیلتر 3×3 روی تصویر اعمال می‌شود.  
- فیلتر 3×3 یک انتخاب متداول در CNNهاست زیرا به اندازه کافی کوچک است تا جزئیات محلی تصویر را بگیرد،  
و همزمان محاسبات زیادی نیاز ندارد.  
- اندازه بزرگتر (مثلاً 5×5 یا 7×7) ویژگی‌های وسیع‌تر را می‌گیرد ولی محاسبات سنگین‌تر می‌شود و ممکن است جزئیات ریز را از دست بدهد.  
- بنابراین <b>3×3</b> تعادل خوبی بین دقت و کارایی محاسباتی ایجاد می‌کند و در اکثر شبکه‌ها استفاده می‌شود.
</p>


<p dir="rtl">
پارامتر <b>stride=1</b> مشخص می‌کند فیلتر <b>Conv2d</b> در هر حرکت فقط یک پیکسل به جلو برود.  
- با <b>stride=1</b> تصویر خروجی تقریباً همان ابعاد ورودی را حفظ می‌کند (به شرط اینکه padding مناسب باشد).  
- اگر stride بزرگتر باشد (مثلاً 2 یا 3)، اندازه خروجی کاهش می‌یابد و اطلاعات محلی جزئی از بین می‌رود.  
- بنابراین <b>stride=1</b> انتخاب رایج در لایه‌های ابتدایی CNN است تا جزئیات تصویر حفظ شود.
</p>


<p dir="rtl">
پارامتر <b>padding=1</b> مشخص می‌کند که اطراف تصویر <b>یک لایه صفر</b> اضافه شود.  
- این کار باعث می‌شود بعد از اعمال <b>Conv2d</b>، ابعاد تصویر تقریباً همانند ورودی باقی بماند.  
- بدون padding، اندازه تصویر خروجی کوچک‌تر می‌شود و لبه‌های تصویر کمتر در فرآیند یادگیری در نظر گرفته می‌شوند.  
- بنابراین <b>padding=1</b> تعادل خوبی بین حفظ ابعاد و استخراج ویژگی‌ها ایجاد می‌کند و در لایه‌های ابتدایی CNN معمولاً استفاده می‌شود.
</p>


<p dir="rtl">
این خط یک <b>تابع فعال‌سازی ReLU</b> برای <b>CNN</b> ایجاد می‌کند.
ReLU به شبکه اجازه می‌دهد تا <b>غیرخطی بودن</b> داشته باشد و یادگیری ویژگی‌ها بهتر انجام شود.
</p>


<p dir="rtl">
همیشه بعد از هر لایه <b>Conv2d</b> لازم نیست تابع فعال‌سازی گذاشته شود،  
اما معمولاً در اکثر شبکه‌های CNN بعد از لایه پیچشی یک تابع فعال‌سازی مانند <b>ReLU</b> قرار می‌دهند.  
- هدف این است که شبکه <b>غیرخطی</b> شود و بتواند ویژگی‌های پیچیده‌تر تصویر را یاد بگیرد.  
- در برخی لایه‌ها یا معماری‌ها ممکن است فعال‌سازی بعدی اعمال نشود، مثلاً در لایه خروجی برای برخی وظایف خاص.
</p>
