# Auto Encoder
<p dir="rtl">
در اینجا می‌خواهیم در ارتباط با Auto Encoder صحبت کنیم. اتو انکودر یک معماری مقدماتی در شبکه‌های عصبی است که از دو بخش Encoder و Decoder تشکیل شده است.
</p>

<p dir="rtl">
در تصویر زیر ساختار کلی شبکه عصبی Autoencoder رو می‌بینین.
</p>

![ساختار شبکه عصبی](nn.svg)



<p dir="rtl">
اینجا اهمیتی نداره که گره‌های شبکه عصبی ما نورون ساده باشن یا شبکه عصبی ما از لایه‌های کانولوشنال تشکیل شده باشه. چیزی که اهمیت داره اینه که یک لایه اون وسط باشه که از لحاظ بعد از لایه ورودی کم بعد تر باشه و لایه خروجی هم دقیقا هم بعد لایه ورودی باشه.
</p>
<h2 dir="rtl">کاهش بُعد</h2>
<p dir="rtl">
این مدل وظیفه اصلی که داره کاهش بعد هست. و در صورتی که در بین توابع فعال سازش تماما از تواببع خطی استفاده کنه و برای تابع هزینه هم از میانگین مربعات خطا استفاده کنه، دقیقا مثل PCA(Priincipal Component Analysis) عمل می‌کنه و روابط غیر خطی رو نمی‌تونه تشخیص بده.
</p>

<h2 dir="rtl">ورودی و خروجی</h2>
<p dir="rtl">
این مدل جزء مدل‌های بدون نظارت هستش. یعنی ما نیازی به لیبل گذاری نداریم. همون داده‌های ورودی رو از خروجی تحویل می‌گیریم. با توجه به کاربری و نیازی که داریم گاهی اوقات ورودی و خروجی رو نویزی می‌کنیم ولی داده جدید یا لیبلی در کار نیست.
</p>

<h2 dir="rtl">فرمول نویسی مراحل اتو انکودر</h2>
<p dir="rtl">
اگر بخواهیم مراحلی که داده از ورودی شروع می‌کند و تا خروجی پیش می‌رود را فرموله کنیم به این شکل می‌توانیم قرارداد کنیم.
</p>
<p dir="rtl">
مجموعه داده:
</p>

$$D = \{x_1, x_2, ..., x_n\}$$

<p dir="rtl">
خروجی بخش encoder را به این شکل نمایش می‌دیم:
</p>

$$
f(x)
$$

<p dir="rtl">
تابع بخش decoder هم اگر به شکل تابع g نمایش بدیم.
</p>

$$
g(f(x))
$$

<p dir="rtl">
نمایش کل مدل Autoencoder ما خواهد بود.
</p>

<h2 dir="rtl">تابع ضرر</h2>
<p dir="rtl">
همون طور که گفتیم این مدل دقیقا همونی که در ورودی گرفته رو در خروجی باید تحویل بده و در نتیجه تابع ضرر ما هم به شکل مقایسه خروجی مدل با همون x مورد نظر ما هستش.
</p>

$$
\Delta(x_i, \tilde{x}_i)
$$


<h3 dir="rtl">جلوگیری از تبدیل شدن به تابع یک به یک</h3>
<p dir="rtl">
بعضی وقت‌ها ما نیاز داریم که این ساختار نهایی مدل علاوه بر این که بخش Encoder برای ما کاهش بعد انجام می‌دهد با همکاری با بخش Decoder بتواند کاهش نویز انجام دهد. یعنی بخش Encoder واقعا فقط داده‌های مهم را در فضای میانی (Latent space) ذخیره کند و Decoder هم فقط داده‌های مهم را باز سازی کند ولی اگر بر این کار نظارت خاصی نکنیم ممکن است Encoder تمام اطلاعات را به نحوی در فضای میانی فشرده سازی کند و مدل تبدیل شود به یک تابع همانی که دقیقا هر چیزی چه داده نویز دار چه بدون نویز در ورودی دریافت کند همان را در خروجی به ما تحویل دهد. برای جلوگیری از این کار یک جریمه دیگر نیز تعریف می‌کنیم که از یک دانش پیشین کمک بگیرد و بررسی کند فضای میانی (Latent space) درست مقدار دهی می‌شود یا نه؟
</p>

$$
l_{Prior knowledge} = w(f(x_i))
$$


<h2 dir="rtl">تابع هزینه</h2>
<p dir="rtl">
با ترکیب تابع ضرر قبلی و هزینه‌ای که از اون دانش پیشین بدست می‌یاریم می‌تونیم یک تابع هزینه مناسب بدست بیاریم البته ممکن هست همیشه ما دانش پیشین مناسبی نداشته باشیم به همین خاطر تنظیم تأثیر پذیری اون با ضریبی به نام ترم تنظیم انجام می‌شه.  
</p>

$$
C(x) = \Delta(x_i, \tilde{x}_i) + \lambda \times w(f(x_i)) 
$$

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Define the activation functions
def relu(x):
    return np.maximum(0, x)

def leaky_relu(x, alpha=0.01):
    return np.where(x > 0, x, alpha * x)

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def tanh(x):
    return np.tanh(x)

def softmax(x):
    e_x = np.exp(x - np.max(x))  # for numerical stability
    return e_x / np.sum(e_x)

def elu(x, alpha=1.0):
    return np.where(x > 0, x, alpha * (np.exp(x) - 1))

def swish(x):
    return x / (1 + np.exp(-x))

def gelu(x):
    return 0.5 * x * (1 + np.tanh(np.sqrt(2/np.pi) * (x + 0.044715 * np.power(x, 3))))

# Generate input data
x = np.linspace(-3, 3, 400)

# Plotting
plt.figure(figsize=(14, 10))

plt.subplot(3, 3, 1)
plt.plot(x, relu(x))
plt.title('ReLU')

plt.subplot(3, 3, 2)
plt.plot(x, leaky_relu(x))
plt.title('Leaky ReLU')

plt.subplot(3, 3, 3)
plt.plot(x, sigmoid(x))
plt.title('Sigmoid')

plt.subplot(3, 3, 4)
plt.plot(x, tanh(x))
plt.title('Tanh')

plt.subplot(3, 3, 5)
plt.plot(x, softmax(x))
plt.title('Softmax')

plt.subplot(3, 3, 6)
plt.plot(x, elu(x))
plt.title('ELU')

plt.subplot(3, 3, 7)
plt.plot(x, swish(x))
plt.title('Swish')

plt.subplot(3, 3, 8)
plt.plot(x, gelu(x))
plt.title('GELU')

plt.tight_layout()
plt.show()