<a href="https://colab.research.google.com/github/Mojtaba-Choopani/huggingface-llm-course-fa-notebooks/blob/main/chapter2-USING-TRANSFORMERS/Models.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Models (PyTorch)

<div dir="rtl">

<b style="font-size: 18px;"> ساخت ترنسفورمر</b>

<p>
متد <code>from_pretrained()</code> مدل را از <b>Hugging Face Hub</b> دانلود و کش می‌کند. نام <b>چک‌پوینت</b> نشان‌دهندهٔ معماری و وزن‌های مدل است؛ مثلاً یک مدل BERT با ۱۲ لایه، اندازهٔ پنهان ۷۶۸ و ۱۲ سر توجه، که به بزرگی و کوچکی حروف حساس است.
</p>

<p>
کلاس <code>AutoModel</code> یک <b>رَپِر خودکار</b> است که معماری مناسب مدل را از روی چک‌پوینت تشخیص داده و آن را بارگذاری می‌کند. اگر معماری موردنظر را می‌دانید، می‌توانید مستقیماً از همان کلاس استفاده کنید.
</p>

</div>

In [None]:
from transformers import AutoModel

model = AutoModel.from_pretrained("bert-base-cased")

<div dir="rtl">

<b style="font-size: 18px;"> بارگذاری و ذخیره‌سازی</b>

<p>
برای ذخیره‌سازی مدل، از متد <code>save_pretrained()</code> استفاده می‌شود که <b>دو فایل</b> ذخیره می‌کند:
</p>

<ul>
  <li><code>config.json</code> → شامل معماری و اطلاعات چک‌پوینت</li>
  <li><code>pytorch_model.bin</code> → شامل وزن‌های مدل (state dict)</li>
</ul>

<p>
این دو فایل برای <b>بازسازی کامل مدل</b> کافی هستند.
</p>

</div>
---

<div dir="rtl">

<b style="font-size: 18px;">  انکودر متن</b>

<p>
مدل‌های ترنسفورمر با <b>تبدیل متن به اعداد</b>، آن را پردازش می‌کنند.
</p>

</div>


In [3]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

encoded_input = tokenizer("Hello, I'm a single sentence!")
print(encoded_input)

{'input_ids': [101, 8667, 117, 146, 112, 182, 170, 1423, 5650, 106, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}


<div dir="rtl">

<p>
ما یک <b>دیکشنری</b> با فیلدهای زیر دریافت می‌کنیم:
</p>

<ul>
  <li><code>input_ids</code>: نمایش عددی توکن‌های شما</li>
  <li><code>token_type_ids</code>: به مدل می‌گوید کدام بخش از ورودی جمله A و کدام بخش جمله B است (در بخش بعدی بیشتر توضیح داده می‌شود)</li>
  <li><code>attention_mask</code>: مشخص می‌کند کدام توکن‌ها باید مورد توجه قرار گیرند و کدام نه </li>
</ul>
</div>


<div dir="rtl">

<b style="font-size: 18px;"> پدینگ ورودی‌ها</b>

<p>
اگر از توکنایزر بخواهیم که ورودی‌ها را <b>پدگذاری</b> کند، آن تمام جملات را با اضافه کردن یک <b>توکن ویژهٔ پد (padding token)</b> به انتهای جملات کوتاه‌تر، به یک طول یکسان می‌رساند.
</p>

</div>


In [4]:
encoded_input = tokenizer(
    ["How are you?", "I'm fine, thank you!"], padding=True, return_tensors="pt"
)
print(encoded_input)

{'input_ids': tensor([[ 101, 1731, 1132, 1128,  136,  102,    0,    0,    0,    0],
        [ 101,  146,  112,  182, 2503,  117, 6243, 1128,  106,  102]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 0, 0, 0, 0],
        [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}


<div dir="rtl">

<b style="font-size: 18px;"> کوتاه‌سازی (Truncating) ورودی‌ها</b>

<p>
اگر طول ورودی از حد مجاز مدل (مثلاً <b>۵۱۲ توکن</b> در BERT) بیشتر باشد، باید با پارامتر <code>truncation</code> آن را کوتاه کنیم تا مدل بتواند آن را پردازش کند.
</p>

</div>


In [5]:
encoded_input = tokenizer(
    "This is a very very very very very very very very very very very very very very very very very very very very very very very very very very very very very very very very very very very very very very very very very very very very very very very very very long sentence.",
    truncation=True,
)
print(encoded_input["input_ids"])

[101, 1188, 1110, 170, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1304, 1263, 5650, 119, 102]


<div dir="rtl">

<p>
با <b>ترکیب دو پارامتر</b> <code>padding</code> و <code>truncation</code>، می‌توانید مطمئن شوید که <b>تنسورهای شما دقیقاً به اندازهٔ مورد نیازتان</b> هستند.
</p>

</div>


In [6]:
encoded_input = tokenizer(
    ["How are you?", "I'm fine, thank you!"],
    padding=True,
    truncation=True,
    max_length=5,
    return_tensors="pt",
)
print(encoded_input)

{'input_ids': tensor([[ 101, 1731, 1132, 1128,  102],
        [ 101,  146,  112,  182,  102]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1]])}


<div dir="rtl">

<b style="font-size: 18px;">🔖 افزودن توکن‌های ویژه</b>

<p>
توکن‌های ویژه مانند <code>[CLS]</code> و <code>[SEP]</code> برای <b>مشخص کردن مرز جمله</b> و <b>جدا کردن جملات</b> در مدل‌هایی مثل <b>BERT</b> ضروری هستند.
</p>

</div>


In [7]:
encoded_input = tokenizer("How are you?")
print(encoded_input["input_ids"])
tokenizer.decode(encoded_input["input_ids"])

[101, 1731, 1132, 1128, 136, 102]


'[CLS] How are you? [SEP]'

In [None]:
!pip install datasets evaluate transformers[sentencepiece]

In [None]:
from transformers import BertConfig, BertModel

# Building the config
config = BertConfig()

# Building the model from the config
model = BertModel(config)

In [None]:
print(config)

BertConfig {
  [...]
  "hidden_size": 768,
  "intermediate_size": 3072,
  "max_position_embeddings": 512,
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  [...]
}

In [None]:
from transformers import BertConfig, BertModel

config = BertConfig()
model = BertModel(config)

# Model is randomly initialized!

In [None]:
from transformers import BertModel

model = BertModel.from_pretrained("bert-base-cased")

In [None]:
model.save_pretrained("directory_on_my_computer")

In [None]:
sequences = ["Hello!", "Cool.", "Nice!"]

In [None]:
encoded_sequences = [
    [101, 7592, 999, 102],
    [101, 4658, 1012, 102],
    [101, 3835, 999, 102],
]

In [None]:
import torch

model_inputs = torch.tensor(encoded_sequences)

In [None]:
output = model(model_inputs)