<a href="https://colab.research.google.com/github/Mojtaba-Choopani/huggingface-llm-course-fa-notebooks/blob/main/chapter2-USING-TRANSFORMERS/Behind-the-pipeline.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Behind the pipeline (PyTorch)

Install the Transformers, Datasets, and Evaluate libraries to run this notebook.

In [None]:
!pip install datasets evaluate transformers[sentencepiece]

<div dir="rtl">
<b style="font-size: 18px;">
در فصل قبل با pipeline() آشنا شدیم.

</div>

In [None]:
from transformers import pipeline

classifier = pipeline("sentiment-analysis")
classifier(
    [
        "I've been waiting for a HuggingFace course my whole life.",
        "I hate this so much!",
    ]
)

[{'label': 'POSITIVE', 'score': 0.9598047137260437},
 {'label': 'NEGATIVE', 'score': 0.9994558095932007}]

<div dir="rtl">
<b style="font-size: 18px;"> پیش‌پردازش با توکنایزر در مدل‌های ترنسفورمر</b>
<br><br>
مدل‌های ترنسفورمر مانند دیگر شبکه‌های عصبی نمی‌توانند مستقیماً متن خام را پردازش کنند. بنابراین، نخستین گام در پایپ‌لاین تبدیل ورودی متنی به داده‌های عددی قابل‌فهم برای مدل است.
<br><br>
برای این منظور از <b>توکنایزر</b> استفاده می‌شود. وظایف اصلی آن شامل موارد زیر است:
<ul>
<li>تقسیم متن به توکن‌ها (کلمات، زیرکلمات یا نمادهای نگارشی)</li>
<li>نگاشت هر توکن به یک شناسه عددی</li>
<li>افزودن ورودی‌های کمکی مانند [CLS] یا [MASK] بسته به وظیفه مدل</li>
</ul>
این پیش‌پردازش باید <b>دقیقاً مشابه فرآیند پیش‌ آموزش مدل</b> باشد. برای این کار از کلاس <code>AutoTokenizer</code> و متد <code>from_pretrained()</code> استفاده می‌کنیم تا پیکربندی و واژه‌نامه توکنایزر متناسب با مدل از Model Hub بارگیری شود.

برای پایپ‌لاین تحلیل احساسات، این مدل پیش‌فرض است:
<div>

In [None]:
from transformers import AutoTokenizer

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

In [None]:
raw_inputs = [
    "I've been waiting for a HuggingFace course my whole life.",
    "I hate this so much!",
]
inputs = tokenizer(raw_inputs, padding=True, truncation=True, return_tensors="pt")
print(inputs)

{
    'input_ids': tensor([
        [  101,  1045,  1005,  2310,  2042,  3403,  2005,  1037, 17662, 12172, 2607,  2026,  2878,  2166,  1012,   102],
        [  101,  1045,  5223,  2023,  2061,  2172,   999,   102,     0,     0,     0,     0,     0,     0,     0,     0]
    ]), 
    'attention_mask': tensor([
        [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0]
    ])
}

In [None]:
from transformers import AutoModel

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
model = AutoModel.from_pretrained(checkpoint)

In [None]:
outputs = model(**inputs)
print(outputs.last_hidden_state.shape)

torch.Size([2, 16, 768])

In [None]:
from transformers import AutoModelForSequenceClassification

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)
outputs = model(**inputs)

In [None]:
print(outputs.logits.shape)

torch.Size([2, 2])

In [None]:
print(outputs.logits)

tensor([[-1.5607,  1.6123],
        [ 4.1692, -3.3464]], grad_fn=<AddmmBackward>)

In [None]:
import torch

predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
print(predictions)

tensor([[4.0195e-02, 9.5980e-01],
        [9.9946e-01, 5.4418e-04]], grad_fn=<SoftmaxBackward>)

In [None]:
model.config.id2label

{0: 'NEGATIVE', 1: 'POSITIVE'}