In [1]:
import warnings
warnings.filterwarnings('ignore')

# **Intorduction to 🤗 Hugging Face and Transformers Library**


NLP 是語言學和機器學習領域，專注於理解與人類語言相關的一切。 NLP 任務的目標不僅是單獨理解單字，而且能夠理解這些單字的上下文。</p>
NLP 常見的任務有：
   1. **Classifying whole sentences 文本分類（分類整句）**：將整個句子進行分類
      - 情感分析：「這部電影很棒！」 -> positive
      - 垃圾郵件檢測：「你的 iphone 已被嚴重損壞」-> spam 
   2. **Classifying each word in a sentence 單詞分類**：對一句話中的所有字進行分類
      - 語法分析：「他跑得快」-> 他（代詞）跑（動詞）得（副詞）快（形容詞）
      - 命名實體 NER
   3. **Sentence Generation**
      1. **填充遮蔽詞**：「像這種要求，我這輩子[mask]！」-> 沒聽過
      2. **自動生成**：「今天天氣如何」-> 「今天天氣非常晴朗適合外出」
      3. **翻譯**：「你好」-> 「Hello」
      4. **摘要（問答）**
         1. 從文本中提取答案：「法國的首都是巴黎。   首都在哪」-> 巴黎（藉由巴黎在原文的 index 抓出來）
         2. 以生成模型進行摘要：「法國的首都是巴黎。   首都在哪」-> 首都在巴黎（使用生成模型，例如 chatgpt）

## **`pipeline` in Hugging Face transformers**
``transformers`` 為 🤗Hugging face 提供的套件，讓開發者可以創建、使用 Hugging face hub 上 NLP、LLM 的模型</p>
> Hugging face hub 上的模型不只有 transformer，任何人都可以上傳任何類型的模型或資料集

在 `transformers` 中最高階的函數是 `pipeline`，
該函數將使用模型需要的預處理、推理與後處理串連起來，</p>
傳入指定的 task，`pipeline` 會自動以適合的模型進行推理（預測）。

可以從 [hub](https://huggingface.co/models) 透過 Tasks、Languages 篩選找到自己想要應用的模型</p>
從 [task summary](https://huggingface.co/docs/transformers/task_summary) 找到支援的 NLP 相關任務

In [3]:
from pprint import pprint
from transformers import pipeline
pipe = pipeline(task="sentiment-analysis")
pipe("this is awesome!!!")

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


[{'label': 'POSITIVE', 'score': 0.9998723268508911}]

在 ner 任務中，模型會對所有字詞（token） 進行分類</p>
1. 該字詞（token）對應的 entity
2. score 機率值
3. 以及對應到文本的起始結束位置

In [4]:
ner_pipe = pipeline(task="ner", 
                # model='dslim/bert-base-NER'
                )
ner_pipe("Hugging Face is a French company based in New York City.")

No model was supplied, defaulted to dbmdz/bert-large-cased-finetuned-conll03-english and revision f2482bf (https://huggingface.co/dbmdz/bert-large-cased-finetuned-conll03-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


Downloading config.json:   0%|          | 0.00/998 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/1.33G [00:00<?, ?B/s]

Downloading tokenizer_config.json:   0%|          | 0.00/60.0 [00:00<?, ?B/s]

Downloading vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]

[{'end': 2,
  'entity': 'I-ORG',
  'index': 1,
  'score': 0.9967675,
  'start': 0,
  'word': 'Hu'},
 {'end': 7,
  'entity': 'I-ORG',
  'index': 2,
  'score': 0.9293027,
  'start': 2,
  'word': '##gging'},
 {'end': 12,
  'entity': 'I-ORG',
  'index': 3,
  'score': 0.97632104,
  'start': 8,
  'word': 'Face'},
 {'end': 24,
  'entity': 'I-MISC',
  'index': 6,
  'score': 0.99828726,
  'start': 18,
  'word': 'French'},
 {'end': 45,
  'entity': 'I-LOC',
  'index': 10,
  'score': 0.99896204,
  'start': 42,
  'word': 'New'},
 {'end': 50,
  'entity': 'I-LOC',
  'index': 11,
  'score': 0.9986792,
  'start': 46,
  'word': 'York'},
 {'end': 55,
  'entity': 'I-LOC',
  'index': 12,
  'score': 0.9992418,
  'start': 51,
  'word': 'City'}]


### **Practice #1**

使用 question answering 以 pipeline 做 QA 任務：
- 文本：the name of repo is bert-base-uncased
- 目標：問模型 repo 的名稱
- 預期答案：bert-base-uncased

In [None]:
# TODO

