# Install Packages

In [None]:
!pip install python-dotenv
!pip install transformers
!pip install bitsandbytes
!pip install accelerate
!pip install sentence_transformers

Collecting python-dotenv
  Downloading python_dotenv-1.0.1-py3-none-any.whl (19 kB)
Installing collected packages: python-dotenv
Successfully installed python-dotenv-1.0.1
Collecting bitsandbytes
  Downloading bitsandbytes-0.43.1-py3-none-manylinux_2_24_x86_64.whl (119.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m119.8/119.8 MB[0m [31m8.2 MB/s[0m eta [36m0:00:00[0m
Collecting nvidia-cuda-nvrtc-cu12==12.1.105 (from torch->bitsandbytes)
  Using cached nvidia_cuda_nvrtc_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (23.7 MB)
Collecting nvidia-cuda-runtime-cu12==12.1.105 (from torch->bitsandbytes)
  Using cached nvidia_cuda_runtime_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (823 kB)
Collecting nvidia-cuda-cupti-cu12==12.1.105 (from torch->bitsandbytes)
  Using cached nvidia_cuda_cupti_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (14.1 MB)
Collecting nvidia-cudnn-cu12==8.9.2.26 (from torch->bitsandbytes)
  Using cached nvidia_cudnn_cu12-8.9.2.26-py3-none-manyl

# 設定金鑰
* 這段程式碼的主要目的是設定和加載 Hugging Face 的 API 金鑰，以便與 Hugging Face Hub 進行互動。
* ``os.getenv()`` 函數會從系統環境變數中取得名為 HUGGINGFACEHUB_API_TOKEN 的值，並將其賦值給 HF_TOKEN 變數

In [None]:
# 忽略程式執行中的所有警告訊
import warnings
warnings.filterwarnings('ignore')

# 設定 APIKEY
import os
from dotenv import load_dotenv, find_dotenv

# 加載本地 .env 文件中的環境變數
_ = load_dotenv(find_dotenv()) # read local .env file

# 從環境變數中取得 Hugging Face Hub 的 API 金鑰
HF_TOKEN = os.getenv("HUGGINGFACEHUB_API_TOKEN")

# 介紹 Hugging Face

**Intorduction to 🤗 Hugging Face and Transformers Library**

[🤗 hugging face NLP course](https://huggingface.co/learn/nlp-course/chapter1/1)


NLP 是語言學和機器學習領域，專注於理解與人類語言相關的一切。 NLP 任務的目標不僅是單獨理解單字，而且能夠理解這些單字的上下文。</p>
NLP 常見的任務有：
   1. **Classifying whole sentences 文本分類（分類整句）**：將整個句子進行分類
      - 情感分析：「這部電影很棒！」 -> positive
      - 垃圾郵件檢測：「你的 iphone 已被嚴重損壞」-> spam
   2. **Classifying each word in a sentence 單詞分類**：對一句話中的所有字進行分類
      - 語法分析：「他跑得快」-> 他（代詞）跑（動詞）得（副詞）快（形容詞）
      - 命名實體 NER
   3. **Sentence Generation**
      1. **填充遮蔽詞**：「像這種要求，我這輩子[mask]！」-> [mask] 預測為 沒聽過
      2. **自動生成**：「今天天氣如何」-> 「今天天氣非常晴朗適合外出」
      3. **翻譯**：「你好」-> 「Hello」
      4. **摘要（問答）**
         1. 從文本中提取答案 Extractive QA：「法國的首都是巴黎。   首都在哪」-> 巴黎（藉由巴黎在原文的 index 抓出來）
         2. 以生成模型進行摘要 Generative QA：「法國的首都是巴黎。   首都在哪」-> 首都在巴黎（使用生成模型，例如 chatgpt）

## pipeline

 **`pipeline` in Hugging Face transformers**
``transformers`` 為 🤗Hugging face 提供的套件，讓開發者可以創建、使用 Hugging face hub 上 NLP、LLM 的模型</p>
> Hugging face hub 上的模型不只有 transformer，任何人都可以上傳任何類型的模型或資料集

在 `transformers` 中最高階的函數是 `pipeline`，
該函數將使用模型需要的預處理、推理與後處理串連起來，</p>
傳入指定的 task，`pipeline` 會自動以適合的模型進行推理（預測）。

可以從 [hub](https://huggingface.co/models) 透過 Tasks、Languages 篩選找到自己想要應用的模型</p>
從 1. [task summary](https://huggingface.co/docs/transformers/task_summary) 2. [Tasks](https://huggingface.co/tasks) 找到支援的 NLP 相關任務

### **用 pipeline 完成常見 NLP 任務**

#### 1.情感分析

1. 情感分析 aka 分類問題
* pipeline 一行 code 就可以做到想做的事情

In [None]:
from pprint import pprint
from transformers import pipeline # Hugging Face 有個 API 叫做 pipeline
pipe = pipeline(task="sentiment-analysis")  # 這裡想做情感分析 #他會自己抓支援這個 Task 的模型
pipe("this is awesome!!!")

No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/629 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/268M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

[{'label': 'POSITIVE', 'score': 0.9998723268508911}]

#### 2.命名實體

2. 命名實體</p>



在 ner 任務中，模型會對所有字詞（token） 進行分類，得到：</p>
1. 該字詞（token）對應的 entity
2. score 機率值
3. 以及對應到文本的起始結束位置

In [None]:
ner_pipe = pipeline(task="ner",
                # model='dslim/bert-base-NER'
                )
ner_pipe("Hugging Face is a French company based in New York City.")

No model was supplied, defaulted to dbmdz/bert-large-cased-finetuned-conll03-english and revision f2482bf (https://huggingface.co/dbmdz/bert-large-cased-finetuned-conll03-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/998 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.33G [00:00<?, ?B/s]

Some weights of the model checkpoint at dbmdz/bert-large-cased-finetuned-conll03-english were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


tokenizer_config.json:   0%|          | 0.00/60.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]

[{'entity': 'I-ORG',
  'score': 0.9967675,
  'index': 1,
  'word': 'Hu',
  'start': 0,
  'end': 2},
 {'entity': 'I-ORG',
  'score': 0.92930275,
  'index': 2,
  'word': '##gging',
  'start': 2,
  'end': 7},
 {'entity': 'I-ORG',
  'score': 0.9763208,
  'index': 3,
  'word': 'Face',
  'start': 8,
  'end': 12},
 {'entity': 'I-MISC',
  'score': 0.99828726,
  'index': 6,
  'word': 'French',
  'start': 18,
  'end': 24},
 {'entity': 'I-LOC',
  'score': 0.99896204,
  'index': 10,
  'word': 'New',
  'start': 42,
  'end': 45},
 {'entity': 'I-LOC',
  'score': 0.9986792,
  'index': 11,
  'word': 'York',
  'start': 46,
  'end': 50},
 {'entity': 'I-LOC',
  'score': 0.9992418,
  'index': 12,
  'word': 'City',
  'start': 51,
  'end': 55}]

#### **練習 #1 QA任務**

使用 Extractive QA model 以 `pipeline` 做 [question-answering](https://huggingface.co/distilbert/distilbert-base-cased-distilled-squad) 任務：
- **給定文本**：the name of repo is bert-base-uncased
- **問題目標**：問模型 repo 的名稱
- **預期答案**：bert-base-uncased

In [None]:
# TODO
# practice 1 不需要特別指定模型，pipeline 預設載入 distilbert-base-cased-distilled-squad,
# 其為 Extractive QA 類摘要模型

from transformers import pipeline

In [None]:
# 要輸入 task
pipe = pipeline(task='question-answering')
# pipe(context, question)
pipe({'context': 'the name of repo is bert-base-uncased', 'question': 'What is the name of the repo?'})

No model was supplied, defaulted to distilbert/distilbert-base-cased-distilled-squad and revision 626af31 (https://huggingface.co/distilbert/distilbert-base-cased-distilled-squad).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/473 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/261M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/49.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/436k [00:00<?, ?B/s]

{'score': 0.9686291217803955,
 'start': 20,
 'end': 37,
 'answer': 'bert-base-uncased'}

### 實作 Chatbot

**利用 Conversation class 與 text-generation model 實作 chatbot**

In [None]:
from pprint import pprint

from torch import cuda, bfloat16
from transformers import pipeline
from transformers import BitsAndBytesConfig, AutoConfig, AutoModelForCausalLM, AutoTokenizer
device = f'cuda:{cuda.current_device()}' if cuda.is_available() else 'cpu'
print(device)

cuda:0


因為載入模型較大，使用 T4 GPU 時建議進行量化，以下程式為量化處理過程，</p>
在此先不贅述，有興趣的可以參考 Hugging face 官方文件～</p>

與前面範例不同的是，模型載入方法，我們透過 `AuToModelForCausalLM` 實例化模型，將其作為參數傳入 `pipeline`。

In [None]:
model_id = 'MediaTek-Research/Breeze-7B-32k-Instruct-v1_0'

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type='nf4',
    bnb_4bit_use_double_quant=True,
    bnb_4bit_compute_dtype=bfloat16
)

model_config = AutoConfig.from_pretrained(
    model_id
)

tokenizer = AutoTokenizer.from_pretrained(
    model_id)

hf_model = AutoModelForCausalLM.from_pretrained(
    model_id,
    trust_remote_code=True,
    config=model_config,
    quantization_config=bnb_config,
    device_map='auto'
)

config.json:   0%|          | 0.00/735 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/2.33k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/911k [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/39.0 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/551 [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


model.safetensors.index.json:   0%|          | 0.00/25.1k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/4 [00:00<?, ?it/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/4.96G [00:00<?, ?B/s]

model-00002-of-00004.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

model-00003-of-00004.safetensors:   0%|          | 0.00/4.60G [00:00<?, ?B/s]

model-00004-of-00004.safetensors:   0%|          | 0.00/512M [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/111 [00:00<?, ?B/s]

In [None]:
chatbot = pipeline(
    "text-generation",
    model=hf_model,     # 這邊多放一個量化的模型
    tokenizer=tokenizer, # Tokenizer，要與模型匹配，主要提供 chat 模式時的特殊符號
    max_new_tokens=1024, # 模型最多可以生成多少字
    return_full_text=False # 控制 pipeline 只輸出 AI Message
)

聊天式模型，例如 ChatGPT 其實基本上是透過 text-generation 作為基礎模型，進一步訓練模型能過聊天。
所以模型的選擇，我們可以在 Huggingface 上找到 text-generation 任務的模型，應該都可以支援。</p>

比較特別的是，要做聊天任務時，模型需要一些特殊符號來區別每一段訊息是來自於 User 或是 AI 還是 System Prompt</p>
而各個模型的特殊符號不盡相同，需要去查閱官方文件。例如 Demo 使用的聯發科 Breeze 模型是透過 `[INST]` 、 `[/INST]` 以及 `<s>` 作為區隔。
所以我們在使用模型時，就會需要將文字加上這些特殊符號才能夠發揮模型聊天的能力。</p>

通常我們會使用 list of dict 的方式處存聊天的記錄，使用 role 區別 user 與 ai，content 代表內容，而 Hugging face 的模型也支援這樣的格式，例如：


```
[
    {"role": "user", "content": "嗨你好嗎"},
    {"role": "assistant", "content": "嗨您好，我是您的 AI 助理，很高興為您服務。"},
    {"role": "user", "content": "掰掰"},
    {"role": "assistant", "content": "掰掰，期待再相見"},

]

```

我們可以透過實例化 Conversation 這個 class，透過 `add_user_input` 與 `append_response` 新增歷史使用者輸入與模型回覆，將資料變為上述的資料格式再送給模型進行推理。


In [None]:
from transformers import Conversation
conversation = Conversation() # 建立一個對話 Conversation 物件

#### 利用 `add_user_input` 新增 user 聊天記錄

In [None]:
conversation.add_user_input("provided information: the name of repo is bert-base-uncased. Based on the provided information, what is the name of repo?")
print(f"目前聊天記錄：{conversation.messages}") # conversation.messages 可以直接丟給 chatbot 得到回覆

目前聊天記錄：[{'role': 'user', 'content': 'provided information: the name of repo is bert-base-uncased. Based on the provided information, what is the name of repo?'}]


In [None]:
# 將 conversation.messages 丟給 chatbot
chatbot_result = chatbot(conversation.messages)
print(chatbot_result)

[{'generated_text': '根據提供的信息，repo的名称是"bert-base-uncased"。'}]


#### 將 chatbot 的回覆以 `append_respons` 的方法加入 conversation 中

In [None]:
conversation.append_response(chatbot_result[0]['generated_text'])
print(f"目前聊天記錄：{conversation.messages}")

目前聊天記錄：[{'role': 'user', 'content': 'provided information: the name of repo is bert-base-uncased. Based on the provided information, what is the name of repo?'}, {'role': 'assistant', 'content': '根據提供的信息，repo的名称是"bert-base-uncased"。'}]


In [None]:
conversation.add_user_input("那什麼是 bert?")

print(f"目前聊天記錄：{conversation.messages}")

目前聊天記錄：[{'role': 'user', 'content': 'provided information: the name of repo is bert-base-uncased. Based on the provided information, what is the name of repo?'}, {'role': 'assistant', 'content': '根據提供的信息，repo的名称是"bert-base-uncased"。'}, {'role': 'user', 'content': '那什麼是 bert?'}]


In [None]:
chatbot_result = chatbot(conversation.messages)
print(f"LLM 回覆：{chatbot_result}")

print("-"*10)
conversation.append_response(chatbot_result[0]['generated_text'])
print(f"目前聊天記錄：{conversation.messages}")

LLM 回覆：[{'generated_text': ' Bert是Bidirectional Embedding Representations from Transformers的缩写，是Google自然语言处理团队所研发的一个预训练模型。它基于Transformers架构，通过同时考虑文本的前向和后向信息，实现了有针对性地语义表达和知识表达。Bert模型在各种自然语言处理任务，如情感分析、命名实体识别、问答系统等任务上表现突出，已成为当今预训练模型中的一个标准基线。'}]
----------
目前聊天記錄：[{'role': 'user', 'content': 'provided information: the name of repo is bert-base-uncased. Based on the provided information, what is the name of repo?'}, {'role': 'assistant', 'content': '根據提供的信息，repo的名称是"bert-base-uncased"。'}, {'role': 'user', 'content': '那什麼是 bert?'}, {'role': 'assistant', 'content': ' Bert是Bidirectional Embedding Representations from Transformers的缩写，是Google自然语言处理团队所研发的一个预训练模型。它基于Transformers架构，通过同时考虑文本的前向和后向信息，实现了有针对性地语义表达和知识表达。Bert模型在各种自然语言处理任务，如情感分析、命名实体识别、问答系统等任务上表现突出，已成为当今预训练模型中的一个标准基线。'}]


In [None]:
conversation.add_user_input("那什麼是 RAG?")

print(f"目前聊天記錄：{conversation.messages}")

目前聊天記錄：[{'role': 'user', 'content': 'provided information: the name of repo is bert-base-uncased. Based on the provided information, what is the name of repo?'}, {'role': 'assistant', 'content': '根據提供的信息，repo的名称是"bert-base-uncased"。'}, {'role': 'user', 'content': '那什麼是 bert?'}, {'role': 'assistant', 'content': ' Bert是Bidirectional Embedding Representations from Transformers的缩写，是Google自然语言处理团队所研发的一个预训练模型。它基于Transformers架构，通过同时考虑文本的前向和后向信息，实现了有针对性地语义表达和知识表达。Bert模型在各种自然语言处理任务，如情感分析、命名实体识别、问答系统等任务上表现突出，已成为当今预训练模型中的一个标准基线。'}, {'role': 'user', 'content': '那什麼是 RAG?'}]


In [None]:
chatbot_result = chatbot(conversation.messages)
print(f"LLM 回覆：{chatbot_result}")

print("-"*10)
conversation.append_response(chatbot_result[0]['generated_text'])
print(f"目前聊天記錄：{conversation.messages}")

LLM 回覆：[{'generated_text': ' RAG（Retrieval-Augmented Generation）是一个基于 retrieval-as-augmentation 的方法，用于解决自然语言处理问题。在RAG模型中，retrieval阶段首先从一个预训练语言模型（如BERT）中提取文件，然后使用这些文件来生成答案。这种方法可以在不修改预训练模型的情况下，有效地提高模型在特定任务上的性能。RAG方法主要用于回答选项有限或需要从知识库中获取答案的任务，如多选项问题、填空问题等。'}]
----------
目前聊天記錄：[{'role': 'user', 'content': 'provided information: the name of repo is bert-base-uncased. Based on the provided information, what is the name of repo?'}, {'role': 'assistant', 'content': '根據提供的信息，repo的名称是"bert-base-uncased"。'}, {'role': 'user', 'content': '那什麼是 bert?'}, {'role': 'assistant', 'content': ' Bert是Bidirectional Embedding Representations from Transformers的缩写，是Google自然语言处理团队所研发的一个预训练模型。它基于Transformers架构，通过同时考虑文本的前向和后向信息，实现了有针对性地语义表达和知识表达。Bert模型在各种自然语言处理任务，如情感分析、命名实体识别、问答系统等任务上表现突出，已成为当今预训练模型中的一个标准基线。'}, {'role': 'user', 'content': '那什麼是 RAG?'}, {'role': 'assistant', 'content': ' RAG（Retrieval-Augmented Generation）是一个基于 retrieval-as-augmentation 的方法，用于解决自然语言处理问题。在RAG模型中，retrieval阶段首先从一个预训练语言模型（如BERT）中提取文件，然

### **embedding model (feature extraction)**
[參考](https://huggingface.co/tasks/feature-extraction)


Embedding 是將文字轉換成向量的技術，使得文字可以在數學空間中表示。</p>這些向量捕捉了文字之間的語義關係，使得相似的文字在向量空間中更接近。常見的嵌入模型包括 Word2Vec、GloVe 和 BERT 等。

在 Retrieval-Augmented Generation (RAG) 中，我們會用 Embedding model 用來將查詢（query）和候選文檔（document）轉換成向量。</p>
通過計算這些向量的相似度，可以找出與查詢最相關的文檔。這些相關文檔隨後用來生成回答，增強生成模型的準確性和上下文相關性。

我們使用 sentence transformers 這個套件，可以從 [官方文檔](https://sbert.net/docs/pretrained_models.html) 尋找自己希望使用的 model，也可以在 hugging face 平台上搜尋支援 feature-extraction 的模型。</p>

另外 hugging face 也提供 [embedding model](https://huggingface.co/spaces/mteb/leaderboard) 的排行榜給大家參考

In [None]:
from sentence_transformers import SentenceTransformer

embedding_model = SentenceTransformer("intfloat/multilingual-e5-large")

modules.json:   0%|          | 0.00/387 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/160k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/57.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/690 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.24G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/418 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/280 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/201 [00:00<?, ?B/s]

In [None]:
# 利用 encode 得到 sentence 的 embedding
embedding_model.encode("哈囉，這是一個句子")

array([ 0.03142083, -0.01894771, -0.00766944, ..., -0.02039895,
       -0.01210877,  0.03742645], dtype=float32)

In [None]:
query = "為什麼 ML 需要做正規化"

source_sentence = [
    'Regularization is important!',
    'Dropout is important!',
    'Missing Data Handling is important!'
]

當我們有每個句子的 embedding 後就可以透過 cosine similarity 計算每個文本的相似度。

In [None]:
import numpy as np
def calculate_cosine_similarity(vec1, vec2):
    return np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))

In [None]:
most_related_sentence = None
max_similarity = 0

for sentence in source_sentence:
    sim = calculate_cosine_similarity(
    embedding_model.encode(query),
    embedding_model.encode(sentence)
    )

    if sim > max_similarity:
        most_related_sentence = sentence
        max_similarity = sim

    print(f"{query} vs {sentence} similarity: {sim}")

print("="*10)
print(f"與「{query}」最相似文本：{most_related_sentence}")

為什麼 ML 需要做正規化 vs Regularization is important! similarity: 0.8665975332260132
為什麼 ML 需要做正規化 vs Dropout is important! similarity: 0.805509626865387
為什麼 ML 需要做正規化 vs Missing Data Handling is important! similarity: 0.814452588558197
與「為什麼 ML 需要做正規化」最相似文本：Regularization is important!


## **作業 demo**

利用 Hugging Face 的 text-generation model 與 Sentence Transformers embedding model 實作 QA 檢索聊天機器人。</p>
基於提供的資料集，使用 Embedding Cosine Similarity 檢索參考資料，再透過 LLM 生成答案。</p>

1. Baseline
   - 將 demo 中的資料，替換成我們提供 or 自己的資料集
   - 能夠檢索相似資料
   - 基於檢索的資料進行回答
2. Advanced（Optional）
   - Embedding 怎麼儲存？每次都要重新計算嗎？
   - 該如何處理太久以前的歷史資料？
   - 利用 Gradio or Hugging Face Spaces 部署、分享 Chatbot

### 我的資料集!

In [None]:
qa_data = [
    """
    線上申請
    步驟 1：驗證身份
    進入 300 億元中央擴大租金補貼專案 網站，
    輸入身分證字號與健保卡號，點擊「登入」。

    步驟 2：資料填寫
    填寫申請人資訊、租屋資料、帳戶資料，完成後進行下一步。

    步驟 3：上傳文件
    存摺、租賃契約、資格證明等為相關證明，系統將自動進行查核比對。

    步驟 4：資料核對
    核對資料是否正確，若需要修改可以點擊畫面下方「修改資料」或「補上傳文件」，
    資料正確則點擊「送出申請」將資料送出，要注意申請案件送出後資料將無法修改！

    步驟 5：完成申請
    完成申請後可查看到案件流水編號，表示已經進行申請。
    請注意，申辦完成並不代表審核通過，若需要補件或是修改資料的問題可洽詢諮詢專線 (02)7729-8003。
    """,

    """
    2024 各縣市租屋補助金額一覽表

    當你的身份資格符合租屋補助後，接下來就會依照你的身份、租賃地，
    決定補助金會領多少，依照內政部公告，會分成三個等級：

    1. 第一級：家庭成員 2 人以上，且成員中有低收入戶身分；家庭成員 3 人以上，
    且成員中有中低收入戶身分。

    2. 第二級：非屬第一級及第三級條件者

    3. 第三級：家庭成員一人、未滿 40 歲，不具有經濟或社會弱勢身分

    以下為租賃房屋所在地與每月補貼金額上限：
    台北市，第一級：8,000元；第二級：5,000元，第三級：3,000元
    新北市，第一級：5,000元；第二級：4,000元，第三級：2,000元
    新竹縣、新竹市，第一級：5,000元；第二級：4,000元，第三級：2,400元
    台中市，第一級：5,000元；第二級：4,000元，第三級：2,400元
    台南市，第一級：4,000元；第二級：3,600元，第三級：2,200元
    高雄市，第一級：4,000元；第二級：3,600元，第三級：2,200元
    宜蘭縣、嘉義市、基隆市、臺東縣、花蓮縣、金門縣、澎湖縣、苗栗縣、
    彰化縣、雲林縣、南投縣、嘉義縣、屏東縣、連江縣，
    第一級：3,600元；第二級：3,200元，第三級：2,000元


    """,

    """
    這 5 類人可享租屋補助金加碼
    規則：這次的租金補貼雖然與去（2023）年一樣，最高為 8,000 元（每戶），
    而目前也針對 5 大類族群可以加碼租金補貼哦！
    舉例來說，原租金補貼為 3,000 元，若符合資格可加碼 1.2 倍數，則可得 3,600 元，
    若是身份符合兩種加碼資格，則採最高補貼金額，不會疊加喔！

    1、單身青年
    18 至 39 歲以下的單身青年，若所得符合各地生活費以下，租金補助可加碼 1.2 倍。
    （這裡的單身青年是指未婚、離婚或是喪偶者哦！）
    舉例：沒有弱勢身份的單身小民，在台北市獨自租屋生活，月均所得達 57,039 元以下，
    原本可以領取 3,000 元補貼金額，再加上 1.2 倍的加碼，共可領取 3,600 元。

    2、經濟弱勢
    符合低收入戶跟中低收入戶條件的經濟弱勢，租金補助金額可提高至 1.4 倍；
    社會弱勢族群則可加碼 1.2 倍。

    3、社會弱勢
    社會弱勢族群包含：特殊境遇家庭、於安置教養機構或寄養家庭結束安置無法返家（未滿 25 歲）、
    65 歲以上長者、受家庭暴力或性侵害之受害者及其子女、身心障礙者、感染 AIDS、原住民、災民、
    遊民 、因懷孕或生育而遭遇困境之未成年人，可加碼 1.2 倍。

    4、新婚家庭
    若是新婚家庭的話，在租屋補貼申請日前 2 年內登記結婚，租屋補貼金可加碼 1.3 倍。
    舉例：一對結婚兩年內的夫妻，在新北市租屋，原本可領取 4,000 元補助，加碼至 1.3 倍後，
    則可領取 5,200 元。

    5、育有未成年子女家庭
    申請人或配偶有未成年子女、胎兒，一人加碼 1.4 倍、兩人加碼 1.6 倍、三人加碼 1.8 倍、
    超過三人，每增加一位金額加碼 0.2 倍。育兒人數愈多，租屋補貼的金額也愈高。
    舉例：家中有 2 名未成年子女的家庭，在新北市租屋，原本領取 4,000 元 補助，
    現在則可領取 1.6 倍，相當於 6,400 元。

    """
]

In [None]:
from typing import List
import numpy as np

def get_answer(query: str, source: List[str]):
    most_related_sentence = None
    max_similarity = 0

    for sentence in source:
        sim = calculate_cosine_similarity(
        embedding_model.encode(query),
        embedding_model.encode(sentence)
        )

        if sim > max_similarity:
            most_related_sentence = sentence
            max_similarity = sim

    return most_related_sentence

def calculate_cosine_similarity(vec1, vec2):
    return np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))

In [None]:
user_query = input(">>>")
conversation = Conversation()

while user_query.lower() != "bye":
    print(f"user: {user_query}")
    # 尋找最相似的文件
    answer = get_answer(user_query, qa_data)
    llm_input = f"""請你基於以下資訊回答使用者的問題
    {answer}
    ===
    問題：{user_query}
    """
    conversation.add_user_input(llm_input)
    # 將 conversation.messages 丟給 chatbot
    chatbot_result = chatbot(conversation.messages)[0]['generated_text']
    print(f"AI: {chatbot_result}")
    conversation.append_response(chatbot_result)

    user_query = input(">>>")


>>>如果我是一名在台北市租屋的青年，屬於第二級，而且為單身青年，請問我的租屋補助最高為多少?
user: 如果我是一名在台北市租屋的青年，屬於第二級，而且為單身青年，請問我的租屋補助最高為多少?
AI: 如果你是一名在台北市租屋的青年，屬於第二級，而且為單身青年，那你的租屋補助最高為5,000元。
>>>如果我是一名在台北市租屋的青年，屬於第三級，而且為單身青年(請記得這裡有租金加碼)，請問我的租屋補助最高為多少?
user: 如果我是一名在台北市租屋的青年，屬於第三級，而且為單身青年(請記得這裡有租金加碼)，請問我的租屋補助最高為多少?
AI: 如果你是一名在台北市租屋的青年，屬於第三級，而且為單身青年，你可以享受到的租金加碼是1.2倍。你的租金補助原本最高為3,000元，加上1.2倍的加碼後，你的租屋補助最高為3,600元。
