<p style="font-size:small; color:gray;"> Author: 鄭永誠, Year: 2024 </p>

# 一些文檔處理工具基於 llama_index
----------

## 基礎改念 (複習):
- **chunk** ➡️ 分塊，當資料量太大時，我們會將其切成一個一個分塊(chunks)

- **parse / parsing** ➡️ 把句子解析、轉換成更好理解的格式，像是語法結構調整、識別問題 、抽取訊息

- **token / tokenization** ➡️ token是LLM在處理文字時的最小單位，可以理解就像是一個個單字，留意不同LLM會用[不同詞彙表](https://huggingface.co/docs/transformers/en/tokenizer_summary)切token


In [7]:
""" 安裝llamaindex """
# %pip uninstall llama_index -q
%pip install llama-index -q
%pip show llama_index

Note: you may need to restart the kernel to use updated packages.
Name: llama-index
Version: 0.10.64
Summary: Interface between LLMs and your data
Home-page: https://llamaindex.ai
Author: Jerry Liu
Author-email: jerry@llamaindex.ai
License: MIT
Location: c:\Users\PipiHi\Desktop\KM\llm-course-zh\.venv\Lib\site-packages
Requires: llama-index-agent-openai, llama-index-cli, llama-index-core, llama-index-embeddings-openai, llama-index-indices-managed-llama-cloud, llama-index-legacy, llama-index-llms-openai, llama-index-multi-modal-llms-openai, llama-index-program-openai, llama-index-question-gen-openai, llama-index-readers-file, llama-index-readers-llama-parse
Required-by: 
Note: you may need to restart the kernel to use updated packages.


In [8]:
%pip install llama-index-core -q
%pip install llama-index-llms-openai -q
%pip install llama-index-llms-replicate -q
%pip install llama-index-embeddings-huggingface -q

Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.


In [1]:
documents_example = [
    {
        'title': 'Alice', 
        'content': 'Alice is very adaptable and can handle unexpected challenges with ease.', 
        'job': ['Engineer', 'Designer']
    }, 
    {
        'title': 'Bob',
        'content': 'Bob is a natural leader with strong communication skills.',
        'job': ['Teacher', 'Writer']
    }, 
    {
        'title': 'Charlie',
        'content': 'Charlie is a charismatic individual who easily connects with others', 
        'job': ['Doctor', 'Researcher']
    }
]


------------
## SentenceSplitter - chunk

In [20]:
%pip show llama_index

Name: llama-index
Version: 0.10.64
Summary: Interface between LLMs and your data
Home-page: https://llamaindex.ai
Author: Jerry Liu
Author-email: jerry@llamaindex.ai
License: MIT
Location: c:\Users\PipiHi\Desktop\KM\llm-course-zh\.venv\Lib\site-packages
Requires: llama-index-agent-openai, llama-index-cli, llama-index-core, llama-index-embeddings-openai, llama-index-indices-managed-llama-cloud, llama-index-legacy, llama-index-llms-openai, llama-index-multi-modal-llms-openai, llama-index-program-openai, llama-index-question-gen-openai, llama-index-readers-file, llama-index-readers-llama-parse
Required-by: 
Note: you may need to restart the kernel to use updated packages.


In [3]:
""" 網路上llama_index舊版的是用 llama_index.XXXX ，新版用llama_index.core.XXXX """
import textwrap
from llama_index.core import Document
from llama_index.core.text_splitter import SentenceSplitter

# 自定義一個文件
documents = "義大利麵應拌什麼好?  我個人認為義大利麵就應該拌42號混泥土，因為這個螺絲釘的長度很容易直接影響到挖掘機的扭矩。你往裡砸的時候，一瞬間他就會產生大量的高能蛋白，俗稱UFO，會嚴重影響經濟的發展，以至於對整個太平洋，和充電器的核污染。再或者說透過這勾股定理很容易推斷出人工飼養的東條英機，他是可以捕獲野生的三角函數，所以說不管這秦始皇的切面是否具有放射性，川普的N次方是否有沈澱物，都不會影響到沃爾瑪跟維爾康在南極匯合。"

print("原本文檔：")
print(textwrap.fill(documents, width=50))


node_parser  = SentenceSplitter(
    chunk_size=100, # 設定每個chunk的大小
    chunk_overlap=5, # 設定chunk之間的重疊大小
    tokenizer= None, # 設定分詞器
    paragraph_separator="\n\n", # 設定段落之間的分隔符號
    separator=" ", # 用於拆分句子的預設的分隔字元
    secondary_chunking_regex='[^,.;。？！]+[,.;。？！]?' # 用於分割句子的備份正規表示式
)

nodes = node_parser.get_nodes_from_documents(
    [Document(text=documents)], show_progress=False
)
print("\n分割後的文檔：")
for i, node in enumerate(nodes):
    print(f'[part_{i}]：{node.text}')


原本文檔：
義大利麵應拌什麼好?  我個人認為義大利麵就應該拌42號混泥土，因為這個螺絲釘的長度很容易直接影響到
挖掘機的扭矩。你往裡砸的時候，一瞬間他就會產生大量的高能蛋白，俗稱UFO，會嚴重影響經濟的發展，以至
於對整個太平洋，和充電器的核污染。再或者說透過這勾股定理很容易推斷出人工飼養的東條英機，他是可以捕獲
野生的三角函數，所以說不管這秦始皇的切面是否具有放射性，川普的N次方是否有沈澱物，都不會影響到沃爾瑪
跟維爾康在南極匯合。

分割後的文檔：
[part_0]：義大利麵應拌什麼好?  我個人認為義大利麵就應該拌42號混泥土，因為這個螺絲釘的長度很容易直接影響到挖掘機的扭矩。
[part_1]：你往裡砸的時候，一瞬間他就會產生大量的高能蛋白，俗稱UFO，會嚴重影響經濟的發展，以至於對整個太平洋，和充電器的核污染。再或者說透
[part_2]：者說透過這勾股定理很容易推斷出人工飼養的東條英機，他是可以捕獲野生的三角函數，所以說不管這秦始皇的切面是否具有放射性，川普的N次方是否有沈
[part_3]：是否有沈澱物，都不會影響到沃爾瑪跟維爾康在南極匯合。


In [15]:
""" Embedding方法示意，可參考C4內容 """
from sentence_transformers import SentenceTransformer


# 載入模型 (已選擇中文擅長模型)
model = SentenceTransformer('DMetaSoul/sbert-chinese-general-v2')  

text = node_parser.get_nodes_from_documents([Document(text=documents)], show_progress=False)[0].text
print("拿一個切完的chunk範例: ", text)

embedding = model.encode(text, convert_to_tensor=False)
print("\n句子Embedding 後結果: ", embedding)

拿一個切完的chunk範例:  義大利麵應拌什麼好?  我個人認為義大利麵就應該拌42號混泥土，因為這個螺絲釘的長度很容易直接影響到挖掘機的扭矩。

句子Embedding 後結果:  [ 2.28983879e-01  2.56072372e-01 -9.01247978e-01  2.16540433e-02
  1.61327943e-01 -1.41556514e-02  3.84209663e-01 -1.99013099e-01
 -1.55311847e+00  6.03017390e-01  2.07268342e-01 -3.16158026e-01
 -5.27468443e-01 -7.72385418e-01 -7.33864367e-01 -7.74600148e-01
  1.51136622e-01 -3.20973635e-01 -3.76673907e-01 -9.55326915e-01
 -7.29235470e-01  2.18102023e-01 -4.98580933e-01 -1.31339148e-01
  7.16233611e-01  3.13105881e-01  3.83338720e-01 -9.17241454e-01
  5.43770613e-03  4.03267086e-01  6.08780324e-01 -1.19084668e+00
 -1.05522287e+00  7.90530562e-01  1.84666634e-01  4.99955505e-01
  3.46025735e-01  7.76784360e-01  1.76949695e-01 -9.94610190e-01
  9.47135165e-02 -1.31648213e-01 -4.64734465e-01  1.02906168e+00
  1.52269915e-01  5.49417913e-01  2.23850280e-01  5.11151791e-01
 -9.47740257e-01  4.94052619e-01  9.64427516e-02  6.79402590e+00
 -4.76693422e-01  1.04922771e+00 -7.90978849e-01  9.72206533e-

In [14]:
# 補充: 當然你也可以利用langchain_community 使用HuggineFace 上的其他模型，例如：
from langchain_community.embeddings import HuggingFaceEmbeddings
model_from_hf = HuggingFaceEmbeddings(model_name="DMetaSoul/Dmeta-embedding-zh-small")

embedding = model_from_hf.encode(text, convert_to_tensor=False)
print("\n句子Embedding 後結果: ", embedding)



AttributeError: 'HuggingFaceEmbeddings' object has no attribute 'encode'

In [None]:
import os
import openai
from llama_index.llms.openai import OpenAI
from llama_index.embeddings.openai import OpenAIEmbedding
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.core.node_parser import SentenceWindowNodeParser
from llama_index.core.node_parser import SentenceSplitter
from llama_index.core import Settings
from llama_index.core import SimpleDirectoryReader
from llama_index.core import VectorStoreIndex
from llama_index.core.postprocessor import MetadataReplacementPostProcessor

# create the sentence window node parser w/ default settings
node_parser = SentenceWindowNodeParser.from_defaults(
    window_size=3,
    window_metadata_key="window",
    original_text_metadata_key="original_text",
)

# base node parser is a sentence splitter
text_splitter = SentenceSplitter()

llm = OpenAI(model="gpt-3.5-turbo", temperature=0.1)
embed_model = HuggingFaceEmbedding(
    model_name="sentence-transformers/all-mpnet-base-v2", max_length=512
)

Settings.llm = llm
Settings.embed_model = embed_model
Settings.text_splitter = text_splitter

