In [1]:
# Import transformer classes for generaiton
from transformers import AutoTokenizer, AutoModelForCausalLM, TextStreamer
# Import torch for datatype attributes 
import torch

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
# Define variable to hold llama2 weights naming 
name = "elyza/ELYZA-japanese-Llama-2-7b-instruct"
# Set auth token variable from hugging face 
auth_token = "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"

In [3]:
# Create tokenizer
tokenizer = AutoTokenizer.from_pretrained(name, 
    cache_dir='./model/', use_auth_token=auth_token)



In [4]:
# Create model
"""model = AutoModelForCausalLM.from_pretrained(name, 
    cache_dir='./model/', use_auth_token=auth_token, torch_dtype=torch.float16, 
    rope_scaling={"type": "dynamic", "factor": 2}, load_in_8bit=False) """
# Create model
model = AutoModelForCausalLM.from_pretrained(name, 
    cache_dir='./model/', use_auth_token=auth_token, torch_dtype="auto") 

Loading checkpoint shards: 100%|██████████| 2/2 [03:23<00:00, 101.59s/it]


In [5]:
if torch.cuda.is_available():
    model = model.to("cuda")

In [6]:
B_INST, E_INST = "[INST]", "[/INST]"
B_SYS, E_SYS = "<<SYS>>\n", "\n<</SYS>>\n\n"
DEFAULT_SYSTEM_PROMPT = "あなたは誠実で優秀な日本人のアシスタントです。"
text = "世界一番早い車を教えてください"

# Setup a prompt 
prompt = "{bos_token}{b_inst} {system}{prompt} {e_inst} ".format(
    bos_token=tokenizer.bos_token,
    b_inst=B_INST,
    system=f"{B_SYS}{DEFAULT_SYSTEM_PROMPT}{E_SYS}",
    prompt=text,
    e_inst=E_INST,
)



In [7]:
with torch.no_grad():
    # Pass the prompt to the tokenizer
    token_ids = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt")
    # Setup the text streamer 
    streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)

    # Actually run the thing
    output_ids = model.generate(token_ids.to(model.device), streamer=streamer, 
                            use_cache=True, max_new_tokens=float('inf'),
                            pad_token_id=tokenizer.pad_token_id,
                            eos_token_id=tokenizer.eos_token_id)



世界最速の車は、スカイラインGT-R (R35) の最高速度が350km/hであるため、この車種となります。

ただし、公道を走行する場合、最高速度は走行に支障をきたすため、制限速度によって規制されます。


In [8]:
output_text = tokenizer.decode(output_ids.tolist()[0][token_ids.size(1) :], skip_special_tokens=True)
print(output_text)

世界最速の車は、スカイラインGT-R (R35) の最高速度が350km/hであるため、この車種となります。

ただし、公道を走行する場合、最高速度は走行に支障をきたすため、制限速度によって規制されます。


In [9]:
# Import the prompt wrapper...but for llama index
from llama_index.prompts.prompts import SimpleInputPrompt
# Create a system prompt 
system_prompt = """<s>[INST] <<SYS>>
あなたは親切で、礼儀正しく、誠実なアシスタントです。 常に次のように答えます
安全を確保しながら、できるだけ役に立ちます。 回答には以下を含めてはいけません
有害、非倫理的、人種差別的、性差別的、有毒、危険、または違法なコンテンツ。
回答は社会的に偏見がなく、本質的に前向きなものであることを確認してください。

質問が意味をなさない場合、または事実に一貫性がない場合は、なぜ正しくないことに答える代わりに説明してください。
答えがわからない場合質問に対して、虚偽の情報を共有しないでください。
<</SYS>>
"""
# Throw together the query wrapper
query_wrapper_prompt = SimpleInputPrompt("{query_str} [/INST]")

In [10]:
# Complete the query prompt
query_wrapper_prompt.format(query_str='hello')

'hello [/INST]'

In [11]:
# Import the llama index HF Wrapper
from llama_index.llms import HuggingFaceLLM
# Create a HF LLM using the llama index wrapper 
llm = HuggingFaceLLM(context_window=4096,
                    max_new_tokens=256,
                    system_prompt=system_prompt,
                    query_wrapper_prompt=query_wrapper_prompt,
                    model=model,
                    tokenizer=tokenizer)

In [12]:
# Bring in embeddings wrapper
from llama_index.embeddings import LangchainEmbedding
# Bring in HF embeddings - need these to represent document chunks
from langchain.embeddings.huggingface import HuggingFaceEmbeddings

In [13]:
# Create and dl embeddings instance  


embeddings=LangchainEmbedding(
    HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")
)
"""

embeddings=LangchainEmbedding(
    HuggingFaceEmbeddings(model_name="oshizo/sbert-jsnli-luke-japanese-base-lite")
)"""

'\n\nembeddings=LangchainEmbedding(\n    HuggingFaceEmbeddings(model_name="oshizo/sbert-jsnli-luke-japanese-base-lite")\n)'

In [14]:
# Bring in stuff to change service context
from llama_index import set_global_service_context
from llama_index import ServiceContext

In [15]:
# Create new service context instance
service_context = ServiceContext.from_defaults(
    chunk_size=1024,
    llm=llm,
    embed_model=embeddings
)
# And set the service context
set_global_service_context(service_context)

In [16]:
# Import deps to load documents 
from llama_index import VectorStoreIndex, download_loader
from pathlib import Path

In [17]:
# Download PDF Loader 
PyMuPDFReader = download_loader("PyMuPDFReader")
# Create PDF Loader
loader = PyMuPDFReader()
# Load documents 
documents = loader.load(file_path=Path('./data/2024_1q_summary_jp.pdf'), metadata=True)

In [18]:
# Create an index - we'll be able to query this in a sec
index = VectorStoreIndex.from_documents(documents)

In [19]:
# Setup index query engine using LLM 
query_engine = index.as_query_engine()

In [20]:
# Test out a query in natural
response = query_engine.query("2024年の配当金を教えてください。")

In [21]:
print(response.response)

 2024年の配当金は、25円です。

なぜなら、2024年3月期の連結業績予想 (2023年4月1日～2024年3月31日) の「３．2024年３月期の連結業績予想」の項目に、「営業収益: 38,000,000」、「営業利益: 3,000,000」、「税引前利益: 3,690,000」、「親会社の所有者に帰属する当期利益: 3,690,000」とあるため、営業収益の3％の配当金は、38,000,000×3�����


In [22]:
response

Response(response=' 2024年の配当金は、25円です。\n\nなぜなら、2024年3月期の連結業績予想 (2023年4月1日～2024年3月31日) の「３．2024年３月期の連結業績予想」の項目に、「営業収益: 38,000,000」、「営業利益: 3,000,000」、「税引前利益: 3,690,000」、「親会社の所有者に帰属する当期利益: 3,690,000」とあるため、営業収益の3％の配当金は、38,000,000×3�����', source_nodes=[NodeWithScore(node=TextNode(id_='ded1d1c3-cc0f-4269-8e2c-bb2db53c19c7', embedding=None, metadata={'total_pages': 13, 'file_path': WindowsPath('data/2024_1q_summary_jp.pdf'), 'source': '5'}, excluded_embed_metadata_keys=[], excluded_llm_metadata_keys=[], relationships={<NodeRelationship.SOURCE: '1'>: RelatedNodeInfo(node_id='f108f538-a127-4f7b-b2e9-1e180093e87e', node_type=None, metadata={'total_pages': 13, 'file_path': WindowsPath('data/2024_1q_summary_jp.pdf'), 'source': '5'}, hash='778a0b6aa365e552c5b6f5e2ba32173de8a7f0fb269009f233de6e26360e48b3'), <NodeRelationship.NEXT: '3'>: RelatedNodeInfo(node_id='2db6b181-8f05-4d6f-b2b5-cc4716a9da4d', node_type=None, metadata={'total_pages': 13, 'file_path': WindowsPath('data/2024_1q_summary_jp.pdf'),

In [26]:
# Create a LlamaIndex object
from llama_index import SimpleDirectoryReader, GPTVectorStoreIndex

# Index your PDFs
documents = SimpleDirectoryReader("data").load_data()



In [27]:
# Create an index - we'll be able to query this in a sec
index = VectorStoreIndex.from_documents(documents)

In [28]:
query_engine = index.as_query_engine()

In [29]:
response = query_engine.query("トヨタ⾃動⾞株式会社の決算サマリーを教えてください")

In [31]:
print(response)

 承知しました。

トヨタ⾃動⾞株式会社の決算サマリーは以下の通りです。

1
1
2023年8⽉1⽇ヴェルファイア
トヨタ⾃動⾞株式会社
2024年3⽉期
第1四半期決算

1

1
2023年8⽉1⽇ヴェルファイア
トヨタ⾃動⾞株式会社
2024年3⽉期
第1四半期決算

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

