# 数据入库

## 连接 OpenSearch 并加载 LLM 模型

In [2]:
from opensearchpy import OpenSearch, RequestsHttpConnection, AWSV4SignerAuth
from sagemaker.huggingface.model import HuggingFacePredictor
# import boto3
import os
from dotenv import load_dotenv

load_dotenv()

host = 'search-aiml-bot-rzeucj66zz7ortkojghfgzh2c4.us-east-1.es.amazonaws.com' 
port = 443
region = 'us-east-1' # e.g. us-west-1

# credentials = boto3.Session().get_credentials()
# auth = AWSV4SignerAuth(credentials, region)
auth = (os.environ.get("AOS_USER"), os.environ.get("AOS_PWD")) 

client = OpenSearch(
    hosts = [f'{host}:{port}'],
    http_auth = auth,
    use_ssl = True,
    verify_certs = True,
    connection_class = RequestsHttpConnection
)


predictor = HuggingFacePredictor(
  endpoint_name='llm-models'
)

# 插入数据
def update_data(id, data):
    response = client.index(
        index=index_name,body=data, id=id
    )

    return response


index_name = 'doc_embeddings'

## 创建索引

目前向量模型转化的 vector 的数组长度为 768，所以向量的维度为 `"dimension": 768`

In [6]:

index_body = {
      "settings": {
        "index": {
          "knn": True
        }
      },
      "mappings": {
        "properties": {
          "content_vec": {
            "type": "knn_vector",
            "index": True, 
            "dimension": 1536,
            "method": {
              "name": "hnsw",
              "space_type": "l2",
              "engine": "nmslib",
              "parameters": {
                "ef_construction": 128,
                "m": 24
              }
            }
          }
        }
      }
    }
client.indices.create(index_name, body=index_body)

{'acknowledged': True, 'shards_acknowledged': True, 'index': 'doc_embeddings'}

In [5]:
# 删除索引
client.indices.delete(index=index_name)

{'acknowledged': True}

## 分拆文档并插入 AOS

### 数据插入 - 大学

读取文本文件，并按照行进行分片，然后向量化，并插入 AOS

In [None]:

file_name = './docs/985-uni.txt'
university_file = open(file_name, 'r')

lines = university_file.readlines()

for line in lines:
  line = line.strip()
  if line:
    print("Inserting: {}...".format(line[:20]))
    update_data(None, {
      "text": line,
      "origion": file_name,
      "content_vec": predictor.predict({"text": line,"type": 2}),
    })

print("Done")

### 数据插入：解决方案

In [None]:
import os

sol_dir = './docs_solutions/'

file_list = os.listdir(sol_dir)
for file_path in file_list:
  file_name = sol_dir + file_path
  sol_file = open(file_name, 'r')
  lines = sol_file.readlines()
  for line in lines:
    line = line.strip()
    if line:
      print("Inserting: {}... {}".format(line[:20], file_name))
      update_data(None, {
        "text": line,
        "origion": file_name,
        "content_vec": predictor.predict({"text": line,"type": 2}),
      })

print("Done")

In [7]:
import openai

openai.api_key = "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"
openai.api_base = "http://k8s-chatgpt-ingressp-a104c32ff2-2133206119.ap-southeast-1.elb.amazonaws.com/v1"


def get_emb(txt):
    res = openai.Embedding.create(input=txt, model="text-embedding-ada-002")
    return res['data'][0]['embedding']

### 数据插入：商品

In [8]:
import os

sol_dir = './docs_ec/'

file_list = os.listdir(sol_dir)
for file_path in file_list:
  file_name = sol_dir + file_path
  sol_file = open(file_name, 'r')
  line = sol_file.read()
  line = line.strip()
  if line:
    print("Inserting: {}... {}".format(line[:20], file_name))
    update_data(None, {
      "text": line,
      "origion": file_name,
      "content_vec": get_emb(line),
    })

print("Done")

Inserting: GE 6-Outlet Surge Pr... ./docs_ec/g2.txt
Inserting: Kindle Oasis Essenti... ./docs_ec/g3.txt
Inserting: V CARRIER 维旺斯 碳纤维笔筒笔... ./docs_ec/g1.txt
Inserting: 雅迪新国标电动车座套防雨防晒新款皮革爱玛... ./docs_ec/g4.txt
Done


## 查询

In [16]:
def search(sentense):
    sentence_vec =  get_emb(sentense)
    query_body = {
        "size": 5,
        "query": {
            "knn": {
                "content_vec": {
                    "vector": sentence_vec,
                    "k": 1
                }
            }
        }
    }

    response = client.search(index=index_name, body=query_body)
    result =  map(map_res, response["hits"]["hits"])
    return list(result)

def map_res(obj):
    return {
        "id": obj["_id"],
        "score": obj["_score"],
        "text": obj["_source"]["text"],
        "origion": obj["_source"]["origion"],

    }

# search("What are the universities of foreign languages")

# search("国防科技大学的王牌专业是哪个？")


In [19]:
# search("碳纤维笔筒笔盒线性有何特性，价格是多少？")
search("四面弹皮革")

[{'id': '0dUiKYkBRau1ZRpy3MUZ',
  'score': 0.7312084,
  'text': '雅迪新国标电动车座套防雨防晒新款皮革爱玛电车坐垫套防水通用型 【四面弹皮革】圆头 单个前座套\n品牌： 澳颜莱\n商品名称：雅迪新国标电动车座套防雨防晒新款皮革爱玛电车坐垫套防水通用型 【四面弹皮革】圆头 类别：平面款表层主材质：皮功能：加热下单需绑定车型：需绑定车型适用季节：四季通用适用场景：商务接待套件类别：前排单座\n\n价格 ￥11.72',
  'origion': './docs_ec/g4.txt'},
 {'id': 'qqciKYkBDTiYVUcx1IhR',
  'score': 0.6921875,
  'text': 'V CARRIER 维旺斯 碳纤维笔筒笔盒线性碳纤维无铅黄铜\n手工打磨的线性碳纤维和无铅黄铜 长度：180mm 外经：16mm 内径：13mm 重量：30g 产地：意大利 商品包含：原厂包装环保纸盒、说明书、笔筒 \n价格 728',
  'origion': './docs_ec/g1.txt'}]

## 对话化

In [92]:
def ask(q):
  answers = search(q)
  strAnswers = ""
  references = {}
  for an in answers:
      strAnswers += an['text'] + "\n"
      origion = an['origion']
      if origion in references :
        references[origion] += 1
      else:
         references[origion] = 1
  ori_prompt = f"""
Use the following pieces of context to answer the question at the end. If you don't know the answer, just say that you don't know, don't try to make up an answer.

{strAnswers}

Question: {q}
            
Helpful Answer:

  """
  # print("Prompt: ")
  # print(ori_prompt)

  print("问题: ", q)
  a = predictor.predict({"text": ori_prompt,"type": 8})

  return a, references

In [93]:
answer01 = ask("碳纤维笔筒笔盒线性有何特性，价格是多少？")

print("回答：", answer01[0])
print("引用：", answer01[1])

问题:  碳纤维笔筒笔盒线性有何特性，价格是多少？
回答： 线性碳纤维笔筒笔盒是一种由碳纤维和无铅黄铜手工打磨而成的产品，具有以下特性：

1. 轻量化：采用碳纤维材质，质量轻，方便携带。
2. 高强度：碳纤维具有很高的强度和刚性，能够承受较大的压力和摩擦力。
3. 耐腐蚀：无铅黄铜材质不含有害物质，能够抵御酸碱等化学物质的侵蚀。
4. 耐磨性：手工打磨的线性碳纤维和无铅黄铜表面具有很高的摩擦系数，耐磨性优异。
5. 美观质感：采用意大利制造，外观设计精美，质感出众。

根据提供的信息，线性碳纤维笔筒笔盒的价格为728元。
引用： {'./docs_ec/g1.txt': 1, './docs_ec/g4.txt': 1, './docs_ec/g3.txt': 1, './docs_ec/g2.txt': 1}


In [94]:
answer01 = ask("亚马逊的阅读器有什么特性，价格是多少？")

print("回答：", answer01[0])
print("引用：", answer01[1])

问题:  亚马逊的阅读器有什么特性，价格是多少？
回答： 亚马逊的阅读器是一款电子书阅读器，具有以下特性：

1. 它可以阅读各种电子书格式，如 Kindle、Audible、Overdrive、公共图书馆等。
2. 它支持阅读自定义文本，包括注释、批注和手写笔记。
3. 它可以在 PDF、Word、Excel 和 plain text 等格式下阅读。
4. 它支持批注、填写表格和朗读文本。
5. 它支持将阅读内容导出为 PDF、Word、Excel 和 plain text 等格式。
6. 它支持在阅读过程中进行搜索、查找和引用。
7. 它支持将阅读内容导出为 Audible 和 MP3 格式。

亚马逊的阅读器的价格因型号和特性和销售地区而异。以下是不同型号的价格范围：

1. Kindle Oasis: $239.99
2. Kindle Paperwhite: $109.99
3. Kindle HD: $139.99
4. Kindlego: $109.99

请注意，这里提供的价格是基于 Amazon 上的建议价格，实际价格可能因折扣、促销和销售地区而有所不同。
引用： {'./docs_ec/g3.txt': 1, './docs_ec/g4.txt': 1, './docs_ec/g1.txt': 1, './docs_ec/g2.txt': 1}


In [None]:
ask("What is the number 1 comprehensive university in China?")

In [None]:
ask("华东师范大学在中国排名第几？")

In [None]:
answer01 = ask("基本农田保护方案是什么？")

print("回答：", answer01[0])
print("引用：", answer01[1])


In [None]:
answer01 = ask("你有城市停车运营解决方案吗，具体是怎么运作的？")

print("回答：", answer01[0])
print("引用：", answer01[1])

In [None]:
answer01 = ask("How to manage the hospital, do you have a specific plan?")

print("回答：", answer01[0])
print("引用：", answer01[1])


