## Note

Kiem tra tinh kha thi cua du an:
- Kha nang tao bai chuan SEO
- Kha nang trich xuat thong tin y hoc theo de muc
- Kha nang theo cac trich xuat viet bai

## Prompting technique

### Few-shot

In [None]:
from langchain.prompts.few_shot import FewShotPromptTemplate
from langchain.prompts.prompt import PromptTemplate
from langchain.prompts.example_selector import SemanticSimilarityExampleSelector
from langchain_community.vectorstores import Chroma
from langchain_openai import OpenAIEmbeddings

In [None]:


examples = [
    {
        "question": "Who lived longer, Muhammad Ali or Alan Turing?",
        "answer": """
Are follow up questions needed here: Yes.
Follow up: How old was Muhammad Ali when he died?
Intermediate answer: Muhammad Ali was 74 years old when he died.
Follow up: How old was Alan Turing when he died?
Intermediate answer: Alan Turing was 41 years old when he died.
So the final answer is: Muhammad Ali
""",
    },
    {
        "question": "When was the founder of craigslist born?",
        "answer": """
Are follow up questions needed here: Yes.
Follow up: Who was the founder of craigslist?
Intermediate answer: Craigslist was founded by Craig Newmark.
Follow up: When was Craig Newmark born?
Intermediate answer: Craig Newmark was born on December 6, 1952.
So the final answer is: December 6, 1952
""",
    }
]

In [None]:
example_prompt = PromptTemplate(
    input_variables=["question", "answer"], template="Question: {question}\n{answer}"
)

print(example_prompt.format(**examples[0]))

In [None]:
prompt = FewShotPromptTemplate(
    examples=examples,
    example_prompt=example_prompt,
    suffix="Question: {input}",
    input_variables=["input"],
)

print(prompt.format(input="Who was the father of Mary Ball Washington?"))

In [None]:
example_selector = SemanticSimilarityExampleSelector.from_examples(
    # This is the list of examples available to select from.
    examples,
    # This is the embedding class used to produce embeddings which are used to measure semantic similarity.
    OpenAIEmbeddings(),
    # This is the VectorStore class that is used to store the embeddings and do a similarity search over.
    Chroma,
    # This is the number of examples to produce.
    k=1,
)

# Select the most similar example to the input.
question = "Who was the father of Mary Ball Washington?"
selected_examples = example_selector.select_examples({"question": question})
print(f"Examples most similar to the input: {question}")
for example in selected_examples:
    print("\n")
    for k, v in example.items():
        print(f"{k}: {v}")

In [None]:
prompt = FewShotPromptTemplate(
    example_selector=example_selector,
    example_prompt=example_prompt,
    suffix="Question: {input}",
    input_variables=["input"],
)

print(prompt.format(input="Who was the father of Mary Ball Washington?"))

## OpenAI embedding

Store cac muc nguyen nhan, dieu tri,...

## RAG

In [15]:
import bs4
from langchain import hub
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import WebBaseLoader
from langchain_community.vectorstores import Chroma
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_openai import ChatOpenAI, OpenAIEmbeddings

In [16]:
llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0)

In [10]:
# Load, chunk and index the contents of the blog.
loader = WebBaseLoader(
    web_paths=("https://lilianweng.github.io/posts/2023-06-23-agent/",),
    bs_kwargs=dict(
        parse_only=bs4.SoupStrainer(
            class_=("post-content", "post-title", "post-header")
        )
    ),
)
docs = loader.load()

In [12]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
splits = text_splitter.split_documents(docs)
vectorstore = Chroma.from_documents(documents=splits, embedding=OpenAIEmbeddings())

# Retrieve and generate using the relevant snippets of the blog.
retriever = vectorstore.as_retriever()
prompt = hub.pull("rlm/rag-prompt")
llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0)


def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)


rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

In [12]:
retrieved_docs = retriever.invoke("What are the approaches to Task Decomposition?")

## Google embedding

### Use vertex AI

In [1]:
import vertexai
from google.oauth2.service_account import Credentials

In [2]:
cred = Credentials.from_service_account_file(r'D:\workspace\important\GCP\genai.json')

In [3]:
vertexai.init(project='ai-test-374607',
            location='asia-southeast1',
            credentials=cred)

In [None]:
from dataclasses import dataclass
@dataclass
class U:
    u = None
    b = 'b'

U.__dict__

In [2]:
from vertexai.language_models import TextEmbeddingModel, TextEmbeddingInput
from vertexai.preview.language_models import TextEmbeddingModel as BatchTextEmbeddingModel
def text_embedding(text) -> list:
    """Text embedding with a Large Language Model."""
    model = TextEmbeddingModel.from_pretrained("textembedding-gecko@003")
    text = TextEmbeddingInput(text=text, task_type='RETRIEVAL_DOCUMENT', title='general knowledge')
    embeddings = model.get_embeddings([text])
    # for embedding in embeddings:
    #     vector = embedding.values
        # print(f"Length of Embedding Vector: {len(vector)}")
    # return vector
    return embeddings





## Rewrite-Retrieve-Read Implementation

In [17]:
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_openai import ChatOpenAI

In [19]:
template = """Provide a better search query for \
web search engine to answer the given question, end \
the queries with ’**’. Question: \
{x} Answer:"""
rewrite_prompt = ChatPromptTemplate.from_template(template)

In [20]:
rewrite_prompt = hub.pull("langchain-ai/rewrite")

In [21]:
def _parse(text):
    return text.strip("**")

In [22]:
print(rewrite_prompt.template)

Provide a better search query for web search engine to answer the given question, end the queries with ’**’.  Question {x} Answer:


In [23]:
rewriter = rewrite_prompt | ChatOpenAI(temperature=0) | StrOutputParser() | _parse

In [24]:
distracted_query = "man that sam bankman fried trial was crazy! what is langchain?"

In [25]:
rewriter.invoke({"x": distracted_query})

'Who is Sam Bankman-Fried and what is Langchain?'

In [1]:
class Meta(type):
    def __init__(cls, name, bases, dct):
        cls.attr = 100
        cls.__init__ = Meta.child_fn
        cls.__init__.__doc__ = Meta.child_fn.__doc__
        print(name)
    
    @staticmethod
    def child_fn(self, *args):
        """init"""
        self.args = args

class Foo(metaclass=Meta):
    pass


x = Foo('a','b')

Foo


In [3]:
x.args

('a', 'b')

## Vec Database

In [25]:
from datetime import datetime
# (db='mongo_vecdb',
#         alias='mongo_vecdb',
#         host='mongodb+srv://benhvienhongngoc:F8ekiVzss5OQexq5@cluster0.vgtf0pz.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0',
#         authentication_source='admin')

  return rust_x509.load_der_x509_certificate(data)


MongoClient(host=['ac-7ygojyv-shard-00-00.vgtf0pz.mongodb.net:27017', 'ac-7ygojyv-shard-00-02.vgtf0pz.mongodb.net:27017', 'ac-7ygojyv-shard-00-01.vgtf0pz.mongodb.net:27017'], document_class=dict, tz_aware=False, connect=True, retrywrites=True, w='majority', appname='Cluster0', authsource='admin', replicaset='atlas-n6oxzp-shard-0', tls=True, read_preference=Primary(), uuidrepresentation=3)

## Calling multiple funcs

In [2]:
from langchain.pydantic_v1 import BaseModel, Field
from langchain.tools import BaseTool, StructuredTool, tool

### Simple func

In [8]:
class SearchInput(BaseModel):
    query: str = Field(description="should be a search query")
@tool("disease-search-tool", args_schema=SearchInput, return_direct=True)
def gen_disease_search_query(query: str) -> str:
    """function that return the query string for diseases"""
    return 'Diphtheria'

In [9]:
gen_disease_search_query.description, gen_disease_search_query.args

('disease-search-tool(query: str) -> str - function that return the query string for diseases',
 {'query': {'title': 'Query',
   'description': 'should be a search query',
   'type': 'string'}})

## Qdrant

### Hong ngoc post test

In [None]:
import pandas as pd
import json
posts = pd.read_csv('wp_posts.csv')
print(posts.shape)
posts.head()

In [6]:
content_posts = posts[(posts['post_type']=='post')&(pd.to_datetime(posts['post_date'])>pd.to_datetime('2021-01-01'))&posts[['post_title', 'post_content','guid']].notna().all(axis=1)]

In [10]:
from google.cloud.storage import Blob
from google.cloud import storage
client = storage.Client(project='ai-test-374607',
                            credentials=cred)
def getStorageFileContent(blob:Blob, client:storage.Client):
    
    
    file_content = blob.download_as_string(client=client).decode('utf-8')
    return file_content

In [23]:
def list_text_to_gcp_format(list_text):
    res = []
    for i,text in enumerate(list_text):
        res.append(json.dumps({'content':text,'task_type': "RETRIEVAL_DOCUMENT",'id':str(i)}))
    return '\n'.join(res)

def str_to_gcs(text:str, blob:Blob):
    blob.upload_from_string(text)
    print('uploaded')

def multi_text_embedding(list_text, blob:Blob) -> list:
    """Text embedding with a Large Language Model."""
    model = BatchTextEmbeddingModel.from_pretrained("textembedding-gecko@003")
    input_text = list_text_to_gcp_format(list_text=list_text)
    str_to_gcs(input_text, blob)
    batch_prediction_job=model.batch_predict(
    dataset=['gs://'+'/'.join(blob.id.split('/')[:-1])],
    destination_uri_prefix="gs://batch_embedding/output")
    print(batch_prediction_job.display_name)
    print(batch_prediction_job.resource_name)
    print(batch_prediction_job.state)

In [11]:
blob = Blob.from_string(uri="gs://batch_embedding/input/hn_posts.jsonl", client=client)

In [None]:
multi_text_embedding(content_posts['post_title'].to_list(), blob)

In [60]:
with open('output_prediction-model.jsonl','r') as f:
    preds = f.read()
preds = preds.split('\n')

In [None]:

vecs = []
for i, pred in enumerate(preds):
    if len(pred)< 5:
        continue
    json_format = json.loads(pred)
    vecs.append(
        PointStruct(id=i+1, vector={'key':json_format['predictions'][0]['embeddings']['values'],
                                  'content':[0]*768},
                    payload={"content": json_format['instance']['content'][:1000]}))
    if i%10 == 0:
        operation_info = qd_client.upsert(
    collection_name="post_collection",
    wait=True,
    points=vecs,
)
        vecs = []

        print(operation_info)

In [22]:
serch_vec = text_embedding('bệnh gan')

In [23]:

search_result = qd_client.search(
    collection_name="post_collection", query_vector=NamedVector(
       name="key",
       vector=serch_vec[0].values), limit=5
)

search_result

[ScoredPoint(id=1082, version=162, score=0.7701866, payload={'content': 'Sàng lọc bệnh lý Gan - Mật - Tụy tại Bệnh viện Hồng Ngọc'}, vector=None, shard_key=None), ScoredPoint(id=1544, version=162, score=0.7699643, payload={'content': '[THAM KHẢO] 14 điều được coi là “bổ gan” bạn nhất định phải biết'}, vector=None, shard_key=None), ScoredPoint(id=1364, version=162, score=0.7698804, payload={'content': 'U nguyên bào gan: Nguyên nhân, dấu hiệu và cách điều trị'}, vector=None, shard_key=None), ScoredPoint(id=1506, version=162, score=0.760731, payload={'content': 'Xơ gan còn bù: Nguyên nhân, biểu hiện và cách điều trị'}, vector=None, shard_key=None), ScoredPoint(id=1356, version=162, score=0.75999457, payload={'content': 'Tổng quan về bộ gen người'}, vector=None, shard_key=None)]


## Test indexer

In [5]:
from langchain_openai import ChatOpenAI
from langchain_google_genai import ChatGoogleGenerativeAI
import uuid
from functools import partial
import datetime
import uuid

In [13]:
from big_seo.common.lang import DocumentLang

In [6]:
start = datetime.datetime.now()

In [7]:
from big_seo.crawler.api import Crawler, UpToDateCrawler
from big_seo.llm.implement.index_mapper import SimpleQdrantHuggingFaceIndexMapperCreator,QdrantHuggingFaceIndexMapper
from big_seo.llm.implement.indexer import WebPageIndexer, InPageIndexer, WebPageDocument,OutlineDocument
from big_seo.llm.implement.parser import WebPageParser
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from big_seo.llm.implement.embedding_model import LLamaIndexEmbedding
from big_seo.llm.implement.parser import OutlineDocumentCreator
hug_model = HuggingFaceEmbedding(model_name="BAAI/bge-m3")
embed_model = LLamaIndexEmbedding(hug_model)
crawler = Crawler()


In [8]:
outline_doc_creator = OutlineDocumentCreator()
parser = WebPageParser(doc_creator=outline_doc_creator)
parser_h2 = WebPageParser(doc_creator=outline_doc_creator)

model = ChatOpenAI(name='gpt-4-turbo-preview',temperature=0.5)
model_gemini = ChatGoogleGenerativeAI(model="gemini-pro",temperature=0.5)

In [9]:
main_topic = 'viêm tinh hoàn'
webpages = crawler.search(main_topic,n=2)
outlines = []
for page in webpages:
    webpage_doc = WebPageDocument(page)
    parser.feed(webpage_doc)
    outlines.append(parser.parse(in_doc=True))

In [10]:
outlines_headers = ['\n'.join(map(lambda x: x[0].replace('\n',''),o)) for o in outlines if len(o) > 0]

In [11]:
gen_outline_prompt = """Bạn là một bác sĩ đa khoa, bạn có khả năng tạo những dàn ý bài viết đầy đủ, dễ hiểu cho các chủ đề liên quan y học. Khi tạo dàn ý, bạn cần dựa trên các dàn ý mẫu, các dàn ý mẫu được viết theo dạng <html tag> - <nội dung> , các dàn ý mẫu được phân tách nhau bằng ----, trong các dàn ý mẫu có thể có những mục không liên quan trực tiếp đến bài như 'Bài viết liên quan' 'Liên hệ' hãy bỏ qua các mục này. Nếu các dàn ý mẫu không chứa nội dung liên quan đến chủ đề bài viết, trả lời 'Tôi không biết'. Trong trường hợp các dàn ý mẫu có đề cập đến mục gây chú ý mạnh cho bệnh nhân khiến bệnh nhân muốn đến bệnh viện như 'sự nguy hiểm của bệnh' 'khi nào cần đến bệnh viện' thì hãy thêm vào dàn ý
FORMAT: Dàn ý đầu ra cần tuân thủ chặt chẽ theo format. Mỗi ý một dòng. Không trả lời những thông tin không liên quan đến dàn ý.

DÀN Ý MẪU: {example}

Hãy nêu dàn ý cho bài viết về {topic}
Trả lời:"""
# print(gen_outline_prompt.format(example='\n\n----\n\n'.join(outlines_headers),topic=main_topic))

In [12]:
model_res = model.invoke(gen_outline_prompt.format(example='\n----\n'.join(outlines_headers),topic=main_topic))
model_gemini_res = model.invoke(gen_outline_prompt.format(example='\n----\n'.join(outlines_headers),topic=main_topic))


In [13]:
# print(model_res.content)
org_gen_outline = model_res.content
if len(model_gemini_res.content) < 1000:
    print(model_gemini_res.content)

h2 - Viêm tinh hoàn là gì?
h2 - Nguyên nhân gây bệnh viêm tinh hoàn
h3 - 1. Bệnh quai bị & các bệnh tự miễn
h3 - 2. Bệnh lây qua đường tình dục STDs & hoạt động tình dục không an toàn
h3 - 3. Nhiễm trùng đường tiết niệu
h2 - Các triệu chứng và dấu hiệu của bệnh viêm tinh hoàn
h2 - Nguy cơ mắc bệnh viêm tinh hoàn
h3 - 1. Đối tượng
h3 - 2. Yếu tố rủi ro tăng nguy cơ mắc bệnh
h2 - Bệnh viêm tinh hoàn có nguy hiểm không?
h2 - Khi nào cần gặp bác sĩ?
h2 - Chẩn đoán bệnh viêm tinh hoàn
h2 - Phương pháp điều trị viêm tinh hoàn
h2 - Biện pháp phòng ngừa viêm tinh hoàn


In [14]:
if len(org_gen_outline) < 1000:
    print(org_gen_outline)
else:
    input('continue')

h2 - Viêm tinh hoàn là gì?
h2 - Nguyên nhân gây viêm tinh hoàn
h3 - 1. Bệnh quai bị và các bệnh tự miễn
h3 - 2. Bệnh lây qua đường tình dục STDs và hoạt động tình dục không an toàn
h3 - 3. Nhiễm trùng đường tiết niệu
h2 - Triệu chứng và dấu hiệu của viêm tinh hoàn
h2 - Nguy cơ mắc bệnh viêm tinh hoàn
h3 - 1. Đối tượng mắc bệnh
h3 - 2. Yếu tố rủi ro tăng nguy cơ mắc bệnh
h2 - Sự nguy hiểm của viêm tinh hoàn
h2 - Khi nào cần đến bệnh viện khi mắc viêm tinh hoàn
h2 - Chẩn đoán và điều trị viêm tinh hoàn
h2 - Biện pháp phòng ngừa viêm tinh hoàn


In [15]:
def check_is_heading(text:str):
    """check if text is following heading format"""
    if len(text) > 2 and text.startswith('h') and text[1].isdigit():
        return True
    return False

In [16]:
def outlines_to_h2(outline):
    res = []
    i = 0
    while i<len(outline):
        if check_is_heading(outline[i]):
            res.append((outline[i],[]))
            i+=1
            while i<len(outline) and check_is_heading(outline[i]) and outline[i][:2] > 'h2':
                res[-1][1].append(outline[i])
                i+=1
        else:
            i += 1
    return res

In [17]:
gen_outline = list(map(lambda x:x.strip(),model_res.content.split('\n')))
h2_gen_outline = outlines_to_h2(gen_outline)

In [18]:
partial_prompt = """Bạn là một bác sĩ giàu kinh nghiệm trên lĩnh vực {topic}, dựa trên KIẾN THỨC được cung cấp bạn có khả năng trình bày lại theo hướng cung cấp kiến thức chuyên sâu, rõ ràng


BẮT BUỘC: nếu trong phần KIẾN THỨC không chứa nội dung liên quan đến mục bạn đang viết hãy trả lời 'Tôi không biết'


########
KIẾN THỨC: {knowledge}

########
NHIỆM VỤ: hãy viết một đoạn từ 300 đến 500 từ về '{headline}' {sub_headline_instruction} Bạn chỉ viết một mục trong bài viết lớn hơn, nên chỉ viết các thông tin liên quan đến '{headline}' không viết các thông tin khác

TRẢ LỜI:"""

h1_prompt = """Bạn là một bác sĩ giàu kinh nghiệm trong lĩnh vực {topic}, dựa vào KIẾN THỨC được cung cấp bạn có thể trình bày lại ngắn gọn dễ hiểu

BẮT BUỘC: nếu trong phần KIẾN THỨC không chứa nội dung liên quan đến mục bạn đang viết hãy trả lời 'Tôi không biết'

########
KIẾN THỨC: {knowledge}

NHIỆM VỤ: Hãy viết một đoạn giới thiệu ngắn từ 200 đến 300 từ về chủ đề {topic} trong nêu các phần cụ thể như nguyên nhân, cách điều trị

TRẢ LỜI:"""

In [19]:
creator = SimpleQdrantHuggingFaceIndexMapperCreator(in_doc=True)
parser_h2.parse = partial(parser_h2.parse, nested=False, in_doc=True,concat_to='h2')
webpage_indexer = InPageIndexer(embedding_model=embed_model,
                                parser=parser_h2,
                                index_mapper_creator=creator)
for page in webpages:
    page_doc = WebPageDocument(page)
    webpage_indexer.invoke(page_doc)

webpage_index_mapper = webpage_indexer.get_index_mapper()

In [22]:
from big_seo.llm.implement.retriever import DirectRetriever
from big_seo.llm.core.common import IPrompt

In [23]:
class Prompt(IPrompt):
    def __init__(self, prompt) -> None:
        self.prompt = prompt

    def get_prompt(self) -> str:
        return self.prompt

In [28]:
retriever = DirectRetriever(embedding_model=embed_model,
                            indexer=webpage_indexer,
                            index_mapper_creator=creator)

In [None]:
# class HashableOutlineDoc(OutlineDocument):
#     def __hash__(self):
#         return hash(self.doc_id)
    
#     def __eq__(self, __value: object) -> bool:
#         return hash(self.doc_id) == hash(__value)

# def get_unique_retrieved_docs(retrieved_docs):
#     docs = map(lambda x: x.get_doc(),retrieved_docs)
#     return set([HashableOutlineDoc(header=doc.header, content=doc.content, doc_id=doc.doc_id) for doc in docs])

# def get_gen_knowledge_fn(embed_model,creator,webpage_index_mapper):
#     def sub(outline):
#         prompts = [outline[0]]
#         prompts.extend(outline[1])
#         docs = set()
#         for prompt in prompts:
#             vec = embed_model.get_embedding(prompt)
#             db_vec = creator.get_db_familiar_vector(vec=vec, get=True)
#             retrieved_docs = webpage_index_mapper.search_doc(vec=db_vec)
#             docs = docs.union(get_unique_retrieved_docs(retrieved_docs[:7]))
#             # print(len(docs))
#         return '\n----\n'.join(map(lambda x: x.header +'\n'+ x.get_doc_content(),list(docs)[:5]))
#     return sub

In [29]:
def get_gen_knowledge_fn(embed_model,creator,webpage_index_mapper):
    def sub(outline):
        prompts = [outline[0]]
        prompts.extend(outline[1])
        docs = set()
        for prompt in prompts:
            retrieved_docs = retriever.invoke(Prompt(prompt=prompt),limit=5)
            docs = docs.union(retrieved_docs)
            # print(len(docs))
        return '\n----\n'.join(map(lambda x: x.get_doc_meta()['title'] +'\n'+ x.get_doc().get_doc_content(),list(docs)[:5]))
    return sub

In [30]:
get_knowledge = get_gen_knowledge_fn(embed_model,creator,webpage_index_mapper)

In [31]:
full_gen_content = []
error_knowledge = []
outline_with_knowledge = []
# for o in h2_gen_outline:
for o in [(o,[]) for o in org_gen_outline.split('\n')]:
    full_gen_content.append(o[0])
    if o[0].startswith('h1'):
        knowledge = get_knowledge(outline=o)
        prompt = h1_prompt.format(topic=main_topic, knowledge=knowledge)
    else:
        knowledge = get_knowledge(outline=o)
        if len(o[1]) > 0:
            sub_headline ='Trong đoạn cần đề cập đến các đề mục '+' '.join(o[1])
        else:
            sub_headline = ''
        
        prompt = partial_prompt.format(topic=main_topic, knowledge=knowledge,
                               headline = o[0],
                               sub_headline_instruction=sub_headline)
    
    res = model.invoke(prompt)
    outline_with_knowledge.append((o[0],res.content,knowledge))
    if 'tôi không biết' in res.content.lower():
        print(o[0])
        error_knowledge.append((o[0], knowledge))
    full_gen_content.append(res.content)

In [32]:
with open(f'test_output/{main_topic}_raw.txt','w') as f:
    f.write('\n'.join(full_gen_content))

In [33]:
final_prompt="""Bạn là một bác sĩ giàu kinh nghiệm trong lĩnh vực {topic}
Dưới đây là một mẫu bài viết về {topic},

Bài mẫu: {example}


YÊU CẦU bạn hãy viết lại bài viết này thành một bài viết chuyên sâu khoảng 1600 từ theo hướng tối ưu chuẩn SEO, đảm bảo mật độ từ khóa chính {topic} tốt.
Với mỗi ý hãy nêu kèm giải thích chọn cách trình bày như liệt kê từng dòng, so sánh hợp lý

BẮT BUỘC: bạn không cung cấp bất cứ kiến thức nào khác ngoài bài mẫu

TRẢ LỜI"""

In [None]:
final_res = model_gemini.invoke(final_prompt.format(topic=main_topic,
                                             outline=org_gen_outline,
                                             example = '\n'.join(full_gen_content)))

In [None]:
with open(f'test_output/gemini_rewrite_{main_topic}.txt','w') as f:
    f.write(final_res.content)

In [36]:
final_res = model.invoke(final_prompt.format(topic=main_topic,
                                             outline=org_gen_outline,
                                             example = '\n'.join(full_gen_content)))

In [37]:
with open(f'test_output/gpt_rewrite_{main_topic}.txt','w') as f:
    f.write(final_res.content)

In [38]:
with open('template.txt','r') as f:
    template = f.read()


In [39]:
data = []
data.append(template.format(_id = 0,
                           cur_state='cur',
                           outline=org_gen_outline.replace('\n','<br>'),
                           model_output='<br>'.join(full_gen_content).replace('\n','<br>'),
                           knowledge=''))
for i,(outline, model_output, knowledge) in enumerate(outline_with_knowledge):
    _id = i + 1
    cur_state = 'hidden'
    temp = template.format(_id = _id,
                           cur_state=cur_state,
                           outline=outline,
                           model_output=model_output,
                           knowledge=knowledge.replace('\n','<br>'))
    data.append(temp)

In [40]:
with open('index.txt','r') as f:
    index_page = f.read()


In [41]:
index_page = index_page.format(data='\n'.join(data))
with open('index.html','w') as f:
    f.write(index_page)

In [42]:
end = datetime.datetime.now()
# 10:13 -> 10:19
(end - start).seconds/60

15.683333333333334

### Test db model

In [1]:
from dataclasses import dataclass
from abc import ABC, abstractclassmethod, abstractstaticmethod,abstractmethod

# class BaseVectorStoreModel:
#     _subclasses: list = []
#     def __init_subclass__(cls):
#         BaseVectorStoreModel._subclasses.append(cls)


In [2]:
class BaseVectorStoreModel:

    @abstractstaticmethod
    def init_instance(vec_db):
        pass

    @abstractstaticmethod
    def query(vec_db):
        pass

    @abstractstaticmethod
    def close_instance(vec_db):
        pass


In [3]:
class BaseOne(BaseVectorStoreModel):
    _collections: dict = {}
    
    def __init_subclass__(cls):
        BaseOne._collections[cls.__collection__] = cls

    @staticmethod
    def init_instance(vec_db):
        print('init')

    @staticmethod
    def query(vec_db):
        print('query')
        
    @staticmethod
    def close_instance(vec_db):
        print('close')

In [14]:
import uuid
str(uuid.uuid4())

'7e396061-4171-4a9d-9ac3-3a117e63a782'

In [4]:
class BaseEmbeddingDocumentModel(BaseOne):
    __collection__: str = 'None'
    _id: bytes
    head: str
    doc: str
    vec: dict[str, list]

    meta: dict = None

    def _to_db(self):
        print('dump to db')

    def _to_doc(self):
        print('retrieved docs from db')


class BaseEmbeddingDocumentModelTwo(BaseOne):
    __collection__: str = 'None'
    _id: bytes
    head: str
    doc: str
    vec: dict[str, list]

    meta: dict = None

    def _to_db(self):
        print('dump to db')

    def _to_doc(self):
        print('retrieved docs from db')

In [5]:
class BaseEmbeddingDocumentModelThree(Base_one):
    __collection__: str = 'None'
    _id: bytes
    head: str
    doc: str
    vec: dict[str, list]

    meta: dict = None

    def _to_db(self):
        print('dump to db')

    def _to_doc(self):
        print('retrieved docs from db')

In [5]:

BaseOne._collections

{'None': __main__.BaseEmbeddingDocumentModelTwo}

In [4]:
myt = '''230545043
230528327
230538089
171688072
240052385
230395363
240058580
240011810
240025907
240024581
230516444
230518280
230522009
230508908
230520581
230502086
230483147
230546378
240005057
230547092
230537531
230537828
230537816
230529542
230534006
230537696
230542862
230544287
240050444
240050756
240046382
240046928
240012068
240025688
171030949
230517830
230028306
230020022
240005984
171432187
230466935
12036413
230545049
230538635
171260211
240038570
240052694
240038564
240042173
240047390
240050393
240011858
240026504
240035237
240025610
240035663
230520608
13064155
230524538
230514767
230521775
230524862
230501339
14030799
240001664
240011084
240011363
230547515
240001655
172980284
240011567
230539232
230542967
230544008
230527862
230528402
230528468
230545325
17047023
240038567
240043049
240043502
240049256
240023054
230486117
230494226
171066857
230548637
15041581
240004835
230287118
230537396
230542811
230542190
171842568
240046406
240043091
240050117
240053822
240012179
230238844
171809556
240032720
240036287
13023676
230522348
171833678
240001268
240003683
240008054
171103335
240008987
240009998
ma_y_te
230544008
240035345
17047023
230287118
240038567
230545325
240043049
240043502
240049256
15041581
240006290
230539232
240005576
240023054
230542967
230527862
171066857
230528402
230528468
230548637
240004835
230486117
11043705
230472359
230448307
171688072
240047681
230547092
240041066
240052385
230395363
240058580
230546378
230538089
230516444
172739094
230545043
230528327
240005057
230516288
230518280
230508908
230520581
230458684
230502086
230460132
230483147
240032720
240036287
230238844
240042065
171809556
240003683
240046406
240054434
240012179
171842568
171103335
240029642
240043091
240050117
171431526
240053822
240008054
240012731
230315179
240008987
240009998
230545376
240032693
230532113
13023676
171260206
230537396
230542811
230536412
230542190
171833678
240001268
172902590
230522348
172796376
240012068
240025688
240050444
240050756
240046382
240046928
171432187
230537531
171030949
240034181
230517830
230536481
230537816
230537828
15115537
230529542
230534006
230537696
230542862
230544287
240005984
230028306
230516042
230473376
230020022
240038570
14030799
240035237
240026504
240051893
240052694
240038564
230547515
240035663
240042173
240047390
240050393
172980284
230501339
240011858
240014099
230466935
240025610
230538635
13064155
171469115
12036413
230545049
171260211
240001664
240011084
240011363
240001655
230175608
230520608
230524538
230306663
230455346
230524862'''.split('\n')

In [None]:
SELECT UF_CRM_1644459004214 FROM b_crm_deal d LEFT JOIN b_uts_crm_contact c ON d.`CONTACT_ID` = c.`VALUE_ID` WHERE `CATEGORY_ID` = 7 AND `STAGE_SEMANTIC_ID` = 'S' AND `DATE_CREATE` > '2024-01-01' 