In [1]:
from pymilvus import MilvusClient

client = MilvusClient("milvus_demo.db")

In [2]:
if client.has_collection(collection_name="demo_collection"):
    client.drop_collection(collection_name="demo_collection")
client.create_collection(
    collection_name="demo_collection",
    dimension=1024,  # The vectors we will use in this demo has 768 dimensions
    vector_field_name="dense"
)

### Markdown 파일 불러오기

In [3]:
with open("/home/eahc00/tutorial/practice1/md_data/NLP/2주차.md", "r") as f:
    docs = f.read()
    # print(docs)

### markdown chuncking

In [4]:
from langchain_text_splitters import MarkdownHeaderTextSplitter

headers_to_split_on = [  # 문서를 분할할 헤더 레벨과 해당 레벨의 이름을 정의합니다.
    (
        "#",
        "Header 1",
    ),  # 헤더 레벨 1은 '#'로 표시되며, 'Header 1'이라는 이름을 가집니다.
    (
        "##",
        "Header 2",
    ),  # 헤더 레벨 2는 '##'로 표시되며, 'Header 2'라는 이름을 가집니다.
    (
        "###",
        "Header 3",
    ),  # 헤더 레벨 3은 '###'로 표시되며, 'Header 3'이라는 이름을 가집니다.
    (
        "####",
        "Header 4",
    )
]

# 마크다운 헤더를 기준으로 텍스트를 분할하는 MarkdownHeaderTextSplitter 객체를 생성합니다.
markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on=headers_to_split_on, strip_headers=False,)
# markdown_document를 헤더를 기준으로 분할하여 md_header_splits에 저장합니다.
md_header_splits = markdown_splitter.split_text(docs)
docs = []
# 분할된 결과를 출력합니다.
for header in md_header_splits:
    docs.append(header.page_content)
    # print(f"{header.page_content}")
    # print(f"{header.metadata}", end="\n=====================\n")


### Embedding(dense, sparse)

In [5]:
from pymilvus.model.hybrid import BGEM3EmbeddingFunction

bge_m3_ef = BGEM3EmbeddingFunction(
    user_fp16=False, 
    device="cuda:2"
    )
dense_dim = bge_m3_ef.dim["dense"]

docs_embeddings = bge_m3_ef.encode_documents(docs)

# Print embeddings
print("Embeddings:", docs_embeddings)
# Print dimension of dense embeddings
print("Dense document dim:", bge_m3_ef.dim["dense"], docs_embeddings["dense"][0].shape)
# Since the sparse embeddings are in a 2D csr_array format, we convert them to a list for easier manipulation.
print("Sparse document dim:", bge_m3_ef.dim["sparse"], list(docs_embeddings["sparse"])[0].shape)

  from .autonotebook import tqdm as notebook_tqdm
Fetching 30 files: 100%|██████████| 30/30 [00:00<00:00, 61410.01it/s]
You're using a XLMRobertaTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


Embeddings: {'dense': [array([-0.03967127, -0.00750555, -0.02115396, ..., -0.05537705,
        0.07631838, -0.0071889 ], shape=(1024,), dtype=float32), array([-0.03342912, -0.01282029, -0.0105438 , ..., -0.03197164,
        0.03826621,  0.02119539], shape=(1024,), dtype=float32), array([-0.03467105, -0.03611848,  0.00391398, ..., -0.01570554,
        0.07241791, -0.00499846], shape=(1024,), dtype=float32), array([-0.00449571, -0.01025842, -0.02835798, ...,  0.00889839,
        0.04279955,  0.00064747], shape=(1024,), dtype=float32), array([-0.05673527, -0.02733854, -0.01462478, ..., -0.01317806,
        0.00023753, -0.003809  ], shape=(1024,), dtype=float32), array([-0.06701937, -0.02986659,  0.01342021, ..., -0.00878381,
        0.00974623,  0.06811511], shape=(1024,), dtype=float32), array([-0.05286963, -0.00155859, -0.01700661, ..., -0.02146157,
        0.002679  , -0.00604413], shape=(1024,), dtype=float32), array([-0.0120805 , -0.02733046, -0.03279171, ...,  0.00950356,
       -0.

In [6]:
data = [
    {"id" : i, "dense" : docs_embeddings["dense"][i].tolist(), "subject" : "NLP", "text" : docs[i]}
    for i in range(len(docs))
]

res = client.insert(collection_name="demo_collection", data=data)

In [7]:
queries = ["표현학습이란 무엇인가요?", 
           "RNN의 문제는 무엇인가요?"]

query_embeddings = bge_m3_ef.encode_queries(queries)

# Print embeddings
print("Embeddings:", query_embeddings)
# Print dimension of dense embeddings
print("Dense query dim:", bge_m3_ef.dim["dense"], query_embeddings["dense"][0].shape)
# Since the sparse embeddings are in a 2D csr_array format, we convert them to a list for easier manipulation.
print("Sparse query dim:", bge_m3_ef.dim["sparse"], list(query_embeddings["sparse"])[0].shape)

Embeddings: {'dense': [array([-0.03501119, -0.02539117, -0.00141004, ..., -0.03410389,
        0.0315879 ,  0.02493187], shape=(1024,), dtype=float32), array([-0.07105995, -0.00034722,  0.01634757, ..., -0.03044891,
        0.03097286, -0.01159351], shape=(1024,), dtype=float32)], 'sparse': <Compressed Sparse Row sparse array of dtype 'float64'
	with 12 stored elements and shape (2, 250002)>}
Dense query dim: 1024 (1024,)
Sparse query dim: 250002 (250002,)


In [8]:
print(res)

{'insert_count': 12, 'ids': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]}


In [9]:
res = client.search(
    collection_name="demo_collection",
    data=[query_embeddings["dense"][1].tolist()],
    limit=2,
    output_fields=["text", "subject"]
)

text = res[0][0]['entity']['text']

print(text)

### S2S DEEP LEARNING APPROACH
- 여러 번(독립적으로) Prediction(Sequence 길이만큼) + Convolution Idea
- **Sequence를 모델링**(**순서**를 넣어보자!)
- 입력 순서를 달아 준다. **기억과 연관**된다.(네트워크가 기억력을 가짐)
기억 : 과거의 어떤 것이 현재에 영향을 미치는 것.
- **Neural Network + Memory = Recurrent Neural Network**
- 결과물이 다음 번의 입력으로 다시 들어옴.  
- RNN의 문제(한계)
- **Vanishing Gradient**
- (backpropagation시)term이 길어질 때 Gradient가 소실된다.
- 구조적으로 바로 전의 것에 영향을 받게 되어 있기 때문에 Long-Dependency가 있는 입력 혹은 결과가 잘 반영되지 않는다.
- **Exploding Gradient**
- 더 중요한 정보, 덜 중요한 정보를 구분하지 못하고 Gradient가 폭발할 수 있다.
- Short-Dependency가 더 중요함에도, 멀리 있는 gradient가 너무 높게 계산 되어 가까이 있는 gradient가 충분히 반영되지 않는 경우.  
- 기존 RNN은 sequence가 길어지면 성능이 떨어짐.
→ LSTM이 이걸 해결하는 방법으로 나옴.
→ LSTM RNN으로 최초의 S2S을 개발.  
- LSTM(개념만 알아두면 됨.)  
| neural | memory | 의미                                                     |
| ------ | ------ | ------------------------------------------------------ |
| input  | Write  | 1이면 입력 x가 들어올 수 있도록 허용(open). 0이면 Block(closed)        |
| output | Read   | 1이면 의미있는 결과물로 최종 Output(

In [1]:
from transformers import pipeline
import torch
from dotenv import load_dotenv
import os

load_dotenv()

hf_token = os.environ.get("HUGGINGFACE_TOKEN")

pipe = pipeline(
    "text-generation",
    model="google/gemma-2-9b-it",
    device="cuda:1",
    torch_dtype=torch.bfloat16,
    token=hf_token
)

  from .autonotebook import tqdm as notebook_tqdm


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


Loading checkpoint shards: 100%|██████████| 4/4 [00:01<00:00,  3.41it/s]
Device set to use cuda:1


In [18]:
system_prompt = "당신은 대학생의 학습을 도와주는 학습 도우미입니다. 사용자가 물어보는 질문에 대한 답을 학생이 제공한 문서에서 찾아 제공합니다. 문서에 적힌 내용만을 답하고 없으면 문서에서 찾을 수 없는 내용이라고 대답하세요."

def format_user_prompt(query, document):
    return system_prompt + f"\n문서: {document} \n질문: {query}"

query = "기존 RNN의 문제점이 무엇인가요?"
print(format_user_prompt(query, text))

messages = [
    {
        "role": "user",
        "content": format_user_prompt(query, text)
    }
]

output = pipe(messages, max_new_tokens=512)
print(output[0]["generated_text"][-1]["content"])

당신은 대학생의 학습을 도와주는 학습 도우미입니다. 사용자가 물어보는 질문에 대한 답을 학생이 제공한 문서에서 찾아 제공합니다. 문서에 적힌 내용만을 답하고 없으면 문서에서 찾을 수 없는 내용이라고 대답하세요.
문서: ### S2S DEEP LEARNING APPROACH
- 여러 번(독립적으로) Prediction(Sequence 길이만큼) + Convolution Idea
- **Sequence를 모델링**(**순서**를 넣어보자!)
- 입력 순서를 달아 준다. **기억과 연관**된다.(네트워크가 기억력을 가짐)
기억 : 과거의 어떤 것이 현재에 영향을 미치는 것.
- **Neural Network + Memory = Recurrent Neural Network**
- 결과물이 다음 번의 입력으로 다시 들어옴.  
- RNN의 문제(한계)
- **Vanishing Gradient**
- (backpropagation시)term이 길어질 때 Gradient가 소실된다.
- 구조적으로 바로 전의 것에 영향을 받게 되어 있기 때문에 Long-Dependency가 있는 입력 혹은 결과가 잘 반영되지 않는다.
- **Exploding Gradient**
- 더 중요한 정보, 덜 중요한 정보를 구분하지 못하고 Gradient가 폭발할 수 있다.
- Short-Dependency가 더 중요함에도, 멀리 있는 gradient가 너무 높게 계산 되어 가까이 있는 gradient가 충분히 반영되지 않는 경우.  
- 기존 RNN은 sequence가 길어지면 성능이 떨어짐.
→ LSTM이 이걸 해결하는 방법으로 나옴.
→ LSTM RNN으로 최초의 S2S을 개발.  
- LSTM(개념만 알아두면 됨.)  
| neural | memory | 의미                                                     |
| ------ | ------ | ------------------------------------------------------ |