In [1]:
# API 키 설정
import os
os.environ["OPENAI_API_KEY"] = ""

In [2]:
# 한글 위키피디아 허깅페이스 데이터 로드
from datasets import load_dataset
ds = load_dataset("lcw99/wikipedia-korean-20221001", split='train[-20:]')

  from .autonotebook import tqdm as notebook_tqdm


In [3]:
# 데이터셋 메타 확인
ds

Dataset({
    features: ['id', 'url', 'title', 'text'],
    num_rows: 20
})

In [4]:
# 
data = ds.to_pandas()[['id', 'text', 'title']]
data.head()

Unnamed: 0,id,text,title
0,3291900,CRUX는 숙련된 리눅스 사용자들을 대상으로 하는 경량의 x86-64에 최적화된 리...,CRUX
1,3291901,다쓰에정(立江町)은 도쿠시마현 나카군에 설치된 정이다. \n\n도쿠시마현의 폐지된 ...,다쓰에정
2,3291902,다카라다촌(宝田村)은 도쿠시마현 나카군에 설치된 촌이다. \n\n도쿠시마현의 폐지된...,다카라다촌 (도쿠시마현)
3,3291903,나가이케촌(長生村)은 도쿠시마현 나카군에 설치된 촌이다. \n\n도쿠시마현의 폐지된...,나가이케촌 (도쿠시마현)
4,3291904,오노촌(大野村)은 도쿠시마현 나카군에 설치된 촌이다. \n\n도쿠시마현의 폐지된 시...,오노촌 (도쿠시마현)


In [5]:
from openai import OpenAI
client = OpenAI()

def get_embedding(text, model="text-embedding-3-small"):
   text = text.replace("\n", " ")
   return client.embeddings.create(input = [text], model=model).data[0].embedding

data['embedding'] = data['text'].apply(lambda x: get_embedding(x, model='text-embedding-3-small'))

In [6]:
data

Unnamed: 0,id,text,title,embedding
0,3291900,CRUX는 숙련된 리눅스 사용자들을 대상으로 하는 경량의 x86-64에 최적화된 리...,CRUX,"[-0.043367378413677216, 0.05967704579234123, 0..."
1,3291901,다쓰에정(立江町)은 도쿠시마현 나카군에 설치된 정이다. \n\n도쿠시마현의 폐지된 ...,다쓰에정,"[-0.010071391239762306, -0.03209898993372917, ..."
2,3291902,다카라다촌(宝田村)은 도쿠시마현 나카군에 설치된 촌이다. \n\n도쿠시마현의 폐지된...,다카라다촌 (도쿠시마현),"[0.0006068224320188165, -0.0265494454652071, 0..."
3,3291903,나가이케촌(長生村)은 도쿠시마현 나카군에 설치된 촌이다. \n\n도쿠시마현의 폐지된...,나가이케촌 (도쿠시마현),"[0.023972829803824425, -0.006797664798796177, ..."
4,3291904,오노촌(大野村)은 도쿠시마현 나카군에 설치된 촌이다. \n\n도쿠시마현의 폐지된 시...,오노촌 (도쿠시마현),"[0.016055993735790253, -0.013276520185172558, ..."
5,3291905,울프럼 리서치(Wolfram Research)는 연산 기술을 개발하는 미국의 다국적...,울프럼 리서치,"[-0.036400407552719116, -0.016310442239046097,..."
6,3291908,와이어스(Wyeth)는 미국의 제약 회사이다. 이 기업은 1860년 펜실베이니아주 ...,와이어스,"[0.003992738202214241, -0.007662554271519184, ..."
7,3291911,"야시 라지 필름스(Yash Raj Films, YRF)는 인도의 영화 제작 및 배급...",야시 라지 필름스,"[-0.027020961046218872, 0.04465223848819733, 0..."
8,3291912,가모다니촌(加茂谷村)은 도쿠시마현 나카군에 설치된 촌이다. \n\n도쿠시마현의 폐지...,가모다니촌,"[0.023742390796542168, 0.015125046484172344, 0..."
9,3291925,《Ornette!》은 1962년 2월 애틀랜틱 레코드에서 발매된 미국의 알토 색소폰...,Ornette!,"[0.01614939421415329, 8.841833914630115e-05, -..."


In [7]:
len(data['embedding'][0])

1536

In [8]:
# Qdrant 클라이은트 설정
from qdrant_client import QdrantClient, models

qdrant_client = QdrantClient(
    url="", 
    api_key="",
)

print(qdrant_client.get_collections())

collections=[]


In [9]:
# 콜렉션 생성 및 기본 컨피그 설정
qdrant_client.recreate_collection(
    collection_name="wiki_sample",
    vectors_config=models.VectorParams(
        size=1536, 
        distance=models.Distance.COSINE,
    ),
)

  qdrant_client.recreate_collection(


True

In [10]:
# 생성된 임베딩 벡터 업서트
qdrant_client.upload_points(
    collection_name="wiki_sample",
    points=[
        models.PointStruct(
            id=int(row.id), vector=row["embedding"], payload={"title": row['title'], "text":row['text']}
        )
        for index, row in data.iterrows()
    ],
)

In [11]:
# 인덱싱 퀀타이즈 걸어서 하기
qdrant_client.recreate_collection(
    collection_name="wiki_sample_sq",
    vectors_config=models.VectorParams(
        size=1536, 
        distance=models.Distance.COSINE,
    ),
    quantization_config=models.ScalarQuantization(
        scalar=models.ScalarQuantizationConfig(
            type=models.ScalarType.INT8,
            quantile=0.99,
            always_ram=True,
        ),
    ),
)

# 퀀타이즈드 콜렉션에 동일한 데이터 업로드
qdrant_client.upload_points(
    collection_name="wiki_sample_sq",
    points=[
        models.PointStruct(
            id=int(row.id), vector=row["embedding"], payload={"title": row['title'], "text":row['text']}
        )
        for index, row in data.iterrows()
    ],
)

  qdrant_client.recreate_collection(


In [12]:
# 생성된 콜렉션 기반 top_3 서치 function 테스팅
text = "파이썬 오픈소스"
hits = qdrant_client.search(
    collection_name="wiki_sample",
    query_vector=client.embeddings.create(input = [text], model='text-embedding-3-small').data[0].embedding,
    limit=3,
)
for hit in hits:
    print(hit.payload, "score:", hit.score)

{'text': 'Zope은 파이썬으로 작성된 자유-오픈 소스 웹 애플리케이션 서버이자 관련 온라인 커뮤니티의 이름이다. Zope은 "Z Object Publishing Environment"을 의미하며 현재 흔히 쓰이는 웹의 객체 게시 방식을 사용한 최초의 시스템이었다. Zope은 파이썬이 조명을 받는데 크게 도움을 준 애플리케이션이자 파이썬 킬러 앱으로 불리고 있다.\n\nZope 버전 \n Zope 2\n BlueBream\n Zope Toolkit\n Grok\n Zope 4\n Zope 5\n\nZope 페이지 템플릿 예시 \n<div tal:condition="...">\n  ...\n</div>\n\nZope을 사용하는 저명한 소프트웨어 \n 스쿨툴은 Zope을 사용하는 오픈 소스 학생 정보 시스템이다. 플론은 Zope을 사용하는 오픈 소스 저작물 관리 시스템이다.\n\n같이 보기 \n Pylons\n 장고 (웹 프레임워크)\n web2py\n 콘텐츠 관리\n 저작물 관리 시스템\n 플론\n 트위스티드 (소프트웨어)\n\n각주\n\n외부 링크 \n \n\n크로스 플랫폼 자유 소프트웨어\n자유 저작물 관리 시스템\n파이썬으로 작성된 자유 소프트웨어\n파이썬 웹 프레임워크\n웹 개발 소프트웨어\n미국의 소프트웨어 기업', 'title': 'Zope'} score: 0.3744105
{'text': '웹민(Webmin)은 유닉스 계열 시스템을 위한 강력하고 유연한 웹 기반 서버 관리 제어판이다. 웹민을 통해 사용자는 사용자, 디스크 할당량, 서비스, 구성 파일 등 운영 체제의 내부 부분을 구성하고 아파치 HTTP 서버, PHP, MySQL 등의 오픈 소스 앱들을 수정하고 제어할 수 있다.\n\n개요 \n웹민은 대부분 펄에 기반을 두며 자체 프로세스와 웹 서버로서 실행된다. TCP 포트 10000을 기본값으로 사용한다. OpenSSL이 추가 필요 펄 모듈들과 함께 설치된 경우 SSL을 사용하도록 구성할 수 있다.\n\n같이 보기 \n YaST\n\n각주\

In [13]:
# SQ 버전 콜렉션에도 동일하게 진행
text = "파이썬 오픈소스"
hits = qdrant_client.search(
    collection_name="wiki_sample_sq",
    query_vector=client.embeddings.create(input = [text], model='text-embedding-3-small').data[0].embedding,
    limit=3,
)
for hit in hits:
    print(hit.payload, "score:", hit.score)

{'text': 'Zope은 파이썬으로 작성된 자유-오픈 소스 웹 애플리케이션 서버이자 관련 온라인 커뮤니티의 이름이다. Zope은 "Z Object Publishing Environment"을 의미하며 현재 흔히 쓰이는 웹의 객체 게시 방식을 사용한 최초의 시스템이었다. Zope은 파이썬이 조명을 받는데 크게 도움을 준 애플리케이션이자 파이썬 킬러 앱으로 불리고 있다.\n\nZope 버전 \n Zope 2\n BlueBream\n Zope Toolkit\n Grok\n Zope 4\n Zope 5\n\nZope 페이지 템플릿 예시 \n<div tal:condition="...">\n  ...\n</div>\n\nZope을 사용하는 저명한 소프트웨어 \n 스쿨툴은 Zope을 사용하는 오픈 소스 학생 정보 시스템이다. 플론은 Zope을 사용하는 오픈 소스 저작물 관리 시스템이다.\n\n같이 보기 \n Pylons\n 장고 (웹 프레임워크)\n web2py\n 콘텐츠 관리\n 저작물 관리 시스템\n 플론\n 트위스티드 (소프트웨어)\n\n각주\n\n외부 링크 \n \n\n크로스 플랫폼 자유 소프트웨어\n자유 저작물 관리 시스템\n파이썬으로 작성된 자유 소프트웨어\n파이썬 웹 프레임워크\n웹 개발 소프트웨어\n미국의 소프트웨어 기업', 'title': 'Zope'} score: 0.3744105
{'text': '웹민(Webmin)은 유닉스 계열 시스템을 위한 강력하고 유연한 웹 기반 서버 관리 제어판이다. 웹민을 통해 사용자는 사용자, 디스크 할당량, 서비스, 구성 파일 등 운영 체제의 내부 부분을 구성하고 아파치 HTTP 서버, PHP, MySQL 등의 오픈 소스 앱들을 수정하고 제어할 수 있다.\n\n개요 \n웹민은 대부분 펄에 기반을 두며 자체 프로세스와 웹 서버로서 실행된다. TCP 포트 10000을 기본값으로 사용한다. OpenSSL이 추가 필요 펄 모듈들과 함께 설치된 경우 SSL을 사용하도록 구성할 수 있다.\n\n같이 보기 \n YaST\n\n각주\