In [95]:
# API 키를 환경변수로 관리하기 위한 설정 파일
from dotenv import load_dotenv

# API 키 정보 로드
load_dotenv()

True

In [None]:
# !pip install langchain-teddynote

In [96]:
# LangSmith 추적을 설정합니다. https://smith.langchain.com
# !pip install langchain-teddynote
from langchain_teddynote import logging

# 프로젝트 이름을 입력합니다.
logging.langsmith("CH99-MyTest")

LangSmith 추적을 시작합니다.
[프로젝트명]
CH99-MyTest


In [97]:
import pandas as pd
import chromadb
from chromadb.utils import embedding_functions
from chromadb.config import Settings
from tqdm import tqdm
import os

In [98]:
# 현재 디렉토리에 DB 저장 경로 설정
current_dir = os.getcwd()
db_path = os.path.join(current_dir, "my_db.db")

# ChromaDB 클라이언트 초기화 (영구 저장소 설정)
client = chromadb.PersistentClient(
    path=db_path, settings=Settings(allow_reset=True, is_persistent=True)
)


In [None]:
# Embedding 함수 설정
embedding_function = embedding_functions.SentenceTransformerEmbeddingFunction(
    model_name='all-MiniLM-L6-v2'
)

def reset_collection(client, collection_name):
    try:
        # 기존 컬렉션 존재 여부 확인
        existing_collections = client.list_collections()
        collection_exists = any(col.name == collection_name for col in existing_collections)
        
        if collection_exists:
            print(f"기존 컬렉션 '{collection_name}'을 삭제합니다.")
            client.delete_collection(collection_name)
            print(f"컬렉션 '{collection_name}'이 삭제되었습니다.")
        
        # 새로운 컬렉션 생성
        print(f"새로운 컬렉션 '{collection_name}'을 생성합니다.")
        collection = client.create_collection(
            name=collection_name,
            embedding_function=embedding_function
        )
        
        print(f"컬렉션 '{collection_name}'이 성공적으로 초기화되었습니다.")
        return collection
        
    except Exception as e:
        print(f"컬렉션 초기화 중 오류 발생: {str(e)}")
        raise

# 컬렉션 초기화 실행
collection = reset_collection(client, "my_collection")

# 컬렉션 정보 확인
print("\n=== 초기화된 컬렉션 정보 ===")
print(f"컬렉션 이름: {collection.name}")
print(f"컬렉션 크기: {collection.count()} 문서")

In [101]:
# CSV 파일 읽기
df = pd.read_csv("./data/gong.csv")

In [None]:
df.head(3)

In [46]:
# Sentence Transformer 임베딩 함수 설정
embedding_function = embedding_functions.SentenceTransformerEmbeddingFunction(
    model_name="all-MiniLM-L6-v2"
)

In [103]:
# 컬렉션 생성 (이미 존재하는 경우 가져오기)
try:
    collection = client.get_or_create_collection(
        name="my_collection", embedding_function=embedding_function
    )
except ValueError:
    # 이미 존재하는 경우 기존 컬렉션 가져오기
    collection = client.get_collection(
        name="my_collection", embedding_function=embedding_function
    )

In [104]:
if collection.name == "my_collection":
    collection_exist = True
    print("\n=== 컬렉션 정보 ===")
    print(f"컬렉션 이름: {collection.name}")
    print(f"컬렉션 크기: {collection.count()} 문서")
else:
    collection_exist = False
    print("collection does not exist")


=== 컬렉션 정보 ===
컬렉션 이름: my_collection
컬렉션 크기: 0 문서


In [66]:
# 각 행을 문자열로 변환하는 함수
def row_to_string(row):
    return " ".join([f"{col}: {val}" for col, val in row.items()])


# 배치 크기 설정
BATCH_SIZE = 100

if collection_exist == False:
    # 전체 데이터 처리를 위한 반복 횟수 계산
    num_batches = len(df) // BATCH_SIZE + (1 if len(df) % BATCH_SIZE != 0 else 0)

    # 배치 처리로 데이터 저장
    for i in tqdm(range(num_batches)):
        start_idx = i * BATCH_SIZE
        end_idx = min((i + 1) * BATCH_SIZE, len(df))

        batch_df = df.iloc[start_idx:end_idx]

        documents = []
        ids = []

        for idx, row in batch_df.iterrows():
            # 각 행을 문자열로 변환
            doc_string = row_to_string(row)
            documents.append(doc_string)
            ids.append(str(idx))

        # ChromaDB에 배치 추가
        collection.add(documents=documents, ids=ids)

    print(f"총 {len(df)}개의 행이 성공적으로 저장되었습니다.")
    print(f"데이터베이스가 다음 경로에 저장되었습니다: {db_path}")
else:
    print(f"컬렉션 이름: {collection.name} 을 불러왔습니다.")
    print(f"컬렉션 크기: {collection.count()} 문서")

컬렉션 이름: my_collection 을 불러왔습니다.
컬렉션 크기: 3150 문서


In [None]:
# 첫 번째 document 가져오기
result = collection.get(
    ids=["0"],  # 첫 번째 행의 ID
    include=["documents", "embeddings"],  # documents와 embeddings 모두 포함
)

print("Document 내용:")
print(result["documents"][0])  # 첫 번째 document의 텍스트 내용

print("\nEmbedding 벡터 (처음 10개 값):")
print(result["embeddings"][0][:10])  # 임베딩 벡터의 처음 10개 값만 출력

In [94]:
from langchain_openai import ChatOpenAI
import chromadb
from chromadb.utils import embedding_functions
import os

# ChromaDB 클라이언트 연결
client = chromadb.PersistentClient(path="my_db.db")

# Embedding 함수 설정
embedding_function = embedding_functions.SentenceTransformerEmbeddingFunction(
    model_name="all-MiniLM-L6-v2"
)

# 컬렉션 가져오기
collection = client.get_collection(
    name="my_collection", embedding_function=embedding_function
)

# 쿼리 실행
query = "예비창업패키지 지원사업 알려줘"
results = collection.query(query_texts=[query], n_results=3)  # 상위 3개 결과 가져오기
# results = collection.query(
#     query_texts=[query],
#     n_results=3,
#     where_document={
#         "$and": [
#             {"$contains": "col6"}, # 지역
#             {"$contains": "col7"}, # 지원 대상 ( 대학생, 일반인, 대학 등 )
#            # {"$contains": "col8"}  # 지원 연령 ( 만 20세 이상 등 )
#         ]
#     }
# )

# 검색 결과 출력
print("=== 검색된 문서 ===")
for i, doc in enumerate(results["documents"][0]):
    print(f"\nDocument {i+1}:")
    print(doc)

=== 검색된 문서 ===

Document 1:
col1: 1004 col2: 168413 col3: 2024-04-02 17:38:01 col4: 2024년 부산 남구 청년 소셜리빙랩 「INNOVATING 남구! 아이디어 공모전」 col5: 멘토링ㆍ컨설팅ㆍ교육 col6: 부산광역시 col7: 대학생, 일반인, 1인 창조기업 col8: 만 20세 이상 ~ 만 39세 이하 col9: 2024-04-01 ~ 2024-05-06 23:59 col10: 전체 col11: (사)사회혁신연구원 col12: 민간 col13: 지속가능연구소 col14: (사)사회혁신연구원 공고 제24-002호 col15: 2024 부산 남구 청년소셜리빙랩 「INNOVATING 남구!」 아이디어 공모전은

부산광역시 남구 지역 내 ‘현장에서 발생하고 있는 문제’ 또는 ‘일상생활 속에서 주민들이 겪고 있는 고충’들을 이해하고 해당 문제를 해결하기 위한 아이디어를 발굴적용개선하여 가장 적합한 사회문제해결 아이디어를 찾아가는 프로그램입니다. 

본 프로그램에서는 행정에서 고민하고 있거나 청년들이 스스로 찾고 해결하고자 하는 지역 문제에 대해 다양한 대안들을 생각실천해보고 비교검증해나가면서 실효성 있는 아이디어를 찾아갈 수 있도록 지원합니다. 또한 해당 아이디어가 지역 사회 혁신의 맹아로써 기능할 수 있도록 사업화(비즈니스모델) 또는 정책화(남구정책사업 연계) 가능성을 검토해 보고자 합니다.

남구 사회문제해결에 관심이 있는 창의적이고 도전적인 청년들의 많은 참여를 기대합니다.
감사합니다. col16: 2024년 04월 01일 col17: (사)사회혁신연구원 col18: 2024.04.01(월) 00:00 ~ 2024.05.06(월) 23:59 까지 col19: nan col20: nan col21: nan col22: nan col23: nan col24: 부산 지역 청년
 *청년기준 : 만 18세 이상~39세 이하
 *최소 2인 이상의 팀 구성 필수 col25: nan

Document

In [None]:
# OpenAI를 사용한 답변 생성
# 객체 생성
llm = ChatOpenAI(
    temperature=0.1,  # 창의성 (0.0 ~ 2.0)
    model_name="gpt-4o",  # 모델명
)
# client = OpenAI(
#     api_key="<OpenAI API Key>"
# )  # OpenAI API 키 입력

# 프롬프트 구성
prompt = f"""다음은 예비창업자가 지원할 수 있는 지원사업에 대한 검색 결과입니다. 
이를 바탕으로 예비창업자가 지원할 수 있는 주요 지원사업들을 간단명료하게 요약해서 설명해주세요:

{results['documents'][0]}
"""

# ChatGPT API 호출
# response = client.chat.completions.create(
#     model="gpt-4o",
#     messages=[
#         {
#             "role": "system",
#             "content": "You are a helpful assistant that explains startup support programs in Korean.",
#         },
#         {"role": "user", "content": prompt},
#     ],
#     temperature=0,
#     max_tokens=1000,
# )
response = llm.invoke(prompt)

print("\n=== AI 답변 ===")
print(response.content)