#  이미지 URL 매핑 자동화

In [None]:
!pip install langchain langchain-openai langchain-pinecone langchain-community

In [2]:
from google.colab import userdata
import os

os.environ['LANGSMITH_TRACING'] = userdata.get('LANGSMITH_TRACING')
os.environ['LANGSMITH_ENDPOINT'] = userdata.get('LANGSMITH_ENDPOINT')
os.environ['LANGSMITH_API_KEY'] = userdata.get('LANGSMITH_API_KEY')
os.environ['LANGSMITH_PROJECT'] = userdata.get('LANGSMITH_PROJECT')
os.environ['OPENAI_API_KEY'] = userdata.get('OPENAI_API_KEY')

In [3]:
os.environ['OPENAI_EMBEDDING_MODEL'] = userdata.get('OPENAI_EMBEDDING_MODEL')
# os.environ['PINECONE_API_KEY'] = userdata.get('PINECONE_API_KEY')
os.environ['PINECONE_API_KEY'] = userdata.get('SHPINECONE_API_KEY')
os.environ['GOOGLE_CSE_ID'] = userdata.get('GOOGLE_CSE_ID')
os.environ['GOOGLE_API_KEY'] = userdata.get('GOOGLE_API_KEY')

In [5]:
# SungJaeCho/data_refine.py

import os
import time
import requests
from pprint import pprint
from langchain_core.documents import Document
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain_pinecone import PineconeVectorStore
from langchain.text_splitter import RecursiveCharacterTextSplitter
from pinecone import Pinecone
from langchain.chains import RetrievalQA

def fetch_image_url(query: str, cse_id: str, api_key: str) -> str:
    import requests

    url = "https://www.googleapis.com/customsearch/v1"
    params = {
        "q": query,
        "cx": cse_id,
        "key": api_key,
        "searchType": "image",
        "num": 1,  # 1장만 받기
        "imgSize": "medium",  # medium, large, xlarge
        "safe": "active"
    }

    try:
        response = requests.get(url, params=params, timeout=5)
        response.raise_for_status()
        results = response.json()
        items = results.get("items", [])
        if items:
            return items[0]["link"]
    except Exception as e:
        print(f"🔴 Google Image Search 실패: {e}")

    return ""


# ------------------------
# 1. API 응답 -> LangChain Document 변환 함수
# ------------------------
def json_to_documents(api_json: dict) -> list[Document]:
    documents = []

    # Google API 키 및 CSE ID 환경변수에서 가져오기
    google_cse_id = os.environ['GOOGLE_CSE_ID']
    google_api_key = os.environ['GOOGLE_API_KEY']


    for entry in api_json['body']['items']:
        data = entry['item']

        def get_and_strip(data_dict, key):
            value = data_dict.get(key)
            return value.strip() if isinstance(value, str) else ''

        product_name = get_and_strip(data, 'PRDUCT')
        manufacturer = get_and_strip(data, 'ENTRPS')
        image_url = ""
        # Google API 키와 CSE ID가 모두 있을 경우에만 이미지 검색 수행
        if google_cse_id and google_api_key and product_name:
            query = f"{product_name} {manufacturer}" # 제품명과 제조사를 함께 검색 쿼리로 사용
            image_url = fetch_image_url(query, google_cse_id, google_api_key)

        text = f"""
제품명: {product_name}
제조사: {manufacturer}
기능성: {get_and_strip(data, 'MAIN_FNCTN')}
섭취 시 주의사항: {get_and_strip(data, 'INTAKE_HINT1')}
보관조건: {get_and_strip(data, 'PRSRV_PD')}
유통기한: {get_and_strip(data, 'DISTB_PD')}
섭취량&섭취방법: {get_and_strip(data, 'SRV_USE')}
"""

        metadata = {
            "제품명": product_name,
            "등록일자": data.get("STTEMNT_NO"),
            "제조사": manufacturer,
            "기준규격": get_and_strip(data, "BASE_STANDARD"),
            "이미지URL": image_url
        }

        documents.append(Document(page_content=text, metadata=metadata))

    return documents

# ------------------------
# 2. 전체 페이지 반복 요청하여 모든 문서 수집
# ------------------------
def fetch_all_documents(api_url, api_key, num_of_rows=100) -> list[Document]:
    all_documents = []
    params = {
        "ServiceKey": api_key, # API 키
        "pageNo": "1", # 시작 페이지
        "numOfRows": str(num_of_rows), # 한 페이지에 수집할 문서 수
        "type": "json", # 응답 형식
    } # API 요청 파라미터 설정

    # 일단 첫 페이지 요청
    response = requests.get(api_url, params=params, timeout=10) # API 요청
    response.raise_for_status() # 응답 상태 코드 확인
    first_page = response.json() # 첫 페이지 응답 JSON 파싱

    total_count = int(first_page['body']['totalCount']) # 전체 문서 수 카운트, 1페이지 응답을 통해 전체 문서 수 파악
    total_pages = (total_count // num_of_rows) + (1 if total_count % num_of_rows else 0) # 전체 페이지 수 계산

    # 이미 받은 first_page를 활용해서 문서로 바꾸고 리스트에 추가
    all_documents.extend(json_to_documents(first_page)) # .extend(docs)는 all_documents에 문서들을 낱개로 차곡차곡 넣는 역할

    for page in range(2, total_pages + 1):
        params['pageNo'] = str(page) # 현재 페이지 번호를 API 요청 파라미터에 설정
        response = requests.get(api_url, params=params, timeout=10) # 해당 페이지에 대한 API 요청전송
        response.raise_for_status() # 오류가 있으면 예외 발생시킴 (예: 404, 500)
        page_json = response.json() # 페이지 응답 JSON 파싱
        docs = json_to_documents(page_json) # 해당 페이지의 JSON을 Document 객체로 변환
        all_documents.extend(docs) # 변환된 문서들을 all_documents 리스트에 추가
        print(f"📄 {page}/{total_pages} 페이지 수집 완료")

    print(f"\n✅ 총 {len(all_documents)}개의 Document 객체 생성 완료")
    return all_documents

# def fetch_all_documents(api_url, api_key, num_of_rows=100, test_pages=1) -> list[Document]:
#     all_documents = []
#     params = {
#         "ServiceKey": api_key,
#         "pageNo": "1",
#         "numOfRows": str(num_of_rows),
#         "type": "json",
#     }

#     response = requests.get(api_url, params=params, timeout=10)
#     response.raise_for_status()
#     first_page = response.json()

#     total_count = int(first_page['body']['totalCount'])
#     total_pages = (total_count // num_of_rows) + (1 if total_count % num_of_rows else 0)

#     # 테스트: test_pages 만큼만 수집
#     all_documents.extend(json_to_documents(first_page))

#     for page in range(2, min(test_pages, total_pages) + 1):
#         params['pageNo'] = str(page)
#         response = requests.get(api_url, params=params, timeout=10)
#         response.raise_for_status()
#         page_json = response.json()
#         docs = json_to_documents(page_json)
#         all_documents.extend(docs)
#         print(f"📄 {page}/{total_pages} 페이지 수집 완료 (테스트)")

#     print(f"\n✅ (테스트) 총 {len(all_documents)}개의 Document 객체 생성 완료")
#     return all_documents

# ------------------------
# 3. 벡터스토어 생성 및 문서 업로드
# ------------------------
# def build_vector_store(documents, index_name):
#     embeddings = OpenAIEmbeddings(model=os.environ['OPENAI_EMBEDDING_MODEL'])

#     # 문서 분할
#     text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
#     split_documents = text_splitter.split_documents(documents)

#     # Pinecone 초기화 및 인덱스 준비
#     pc = Pinecone(api_key=os.environ['PINECONE_API_KEY'])

#     if index_name not in pc.list_indexes().names():
#         pc.create_index(
#             name=index_name,
#             dimension=embeddings.get_dimension(),
#             metric='cosine'
#         )
#         while not pc.describe_index(index_name).status['ready']:
#             time.sleep(1)

#     vector_store = PineconeVectorStore(index_name=index_name, embedding=embeddings)

#     # 배치 업로드
#     batch_size = 100
#     for i in range(0, len(split_documents), batch_size):
#         batch = split_documents[i:i + batch_size]
#         # vector_store.add_documents(batch)  # 주석 해제 시 실제 업로드 수행
#         print(f"Added batch {i//batch_size + 1}/{(len(split_documents)//batch_size) + 1}")

#     print("\n✅ All documents added to Pinecone vector store.")
#     return vector_store
def build_vector_store(documents, index_name):
    embeddings = OpenAIEmbeddings(model=os.environ['OPENAI_EMBEDDING_MODEL'])
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
    split_documents = text_splitter.split_documents(documents)

    pc = Pinecone(api_key=os.environ['PINECONE_API_KEY'])

    if index_name not in pc.list_indexes().names():
        pc.create_index(
            name=index_name,
            dimension=embeddings.get_dimension(),
            metric='cosine'
        )
        while not pc.describe_index(index_name).status['ready']:
            time.sleep(1)

    vector_store = PineconeVectorStore(index_name=index_name, embedding=embeddings)

    batch_size = 100
    for i in range(0, len(split_documents), batch_size):
        batch = split_documents[i:i + batch_size]
        # 실제 업로드는 주석 처리 (테스트)
        vector_store.add_documents(batch)
        print(f"(테스트) Added batch {i//batch_size + 1}/{(len(split_documents)//batch_size) + 1}")

    print("\n✅ (테스트) All documents processed for Pinecone vector store.")
    return vector_store


# ------------------------
# 4. RAG 질의 시스템 구성
# ------------------------
def build_qa_chain(vector_store):
    retriever = vector_store.as_retriever(
        search_type='similarity',
        search_kwargs={'k': 3}
    )

    llm = ChatOpenAI(
        model_name="gpt-4.1-mini",
        temperature=0.3,
        max_tokens=512
    )

    qa_chain = RetrievalQA.from_chain_type(
        llm=llm,
        retriever=retriever,
        chain_type="stuff",
        return_source_documents=True
    )
    return qa_chain

# ------------------------
# 5. 메인 실행부 예시
# ------------------------
if __name__ == "__main__":
    url = 'http://apis.data.go.kr/1471000/HtfsInfoService03/getHtfsItem01'
    api_key = 'nsfVX4dKQRFTeyldmuRefFQqL8xOsDkkyw8TsU4dA4fO9vq7Zl7JTbrakHnVYBqRG62CWBhhOVwBaGgCBbm3AA=='

    # Step 1: 문서 수집
    documents = fetch_all_documents(url, api_key)

    # Step 2: 벡터스토어 생성 및 문서 업로드
    index_name = 'health-supplement-rag'
    vector_store = build_vector_store(documents, index_name)

    # Step 3: 질의 응답 시스템 구축
    qa_chain = build_qa_chain(vector_store)

    # Step 4: 사용자 질의 처리
    query = "피로개선에 도움이 되는 영양제는?"
    response = qa_chain(query)

    print("\n🧠 GPT 응답:")
    print(response['result'])

    print("\n📎 참고 문서:")
    for doc in response['source_documents'][:3]:
        print(f"제품명: {doc.metadata['제품명']} | 제조사: {doc.metadata['제조사']} | 등록일자: {doc.metadata['등록일자']}")
        print(f"이미지URL: {doc.metadata.get('이미지URL', '')}")
        print("-" * 60)

# if __name__ == "__main__":
#     url = 'http://apis.data.go.kr/1471000/HtfsInfoService03/getHtfsItem01'
#     api_key = 'nsfVX4dKQRFTeyldmuRefFQqL8xOsDkkyw8TsU4dA4fO9vq7Zl7JTbrakHnVYBqRG62CWBhhOVwBaGgCBbm3AA=='

#     # Step 1: 문서 수집 (테스트: 2페이지만 수집)
#     documents = fetch_all_documents(url, api_key, num_of_rows=10, test_pages=2)

#     # Step 2: 벡터스토어 생성 및 문서 업로드 (실제 업로드는 주석 처리)
#     index_name = 'health-supplement-rag-test'
#     vector_store = build_vector_store(documents, index_name)

#     # Step 3: 질의 응답 시스템 구축
#     qa_chain = build_qa_chain(vector_store)

#     # Step 4: 사용자 질의 처리
#     query = "피로개선에 도움이 되는 영양제는?"
#     response = qa_chain(query)

#     print("\n🧠 GPT 응답:")
#     print(response['result'])

#     print("\n📎 참고 문서:")
#     for doc in response['source_documents']:
#         print(f"제품명: {doc.metadata['제품명']} | 제조사: {doc.metadata['제조사']} | 등록일자: {doc.metadata['등록일자']}")
#         print(f"이미지URL: {doc.metadata.get('이미지URL', '')}")
#         print("-" * 60)

🔴 Google Image Search 실패: 429 Client Error: Too Many Requests for url: https://www.googleapis.com/customsearch/v1?q=11%EC%A2%85+%ED%98%BC%ED%95%A9%EC%9C%A0%EC%82%B0%EA%B7%A0+%EC%9D%BC%EB%8F%99%EB%B0%94%EC%9D%B4%EC%98%A4%EC%82%AC%EC%9D%B4%EC%96%B8%EC%8A%A4%28%EC%A3%BC%29&cx=e717d84b258f541ed&key=AIzaSyD5nywUMssMS-csd3PqT4tY5O1cePMHP5w&searchType=image&num=1&imgSize=medium&safe=active
🔴 Google Image Search 실패: 429 Client Error: Too Many Requests for url: https://www.googleapis.com/customsearch/v1?q=6%EB%85%84%EA%B7%BC+%EA%B3%A0%EB%A0%A4%ED%99%8D%EC%82%BC%EC%A0%95+PREMIUM+%EC%A3%BC%EC%8B%9D%ED%9A%8C%EC%82%AC+%EC%84%B1%EC%9C%A4+%EC%97%90%ED%94%84%EC%97%94%EC%A7%80%28F%26G%29&cx=e717d84b258f541ed&key=AIzaSyD5nywUMssMS-csd3PqT4tY5O1cePMHP5w&searchType=image&num=1&imgSize=medium&safe=active
🔴 Google Image Search 실패: 429 Client Error: Too Many Requests for url: https://www.googleapis.com/customsearch/v1?q=6%EB%85%84%EA%B7%BC+%ED%99%8D%EC%82%BC+%EC%9E%90%EC%8B%A0%EB%A7%8C%EB%A7%8C+%ED%99%8D%EC%

KeyboardInterrupt: 

In [None]:
# import os
# import time
# import requests
# from pprint import pprint
# from langchain_core.documents import Document
# from langchain_openai import OpenAIEmbeddings, ChatOpenAI
# from langchain_pinecone import PineconeVectorStore
# from langchain.text_splitter import RecursiveCharacterTextSplitter
# from pinecone import Pinecone
# from langchain.chains import RetrievalQA

# from langchain_openai import OpenAIEmbeddings
# from langchain_pinecone import PineconeVectorStore

# # 존재하는 인덱스에 접근/검색

# # Initialize Pinecone
# pc = Pinecone(api_key=os.environ['PINECONE_API_KEY'])

# # Reference the existing index
# index_name = 'health-supplement-rag'
# index = pc.Index(index_name)

# vector_store = PineconeVectorStore(
#     index=index,
#     embedding=embeddings
# )

In [None]:
# retriever = vector_store.as_retriever(
#     search_type='similarity',
#     search_kwargs={'k': 3} # 유사한 문서 3개까지 검색
# )
# print(retriever.invoke('피로개선에 도움이 되는 영양제는?'))

[Document(id='8609cb9f-665e-4356-bfde-f54f23470036', metadata={'기준규격': '1) 성상 : 이미, 이취가 없고 고유의 향미가 있는 갈색의 장방형 제피정제 \n2) 로사빈 : 표시량(6 mg /1,000 mg)의 80~120% \n3) 나이아신 : 표시량(7.5 mgNE /1,000 mg)의 80~150%\n4) 납(mg/kg) : 1.0 이하 \n5) 카드뮴(mg/kg) : 0.5 이하 \n6) 총수은(mg/Kg) : 0.5 이하 \n7) 총비소(mg/Kg) : 1.0 이하 \n8) 대장균군 : 음성 \n9) 붕해시험 : 적합', '등록일자': '20040015107744', '제조사': '(주)유유헬스케어'}, page_content='제품명: 피로개선에 도움을 줄 수 있는 홍경천\n제조사: (주)유유헬스케어\n기능성: 스트레스로 인한 피로개선에 도움을 줄 수 있음.\n\n①체내 에너지 생성에 필요\n섭취 시 주의사항: 특정원료에 알레르기가 있거나 질병치료, 약물투여 중인 분은 섭취 전 전문가와 상의하십시오.  \n제품 개봉시 포장재에 의해 상처를 입을 수 있으니 주의하십시오.\n보관조건: 직사광선 및 고온다습한 곳을 피해 서늘한 곳에 보관하십시오.\n유통기한: 제조일로부터 24개월까지'), Document(id='0c0a6382-6cbc-4971-af77-52a8bce0caea', metadata={'기준규격': '성상 : 이미, 이취가 없고 고유의 향미가 있는 갈색의 코팅정제\r\n진세노사이드 Rb1,Rg1 및 Rg3의 합 : 80%이상 (표시량:3mg/1,660mg)\r\n비타민A : 표시량의 80~150% (표시량:485ugRE/1,660mg)\r\n비타민B1 : 표시량의 80~180% (표시량:16mg/1,660mg)\r\n비타민B2 : 표시량의 80~180% (표시량:1.5mg/1,660mg)\r\n비타민B6 : 표시량의 80~150% (표시량:16.5mg/1,660mg)\r\n비타민B12 : 표

In [None]:
# from langchain_openai import ChatOpenAI

# llm = ChatOpenAI(
#     model_name="gpt-4.1-mini",  #
#     temperature=0.3, # 0.3 답변이 신중하고 일관
#     max_tokens=512
# )

In [None]:
# from langchain.chains import RetrievalQA

# qa_chain = RetrievalQA.from_chain_type(
#     llm=llm,
#     retriever=retriever,           # Step 4에서 만든 것
#     chain_type="stuff",            # "stuff"는 검색 결과를 LLM에 다 넘김
#     return_source_documents=True   # 🔍 근거 문서 포함 응답
# )

In [None]:
# query = "Ento Probiotics plus Blood sugar care에 대해 알려줘"

# response = qa_chain(query)

# print("🧠 GPT 응답:")
# print(response['result'])

  response = qa_chain(query)


🧠 GPT 응답:
Ento Probiotics plus Blood sugar care는 주식회사 아람에서 제조한 제품으로, 전량 수출용입니다. 이 제품의 주요 기능성은 다음과 같습니다:

- 유산균 증식 및 유해균 억제
- 배변활동 원활
- 장 건강에 도움을 줄 수 있음
- 식후 혈당상승 억제에 도움을 줄 수 있음

또한, 정상적인 면역기능과 정상적인 세포분열에 필요한 성분을 포함하고 있습니다.

섭취 시 주의사항은 다음과 같습니다:
- 질환이 있거나 의약품 복용 시 전문가와 상담할 것
- 알레르기 체질 등 개인에 따라 과민반응이 나타날 수 있음
- 어린이가 함부로 섭취하지 않도록 일일섭취량 방법을 지도할 것
- 이상사례 발생 시 섭취를 중단하고 전문가와 상담할 것

보관 조건은 직사광선 및 고온다습한 곳을 피하고 서늘한 곳에 보관하며, 어린이의 손에 닿지 않는 곳에 보관해야 합니다.

유통기한은 제조일부터 24개월입니다.
