In [1]:
import bs4
import os
from dotenv import load_dotenv
from langchain import hub
from langchain_core.prompts import ChatPromptTemplate
from langchain_chroma import Chroma
from langchain_openai import ChatOpenAI
from langchain_openai import OpenAIEmbeddings
from langchain_community.document_loaders import WebBaseLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter

USER_AGENT environment variable not set, consider setting it to identify your requests.


# 사용할 LLM 준비
## OpenAI

In [2]:
llm = ChatOpenAI(model="gpt-4o-mini", api_key=os.getenv("OPENAI_API_KEY"))
load_dotenv()
api_key = os.getenv("OPENAI_API_KEY")
print(f"API key exists: {api_key is not None}")

API key exists: True


# 웹페이지 불러오기

In [3]:
loader = WebBaseLoader(
  web_paths=("https://spartacodingclub.kr/blog/all-in-challenge_winner",),
  bs_kwargs=dict(
    parse_only=bs4.SoupStrainer(
            class_=("css-j3idia", "editedContent")
        )
  ),
)

docs = loader.load()
print(f"로드된 문서 수: {len(docs)}")
print(f"첫 번째 문서 내용 일부: {docs[0].page_content[:100] if docs else 'No content'}")


로드된 문서 수: 1
첫 번째 문서 내용 일부: 'AII-in 코딩 공모전’ 수상작을 소개합니다코딩은 더 이상 개발자만의 영역이 아닙니다. 누구나 아이디어만 있다면 창의적인 서비스를 만들어 세상을 바꿀 수 있습니다. 스파르타코딩


In [54]:
text_splitter = RecursiveCharacterTextSplitter( # 왓 이즈 디스 청크 차이가 잇나
    chunk_size=500,
    chunk_overlap=10
)

splits = text_splitter.split_documents(docs)
print(f"분할된 청크 수: {len(splits)}")

if len(splits) == 0:
    print("청크가 없어 원본 문서를 사용합니다.")
    splits = docs

분할된 청크 수: 12


In [55]:
try:
    embeddings = OpenAIEmbeddings(api_key=api_key)
    # 간단한 테스트 임베딩 생성
    test_embedding = embeddings.embed_query("Hello world")
    print(f"테스트 임베딩 길이: {len(test_embedding)}")
    print("임베딩 테스트 성공!")
except Exception as e:
    print(f"임베딩 테스트 실패: {e}")

테스트 임베딩 길이: 1536
임베딩 테스트 성공!


In [56]:
vectorstore = Chroma.from_documents(
    documents=splits,
    embedding=OpenAIEmbeddings(api_key=os.getenv("OPENAI_API_KEY"))
)
retriever = vectorstore.as_retriever(
    search_type="similarity", search_kwargs={"k": 50}
)
def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

In [57]:
user_msg = "ALL-in 코딩 공모전 수상작들을 요약해줘."
retrieved_docs = retriever.invoke(user_msg)

print(len(retrieved_docs))
retrieved_docs

50


[Document(id='88c37c74-9bdb-48ed-a35e-45164b8bf586', metadata={'source': 'https://spartacodingclub.kr/blog/all-in-challenge_winner'}, page_content="'AII-in 코딩 공모전’ 수상작을 소개합니다코딩은 더 이상 개발자만의 영역이 아닙니다. 누구나 아이디어만 있다면 창의적인 서비스를 만들어 세상을 바꿀 수 있습니다. 스파르타코딩클럽에서는 이러한 가능성을 믿고, 누구나 코딩을 통해 자신의 아이디어를 실현하고 실제 문제를 해결하는 경험을 쌓을 수 있도록 다양한 프로그램을 마련하고 있습니다.<All-in> 코딩 공모전은 대학생들이 캠퍼스에서 겪은 불편함과 문제를 자신만의 아이디어로 해결해보는 대회였는데요. 이번 공모전에서 다양한 혁신적인 아이디어와 열정으로 가득한 수많은 프로젝트가 탄생했습니다. 그중 뛰어난 성과를 낸 수상작 6개를 소개합니다.🏆\xa0대상[Lexi Note] 언어공부 필기 웹 서비스서비스 제작자: 다나와(김다애, 박나경)💡W는 어문학을 전공하는"),
 Document(id='36e54b8b-ea92-415d-a68a-a822aa48febb', metadata={'source': 'https://spartacodingclub.kr/blog/all-in-challenge_winner'}, page_content="'AII-in 코딩 공모전’ 수상작을 소개합니다코딩은 더 이상 개발자만의 영역이 아닙니다. 누구나 아이디어만 있다면 창의적인 서비스를 만들어 세상을 바꿀 수 있습니다. 스파르타코딩클럽에서는 이러한 가능성을 믿고, 누구나 코딩을 통해 자신의 아이디어를 실현하고 실제 문제를 해결하는 경험을 쌓을 수 있도록 다양한 프로그램을 마련하고 있습니다.<All-in> 코딩 공모전은 대학생들이 캠퍼스에서 겪은 불편함과 문제를 자신만의 아이디어로 해결해보는 대회였는데요. 이번 공모전에서 다양한 혁신적인 아이디어와 열정으로 가득한 수많은 프로젝트가 

In [58]:
prompt = ChatPromptTemplate.from_template("""너는 이 공모전을 평가했던 심사위원이이야.한국어로 대답하고,
  다음에 이 공모전을 참가할 사람들이 참고할 수 있도록 유익한 정보들을 보기 쉽게 정리해줄 수 있어야해.
  정보를 찾은 후 대답을 정리할 때는 너의 의견이 들어가면 안돼. 리트리버에서 가져온 정보는 가능한 모두 활용해.
  그리고 내가 제공한 문서에서 질문에 대한 대답을 찾을 수 없다면, 모른다고 대답해야해. <context>: {context} <question>: {question}""")
user_prompt = prompt.invoke({"context": format_docs(retrieved_docs), "question": user_msg})
print(prompt)

input_variables=['context', 'question'] input_types={} partial_variables={} messages=[HumanMessagePromptTemplate(prompt=PromptTemplate(input_variables=['context', 'question'], input_types={}, partial_variables={}, template='너는 이 공모전을 평가했던 심사위원이이야.한국어로 대답하고,\n  다음에 이 공모전을 참가할 사람들이 참고할 수 있도록 유익한 정보들을 보기 쉽게 정리해줄 수 있어야해.\n  정보를 찾은 후 대답을 정리할 때는 너의 의견이 들어가면 안돼. 리트리버에서 가져온 정보는 가능한 모두 활용해.\n  그리고 내가 제공한 문서에서 질문에 대한 대답을 찾을 수 없다면, 모른다고 대답해야해. <context>: {context} <question>: {question}'), additional_kwargs={})]


In [None]:
response = llm.invoke(user_prompt)
print(response.content)

## AII-in 코딩 공모전 수상작 요약

### 🏆 대상 수상작
- **[Lexi Note]**
  - **제작자**: 다나와(김다애, 박나경)
  - **소개**: 어문학 전공생을 위한 언어 공부 필기 웹 서비스. 단어를 드래그하면 네이버 사전과 연동되어 의미를 찾고 필기를 동시에 할 수 있으며, 긴 문장은 번역기와 연결하여 쉽게 이해할 수 있다. 할일 목록과 스케줄 템플릿 제공.

### 🎖️ 우수상
- **[에코 클래스룸]**
  - **제작자**: This is 스파게티!!!(박지성, 김서원, 박범수)
  - **소개**: 수업 실시간 소통 서비스로, 학생들이 익명으로 의견이나 질문을 제출할 수 있게 하여 교수 매칭 피드백을 받을 수 있는 서비스. 학생의 이해도를 테스트하는 퀴즈 생성 기능도 포함되어 있다.
  
- **[우리집 히어로즈]**
  - **제작자**: 인트(배정연, 한지수)
  - **소개**: 자취방에서 발생하는 벌레 문제를 해결하기 위한 매칭 서비스. 사용자가 벌레 퇴치 요청을 올리면, 학교 내 벌레 퇴치 히어로와 매칭되고, 사용자 신원이 보장된 안전한 환경에서 수행된다.

### 🏅 입선작
- **[학교생활 매니저]**
  - **제작자**: 아이칼F4(조민제, 이민기, 강건, 박근우)
  - **소개**: 학교 생활을 효율적으로 관리할 수 있는 앱으로, 일정과 과제 관리, 성적 예측, 학점 계산 등 다양한 기능을 제공한다. 캘린더와 공지사항 기능으로 중요한 정보를 놓치지 않게 돕는다.

- **[BLOTIE]**
  - **제작자**: 블로티(이은주, 한명수, 황준영)
  - **소개**: 교내 외국인과 내국인을 연결하는 매칭 플랫폼. 학생 간의 문화와 언어 교류를 도와주며, 실시간 채팅과 피드 기능으로 자유로운 소통을 지원한다.

- **[Crewing]**
  - **제작자**: 동학대학운동(김민아, 임경진, 신은혜, 고수)
  - **소개**: 대학생들이 연합 동아리에 쉽고 효율적으로 가입할 수 있도록 지원하는 플랫폼. 회

## 문서와 관련 없는 질문을 할 경우
문서에 기반한 답만 찾아오는지 확인하기 위해 다른 질문을 해봤습니다.

In [None]:
unrelated_msg = "6대 차류에 대해 설명해줘."
user_prompt2 = prompt.invoke({"context": format_docs(retrieved_docs), "question": unrelated_msg})

response = llm.invoke(user_prompt2)
print(response.content)

제공된 문서에는 'All-in 코딩 공모전'의 수상작에 대해 구체적인 설명이 있지만, 수상작이 총 몇 개이며 그 목록이나 상세한 내용은 포함되어 있지 않습니다. 따라서 6대 차류에 대한 정보를 제공할 수 없습니다.


### 문제점
리트리버에서 관련된 정보를 전부 가져오지 않아 답변에서도 수상작 한 개만 가져오는 문제가 있었습니다.
그리고 코드를 실행할 때마다 리트리버가 다르게 작동한다는 문제가 있었습니다.

### 리트리버 수정
리트리버가 반환하는 문서의 최대 개수를 지정하여 문서를 여러개 가져올 수 있도록 했습니다.
1. search type을 similarity로 설정헸습니다.

In [59]:
retriever_similarity = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 50})
retrieved_docs_similarity = retriever.invoke(user_msg)

print(retrieved_docs_similarity)

[Document(id='88c37c74-9bdb-48ed-a35e-45164b8bf586', metadata={'source': 'https://spartacodingclub.kr/blog/all-in-challenge_winner'}, page_content="'AII-in 코딩 공모전’ 수상작을 소개합니다코딩은 더 이상 개발자만의 영역이 아닙니다. 누구나 아이디어만 있다면 창의적인 서비스를 만들어 세상을 바꿀 수 있습니다. 스파르타코딩클럽에서는 이러한 가능성을 믿고, 누구나 코딩을 통해 자신의 아이디어를 실현하고 실제 문제를 해결하는 경험을 쌓을 수 있도록 다양한 프로그램을 마련하고 있습니다.<All-in> 코딩 공모전은 대학생들이 캠퍼스에서 겪은 불편함과 문제를 자신만의 아이디어로 해결해보는 대회였는데요. 이번 공모전에서 다양한 혁신적인 아이디어와 열정으로 가득한 수많은 프로젝트가 탄생했습니다. 그중 뛰어난 성과를 낸 수상작 6개를 소개합니다.🏆\xa0대상[Lexi Note] 언어공부 필기 웹 서비스서비스 제작자: 다나와(김다애, 박나경)💡W는 어문학을 전공하는"), Document(id='36e54b8b-ea92-415d-a68a-a822aa48febb', metadata={'source': 'https://spartacodingclub.kr/blog/all-in-challenge_winner'}, page_content="'AII-in 코딩 공모전’ 수상작을 소개합니다코딩은 더 이상 개발자만의 영역이 아닙니다. 누구나 아이디어만 있다면 창의적인 서비스를 만들어 세상을 바꿀 수 있습니다. 스파르타코딩클럽에서는 이러한 가능성을 믿고, 누구나 코딩을 통해 자신의 아이디어를 실현하고 실제 문제를 해결하는 경험을 쌓을 수 있도록 다양한 프로그램을 마련하고 있습니다.<All-in> 코딩 공모전은 대학생들이 캠퍼스에서 겪은 불편함과 문제를 자신만의 아이디어로 해결해보는 대회였는데요. 이번 공모전에서 다양한 혁신적인 아이디어와 열정으로 가득한 수많은 프로젝트가 탄

2. search type을 mmr로 바꿔서 검색해봤습니다.

In [63]:
from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import LLMChainExtractor

retriever_mmr = vectorstore.as_retriever(search_type="mmr", search_kwargs={"k": 50})
retrieved_docs_mmr = retriever.invoke(user_msg)

print(retrieved_docs_mmr)

[Document(id='88c37c74-9bdb-48ed-a35e-45164b8bf586', metadata={'source': 'https://spartacodingclub.kr/blog/all-in-challenge_winner'}, page_content="'AII-in 코딩 공모전’ 수상작을 소개합니다코딩은 더 이상 개발자만의 영역이 아닙니다. 누구나 아이디어만 있다면 창의적인 서비스를 만들어 세상을 바꿀 수 있습니다. 스파르타코딩클럽에서는 이러한 가능성을 믿고, 누구나 코딩을 통해 자신의 아이디어를 실현하고 실제 문제를 해결하는 경험을 쌓을 수 있도록 다양한 프로그램을 마련하고 있습니다.<All-in> 코딩 공모전은 대학생들이 캠퍼스에서 겪은 불편함과 문제를 자신만의 아이디어로 해결해보는 대회였는데요. 이번 공모전에서 다양한 혁신적인 아이디어와 열정으로 가득한 수많은 프로젝트가 탄생했습니다. 그중 뛰어난 성과를 낸 수상작 6개를 소개합니다.🏆\xa0대상[Lexi Note] 언어공부 필기 웹 서비스서비스 제작자: 다나와(김다애, 박나경)💡W는 어문학을 전공하는"), Document(id='36e54b8b-ea92-415d-a68a-a822aa48febb', metadata={'source': 'https://spartacodingclub.kr/blog/all-in-challenge_winner'}, page_content="'AII-in 코딩 공모전’ 수상작을 소개합니다코딩은 더 이상 개발자만의 영역이 아닙니다. 누구나 아이디어만 있다면 창의적인 서비스를 만들어 세상을 바꿀 수 있습니다. 스파르타코딩클럽에서는 이러한 가능성을 믿고, 누구나 코딩을 통해 자신의 아이디어를 실현하고 실제 문제를 해결하는 경험을 쌓을 수 있도록 다양한 프로그램을 마련하고 있습니다.<All-in> 코딩 공모전은 대학생들이 캠퍼스에서 겪은 불편함과 문제를 자신만의 아이디어로 해결해보는 대회였는데요. 이번 공모전에서 다양한 혁신적인 아이디어와 열정으로 가득한 수많은 프로젝트가 탄

3. 문서압축기로 문서를 요약한 정보에서 가져오는 contextual compression retriever를 이용해 정보를 가져오도록 했습니다.

In [64]:
base_retriever_context = vectorstore.as_retriever(
                                search_type='similarity',
                                search_kwargs={'k':50})
compressor = LLMChainExtractor.from_llm(llm)
compression_retriever = ContextualCompressionRetriever(
    base_compressor=compressor, base_retriever=base_retriever_context
)

compressed_docs_context = compression_retriever.get_relevant_documents(user_msg)
print(len(compressed_docs_context))
compressed_docs_context

29


[Document(metadata={'source': 'https://spartacodingclub.kr/blog/all-in-challenge_winner'}, page_content="'AII-in 코딩 공모전’ 수상작을 소개합니다코딩은 더 이상 개발자만의 영역이 아닙니다. 누구나 아이디어만 있다면 창의적인 서비스를 만들어 세상을 바꿀 수 있습니다. <All-in> 코딩 공모전은 대학생들이 캠퍼스에서 겪은 불편함과 문제를 자신만의 아이디어로 해결해보는 대회였는데요. 이번 공모전에서 다양한 혁신적인 아이디어와 열정으로 가득한 수많은 프로젝트가 탄생했습니다. 그중 뛰어난 성과를 낸 수상작 6개를 소개합니다.🏆\xa0대상[Lexi Note] 언어공부 필기 웹 서비스서비스 제작자: 다나와(김다애, 박나경)"),
 Document(metadata={'source': 'https://spartacodingclub.kr/blog/all-in-challenge_winner'}, page_content="'AII-in 코딩 공모전’ 수상작을 소개합니다코딩은 더 이상 개발자만의 영역이 아닙니다. 누구나 아이디어만 있다면 창의적인 서비스를 만들어 세상을 바꿀 수 있습니다. 스파르타코딩클럽에서는 이러한 가능성을 믿고, 누구나 코딩을 통해 자신의 아이디어를 실현하고 실제 문제를 해결하는 경험을 쌓을 수 있도록 다양한 프로그램을 마련하고 있습니다.<All-in> 코딩 공모전은 대학생들이 캠퍼스에서 겪은 불편함과 문제를 자신만의 아이디어로 해결해보는 대회였는데요. 이번 공모전에서 다양한 혁신적인 아이디어와 열정으로 가득한 수많은 프로젝트가 탄생했습니다. 그중 뛰어난 성과를 낸 수상작 6개를 소개합니다.🏆\xa0대상[Lexi Note] 언어공부 필기 웹 서비스서비스 제작자: 다나와(김다애, 박나경)💡W는 어문학을 전공하는"),
 Document(metadata={'source': 'https://spartacodingclub.kr/blog/all-in-challenge_winner'}

4. self-query retriever를 이용해 질문에 따라 올바른 방법으로 정보를 가져올 수 있도록 해봤습니다.

In [65]:
from langchain.retrievers.self_query.base import SelfQueryRetriever
from langchain.chains.query_constructor.base import AttributeInfo

# 수상 정보 정의
metadata_field_info = [
    AttributeInfo(
        name="award_type",
        description="상장 종류 (대상, 최우수상, 우수상, 입선선 등)",
        type="string",
    ),
    AttributeInfo(
        name="competition_name", 
        description="공모전 이름", 
        type="string"
    ),
    AttributeInfo(
        name="recipients_name", 
        description="수상자들의의 이름", 
        type="string"
    ),
    AttributeInfo(
        name="recipient_work_decription", 
        description="수상작에 대한 설명", 
        type="string"
    ),
    AttributeInfo(
        name="tech_stack", 
        description="사용한 기술", 
        type="string"
    ),
]

self_query_retriever = SelfQueryRetriever.from_llm(
    llm,
    vectorstore,
    document_contents="ALL-in 코딩 공모전 수상작 정보",
    metadata_field_info=metadata_field_info,
    enable_limit=True,
    search_kwargs={"k": 50},  # k 의 값을 2로 지정하여 검색 결과를 2개로 제한합니다.
)

retrieved_docs_self_query = self_query_retriever.get_relevant_documents(user_msg)
print(len(retrieved_docs_self_query))
retrieved_docs_self_query


50


[Document(id='4db39bc8-bf2d-4ca1-beeb-104affeb184b', metadata={'source': 'https://spartacodingclub.kr/blog/all-in-challenge_winner'}, page_content='선택할 수 있습니다.사용한 기술 스택 -FE(프론트엔드): Spring Boot, Redis, MySQL-BE(백엔드): SwiftUI Framework, OAuth 2.0🏅\xa0입선[학교생활 매니저] 학교생활 관리 서비스서비스 제작자: 아이칼F4(조민제, 이민기, 강건, 박근우)💡A는 올해 복학한 3학년 학생입니다. 강의실과 도서관을 오가며 바쁜 일정을 소화하느라 정신이 없지만, 수업마다 나오는 과제와 각종 활동, 시험 준비까지 겹치면서 혼란에 빠지기 일쑤였습니다. 복학생이다 보니 학교에서 전달되는 공지사항도 제대로 전달받지 못해 항상 중요한 정보를 놓칠까 봐 걱정이었죠.<학교생활 매니저> 서비스는 학교 생활을 효율적으로 관리할 수 있도록 돕기 위해 개발된 관리 앱입니다. 일정과 과제 관리, 성적 예측,'),
 Document(id='d7468826-77ac-4755-8863-782dfdd239ad', metadata={'source': 'https://spartacodingclub.kr/blog/all-in-challenge_winner'}, page_content='| 신수지 팀스파르타 에디터'),
 Document(id='e1bc7301-9029-4e2f-8ec6-b3bddd226759', metadata={'source': 'https://spartacodingclub.kr/blog/all-in-challenge_winner'}, page_content='| 신수지 팀스파르타 에디터'),
 Document(id='0a891b25-61db-49ff-a5ce-51712b76c8cb', metadata={'source': 'https://spartacodingclub.kr/blog/all-in-

리트리버들의 결과 비교

In [66]:
print("1. search type: similarity")
user_prompt = prompt.invoke({"context": format_docs(retrieved_docs_similarity), "question": user_msg})
response = llm.invoke(user_prompt)
print(response.content)


print("\n\n\n2. search type: mmr")
user_prompt = prompt.invoke({"context": format_docs(retrieved_docs_mmr), "question": user_msg})
response = llm.invoke(user_prompt)


print(response.content)
print("\n\n\n3. contextual compression retriever")
user_prompt = prompt.invoke({"context": format_docs(compressed_docs_context), "question": user_msg})
response = llm.invoke(user_prompt)


print(response.content)
print("\n\n\n4. self-query retriever")
user_prompt = prompt.invoke({"context": format_docs(retrieved_docs_self_query), "question": user_msg})
response = llm.invoke(user_prompt)
print(response.content)


1. search type: similarity
'AII-in 코딩 공모전' 수상작 요약:

1. **대상: Lexi Note**
   - **서비스 내용:** 언어공부 필기 웹 서비스
   - **제작자:** 다나와(김다애, 박나경)
   - **기술 스택:** 정보 없음

2. **우수상: 에코 클래스룸**
   - **서비스 내용:** 수업 실시간 소통 서비스
   - **제작자:** This is 스파게티!!!(박지성, 김서원, 박범수)
   - **기술 스택:** Flutter, Socket.IO, Expo CLI, Axios, TanStack Query, Spring Boot, Spring Security, JWT, MySQL, Spring WebSocket, AWS

3. **우수상: 우리집 히어로즈**
   - **서비스 내용:** 벌레 퇴치 영웅 매칭 서비스
   - **제작자:** 인트(배정연, 한지수)
   - **기술 스택:** React, Tesseract.js, React-Quill, HTML, CSS, JavaScript, Java, Spring Boot, MariaDB

4. **입선: Crewing**
   - **서비스 내용:** 연합동아리 정보 플랫폼
   - **제작자:** 동학대학운동(김민아, 임경진, 신은혜, 고수)
   - **기술 스택:** Spring Boot, Redis, MySQL, SwiftUI Framework, OAuth 2.0

5. **입선: 학교생활 매니저**
   - **서비스 내용:** 학교생활 관리 서비스
   - **제작자:** 아이칼F4(조민제, 이민기, 강건, 박근우)
   - **기술 스택:** 정보 없음

이번 공모전은 대학생들이 캠퍼스에서 경험한 문제를 해결하기 위한 다양한 아이디어와 혁신적인 프로젝트가 발표되었습니다. 각 수상작들은 실용적이고 참신한 해결책을 제시하여 참가자들의 열정을 엿볼 수 있는 기회를 제공했습니다.



2. search type: mmr
### AII-in 코딩