#### 00. 랭체인 및 외부 모델(Gemini) 제공 패키지 설치

In [None]:
# 랭체인 설치
!pip install langchain langchain_community

In [None]:
# 구글 Gemini를 불러올 수 있는 라이브러리 설치
!pip install -U langchain-google-genai

In [None]:
# Google Gemini 테스트
from langchain_google_genai import ChatGoogleGenerativeAI

llm = ChatGoogleGenerativeAI(model="gemini-2.0-flash", api_key="AIzaSyDwmO4ICWgVcmG2r4a73j9Wy1GkWEwTV_U")
llm_msg = llm.invoke("Gemini 요금제에 대해 설명해줘")
print(llm_msg)

#### 01. 체인 만들기

In [None]:
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain.prompts import ChatPromptTemplate
from langchain.schema.output_parser import StrOutputParser

# 1. llm, prompt, parser 정의
llm = ChatGoogleGenerativeAI(model="gemini-2.0-flash", api_key="AIzaSyDwmO4ICWgVcmG2r4a73j9Wy1GkWEwTV_U")
prompt = ChatPromptTemplate.from_template("너는 전주대학교 학생이야. 다음의 질문을 쉽게 답변해줘 : {input}")
output_parser = StrOutputParser()

# 2. 체인 생성
chain = prompt | llm | output_parser

# 3. 체인 실행
result = chain.invoke({"input": "전주대학교에 대해 소개해줘"})
print("응답 결과:", result)

#### 02. 문서 업로드

In [None]:
# pdf 로더 라이브러리 설치
!pip install langchain pypdf

In [None]:
# PDF 파일 업로드
from google.colab import files

uploaded = files.upload()  # 파일 선택 창이 열리며, PDF 파일들을 선택하여 업로드하고 드라이브에서 확인

In [None]:
# PyPDFLoader를 이용한 여러 PDF 파일들을 로딩
from langchain.document_loaders import PyPDFLoader
import os

# 현재 작업 디렉토리의 PDF 파일 목록 가져오기
pdf_files = [f for f in os.listdir() if f.lower().endswith('.pdf')]

all_documents = []
for filename in pdf_files:
      loader = PyPDFLoader(filename)
      docs = loader.load()
      all_documents.extend(docs)

print(f"총 문서 수: {len(all_documents)}")
print(f"첫번째 문서: {all_documents[0]}")

#### 03. 문서 청킹

In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
split_docs = splitter.split_documents(all_documents)

print(f"분할된 문서 수: {len(split_docs)}")
print("***** 첫번째 청크 *****\n")
print(split_docs[0].page_content)

#### 04. 임베딩 및 벡터 스토어 저장

In [None]:
# 임베딩을 위한 라이브러리 설치
!pip install sentence-transformers chromadb

In [None]:
# 임베딩
from langchain.embeddings import HuggingFaceEmbeddings

# 무료 사용 가능한 임베딩 모델 정의
embedding_model = HuggingFaceEmbeddings(
    model_name='jhgan/ko-sroberta-nli',
)

In [None]:
# Chroma 벡터 DB에 저장
from langchain.vectorstores import Chroma

# 디스크에 저장할 디렉토리 지정
persist_directory = "./chroma_db"

vectorstore = Chroma.from_documents(
    documents=split_docs,
    embedding=embedding_model,
    persist_directory=persist_directory
)

#### 05. 검색(Retrieve)

In [None]:
query = '어느 학과에서 인공지능을 잘 가르치나요?'

# 가장 유사도가 높은 청크를 3개 추출하는 Retriever 객체 생성
retriever = vectorstore.as_retriever(search_kwargs={'k': 3})

# 자료를 추출 및 확인
docs = retriever.get_relevant_documents(query)
print(f'청크 개수: {len(docs)}')
print(f'첫번째 청크내용: {docs[0]}')

#### 06. LLM에게 관련 청크와 함께 질의하기

In [None]:
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain.prompts import ChatPromptTemplate
from langchain.schema.output_parser import StrOutputParser

# 프롬프트 생성 (Prompt)
template = '''다음의 내용을 기반으로 하여 질문에 답하세요: {context}
질문: {question}
'''
prompt = ChatPromptTemplate.from_template(template)

# 모델 (Model)
llm = ChatGoogleGenerativeAI(model="gemini-2.0-flash",
                             api_key="AIzaSyD9u7xQibC5jNJTz_qSEHBAORSUwWSe58w",
                             temperature=0, max_tokens=500,)

# 체인 구성 (Chain Execution)
chain = prompt | llm | StrOutputParser()

# 문서 포맷팅 (Formatting Docs)
def format_docs(docs): # 청크 사이에 '\n\n'을 삽입
    return '\n\n'.join([d.page_content for d in docs])

# 실행 (LLM에게 질의하기)
response = chain.invoke({'context': (format_docs(docs)), 'question':query})
print(response)

#### 07. 챗봇 UI 만들기

##### 필요한 라이브러리 설치

In [None]:
# streamlit 설치
!pip install streamlit streamlit-chat

In [None]:
# Colab 런타임에서 실행되는 Streamlit 앱을 외부에서 접근할 수 있도록 터널을 생성
!pip install pyngrok

In [None]:
# 간단한 프로그램(app.py) 작성
%%writefile app.py
import streamlit as st
from streamlit_chat import message

message("챗봇 메시지")
message("안녕하세요, 봇!", is_user=True)

In [None]:
from pyngrok import ngrok
import subprocess
import os

PORT = 8501

# Streamlit 앱을 백그라운드에서 실행(포트: 8501)
process = subprocess.Popen(["streamlit", "run", "app.py", "--server.port", str(PORT), "--server.enableCORS", "true", "--server.enableXsrfProtection", "false"], stdout=subprocess.PIPE, stderr=subprocess.PIPE)

# ngrok 인증 토큰 설정 (ngrok 홈에서 계정생성 후, 받을 수 있음)
ngrok.set_auth_token("2yM2FbBUyooXRCAtvsJfSnsM2Uw_4zXFe5a4ChPKYpSqcvK4X")

# ngrok 터널 생성
public_url = ngrok.connect(PORT, bind_tls=True)
print(f"Streamlit 앱에 접속하려면 다음 링크를 클릭하세요: {public_url}")

In [None]:
# ngrok 터널링 종료를 위한 함수 (선택 사항)
# Colab 세션이 끊기면 자동으로 종료되지만, 수동으로 종료하고 싶을 때 유용
def kill_streamlit_ngrok():
    process.terminate()
    print("Streamlit 프로세스 종료...")
    ngrok.kill()
    print("ngrok 터널 종료...")

# kill_streamlit_ngrok()

#### 예제: Gemini와 연동하는 챗봇 프로그램(chat.py) 작성

In [None]:
%%writefile chat.py
import streamlit as st
from langchain_google_genai import ChatGoogleGenerativeAI

# 타이틀 지정
st.title("💬 Streamlit 챗봇")

# 초기화
if "messages" not in st.session_state:
    st.session_state.messages = [
        {"role": "assistant", "content": "무엇을 도와드릴까요?"}
    ]

# LLM
llm = ChatGoogleGenerativeAI(model="gemini-2.0-flash",
                             api_key="AIzaSyD9u7xQibC5jNJTz_qSEHBAORSUwWSe58w",)

def ask_llm(prompt):
    response = llm.chat.completions.create(
        model="gemini-2.0-flash",
        messages=[
            {"role": "system", "content": "당신은 친절한 AI 챗봇입니다."},
            {"role": "user", "content": prompt}, ],
    )
    return response.choices[0].message.content

for msg in st.session_state.messages:
    with st.chat_message(msg["role"]):
        st.write(msg["content"])

if query := st.chat_input("질문을 입력하세요."):
    st.session_state.messages.append({"role": "user", "content": query})
    st.chat_message("user").write(query)
    response = ask_llm(query)
    st.session_state.messages.append({"role": "assistant", "content": response})
    st.chat_message("assistant").write(response)

In [None]:
# 실행 프로그램 작성
from pyngrok import ngrok
import subprocess
import os

PORT= "8501"

# Streamlit 앱을 백그라운드에서 실행(포트: 8501)
process = subprocess.Popen(["streamlit", "run", "chat.py", "--server.port", PORT, "--server.enableCORS", "true", "--server.enableXsrfProtection", "false"], stdout=subprocess.PIPE, stderr=subprocess.PIPE)

# ngrok 인증 토큰 설정(ngrok 홈에서 계정생성 후, 받을 수 있음)
ngrok.set_auth_token("2yM2FbBUyooXRCAtvsJfSnsM2Uw_4zXFe5a4ChPKYpSqcvK4X")

# ngrok 터널 생성
public_url = ngrok.connect(PORT, bind_tls=True)
print(f"Streamlit 앱 접속 링크: {public_url}")