# Ollama 설치 및 RAG 파이프라인 구성

## 3.2.2 Ollama 설치 및 설정

In [None]:
!pip install ollama

## 3.2.3 Ollama를 사용한 Llama 모델 양자화하기

In [None]:
from transformers import AutoModelForCausalLM, AutoTokenizer
from ollama import quantize_model

# 모델과 토크나이저 로드
model_name = "meta-llama/Llama-3.2-1B"
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 모델 양자화
quantized_model = quantize_model(model, bits=8)


## 3.2.4 Ollama를 활용한 RAG 파이프라인 구성 및 결과 출력

In [None]:
from langchain.chains import RAGChain
from ollama import OllamaLLM
from sentence_transformers import SentenceTransformer
from langchain.vectorstores import FAISS

# 임베딩 모델 로드 및 문서 벡터화
embedding_model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")
data = ["Ollama는 양자화를 통해 효율성을 높입니다.", 
        "RAG는 검색을 통해 정확한 응답을 제공합니다.", 
        "양자화는 실시간 상호작용에 유용합니다."]
embeddings = [embedding_model.encode(doc) for doc in data]
vector_store = FAISS.from_embeddings(embeddings, data)

# Ollama LLM 설정
llm = OllamaLLM(model_name="meta-llama/Llama-3.2-1B")
rag_chain = RAGChain(llm=llm, retriever=vector_store.as_retriever())

# 질문 실행 및 결과 출력
query = "Ollama의 장점은 무엇인가요?"
result = rag_chain.run(query)
print("Ollama RAG 응답:", result)
