<a href="https://colab.research.google.com/github/notSURZO/LLM-Compression-Test/blob/main/Combining_Answer_Check_Chain_with_Context_Compression_Using_Gemini_1_5_Flash.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [13]:
!pip install langchain-google-genai
!pip install chromadb
!pip install --upgrade langchain
!pip install langchain-community

Collecting chromadb
  Downloading chromadb-1.0.8-cp39-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.9 kB)
Collecting fastapi==0.115.9 (from chromadb)
  Downloading fastapi-0.115.9-py3-none-any.whl.metadata (27 kB)
Collecting uvicorn>=0.18.3 (from uvicorn[standard]>=0.18.3->chromadb)
  Downloading uvicorn-0.34.2-py3-none-any.whl.metadata (6.5 kB)
Collecting posthog>=2.4.0 (from chromadb)
  Downloading posthog-4.0.1-py2.py3-none-any.whl.metadata (3.0 kB)
Collecting onnxruntime>=1.14.1 (from chromadb)
  Downloading onnxruntime-1.21.1-cp311-cp311-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (4.5 kB)
Collecting opentelemetry-exporter-otlp-proto-grpc>=1.2.0 (from chromadb)
  Downloading opentelemetry_exporter_otlp_proto_grpc-1.32.1-py3-none-any.whl.metadata (2.5 kB)
Collecting opentelemetry-instrumentation-fastapi>=0.41b0 (from chromadb)
  Downloading opentelemetry_instrumentation_fastapi-0.53b1-py3-none-any.whl.metadata (2.2 kB)
Collecting pypika>=0.48.9 (from 



In [2]:
import os
from typing import Tuple
from pydantic import BaseModel, Field

from langchain_google_genai import ChatGoogleGenerativeAI
from langchain.retrievers.document_compressors import LLMChainExtractor
from langchain.docstore.document import Document
from langchain.prompts import PromptTemplate

# --- Gemini 1.5 API Configuration ---
GOOGLE_API_KEY = 'AIzaSyAGLNHPCQ2VL2kULFP59e1O0YMAOkhYy5Y'
GEMINI_MODEL = "models/gemini-1.5-flash"
os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = ""
import google.auth; google.auth.default = lambda: (None, None)

# --- Initialize Gemini LLM ---
llm = ChatGoogleGenerativeAI(
    model=GEMINI_MODEL,
    google_api_key=GOOGLE_API_KEY,
    temperature=0.0,
    max_output_tokens=512,
)

# --- Step 1: Compress Context Based on Query ---
def compress_context(docs: list[Document], query: str) -> str:
    compressor = LLMChainExtractor.from_llm(llm)
    compressed_docs = compressor.compress_documents(docs, query=query)
    # Merge all compressed content into a single string context
    return "\n".join([doc.page_content for doc in compressed_docs])

# --- Step 2: Structured Output Format for Answer Checking ---
class AnswerCheck(BaseModel):
    is_complete: bool = Field(description="Whether the context answers the query completely")
    answer: str = Field(description="The answer based on the context, if any")

# --- Step 3: Create Chain to Check for Answer ---
def create_answer_check_chain():
    prompt = PromptTemplate(
        input_variables=["query", "context"],
        template=(
            "Given the query: '{query}'\n\n"
            "And the context:\n{context}\n\n"
            "Does the context provide a complete answer to the query? follow the following structure strictly\n"
            "If yes, return:\nIs complete answer: Yes\nAnswer: <your answer>\n"
            "If no, return:\nIs complete answer: No\nAnswer: <empty or partial explanation>"
        )
    )
    return prompt | llm.with_structured_output(AnswerCheck)

# --- Step 4: Answer Check Function ---
def check_answer(query: str, context: str) -> Tuple[bool, str]:
    chain = create_answer_check_chain()
    result = chain.invoke({"query": query, "context": context})
    return result.is_complete, result.answer

# --- 🔬 TEST FLOW (Compression + Answer Check) ---
query = "রাইবোসোমের কাজ কী?"  # What is the function of ribosomes?

docs = [
    Document(page_content="মাইটোকন্ড্রিয়া কোষের শক্তি উৎপাদনকারী অংশ। এটি গ্লুকোজকে ATP তে রূপান্তরিত করে। এছাড়াও কোষের রাইবোসোম রয়েছে যা প্রোটিন সংশ্লেষণ করে। নিউক্লিয়াস জিনের অভিব্যক্তি নিয়ন্ত্রণ করে।"),
    Document(page_content="ফটোসিন্থেসিস ক্লোরোপ্লাস্টে ঘটে এবং আলো শক্তিকে রাসায়নিক শক্তিতে রূপান্তরিত করে।"),
    Document(page_content="নিউক্লিয়াস কোষের জেনেটিক উপাদান ধারণ করে এবং কোষের কার্যক্রম নিয়ন্ত্রণ করে।"),
]

# --- Compress Context for the Query ---
compressed_context = compress_context(docs, query)

# --- Check if Compressed Context Answers the Query ---
is_complete, answer = check_answer(query, compressed_context)

# --- Output ---
print("\n🔍 Original Query:", query)
print("🧩 Compressed Context:\n", compressed_context)
print("\n✅ Is Answer Complete?:", is_complete)
print("📝 Extracted Answer:", answer)



🔍 Original Query: রাইবোসোমের কাজ কী?
🧩 Compressed Context:
 এছাড়াও কোষের রাইবোসোম রয়েছে যা প্রোটিন সংশ্লেষণ করে।

✅ Is Answer Complete?: True
📝 Extracted Answer: প্রোটিন সংশ্লেষণ


In [1]:
from langchain_community.vectorstores import Chroma
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.embeddings import HuggingFaceEmbeddings
import torch

def document_processing(path, persist_dir):
    with open(path, "r", encoding="utf-8") as file:
        text_content = file.read()
        character_splitter = RecursiveCharacterTextSplitter(
            separators=["\n\n", "\n", "।"],
            chunk_size= 1500,
            chunk_overlap=150,
        )
        documents = list(character_splitter.split_text(text_content))
        print(f"Number of chunks: {len(documents)}")





    device = "cuda" if torch.cuda.is_available() else "cpu"

    embedding_model = HuggingFaceEmbeddings(
        model_name="l3cube-pune/bengali-sentence-similarity-sbert",
        model_kwargs={"device": device}
    )
    persist_dir = persist_dir





    db = Chroma.from_texts(
        texts=documents,
        collection_metadata={"hnsw:space": "cosine"},
        embedding=embedding_model,
        persist_directory=persist_dir,

    )
    db.persist()



    return  db




In [2]:
from langchain_community.vectorstores import Chroma
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain.prompts import PromptTemplate
from langchain.schema import StrOutputParser
from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import LLMChainExtractor
from pydantic import BaseModel, Field
from typing import Tuple, List
import google.auth
import os

# ---------- Configuration ----------
GOOGLE_API_KEY = 'AIzaSyAGLNHPCQ2VL2kULFP59e1O0YMAOkhYy5Y'
os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = ""
google.auth.default = lambda: (None, None)

llm = ChatGoogleGenerativeAI(
    model="gemini-1.5-flash",
    google_api_key=GOOGLE_API_KEY,
    temperature=0.0,
    max_output_tokens=512
)

# ---------- Pydantic Answer Model ----------
class AnswerCheck(BaseModel):
    is_complete: bool = Field(description="Whether the current context provides a complete answer to the query")
    answer: str = Field(description="The current answer based on the context, if any")

# ---------- Chains ----------
def create_answer_check_chain():
    prompt = PromptTemplate(
        input_variables=["query", "context"],
        template=(
            "Given the query: '{query}'\n\nAnd the current context:\n{context}\n\n"
            "Does this context provide a complete answer to the query?\n"
            "Is complete answer (Yes/No):\nAnswer (if complete):"
        )
    )
    return prompt | llm.with_structured_output(AnswerCheck)

def check_answer(query: str, context: str) -> Tuple[bool, str]:
    chain = create_answer_check_chain()
    result = chain.invoke({"query": query, "context": context})
    return result.is_complete, result.answer

# ---------- Retrieve → Compress → Check ----------
def process_query(query: str, db: Chroma):
    print(f"\n🔍 Processing Query: {query}")

    # Step 1: Create retriever with score threshold
    retriever = db.as_retriever(search_kwargs={"k": 3})
    # Step 2: Retrieve documents
    raw_docs = retriever.invoke(query)

    print("\n--- Retrieved Documents (k=15, threshold=0.1) ---")
    for i, doc in enumerate(raw_docs[:3], 1):  # print top 3 for brevity
        print(f"\n[{i}] Content: {doc.page_content[:300]}..." if len(doc.page_content) > 300 else doc.page_content)

    # Step 3: Compression
    print("\n--- Compressing Retrieved Documents ---")
    compressor = LLMChainExtractor.from_llm(llm)
    compressed_docs = compressor.compress_documents(raw_docs, query)

    # Step 4: Check for complete answers
    print("\n--- Checking for Complete Answers ---")
    for i, doc in enumerate(compressed_docs, 1):
        print(f"\nCompressed Doc {i}:")
        print(f"{doc.page_content[:300]}..." if len(doc.page_content) > 300 else doc.page_content)

        is_complete, answer = check_answer(query, doc.page_content)
        print(f"\n✅ Complete Answer Found: {is_complete}")
        print(f"Answer: {answer if is_complete else 'Incomplete / Not Found'}")
        print("-" * 50)



In [3]:
db = document_processing('/content/test.txt', "/content/chroma_db2")


Number of chunks: 15


  embedding_model = HuggingFaceEmbeddings(
The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.
  db.persist()



🔍 Processing Query: সেলিনা হোসেন এর জন্ম কত সালে?

--- Retrieved Documents (k=15, threshold=0.1) ---

[1] Content: ঙ. কাকতাড়ুয়া উপন্যাস ও ঔপন্যাসিক পরিচিতি: সেলিনা হোসেন: সেলিনা হোসেন ১৯৪৭ সালের ১৪ জুন রাজশাহীতে জন্মগ্রহণ করেন। তাঁর পিতার নাম মোশাররফ হোসেন, মাতার নাম মরিয়মন্নেসা বকুল। তিনি পিতামাতার চতুর্থ সন্তান। ১৯৬০-এর দশকে রাজশাহী বিশ্ববিদ্যালয়ে পড়ার সময়ে লেখালেখির সূচনা। এ পর্যন্ত বড়দের জন্য তাঁর প্রকাশিত ...

[2] Content: (১) গ্রামীণ পটভূমিতে রচিত উপন্যাস: সৈয়দ ওয়ালীউল্লাহ্র লালসালু, কাঁদো নদী কাঁদো, চাঁদের অমাবস্যা, আবু ইসহাকের সূর্য-দীঘল বাড়ি, জহির রায়হানের হাজার বছর ধরে, আবদুল গাফফার চৌধুরীর চন্দ্রদ্বীপের উপাখ্যান, শওকত ওসমানের জননী, আখতারুজ্জামান ইলিয়াসের খোয়াবনামা, হাসান আজিজুল হকের আগুনপাখি, সৈয়দ শামসুল হকের মহ...

[3] Content: অনেকে মনে করেন, হ্যানা ক্যাথারিন মলেন্সের (১৮৬২-৬১) লেখা ফুলমনি ও করুণার বিবরণ (১৯৫২) হচ্ছে বাংলা সাহিত্যের প্রথম উপন্যাস। কেউ কেউ আবার প্যারীচাঁদ মিত্রের আলালের ঘরের দুলাল-এর মধ্যে উপন্যাসের লক্ষণ খুঁজে পেয়েছেন। তবে সবাই মেনে নিয়েছেন, বঙ্কিমচন্দ্র

In [4]:
process_query("সেলিনা হোসেন কোথায় জন্ম নেন?",db)


🔍 Processing Query: সেলিনা হোসেন কোথায় জন্ম নেন?

--- Retrieved Documents (k=15, threshold=0.1) ---

[1] Content: ঙ. কাকতাড়ুয়া উপন্যাস ও ঔপন্যাসিক পরিচিতি: সেলিনা হোসেন: সেলিনা হোসেন ১৯৪৭ সালের ১৪ জুন রাজশাহীতে জন্মগ্রহণ করেন। তাঁর পিতার নাম মোশাররফ হোসেন, মাতার নাম মরিয়মন্নেসা বকুল। তিনি পিতামাতার চতুর্থ সন্তান। ১৯৬০-এর দশকে রাজশাহী বিশ্ববিদ্যালয়ে পড়ার সময়ে লেখালেখির সূচনা। এ পর্যন্ত বড়দের জন্য তাঁর প্রকাশিত ...

[2] Content: (১) গ্রামীণ পটভূমিতে রচিত উপন্যাস: সৈয়দ ওয়ালীউল্লাহ্র লালসালু, কাঁদো নদী কাঁদো, চাঁদের অমাবস্যা, আবু ইসহাকের সূর্য-দীঘল বাড়ি, জহির রায়হানের হাজার বছর ধরে, আবদুল গাফফার চৌধুরীর চন্দ্রদ্বীপের উপাখ্যান, শওকত ওসমানের জননী, আখতারুজ্জামান ইলিয়াসের খোয়াবনামা, হাসান আজিজুল হকের আগুনপাখি, সৈয়দ শামসুল হকের মহ...

[3] Content: অনেকে মনে করেন, হ্যানা ক্যাথারিন মলেন্সের (১৮৬২-৬১) লেখা ফুলমনি ও করুণার বিবরণ (১৯৫২) হচ্ছে বাংলা সাহিত্যের প্রথম উপন্যাস। কেউ কেউ আবার প্যারীচাঁদ মিত্রের আলালের ঘরের দুলাল-এর মধ্যে উপন্যাসের লক্ষণ খুঁজে পেয়েছেন। তবে সবাই মেনে নিয়েছেন, বঙ্কিমচন্দ্র 