<a href="https://colab.research.google.com/github/notSURZO/LLM-Compression-Test/blob/main/Trying_Langchain_Vector_Stores.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [4]:
pip install langchain langchain-community chromadb sentence-transformers torch transformers accelerate tqdm


Collecting langchain-community
  Downloading langchain_community-0.3.24-py3-none-any.whl.metadata (2.5 kB)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain-community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting pydantic-settings<3.0.0,>=2.4.0 (from langchain-community)
  Downloading pydantic_settings-2.9.1-py3-none-any.whl.metadata (3.8 kB)
Collecting httpx-sse<1.0.0,>=0.4.0 (from langchain-community)
  Downloading httpx_sse-0.4.0-py3-none-any.whl.metadata (9.0 kB)
Collecting marshmallow<4.0.0,>=3.18.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading marshmallow-3.26.1-py3-none-any.whl.metadata (7.3 kB)
Collecting typing-inspect<1,>=0.4.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading typing_inspect-0.9.0-py3-none-any.whl.metadata (1.5 kB)
Collecting mypy-extensions>=0.3.0 (from typing-inspect<1,>=0.4.0->dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading mypy_extensions-1.1.0-py3-no

In [8]:
from langchain.vectorstores import Chroma
from langchain.embeddings import HuggingFaceEmbeddings

texts = [
    "প্যারিসে আইফেল টাওয়ার অবস্থিত।",
    "চীনের মহাপ্রাচীর মহাকাশ থেকেও দৃশ্যমান।",
    "আমাজন রেইনফরেস্ট বিশ্বে বিশ শতাংশ অক্সিজেন সরবরাহ করে।"
]

embedding_model = HuggingFaceEmbeddings(
    model_name="l3cube-pune/bengali-sentence-similarity-sbert",
    model_kwargs={"device": "cpu"}  # or "cpu"
)

# Store texts with Chroma
db = Chroma.from_texts(texts=texts, embedding=embedding_model)

query = "আইফেল টাওয়ার কোথায়?"

# Get raw scores
raw_scores = db.similarity_search_with_score(query)

# Get relevance scores
relevance_scores = db.similarity_search_with_relevance_scores(query)

# Compare outputs
print("--- Raw Scores (Cosine Distance) ---")
for doc, score in raw_scores:
    print(f"Text: {doc.page_content}\nScore: {score:.4f}\n")

print("--- Relevance Scores (Normalized Cosine Similarity) ---")
for doc, score in relevance_scores:
    print(f"Text: {doc.page_content}\nRelevance Score: {score:.4f}\n")


--- Raw Scores (Cosine Distance) ---
Text: প্যারিসে আইফেল টাওয়ার অবস্থিত।
Score: 0.0754

Text: প্যারিসে আইফেল টাওয়ার অবস্থিত।
Score: 0.0754

Text: চীনের মহাপ্রাচীর মহাকাশ থেকেও দৃশ্যমান।
Score: 0.2804

Text: চীনের মহাপ্রাচীর মহাকাশ থেকেও দৃশ্যমান।
Score: 0.2804

--- Relevance Scores (Normalized Cosine Similarity) ---
Text: প্যারিসে আইফেল টাওয়ার অবস্থিত।
Relevance Score: 0.9467

Text: প্যারিসে আইফেল টাওয়ার অবস্থিত।
Relevance Score: 0.9467

Text: চীনের মহাপ্রাচীর মহাকাশ থেকেও দৃশ্যমান।
Relevance Score: 0.8017

Text: চীনের মহাপ্রাচীর মহাকাশ থেকেও দৃশ্যমান।
Relevance Score: 0.8017



In [9]:
pip install sentence-transformers torch numpy




In [13]:
from sentence_transformers import SentenceTransformer
import torch
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# Load model
model = SentenceTransformer("l3cube-pune/bengali-sentence-similarity-sbert", device="cpu")  # or "cpu"

# Define texts
texts = [
    "প্যারিসে আইফেল টাওয়ার অবস্থিত।",
    "চীনের মহাপ্রাচীর মহাকাশ থেকেও দৃশ্যমান।",
    "আমাজন রেইনফরেস্ট বিশ্বে বিশ শতাংশ অক্সিজেন সরবরাহ করে।"
]

# Define query
query = "আইফেল টাওয়ার কোথায়?"

# Encode without normalization to keep L2 distance meaningful
text_embeddings = model.encode(texts, convert_to_tensor=True, normalize_embeddings=False)
query_embedding = model.encode(query, convert_to_tensor=True, normalize_embeddings=False)

# Cosine similarity (optional: normalize before computing)
cos_sim = torch.nn.functional.cosine_similarity(
    torch.nn.functional.normalize(query_embedding, dim=0),
    torch.nn.functional.normalize(text_embeddings, dim=1)
)

# L2 distance
l2_distances = torch.norm(text_embeddings - query_embedding, dim=1)

# Display results
for i in range(len(texts)):
    print(f"Text: {texts[i]}")
    print(f"Cosine Similarity: {cos_sim[i].item():.4f}")
    print(f"L2 Distance: {l2_distances[i].item():.4f}\n")


Text: প্যারিসে আইফেল টাওয়ার অবস্থিত।
Cosine Similarity: 0.7873
L2 Distance: 0.2747

Text: চীনের মহাপ্রাচীর মহাকাশ থেকেও দৃশ্যমান।
Cosine Similarity: 0.1835
L2 Distance: 0.5296

Text: আমাজন রেইনফরেস্ট বিশ্বে বিশ শতাংশ অক্সিজেন সরবরাহ করে।
Cosine Similarity: 0.0256
L2 Distance: 0.6037



In [17]:
import chromadb
from chromadb.config import Settings
from sentence_transformers import SentenceTransformer
import torch

# Initialize your HuggingFace embedding model
model = SentenceTransformer("l3cube-pune/bengali-sentence-similarity-sbert", device="cpu")  # or "cpu"

# Setup Chroma in-memory DB
chroma_client = chromadb.Client()

# Create a collection
collection = chroma_client.create_collection(name="my_docs")

# Sample texts to store
texts = [
    "প্যারিসে আইফেল টাওয়ার অবস্থিত।",
    "চীনের মহাপ্রাচীর মহাকাশ থেকেও দৃশ্যমান।",
    "আমাজন রেইনফরেস্ট বিশ্বে বিশ শতাংশ অক্সিজেন সরবরাহ করে।"
]

# Create embeddings for texts
embeddings = model.encode(texts, normalize_embeddings=False).tolist()  # Do NOT normalize for L2

# Add to Chroma
collection.add(
    documents=texts,
    embeddings=embeddings,
    ids=[f"doc{i}" for i in range(len(texts))]
)

# Now do a query
query = "আইফেল টাওয়ার কোথায়?"
query_embedding = model.encode([query], normalize_embeddings=False).tolist()[0]

# Perform similarity search
results = collection.query(
    query_embeddings=[query_embedding],
    n_results=3,
    include=["distances", "embeddings", "documents", "metadatas"]
)

# Print results
for doc, distance in zip(results["documents"][0], results["distances"][0]):
    print(f"Doc: {doc}")
    print(f"Distance: {distance:.4f}\n")


Doc: প্যারিসে আইফেল টাওয়ার অবস্থিত।
Distance: 0.0754

Doc: চীনের মহাপ্রাচীর মহাকাশ থেকেও দৃশ্যমান।
Distance: 0.2804

Doc: আমাজন রেইনফরেস্ট বিশ্বে বিশ শতাংশ অক্সিজেন সরবরাহ করে।
Distance: 0.3644

