<a href="https://colab.research.google.com/github/petermesy/Machine-Learning-Projects/blob/main/winEmbed.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
import json
from sentence_transformers import SentenceTransformer
from tqdm import tqdm
import torch

# Use GPU if available
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Using device: {device}")

# Load model on GPU
model = SentenceTransformer("paraphrase-multilingual-mpnet-base-v2", device=device)

# File paths
input_path = "/content/amharic_chunks.jsonl"
output_path = "/content/amharic_chunks_with_embeddings.jsonl"

# Process file
with open(input_path, "r", encoding="utf-8") as infile, \
     open(output_path, "w", encoding="utf-8") as outfile:

    for line in tqdm(infile, desc="Processing lines"):
        line = line.strip()
        if not line:
            continue

        try:
            data = json.loads(line)
        except json.JSONDecodeError:
            continue

        sentences = data.get("chunked_sentences", [])
        texts = [s.get("sentence", "") for s in sentences]

        # Batch encode with GPU
        embeddings = model.encode(texts, batch_size=32, convert_to_numpy=False, device=device)

        # Add embedding to each sentence
        for s, emb in zip(sentences, embeddings):
            s["embedding"] = emb.tolist()

        data["chunked_sentences"] = sentences
        outfile.write(json.dumps(data, ensure_ascii=False) + "\n")


Using device: cuda


Processing lines: 169it [09:17,  3.30s/it]


In [3]:
!pip install qdrant-client


Collecting qdrant-client
  Downloading qdrant_client-1.14.2-py3-none-any.whl.metadata (10 kB)
Collecting portalocker<3.0.0,>=2.7.0 (from qdrant-client)
  Downloading portalocker-2.10.1-py3-none-any.whl.metadata (8.5 kB)
Downloading qdrant_client-1.14.2-py3-none-any.whl (327 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m327.7/327.7 kB[0m [31m14.4 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading portalocker-2.10.1-py3-none-any.whl (18 kB)
Installing collected packages: portalocker, qdrant-client
Successfully installed portalocker-2.10.1 qdrant-client-1.14.2


In [5]:
from qdrant_client import QdrantClient
from qdrant_client.models import Distance, VectorParams, PointStruct
import uuid

# Use Cloud or local setup
client = QdrantClient(
    url="https://7a42a360-46c6-4155-a4a2-e358ec60b353.us-east4-0.gcp.cloud.qdrant.io:6333",
    api_key="eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJhY2Nlc3MiOiJtIn0.TK2U6DP4CyVj_W59YVOhbLDVEq07a2Y0b6Hm3PwcVhs"
)

# Create collection (if not exists)
client.recreate_collection(
    collection_name="amharic_sentences",
    vectors_config=VectorParams(size=768, distance=Distance.COSINE)
)


  client.recreate_collection(


True

In [7]:
from qdrant_client.models import PointStruct
import uuid
import json

BATCH_SIZE = 500
buffer = []

with open("/content/amharic_chunks_with_embeddings.jsonl", encoding="utf-8") as f:
    for line in f:
        data = json.loads(line)
        for s in data["chunked_sentences"]:
            vector = s["embedding"]
            sentence_text = s["sentence"]

            point = PointStruct(
                id=str(uuid.uuid4()),
                vector=vector,
                payload={"text": sentence_text}
            )
            buffer.append(point)

            if len(buffer) >= BATCH_SIZE:
                client.upsert(collection_name="amharic_sentences", points=buffer)
                buffer = []

# Upload any remaining
if buffer:
    client.upsert(collection_name="amharic_sentences", points=buffer)


In [9]:
query = "የኢትዮጵያ ፌደራላዊ መንግስት በሕግ ላይ በተመሰረተ መንግሥት መሆኑን ማረጋገጥና የፍትሕ ሥርዓት በተከታታይ ተቋማት መንደፍ እንደምን እንደሚከናወን መረዳት እፈልጋለሁ።"
query_vec = model.encode(query).tolist()

results = client.search(
    collection_name="amharic_sentences",
    query_vector=query_vec,
    limit=5
)

for r in results:
    print(r.payload["text"], "→", r.score)


  results = client.search(


ጥናት እና ምርምሮችን ሀ የአገሪቱን ህጎች የኢትዮጵያ ፌደራላዊ ዲሞክራሲያዊ ሪፐብሊክ ሕገ መንግስትን በተሟላ ሁኔታ ስራ ላይ ለማዋል ፣ የፍትህ እና የሕግ ሥርዓቱን ብቁና ዘመናዊ ለማድረግ ፣ የሕግ የበላይነትን ለማረጋገጥ እና በልማታዊና ዲሞክራሲያዊ አስተሳሰብና የእድገት አቅጣጫ ላይ የተመሰረተ የኢኮኖሚና ማሕበራዊ ልማትን ለማፋጠን በሚያስችሉበት ሁኔታ ለማሻሻል እንዲሁም አዳዲስ ሕጎችን ለማውጣት ፤ እና የፌዴራል ጠቅላይ አቃቤ ህግ 276 ለ የፍትህ አካላትን ዘመናዊ ፣ ተደራሽ ፣ ቀልጣፋና ውጤታማ በማድረግ በፍትህ ሥርዓቱ መልካም አስተዳደርን ለማስፈን ፤ እንዲረዳ ማካሄድ 2 . → 0.80455005
ም በአማራ ብሔራዊ ክልላዊ መንግሥት የጠቅላይ ዓቃቤ ሕግ መስሪያ ቤት ማቋቋሚያና ስልጣንና ተግባራት መወሰኛ አዋጅ በክልሉ ውስጥ እስካሁን በተለያዩ ተቋማት አማካኝነት በተበታተነ መንገድ ሲከናወኑ የቆዩትን የዓቃቤ ሕግነት ተግባራት በማሰባሰብና ወደ አንድ አካል በማምጣት ወጥነት ያለው ፣ ለህብረተሰቡ ቀልጣፋና ውጤታማ አገልግሎት የሚሰጥ ፣ እንዲሁም የሕዝብንና የመንግስትን ጥቅም በተሟላ ሁኔታ የማስጠበቅ አቅም ያለው ፣ ራሱን የቻለና የተጠናከረ ሕግ አስከባሪ የዐቃቤ ሕግ ተቋም መመስረት አስፈላጊ ሆኖ በመገኘቱ ፤ ገጽ 2 የአማራ ብሔራዊ ክልላዊ መንግስት ዝክረ ሕግ ጋዜጣ ቁጥር 2 የካቲት 30 . → 0.798061
ም በአማራ ብሔራዊ ክልላዊ መንግሥት የጠቅላይ ዓቃቤ ሕግ መስሪያ ቤት ማቋቋሚያና ስልጣንና ተግባራት መወሰኛ አዋጅ በክልሉ ውስጥ እስካሁን በተለያዩ ተቋማት አማካኝነት በተበታተነ መንገድ ሲከናወኑ የቆዩትን የዓቃቤ ሕግነት ተግባራት በማሰባሰብና ወደ አንድ አካል በማምጣት ወጥነት ያለው ፣ ለህብረተሰቡ ቀልጣፋና ውጤታማ አገልግሎት የሚሰጥ ፣ እንዲሁም የሕዝብንና የመ

In [10]:
query = "የኢትዮጵያ ፌደራል አካላት እና ክልሎች መካከል የሥልጣን መመደብ እንዴት ነው? የህግ ትዳር እና የፖሊሲ ተግባራት አንፃፃፍ ማን ይመራዋል?"
query_vec = model.encode(query).tolist()

results = client.search(
    collection_name="amharic_sentences",
    query_vector=query_vec,
    limit=5
)

for r in results:
    print("Score:", r.score)
    print("Match:", r.payload["text"])
    print("-----------")


  results = client.search(


Score: 0.8323995
Match: የክልሎች ሥልጣንና ሃላፊነት ክልሎች የሚከተሉት ሥልጣንና ሀላፊነቶች ይኖራቸዋል .
-----------
Score: 0.8232411
Match: የክልሉ መንግስት መስተዳድር ምክር ቤት ሥልጣንና ተግባር 1 የክልሉ መንግስት መስተዳድር ምክር ቤት በክልሉ ህገመንግሥት አንቀጽ 5 ሥር የተዘረዘሩት ሥልጣንና ተግባራት የሚኖሩት ሆኖ የአሠራር ሥርዓቱ መስተዳድር ምክር ቤቱ በሚያወጣው ደንብ የሚወሰን ይሆናል 2 የክልሉ መንግስት መስተዳድር ምክር ቤት ተጠሪነት ለጨፌና ለክልሉ ፕሬዝዳንት ይሆናል 3 በማንኛውም ደረጃ የሚገኙ የመስተዳድሩ ምክር ቤት አባላት በአባልነታቸው ለሚሰጡት ውሳኔ የጋራ ተጠያቂነት ይኖራቸዋል 7 .
-----------
Score: 0.8213489
Match: በኢትዮጵያ ፌዴራላዊ ዲሞክራሲያዊ ሪፐብሊክ አስፈፃሚ አካላት ሥልጣንና ተግባር ለመወሰን በወጣው አዋጅ ቁጥር 916 2008 እና በሌሎች ሕጎች ለፍትሕ ሚኒስቴር ተሰጥተው የነበሩ ሥልጣንና ተግባራት በዚህ አዋጅ መሠረት ለፌዴራል ጠቅላይ ዓቃቤ ሕግ ተላልፈዋል ።
-----------
Score: 0.8176497
Match: ስለዚህ የፌደራል የመንግሥት አስተዳደር ዋና መለያ ባህሪ ሥልጣን በፌደራል መንግሥቱና በክልሎች መካከል የተከፋፈለ በመሆኑ በዚህ የስልጣን ክፍፍል መሰረት ሁለቱም አካላት ግብር የሚሰበስቡባቸው አካባቢዎች ተለይተው ተዘርዝረዋል ።
-----------
Score: 0.8175594
Match: በመተዳደሪያ ደንቡ በሚወሰነው መሠረት የፖለቲካ ሥራውን የሚመሩ ፣ ውሳኔ የሚሰጡ እና የሚያስፈጽሙ የአመራር አካላት ይኖሩታል ።
-----------


In [11]:
query = "የማህበረሰብ ተቋማት እና የህገ መንግስት መንፈስ መካከል ያለው ግንኙነት በማንኛውም ዓይነት ፕሮግራሞች ወይም ተግባራዊ አሰራሮች ውስጥ እንዴት ነው የተሳተፈው?"
query_vec = model.encode(query).tolist()

results = client.search(
    collection_name="amharic_sentences",
    query_vector=query_vec,
    limit=5
)

for r in results:
    print("Score:", r.score)
    print("Match:", r.payload["text"])
    print("-----------")


  results = client.search(


Score: 0.7853646
Match: ባሇዴርሻ አካሊት ባሇዴርሻ አካሊት በሚያከናውኗቸው ስራዎች ውስጥ የሕገመንግሥትና ፋዯራሉዜም የአስተምህሮ ተግባራትን የማካተት ፣ ሇአመራሮችና ሰራተኞች የሕገመንግሥትና ፋዯራሉዜም ግንዚቤያቸውን የማሳዯግ ፣ የተሇያዩ የአሰራር ሥርዓቶችን በመ ርጋት የህብረተሰቡን ግንዚቤ በማጎሌበት ከማዕከለ ጋር ተባብሮ የመስራት ኃሊፉነት አሇባቸው 15 .
-----------
Score: 0.7687364
Match: ከመንግስት የኢኮኖሚ ነከ ተቋማት ጋር ስለሚኖር ግንኙነት 1 .
-----------
Score: 0.7580621
Match: በፌደራል መንግስት ፕሮጀክቶች ላይ የፌደራል መንግስት እና ክልሎች ግንኙነት የፌደራል መንግስት እና ክልሎች በፌደራል መንግስት ፕሮጀክቶች ላይ በሚከተሉት ጉዳዮች ላይ በትብብር ይሰራሉ ፩ ለፕሮጀክቶች መሬት ማቅረብ ፤ ፪ በፕሮጀክቶች ምክንያት ለሚነሱ ማህበረሰቦች በአግባቡና በህግ መሰረት ካሣ መከፈሉን ማረጋገጥ ፤ ፫ በፕሮጀክቶች ዝግጅት እና ትግበራ ሂደት የአካባቢው ማህበረሰብ ተሳታፊ መሆኑን ማረጋገጥ ፤ ፬ ፕሮጀክቶች ትግበራ ሂደት በፕሮጀክቱና በህብረተሰቡ መካካል የሚነሱ አለመግባባቶችን መፍታት ፤ ፭ በፕሮጀክት አፈፃፀም መረጃ መሰረት በፕሮጀክቱ አካባቢ ለሚኖሩ ማህበረሰቦች ስለፕሮጀክቶቹ ግንዛቤ ማስጨበጥ 3 .
-----------
Score: 0.7515875
Match: መንግሥት ሇሀገሪቱ የኢኮኖሚ እና ማኅበራዊ ዔዴገት ወሳኝ ሚና የሚኖራቸውን የጂኦተርማሌ ሥራዎች በራሱ ወይም ከላልች ባሇሀብቶች ጋር በቅንጅት ሉያካሂዴ ይችሊሌ 2 .
-----------
Score: 0.75008655
Match: በዚህም መሠረት በመንግሥትና ማሕበረሰብ እንዲሁም በፖለቲካ ልሂቃን መካከል በዴሞክራሲያዊ አግባብ የሚፈጠሩ ስምምነቶችና የመንግሥት 

In [12]:
query = "የህግ ማሻሻያ ሂደት ምን ያመለክታል?"
query_vec = model.encode(query).tolist()

results = client.search(
    collection_name="amharic_sentences",
    query_vector=query_vec,
    limit=5
)

for r in results:
    print("Score:", r.score)
    print("Match:", r.payload["text"])
    print("-----------")


  results = client.search(


Score: 0.80634755
Match: ም በእርቅ ስምምነት ተከፋፍለዉ ይህን ስምምነታቸዉን ደግሞ ለፌዴራል የመጀመሪያ ደረጃ ፍ ቤት አቅርበዉ ፍ ቤቱም ስምምነቱን በሕጉ አግባብ በማየት ማጽደቁን የሥር ዉሳኔ የሚያመለክተዉ ጉዳይ ነዉ እንግዲህ የአሁን ተጠሪ ባቀረበዉ የፍርድ መቃወም አቤቱታ አመልካችና ሌሎች ወራሾች በስምምነት የመንግስትን ይዞታ ስለተከፋፈሉ በነባር ይዞታ አግባብ እና በሊዝ አዋጁ መሰረት እንዲፈጸም ዳኝነት መጠየቁን ክርክሩ ያሳያል አመልካች አጥብቀዉ የሚከራከሩት በዚህ ጉዳይ የሊዝ አዋጁ ተፈጻሚነት የለዉም የሚል ነዉ ስለሆነም 321 በዚህ ጉዳይ መታየት ያለበት የሊዝ አዋጅ ቁጥር 721 2004 እና ይህን አዋጅ ተከትለዉ የወጡት መመሪያዎች ተፈጻሚነት አላቸዉ ወይስ የላቸዉም ?
-----------
Score: 0.8011926
Match: ዝርዝር አፈጻጸሙ በሕግ ይወሰናል ።
-----------
Score: 0.799701
Match: የፍትህ ሥርዓት እና የሕግ ትምህርት ማሻሻያ ፕሮግራሞችን እና ሌሎች በፍትህ ዘርፉ ውስጥ ተግባራዊ የሚደረጉ ማሻሻያ ፕሮግራሞችን ያቀናጃል ፤ ያስተባብራል ፤ 4 .
-----------
Score: 0.7990596
Match: ዝርዝር አፈጻጸሙ በሕግ ይወስናል ።
-----------
Score: 0.79869676
Match: ፱ ፪ሺ8 የሕግ ማሻሻያና ለፍትህ ሥርዓቱ ጠቃሚነት ያላቸው ጥናቶችን እንዲሁም የኮዲፊኬሽን የፌደራል ሕጎችን የማጠቃለል ሥራ ያካሂዳል ፤ የክልሎችን ሕጎች ያሰባስባል ፣ እንደአስፈላጊነቱም እንዲጠቃለሉ ያደርጋል ፤ 3 በፌደራል መንግሥት አካላትና በክልሎች ጥያቄ ሲቀርብለት የሕግ ረቂቆች በማዘጋጀት ይረዳል ፤ 4 የወንጀል መነሻዎችን ያጠናል ፣ ወንጀል የሚቀንስበትን ሥልት ይቀይሳል ፤ በወንጀል መከላከል ረገድ የሚመለከታቸው

In [13]:
query = "የፋይናንስ ድጋፍ መመሪያዎች ምንድን ናቸው?"
query_vec = model.encode(query).tolist()

results = client.search(
    collection_name="amharic_sentences",
    query_vector=query_vec,
    limit=5
)

for r in results:
    print("Score:", r.score)
    print("Match:", r.payload["text"])
    print("-----------")


  results = client.search(


Score: 0.7839428
Match: የመንግስት የፋይናንስ ድጋፍ የሚከፋፈልበት መርህ 1 .
-----------
Score: 0.77438617
Match: ለዕለት ተዕለት ተግባር ማከናወኛ ስለሚሰጥ የፋይናንስ ድጋፍ 1 .
-----------
Score: 0.74636734
Match: በአገልግሎት መልክ ስለሚሰጥ የመንግስት የፋይናንስ ድጋፍ 1 .
-----------
Score: 0.7431911
Match: በመንግስት የሚሰጥ የፋይናንስ ድጋፍ ቦርዱ በሚያወጣው ቀመር መሰረት ይከፋፈላል ።
-----------
Score: 0.72906125
Match: የተቋሙ የፋይናንስ በጀት አፈፃፀም .
-----------
