In [1]:
from langchain.document_loaders import TextLoader
from langchain.text_splitter import CharacterTextSplitter  
from langchain.chat_models import ChatOpenAI
from langchain.prompts import ChatPromptTemplate
from langchain.schema.runnable import RunnablePassthrough
from langchain.schema.output_parser import StrOutputParser
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Weaviate
from typing import List, Union
# from langchain.llms import LLM
from langchain.prompts import PromptTemplate
from transformers import pipeline


# import transformers
# from sentence_transformers import SentenceTransformer

# from weaviate import Client, EmbeddedOptions, Weaviate, OpenAIEmbeddings

from datasets import Dataset

import weaviate
from dotenv import load_dotenv,find_dotenv
from weaviate.embedded import EmbeddedOptions



  from .autonotebook import tqdm as notebook_tqdm
None of PyTorch, TensorFlow >= 2.0, or Flax have been found. Models won't be available and only tokenizers, configuration and file/data utilities can be used.


In [3]:
def data_loader(file_path: str, chunk_size: int = 500, chunk_overlap: int = 50) -> Union[List[str], None]:
    """
    Load data from a file, split it into chunks, and return the chunks.

    Parameters:
    - file_path (str): The path to the file containing the data.
    - chunk_size (int): The size of each data chunk. Default is 500.
    - database (int): The overlap between consecutive chunks. Default is 50.

    Returns:
    - list: A list of data chunks.
    """
    try:
        loader = TextLoader(file_path)
        documents = loader.load()

        # Chunk the data
        text_splitter = CharacterTextSplitter(chunk_size=chunk_size, chunk_overlap=chunk_overlap)
        chunks = text_splitter.split_documents(documents)
        
        print("Data loaded to vector database successfully")
        return chunks
    except Exception as e:
        print(f"An unexpected error occurred: {e}")
        return None 


In [4]:
def create_retriever(chunks):
    try:
        
        # Load OpenAI API key from .env file
        load_dotenv(find_dotenv())


        # Setup vector database
        client = weaviate.Client(
            embedded_options = EmbeddedOptions()
        )

        # Populate vector database
        vectorstore = Weaviate.from_documents(
            client = client,    
            documents = chunks,
            embedding = OpenAIEmbeddings(),
            by_text = False
        )

        # Define vectorstore as retriever to enable semantic search
        retriever = vectorstore.as_retriever()
        print("create retriver  succesfully.")

        return retriever
    
    except Exception as e:
        print(f"An unexpected error occurred: {e}")
        return None 

In [5]:
chunks = data_loader('../prompts/context.txt')

Data loaded to vector database successfully


In [6]:
import os
openai_api_key = os.getenv("OPENAI_API_KEY")
print(openai_api_key)

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


In [7]:
retriver = create_retriever(chunks)

Started /home/babi/.cache/weaviate-embedded: process ID 69368


{"action":"startup","default_vectorizer_module":"none","level":"info","msg":"the default vectorizer modules is set to \"none\", as a result all new schema classes without an explicit vectorizer setting, will use this vectorizer","time":"2024-02-01T13:35:18+03:00"}
{"action":"startup","auto_schema_enabled":true,"level":"info","msg":"auto schema enabled setting is set to \"true\"","time":"2024-02-01T13:35:18+03:00"}
{"level":"info","msg":"No resource limits set, weaviate will use all available memory and CPU. To limit resources, set LIMIT_RESOURCES=true","time":"2024-02-01T13:35:18+03:00"}
{"action":"grpc_startup","level":"info","msg":"grpc server listening at [::]:50060","time":"2024-02-01T13:35:18+03:00"}
{"action":"restapi_management","level":"info","msg":"Serving weaviate at http://127.0.0.1:8079","time":"2024-02-01T13:35:18+03:00"}
            Please consider upgrading to the latest version. See https://weaviate.io/developers/weaviate/client-libraries/python for details.
  warn_depr

create retriver  succesfully.


/home/babi/miniconda3/envs/tenx_week6/lib/python3.12/site-packages/langchain_community/embeddings/openai.py:500: PydanticDeprecatedSince20: The `dict` method is deprecated; use `model_dump` instead. Deprecated in Pydantic V2.0 to be removed in V3.0. See Pydantic V2 Migration Guide at https://errors.pydantic.dev/2.5/migration/
  response = response.dict()
/home/babi/miniconda3/envs/tenx_week6/lib/python3.12/site-packages/pydantic/main.py:979: PydanticDeprecatedSince20: The `dict` method is deprecated; use `model_dump` instead. Deprecated in Pydantic V2.0 to be removed in V3.0. See Pydantic V2 Migration Guide at https://errors.pydantic.dev/2.5/migration/


In [8]:
type(retriver)

langchain_core.vectorstores.VectorStoreRetriever

In [11]:
retriver.get_relevant_documents("ማሳሰቢያ")

/home/babi/miniconda3/envs/tenx_week6/lib/python3.12/site-packages/langchain_community/embeddings/openai.py:500: PydanticDeprecatedSince20: The `dict` method is deprecated; use `model_dump` instead. Deprecated in Pydantic V2.0 to be removed in V3.0. See Pydantic V2 Migration Guide at https://errors.pydantic.dev/2.5/migration/
  response = response.dict()
/home/babi/miniconda3/envs/tenx_week6/lib/python3.12/site-packages/pydantic/main.py:979: PydanticDeprecatedSince20: The `dict` method is deprecated; use `model_dump` instead. Deprecated in Pydantic V2.0 to be removed in V3.0. See Pydantic V2 Migration Guide at https://errors.pydantic.dev/2.5/migration/


[Document(page_content='ዛሬ በሂወት ካላችሁ ነጋችሁን ማስተካከል ትችላላችሁ። በትናንት ውስጥ ስላጣችሁት \nነገር አታስቡ። ዛሬን ብቻ በሂወት በመኖራችሁ ፈጣሪን አመስግኑ። ዛሬ ውስጥ ጠንካራ \nከሆናችሁ ነጋችሁ የተዋበ ይሆናል። ነጋችሁ የሚጥም ይሆናል። አሁንም አሁንም አሁንም\nበሂወት መኖራችሁን ብቻ እያያችሁ አሜን በሉ። ፈጣሪንም አመስግኑ! ከተሰጣችሁ ስጦታዎች\nሁሉ ህይወታችሁ ይበልጣልና፤በሂወት ካላችሁ ደሞ በነጋችሁ ላይ ለውጥ መፍጠር ትችላላችሁ።', metadata={'source': '../prompts/context.txt'}),
 Document(page_content='ኢትዮጵያ አይደለችም፣ችግሩ የሥርኣት ችግር ነው። የቤቴ መቃጠል ለትኋኑ በጀኝ እንዳለው\nቂል እንዳንሆን። ኢትዮጵያዊነትን መካድ የራስን ማንነት መካድ ብቻ አይደለም። አባቶችንና\nእናቶችን፣ቅድም አያቶችን ከነቅርሳቸው መካድ ነው። በእንደዚህ ኣይነቱ ክህደት ላይ የተመሰረተ\nማንነት የት ይደርሳል?ከበሽታ በቀርስ ትርፉ ምን ይሆናል? ክህደት ራሱን የቻለ በሽታ\nሲሆን ማስካድ ደግሞ የባሰ ነው። ክዶ ማስካድ ታምሜያለሁኝ፣ ታመሙ እንደማለት\nነ። አስታማሚ እንኳን እንዳይገኝ የማድረጉ ጥረት የበሽታውን ምለኣትና ፅናት \nያመለክታል።', metadata={'source': '../prompts/context.txt'}),
 Document(page_content='ማሳሰቢያ : ውጤት ማይት የሚቻለው ከቀኑ 8 ሰኣት ጀምሮ ነው። የላካቹ የ ቤተሰቦች እንደየቀደም ተከተላችሁ ውጤቱን\nከ8 ሰኣት ጀምሮ እንልክላችዋለን። በተቻለን አቅም ኔትዎርክ ባላችሁበት አካባቢ ለሚያስቸግራቹ ውጤታችሁን ለማየትና\nወደ እናተ ለማድረስ እንሞክራለን።\nየ12ኛ ክፍል ብሄራዊ ፈተና ውጤት ይፋ ሆነ በድረ ገፅ ለመከታተል ይጠቀሙ። 

In [12]:
retriver.get_relevant_documents("ገንዘቤ ዲባባ")

/home/babi/miniconda3/envs/tenx_week6/lib/python3.12/site-packages/langchain_community/embeddings/openai.py:500: PydanticDeprecatedSince20: The `dict` method is deprecated; use `model_dump` instead. Deprecated in Pydantic V2.0 to be removed in V3.0. See Pydantic V2 Migration Guide at https://errors.pydantic.dev/2.5/migration/
  response = response.dict()
/home/babi/miniconda3/envs/tenx_week6/lib/python3.12/site-packages/pydantic/main.py:979: PydanticDeprecatedSince20: The `dict` method is deprecated; use `model_dump` instead. Deprecated in Pydantic V2.0 to be removed in V3.0. See Pydantic V2 Migration Guide at https://errors.pydantic.dev/2.5/migration/


[Document(page_content='ዛሬ በሂወት ካላችሁ ነጋችሁን ማስተካከል ትችላላችሁ። በትናንት ውስጥ ስላጣችሁት \nነገር አታስቡ። ዛሬን ብቻ በሂወት በመኖራችሁ ፈጣሪን አመስግኑ። ዛሬ ውስጥ ጠንካራ \nከሆናችሁ ነጋችሁ የተዋበ ይሆናል። ነጋችሁ የሚጥም ይሆናል። አሁንም አሁንም አሁንም\nበሂወት መኖራችሁን ብቻ እያያችሁ አሜን በሉ። ፈጣሪንም አመስግኑ! ከተሰጣችሁ ስጦታዎች\nሁሉ ህይወታችሁ ይበልጣልና፤በሂወት ካላችሁ ደሞ በነጋችሁ ላይ ለውጥ መፍጠር ትችላላችሁ።', metadata={'source': '../prompts/context.txt'}),
 Document(page_content='ኢትዮጵያ አይደለችም፣ችግሩ የሥርኣት ችግር ነው። የቤቴ መቃጠል ለትኋኑ በጀኝ እንዳለው\nቂል እንዳንሆን። ኢትዮጵያዊነትን መካድ የራስን ማንነት መካድ ብቻ አይደለም። አባቶችንና\nእናቶችን፣ቅድም አያቶችን ከነቅርሳቸው መካድ ነው። በእንደዚህ ኣይነቱ ክህደት ላይ የተመሰረተ\nማንነት የት ይደርሳል?ከበሽታ በቀርስ ትርፉ ምን ይሆናል? ክህደት ራሱን የቻለ በሽታ\nሲሆን ማስካድ ደግሞ የባሰ ነው። ክዶ ማስካድ ታምሜያለሁኝ፣ ታመሙ እንደማለት\nነ። አስታማሚ እንኳን እንዳይገኝ የማድረጉ ጥረት የበሽታውን ምለኣትና ፅናት \nያመለክታል።', metadata={'source': '../prompts/context.txt'}),
 Document(page_content='ታሪክ የሌለው ህዝብ ታሪካዊ ስራ ለመስራት አይጓጓም። ነፃነትም የማያውቅ\nህዝብ ነፃነቱን ለማግኘት አይደክምም። ኢትዮጵያ የረጅም ዘመን ታሪክ ያላት ነፃ \nሀገር ስለሆነች ልጆቿ ታሪኳን አውቀው የነፃነቷን ጉልላት ጠብቀው/ ከተፈፀሙ ስህተቶች \nተምረው እንዲኖሩ ግዴታቸው ነው። አንድ ወጣት የሀገሩን ታሪክ ሳያውቅና ሳያጠናቅቅ\nየአውሮጳንና የአ

In [10]:
retriver.get_relevant_documents("ኢትዮጵያ")

/home/babi/miniconda3/envs/tenx_week6/lib/python3.12/site-packages/langchain_community/embeddings/openai.py:500: PydanticDeprecatedSince20: The `dict` method is deprecated; use `model_dump` instead. Deprecated in Pydantic V2.0 to be removed in V3.0. See Pydantic V2 Migration Guide at https://errors.pydantic.dev/2.5/migration/
  response = response.dict()
/home/babi/miniconda3/envs/tenx_week6/lib/python3.12/site-packages/pydantic/main.py:979: PydanticDeprecatedSince20: The `dict` method is deprecated; use `model_dump` instead. Deprecated in Pydantic V2.0 to be removed in V3.0. See Pydantic V2 Migration Guide at https://errors.pydantic.dev/2.5/migration/


[Document(page_content='ኢትዮጵያዊነት ኢትዮጵያዊነት ብዙ የተለያዩ ህብረተሰቦች የተዋህዱበት አካል ክፍል\nመሆን ነው። ኢትዮጵያዊነት ከጎሰኝኛት በላይና ውጭ የሆነ አጠቃላይ ማንነት ነው።\nኢትዮጵያዊነት የዚች ውጥንቅጥ መሬት ባለቤትነት ነው፣ ኢትዮጵያዊነት የደጋው\nብርድና የቆላው ሙቀት የሚገናኙበት፣ የደጋው ዝናብም ከቆላው ወንዝ ጋር\n\nየተዛመደበት ሃይል ነው። ኢትዮጵያዊነት ለሙሴ፣ ለክርስቶስና ለመሀመድ የሚጨሰው \nእጣን በእርገት መጥቶ የሚደባለቅበት እምነት ነው። ኢትዮጵያዊነት በቄጤማ ጉዝጓዝ\nላይ የሚታየው መተሳሰብና መፈቃቀር ነው። ኢትዮጵያዊነት የአስተዋይነት፣የሚዛናዊነት \nየጨዋነት ባሕርይ ነው። ኢትዮጵያዊነት ረዢምና ተፅፎ ያላለቀ ታሪክ ነው፤ ብዙ ሰዎችም\nየተሰዉለት ስሜት ነው።', metadata={'source': '../prompts/context.txt'}),
 Document(page_content='ኢትዮጵያዊነት ስቃይና መከራ ነው፤ ኢትዮጵያዊነት ኩራትና\nክብርም ነው። ኢትዮጵያዊነት ጭቆናና ጥቃት ነው፤ ኢትዮጵያዊነት አሻፈረኝና እምቢ \nባይነትም ነው። የኢትዮጵያዊነት ኣላማ ያለችውንና የኖረችውን ኢትዮጵያን እንደገና \nለመፍጠር አይደለም። የኢትዮጵያ ኣላማ ለኢትዮጵያዊያን በሙሉ የሚስማማ እድገታቸውንም\nየሚያፋጥንና፣ህብረታቸውን የሚያጠነክር ሥርኣትን መፍጠር ነው። የኢትዮጵያዊነት ችግር', metadata={'source': '../prompts/context.txt'}),
 Document(page_content='ኢትዮጵያ አይደለችም፣ችግሩ የሥርኣት ችግር ነው። የቤቴ መቃጠል ለትኋኑ በጀኝ እንዳለው\nቂል እንዳንሆን። ኢትዮጵያዊነትን መካድ የራስን ማንነት መካድ ብቻ አይደለም። አባቶችንና\nእናቶችን፣ቅድም አያቶችን ከነቅርሳቸው መካድ ነው። በእንደ