In [30]:
from langchain.vectorstores import FAISS
from langchain.embeddings import AzureOpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter

from PyPDF2 import PdfReader
from docx import Document

import os

## setting up AzureOpenAI
os.environ["openai_api_type"] = "azure"
os.environ["AZURE_OPENAI_ENDPOINT"] = "https://hamzaopenai.openai.azure.com/"
os.environ["openai_api_version"]  = "2023-07-01-preview"
os.environ["openai_api_key"] = "dd51e19fe6d04f3b937fe53da56b60f1"


def ReadFile(FilePath):
    # Get the file extension
    file_extension = FilePath.split('.')[-1].lower()

    if file_extension == 'pdf':
        doc_reader = PdfReader(FilePath)
        raw_text = ''
        for i, page in enumerate(doc_reader.pages):
            text = page.extract_text()
            if text:
                raw_text += text

    elif file_extension == 'docx':
        doc = Document(FilePath)
        raw_text = ''
        for paragraph in doc.paragraphs:
            raw_text += paragraph.text + '\n'

    elif file_extension == 'txt':
        with open(FilePath, 'r', encoding='utf-8') as file:
            raw_text = file.read()

    else:
        raise ValueError(f"Unsupported file format: {file_extension}")

    return raw_text


def SplitText(Text,chunk_size=1500,chunk_overlap = 300):

    rec_text_splitter = RecursiveCharacterTextSplitter(
    chunk_size= chunk_size,
    chunk_overlap = chunk_overlap,
    length_function=len

    )

    chunks = rec_text_splitter.split_text(Text)

    return chunks

def GenerateEmbeddings(FilePath):  #Works with PDF DOCX and TXT

    FileText = ReadFile(FilePath)  #Extracting raw text from file
    
    FileSections = SplitText(FileText)  # splitting the raw text into sections

    embeddings =  AzureOpenAIEmbeddings(model = "text-embedding-ada-002")  # Generating embeddings
    db = FAISS.from_texts(FileSections,embeddings)      #storing embeddings 

    return db

def QuerySimilaritySearch(Query,db,k=3):
    similar = db.similarity_search(Query,k)
    page_content_array = [doc.page_content for doc in similar]
    return page_content_array

In [41]:
ResumeEmbedding = GenerateEmbeddings("Programmes_et_Admission_Candidates_et_candidats.pdf")

In [32]:
print(ResumeEmbedding)

<langchain.vectorstores.faiss.FAISS object at 0x00000293FB54BA30>


In [50]:
Answer = QuerySimilaritySearch( "pre requis de genie logiciel",ResumeEmbedding,1)

In [51]:
Answer

['Faculté de génie \nUne moyenne minimale combinée de 70 % est exigée pour les cours préalables de sciences et de mathématiques, sauf en génie logiciel, où une moyenne minimale de 70 % est exigée \npour chacun des cours préalables. \nDiscipline Cours préalables et autres exigences Moyenne \nConception multidisciplinaire – apprentissage expérientiel •Français 4U ou English 4U \n•Calcul différentiel et vecteurs 4U ou \nFo\nnctions avancées 4U \n•Un cours parmi : Biologie 4U, Chimie 4U, \nGé']

In [38]:
file = ReadFile("Programmes_et_Admission_Candidates_et_candidats.pdf")

In [39]:
len(file)

96344

In [40]:
file

"      \nIci, ça \nse peut. \n\n\nProspectus 2024  \n     \n     \n     \n     \n   \n     \n   \n     \n    \n     \n   \n     \n  \n   \n   \n     \n \n\n   \n      \n\n \n \n \n \n \n \n \n\nTable des  \nmatières  \nL’Université d’Ottawa \nPourquoi choisir l’Université d’Ottawa 2 \nLes résidences  14 \nCarte du campus 16 \nLes facultés 18 \nLes programmes d’études  36 \nAdmission \nLes étapes de l’admission \n42 \nSecondaire en Ontario 43 \nSecondaire ailleurs au Canada 47 \nSecondaire ou cégep au Québec 48 \nÉtudiantes et étudiants \ninternationaux au Canada \n50 \nBourses et aide financière \nL\nes bourses\n9 et 51 \nCoûts des études 52 \nÉvénements et coordonnées  53 \nNous rendons hommage au peuple algonquin, gardien \ntr\n\naditionnel de cette terre. Nous reconnaissons le lien sacré \nde longue date l’unissant à ce territoire qui demeure non \ncédé. Nous rendons également hommage à tous les peuples \nautochtones qui habitent Ottawa, qu’ils soient de la région \nou d’ailleurs au