In [1]:
from langchain.document_loaders import PyPDFLoader
from langchain.indexes import VectorstoreIndexCreator
from langchain.chains import RetrievalQA
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import HuggingFaceEmbeddings
from langchain_community.chat_models import ChatOllama

import streamlit as st
import ollama
from typing import Dict, Generator
from glob import glob



### LLM ü§ì

def ollama_generator(messages: Dict) -> Generator:
    stream = ollama.chat(
            model="llava:7b",
            messages=messages,
            stream=True
        )
    for chunk in stream:
        yield chunk['message']['content']



### Data Integration
folder_path= '/Users/rayaneghilene/Documents/Ollama/RAG/Famso-Data'

# @st.cache_resource
def load_pdf():
    # pdf_name ='Issues with Entailment-based Zero-shot Text Classification.pdf'
    #loaders = [PyPDFLoader(pdf_name)]
    pdf_files = glob(f"{folder_path}/*.pdf")
    loaders = [PyPDFLoader(file_path) for file_path in pdf_files]

    index= VectorstoreIndexCreator(
        embedding = HuggingFaceEmbeddings(model_name= 'all-MiniLM-L12-V2'),
        text_splitter=RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=0)
    ).from_loaders(loaders)
    return index

index = load_pdf()


### Chain

chain= RetrievalQA.from_chain_type(
    llm= ChatOllama(model="llava:7b"),
    chain_type ='stuff',
    retriever= index.vectorstore.as_retriever(),
    input_key='question'
)

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
question = "What is zero-shot text classification?"
response = chain({"question": question})
print(response)

  warn_deprecated(


{'question': 'What is zero-shot text classification?', 'result': " La classificaci√≥n de Lancefield appartient √† la famille des streptococci (Streptococcaceae) et est un groupe d'esp√®ces gram n√©gatives, diplocoques en forme de cocco√Ødes. En revanche, le genre Coccus comprend des bact√©ries gram positives, principalement en forme de coccus.\n\nZero-shot text classification est une technique de machine learning qui permet de classer un texte sur une cat√©gorie √† partir d'un vocabulaire limit√©, c'est-√†-dire qu'il n'y a pas besoin de l'entra√Ænement sur des exemples sp√©cifiques de la cat√©gorie. Cette technique peut √™tre utilis√©e pour classer un texte sur une classe que le mod√®le n'a jamais rencontr√© auparavant, mais qui est similaire √† celles qu'il conna√Æt d√©j√†. "}
