**Vector Store Creation**

Sources:
[Article](https://towardsdatascience.com/running-llama-2-on-cpu-inference-for-document-q-a-3d636037a3d8)

Embedding Models
- https://huggingface.co/sentence-transformers/all-mpnet-base-v2
- https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2
- https://huggingface.co/sentence-transformers/all-MiniLM-L12-v2

In [50]:
# pip install langchain

In [51]:
# pip install -U sentence-transformers

In [52]:
# pip install faiss-cpu

In [40]:
from langchain.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from sentence_transformers import SentenceTransformer
from langchain.embeddings.sentence_transformer import SentenceTransformerEmbeddings
from langchain.vectorstores import FAISS
# implement pdf reader

In [41]:
# Document loader
loader = TextLoader("./index.txt")
documents = loader.load()

with open("./index.txt") as f:
    document = f.read()

In [42]:
# normal text splitter
raw_documents = TextLoader("./index.txt").load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
documents = text_splitter.split_documents(raw_documents)

In [43]:
# Recursive text splitter
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 100,
    chunk_overlap  = 20,
    length_function = len,
    add_start_index = True,
)

In [44]:
# Embedding model
model = SentenceTransformer('sentence-transformers/all-mpnet-base-v2')
embedding = model.encode(document)
embedding

array([ 4.83289771e-02, -2.01611388e-02, -5.30856848e-03,  5.28400019e-02,
       -1.64846331e-02,  7.25407340e-03,  2.25058943e-02, -2.40082201e-03,
       -8.50349013e-03, -4.31198291e-02, -3.02977078e-02, -3.46429297e-03,
       -6.80350419e-03, -9.49670374e-03,  9.43802483e-03, -6.88499287e-02,
       -1.15030119e-02,  3.47664356e-02, -2.86825616e-02,  1.21780327e-02,
       -3.99885438e-02,  1.22031067e-02,  1.25159891e-02,  3.29637416e-02,
        1.01777092e-02,  2.22062171e-02,  1.28913112e-02, -4.25408371e-02,
        3.37343514e-02, -3.13007981e-02,  3.05750500e-02, -1.59124248e-02,
       -1.86160617e-02, -4.24510613e-02,  2.55800137e-06,  1.28189358e-03,
        4.13663685e-02,  2.86239176e-03, -4.05550748e-03, -2.74214447e-02,
       -7.99732283e-03, -2.12476086e-02, -2.52030063e-02, -3.24685387e-02,
        5.75719448e-03, -3.43444720e-02, -7.55962124e-03,  6.00731596e-02,
        1.96932405e-02, -2.76556723e-02,  2.11346429e-02,  1.25716003e-02,
        1.30774304e-02,  

In [45]:
texts = text_splitter.create_documents([document])
print(texts[0])
print(texts[1])

page_content='In Südafrika findet man eine beeindruckende Vielfalt an Tierarten, die von den weitläufigen Savannen' metadata={'start_index': 0}
page_content='Savannen bis hin zu den dichten' metadata={'start_index': 92}


In [47]:
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

embedding_function = SentenceTransformerEmbeddings(model_name="all-MiniLM-L6-v2")

db = FAISS.from_documents(docs, embedding_function)

query = "Was für Vogelarten gibt es?"
docs = db.similarity_search(query)

print(docs[0].page_content)

Neben diesen bekannten Arten gibt es auch eine Vielzahl an Antilopenarten, wie die schnellen Impalas oder die majestätischen 
Kudus, die sich durch ihre eleganten Hörner auszeichnen. Die Leoparden und Geparden, zwei weitere beeindruckende Raubkatzen, 
sind für ihre Schnelligkeit und Geschicklichkeit bei der Jagd bekannt. In den Flüssen und Feuchtgebieten Südafrikas findet man 
Nilpferde und Krokodile, die trotz ihrer Unterschiedlichkeit beide gefürchtete Bewohner ihres Lebensraums sind.

Die Vielfalt der Vogelwelt in Südafrika ist ebenfalls bemerkenswert, mit Arten wie dem farbenprächtigen Bienenfresser und dem 
majestätischen Afrikanischen Fischadler. Nicht zu vergessen sind die zahlreichen kleineren Tiere wie Warzenschweine, 
Erdmännchen und verschiedene Arten von Affen, die alle zum einzigartigen Ökosystem Südafrikas beitragen.


In [48]:
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

model = SentenceTransformer('paraphrase-MiniLM-L12-v2')
embedding = model.encode(document)

embedding_function = SentenceTransformerEmbeddings(model_name="all-MiniLM-L12-v2")

db = FAISS.from_documents(docs, embedding_function)

query = "Was für Vogelarten gibt es?"
docs = db.similarity_search(query)

print(docs[0].page_content)

Neben diesen bekannten Arten gibt es auch eine Vielzahl an Antilopenarten, wie die schnellen Impalas oder die majestätischen 
Kudus, die sich durch ihre eleganten Hörner auszeichnen. Die Leoparden und Geparden, zwei weitere beeindruckende Raubkatzen, 
sind für ihre Schnelligkeit und Geschicklichkeit bei der Jagd bekannt. In den Flüssen und Feuchtgebieten Südafrikas findet man 
Nilpferde und Krokodile, die trotz ihrer Unterschiedlichkeit beide gefürchtete Bewohner ihres Lebensraums sind.

Die Vielfalt der Vogelwelt in Südafrika ist ebenfalls bemerkenswert, mit Arten wie dem farbenprächtigen Bienenfresser und dem 
majestätischen Afrikanischen Fischadler. Nicht zu vergessen sind die zahlreichen kleineren Tiere wie Warzenschweine, 
Erdmännchen und verschiedene Arten von Affen, die alle zum einzigartigen Ökosystem Südafrikas beitragen.


In [49]:
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
docs = text_splitter.split_documents(documents)

model = SentenceTransformer('sentence-transformers/all-mpnet-base-v2')
embedding = model.encode(document)

embedding_function = SentenceTransformerEmbeddings(model_name='sentence-transformers/all-mpnet-base-v2')

db = FAISS.from_documents(docs, embedding_function)

query = "Was für Vogelarten gibt es?"
docs = db.similarity_search(query)

print(docs[0].page_content)

Neben diesen bekannten Arten gibt es auch eine Vielzahl an Antilopenarten, wie die schnellen Impalas oder die majestätischen 
Kudus, die sich durch ihre eleganten Hörner auszeichnen. Die Leoparden und Geparden, zwei weitere beeindruckende Raubkatzen, 
sind für ihre Schnelligkeit und Geschicklichkeit bei der Jagd bekannt. In den Flüssen und Feuchtgebieten Südafrikas findet man 
Nilpferde und Krokodile, die trotz ihrer Unterschiedlichkeit beide gefürchtete Bewohner ihres Lebensraums sind.

Die Vielfalt der Vogelwelt in Südafrika ist ebenfalls bemerkenswert, mit Arten wie dem farbenprächtigen Bienenfresser und dem 
majestätischen Afrikanischen Fischadler. Nicht zu vergessen sind die zahlreichen kleineren Tiere wie Warzenschweine, 
Erdmännchen und verschiedene Arten von Affen, die alle zum einzigartigen Ökosystem Südafrikas beitragen.


In [None]:
# Vector Store

In [None]:
# Retrievers

# ChromaDB, Faiss oder Pinecone: recherchieren
# RecursiveCharacterTextSplitter (empfohlen) vs Normal splitter (eher nicht nutzen) 

In [None]:
# Indexing

In [None]:
# Integration with Llama2