# PDF 
https://python.langchain.com/en/latest/modules/indexes/document_loaders/examples/pdf.html

This covers how to load pdfs into a document format that we can use downstream.

## Using PyPDF
Load PDF using pypdf into array of documents, where each document contains the page content and metadata with page number.

In [1]:
pip install -U -q  pypdf

Note: you may need to restart the kernel to use updated packages.


In [22]:
pip install -U -q faiss-cpu

Note: you may need to restart the kernel to use updated packages.


In [1]:
import os
import json
from pathlib import Path
from langchain.document_loaders import PyPDFLoader

In [2]:
# Define the file path of the api_key.json file
keys_path = Path.home()/"Documents"/"api_keys"/"api_key.json"

# read .json file
# Ensure you have your API key set in your environment per the README: https://github.com/openai/openai-python#usage

with keys_path.open() as infile:
    data = json.load(infile) # load the json file

# Insert the OpenAI API key
os.environ["OPENAI_API_KEY"] = data['OPENAI_API_KEY']

In [3]:
loader = PyPDFLoader("20210924 Abschlussbericht SubKanS_Gesamt.pdf")
pages = loader.load_and_split()

An advantage of this approach is that documents can be retrieved with page numbers.

In [4]:
from langchain.vectorstores import FAISS
from langchain.embeddings.openai import OpenAIEmbeddings

faiss_index = FAISS.from_documents(pages, OpenAIEmbeddings())
docs = faiss_index.similarity_search("Wie wird die Schadensgewichts berechnet?", k=2)
for doc in docs:
    print(str(doc.metadata["page"]) + ":", doc.page_content)

142: Entwicklung eines Standards zur Bewertung und Klassifizierung der baulichen  
Substanz von Abwasserkanälen und Schächten – SubKanS  130 
  
 
 
2021 
 
Bild 41:  Datenbank -Tool: Ansicht Berechnungen  
Im Bereich „ Einstellungen“  können die Gewichtungen der verschi edenen Schadens klassen festgelegt 
werden. Einige Gewichtungen wurden fest hinterlegt  (siehe Tabelle 30). Darüber hinaus besteht die 
Möglichkeit, Klassengewichte und Startgewichte manuell einzugeben.  
Tabelle 30: Vorgaben Klassengewicht KG  
Schadens klasse  Linear  Exp_Halbiert  Exp_DWA  
0 1 1 1 
1 0,8 0,5 1 
2 0,6 0,25 0,3 
3 0,4 0,125  0,09 
4 0,2 0,0625  0,027  
5 0 0 0
177: Entwicklung eines Standards zur Bewertung und Klassifizierung der baulichen  
Substanz von Abwasserkanälen und Schächten – SubKanS  165 
  
 
 
2021 
Kalibrierung die Skala genauer zu betrachten. Es zeigt, dass eine hohe Trefferquote auf Grundlage 
der Rangordnung nicht gleichbedeutend mit einer sinnvollen Skala ist.  
Als am besten geeign