## Explore PDF-file

In [2]:
import sys
from pathlib import Path

PROJECT_ROOT = Path.cwd().parent
sys.path.append(str(PROJECT_ROOT))

In [3]:
from pypdf import PdfReader
import lancedb
import os
import google.generativeai
from backend.data_models import Chunk

data_dir = Path("../data/raw")

reader = PdfReader(f"{data_dir}/EGSYS.pdf")
len(reader.pages)

8

In [4]:
page = reader.pages[0]
content = page.extract_text()
content

'Lunds universitet\n \nEkonomihögskolan\nEGSYS, Systemvetenskapligt kandidatprogram - design av\ninformationssystem, 180 högskolepoäng\nBachelor Programme in Design of Information Systems, 180 credits\n \nProgram utan akademiska förkunskapskrav och med slutlig examen på\ngrundnivå / First cycle degree programme not requiring previous university study  \n \n \nBeslutsuppgifter \nUtbildningsplanen är fastställd av Prorektor för Ekonomihögskolan med ansvar för\nutbildning på grund- och avancerad nivå 2017-11-24 och senast reviderad 2017-11-\n24. Den reviderade utbildningsplanen gäller från och med 2018-09-03, höstterminen\n2018. \n \nProgrambeskrivning \nProgrammet ingår i huvudområdet informationssystem (IS) och fokuserar på design av\nIS för meningsfulla, mänskliga verksamheter för en hållbar samhällsutveckling.\nVerksamheter, exempelvis kundhantering eller ärendehantering inom en myndighet,\nutförs av mänskliga aktörer, dels för att uppfylla verksamheters målsättningar, dels för\natt u

In [5]:
from typing import List

def get_pdf_text(filepath: str) -> List[dict]:
    
    reader = PdfReader(filepath)
    # for key, page in reader.pages:
    #     chunks.append({'page': key, 'text': page.extract_text()})
    chunks = [{'page': i, 'content': page.extract_text()} for i, page in enumerate(reader.pages)]
    return chunks

chunk_list = get_pdf_text(PROJECT_ROOT/"data/raw/EGSYS.pdf")
print(chunk_list[0]['content'][:200])
#print(len(chunk_list))

Lunds universitet
 
Ekonomihögskolan
EGSYS, Systemvetenskapligt kandidatprogram - design av
informationssystem, 180 högskolepoäng
Bachelor Programme in Design of Information Systems, 180 credits
 
Pro


In [14]:
#from lancedb.embeddings import get_registry
import google.generativeai as genai


def generate_embeddings(chunks: List[str]) -> List[List[float]]:
    texts = [chunk['content'] for chunk in chunks]
    response = genai.embed_content(model="models/text-embedding-004", content=texts)

    print(response['embedding'])

embeddings = generate_embeddings(chunk_list)

[[0.0035407546, 0.08104424, -0.08637708, 0.0047393097, 0.06360976, 0.012081331, 0.027756108, -0.013744842, 0.0035642793, 0.017541317, 0.051392503, 0.03966771, 0.027613116, 0.008147312, 0.045301694, 0.018544795, 0.084870026, 0.068610445, -0.056122787, -0.026155848, -0.008421548, -0.031613775, -0.030911345, 0.00788584, 0.0077910447, -0.0430785, 0.028231625, 0.034105908, 0.031567257, -0.029350858, -0.028222533, 0.0014531445, -0.051061608, -0.053103004, -0.014398054, 0.021637449, 0.041472007, 0.010754552, 0.01990515, -0.06348396, -0.06523255, -0.04033104, -0.017850589, -0.029628148, -0.021279361, -0.0065854103, -0.018821694, 0.034077093, -0.037437256, 0.07458917, 0.0048997626, -0.045692373, -0.021856463, 0.04328589, -0.09386316, -0.004540303, -0.055251572, -0.041790523, -0.0009675872, -0.021840673, -0.02769836, -0.06625895, -0.000104644205, -0.07972364, 0.031372674, 0.00074823305, -0.019595662, -0.020690277, -0.07889593, -0.018117912, 0.02933611, 0.06008682, 0.0023290976, 0.074812114, -0.0