In [20]:
import os
os.environ["OPENAI_API_KEY"] = 'YOUR_API_KEY'

In [21]:
from llama_index import VectorStoreIndex, SimpleDirectoryReader, SimpleKeywordTableIndex
from llama_index.node_parser import SimpleNodeParser
from llama_index.indices.service_context import ServiceContext
from llama_index.llms import OpenAI

from llama_index.schema import TextNode, NodeRelationship, RelatedNodeInfo

# Building knowledge base with nodes

## Adding studiji

In [22]:
studiji = SimpleDirectoryReader('data', filename_as_id=True).load_data()

In [23]:
def handle_studiji(studiji):
    root_node = TextNode(
        text="",
        metadata={
            'name': 'Studiji na Fakultetu primjenjene matematike i informatike',
            'type': 'list'
        },
        id_='Studiji na Fakultetu primjenjene matematike i informatike'
    )
    root_text = ""
    nodes = []
    for studij in studiji:
        filename = os.path.splitext(os.path.basename(studij.id_))[0]
        root_text += filename + '\n'
        node = TextNode(
            text=studij.text,
            metadata={
                'filename': filename,
                'type': 'University programme description'
            },
            id_=filename
        )
        root_node.relationships[NodeRelationship.NEXT] = RelatedNodeInfo(node_id=filename)
        node.relationships[NodeRelationship.PREVIOUS] = RelatedNodeInfo(node_id=root_node.id_) 
        nodes.append(node)
    root_node.text = root_text
    return [root_node] + nodes 

In [24]:
nodes = handle_studiji(studiji)

### Izvedbeni planovi

In [26]:
izv_planovi = SimpleDirectoryReader('data/izvedbeni', filename_as_id=True).load_data()

In [27]:
def title_text_split(string):
    return (string.split('\n')[0].strip(), "\n".join(string.split('\n')[1:]))

In [28]:
def handle_izvedbeni(izvedbeni, existing_nodes):
    filename = os.path.splitext(os.path.basename(izvedbeni.id_))[0]
    studij = filename.split(' - Izv')[0]
    years = izvedbeni.text.split('\n\n\n')
    for i, year_text in enumerate(years):
        year, _ = title_text_split(year_text)
        year_id = f'{filename} - {year}'
        node = TextNode(
            text = year_text,
            metadata = {
                'Studij': studij,
                'Godina': year,
                'Type': 'Izvedbeni plan - popis kolegija i opće informacije',
                'Desc': f'Svi kolegiji na studiju {studij} ({i+1}/{len(years)})'
            },
            id_ = year_id
        )
        for nod in existing_nodes:
            if nod.id_ == studij:
                nod.relationships[NodeRelationship.NEXT] = RelatedNodeInfo(node_id=year_id)
        existing_nodes.append(node)


In [29]:
for izv_plan in izv_planovi:
    handle_izvedbeni(izv_plan, nodes)

In [30]:
index = VectorStoreIndex(
    nodes,
    show_progress=True
)

Generating embeddings: 100%|█████████████████████████████████| 22/22 [00:02<00:00,  8.44it/s]


In [31]:
index.storage_context.persist()

In [99]:
llm = OpenAI(model="gpt-3.5-turbo-16k", temperature=0, max_tokens=2048)
service_context = ServiceContext.from_defaults(llm=llm)
query_engine = index.as_query_engine(service_context=service_context)

In [102]:
response = query_engine.query("Koji kolegiji se izvode na drugoj godini diplomskog studija financijske matematike, uključujući i izborne kolegije?")
print(response)

Na drugoj godini diplomskog studija financijske matematike izvode se kolegiji "Matematičke financije" i "Financijska i aktuarska matematika".
