# Cvičení 
Cílem dnešního cvičení bude vyzkoušet si RAG.

Snowflake nabízí širokou škálu LLM modelů. My budeme pracovat s modelem _llama3.1-8b_.

## Část 1
Model zvolený pro tuto část je naučen na datech do prosince 2023. Naším cílem nyní bude oklasifikovat informace k některým událostem z posledních dvou let, abychom model naučili nové informace.

Před startem tohoto notebooku si ještě doinstalujte balíček _snowflake-ml-python_ - to provedete přes tlačítko _Packages_ napravo v horní liště stránky.

In [None]:
import streamlit as st
import json
import pandas as pd

from snowflake.snowpark.context import get_active_session
from snowflake.snowpark.functions import col

from snowflake.cortex import complete, CompleteOptions

session = get_active_session()

In [None]:
# Pomocne fce

# Pomocna funkce na prevedeni radku do JSON formatu
def jsonify_row(row):
    return json.dumps(row.as_dict(), indent=2, ensure_ascii=False)


# Ocisteni uzivatelskeho jmena
def user_suffix(session):
    if name := session.get_current_user():
        return name[1:-1]
    # nemelo by nastat, ale at mame string
    import random
    return f"NONE_{random.randint(1,1000)}"

In [None]:
categories = (
    session
    .table("NI_MLP_LAB.LAB.EVENT_CATEGORIES")
    .select(
        col("CATEGORY_ID").alias("ID"),
        col("CATEGORY_NAME").alias("CATEGORY")
    )
)

events_24 = (
    session
    .table("NI_MLP_LAB.LAB.EVENTS")
)

In [None]:
# Zobrazeni kategorii
st.dataframe(categories, hide_index=True)

In [None]:
# Zobrazeni letosnich udalosti
st.dataframe(events_24.order_by(col("EVENT_ID")))

Připrav systémový a uživatelský prompt, který použijeme ke klasifikaci jednotlivých událostí do jedné ze čtyř kategorií z tabulky _CATEGORIES_2024_. 

Zadefinuj také, aby byla odpověď vrácena v tomto JSON formátu:
```json
{
    "data": [
        {
            "id": "Hodnota EVENT_ID pro danou událost",
            "category": "Název kategorie (přesně jako je v CATEGORIES_2024)"
        }
        ...
    ]
}
```

In [None]:
system_prompt = """
Fill in you prompt
"""

In [None]:
jsonify_row(events_24.first())

In [None]:
# Zapsani vsech udalosti ve formatu JSON, ktere muzete pouzit v uzivatelskem promptu
# Samozrejme si muzete napsat i svoji vlastni serializaci
all_events = "\n".join(jsonify_row(row) for row in events_24.limit(3).collect())  # remove limit when you are confident

user_prompt = f"""
Fill in your prompt, probably also use all_events ...
"""

In [None]:
user_prompt

A nyní můžeme provolat LLM s našimi prompty. Zaexperimentujte si, jestli zvolený model bude správně kategorizovat a dodržovat požadovanou strukturu odpovědi při různých nastaveních hodnoty _temperature_ (musí být v intervalu <0,1>).

Objekt _CompleteOptions_ akceptuje kromě parametru _temperature_ také parametry:
- max_tokens
- top_p

Pro další podrobnosti k volání LLM modelů ve Snowparku si můžete prohlédnout dokumentaci:

[snowflake.cortex.complete](https://docs.snowflake.com/en/developer-guide/snowpark-ml/reference/latest/api/cortex/snowflake.cortex.complete)\
[snowflake.cortex.CompleteOptions](https://docs.snowflake.com/en/developer-guide/snowpark-ml/reference/latest/api/cortex/snowflake.cortex.CompleteOptions#snowflake.cortex.CompleteOptions)



In [None]:
system_prompt

In [None]:
model = "llama3.1-8b"
options = CompleteOptions(temperature=0.0)

classification = complete(
    model,
    [
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": user_prompt},
    ],
    options=options
)

In [None]:
classification

V dalších buňkách zpracujeme odpověď z LLM modelu. Předpokládáme, že formát odpovídá požadované struktuře - pokud ne, pravděpodobně to na něčem spadne :)

In [None]:
# TODO: Trochu hloupa loads a dumps gymnastika
class_json_with_schema = json.loads(classification)
class_json_with_schema["schema"] = {
    "fields": [
        {
            "name": "event_id",
            "type": "integer"
        },
        {
            "name": "category",
            "type": "string"
        },
    ],
    "primaryKey": ["event_id"]
}

classification_pd = pd.json_normalize(
    json.loads(classification)["data"], 
    max_level=0
)

In [None]:
# Workaround na bug s pridavanim uvozovek do nazvu sloupcu, kvuli kteremu pak 
# nefunguje dobre select sloupcu po joinu
user_tables_suffix = user_suffix(session)
classification_tmp_table = f"CLASS_TMP_{user_tables_suffix}"

session.write_pandas(
    classification_pd, 
    classification_tmp_table,
    database="NI_MLP_LAB",
    schema=user_tables_suffix,
    quote_identifiers=False,
    auto_create_table=True,
    overwrite=True,
    table_type="temporary"
)

In [None]:
classification_sp = session.read.table(classification_tmp_table)

output_table = (
    classification_sp.alias("csp")
    .join(
        events_24.alias("e24"),
        ["event_id"]
    )
    .join(
        categories.alias("cat"),
        ["category"]
    )
    .select(
        col("cat", "id").alias("CATEGORY_ID"),
        col("CATEGORY"),
        col("EVENT_ID"),
        col("EVENT_TEXT")
    )
)

In [None]:
# Zobrazime si nase vysledky
# Pokud dostaneme prazdny vysledek, pravdepdobne bude problem v joinu na kategorizaci.
# Pouziva totiz join na presny nazev kategorie, takze mu muzou vadit napr. i bile znaky navic
# V tomto pripade si zkuste spustit predchozi bunku bez joinu na kategorie, jestli vam to projde,
# pokud ano, tak zkuste zacistit jmena kategorii z klasifikatoru nebu upravte prompty.

st.dataframe(output_table.orderBy("CATEGORY_ID", "EVENT_ID"))

Pokud jsme s výsledkem kategorizace spokojeni, uložíme si ho do pomocné tabulky a ještě ho otestujeme vůči kontrolní funkci. Pokud nám test projde, můžeme pokračovat do dalšího notebooku.

In [None]:
# pokud chcete prepsat existujici tabulku, nastavte mode="overwrite"
categorization_table = f"NI_MLP_LAB.{user_tables_suffix}.EVENT_CATEGORIZATION_{user_tables_suffix}"

output_table.write.save_as_table(
    categorization_table,
    mode="overwrite",
)

In [None]:
-- Zavolame kontrolni proceduru
CALL NI_MLP_LAB.LAB.control_classification(
    SYSTEM$REFERENCE('TABLE', '{{categorization_table}}', 'SESSION', 'SELECT')
);

In [None]:
# If needed, we may get result of previous SQL cell to Python like this
control_df = cell5.to_df()
control_df.where(col("IS_CORRECT") == False)