# Oppgaver til DAT2000 22. Januar 2024
NB! Les README.md i samme mappe før du begynner, du må installere noen pakker først!

In [None]:
import redis
import pandas as pd
import time

Vi må starte to docker-containere:
- Redis
- PostgreSQL

Kommandoene for å starte disse er gitt under. Husk at du kanskje må åpne Docker Desktop i windows (søk på startmenyen) først (typisk hvis du får feil om "docker daemon not running"). 
Containerne kjører i bakgrunnen (angitt med -d i kommandoene). 

``
docker run -p 5432:5432 --name some-postgres -e POSTGRES_PASSWORD=mysecretpassword -d postgres
``

``
docker run -p 6379:6379 --name some-redis -d redis
``

Bruk gjerne `docker ps` til å sjekke at disse to kjører. 
Du kan stoppe de med `docker stop some-postgres` og `docker stop some-redis` senere. 
 

## Oppgave 1: Oppvarming med redis (fra [denne](https://redis.io/docs/connect/clients/python/))
Kjør koden under og sjekk at dette fungerer. Her gjør vi sånn at Redis-klienten håndterer konvertering til og fra bytes automatisk.  

In [1]:
r = redis.Redis(host='localhost', port=6379, decode_responses=True)

NameError: name 'redis' is not defined

In [2]:
r.set("warm", "up")

NameError: name 'r' is not defined

In [3]:
r.get("warm")

NameError: name 'r' is not defined

In [4]:
r.delete("warm")

NameError: name 'r' is not defined

In [None]:
print(r.get("warm")) #Printer fordi resultatet None gir ingen output under cellen. 

In [None]:
r.set("warm", "up")

In [None]:
#A: Overskriv verdien til "warm" med en annen verdi, og sjekk at den er oppdatert

In [None]:
#B: Utvid koden under sånn at du lagrer posisjonen til hver bokstav i alfabetet til Redis. 
for (i,l) in enumerate("ABCDEFGHIJKLMNOPQRSTUVWXYZ"):
    print(i+1,l)
    #Erstatt denne linjen med svaret ditt, behold innrykk / indentering

In [None]:
#C: Utvid koden under sånn at du henter og skriver ut bokstaven og posisjonen til hver bokstav i alfabetet fra Redis. 
for l in "ABCDEFGHIJKLMNOPQRSTUVWXYZ":
    #Erstatt denne linjen med svaret ditt, behold innrykk / indentering. 

In [None]:
#D:
my_list = [1,2,"Tre"]
#Erstatt med kode som lagrer listen på nøkkelen "min_liste" i Redis.
#Erstatt med kode som henter ut lista og setter denne til variabelen result_list 
assert my_list == result_list 

## Oppgave 2 - vi cacher svaret på noen spørringer

In [None]:
# Her bruker jeg Pandas til å laste inn noen data fra CSV, som vi skal putte i databasen.
# Pandas er verdens mest populære bibliotek for Data Engineering. 
# Vi skal også se på Pandas senere. 
df_tilsyn = pd.read_csv("tilsyn.csv", sep=";", engine="pyarrow",
    dtype={ #Vi må hjelpe pandas litt med datatypene i noen av kolonnene. 
    "postnr":pd.Int32Dtype(), 
    "orgnummer":pd.Int32Dtype(), 
    "karakter1":pd.Int32Dtype(), 
    "karakter2":pd.Int32Dtype(), 
    "karakter3":pd.Int32Dtype(), 
    "karakter4":pd.Int32Dtype(),
    "dato":pd.StringDtype(),
})
#Vi er ikke helt fornøyde med datatypen til dato-kolonnen (ble et tall!), dette må vi fikse. 
df_tilsyn["dato"] = pd.to_datetime(df_tilsyn["dato"].str.pad(8,"left","0"), format="%d%m%Y") 
df_tilsyn

In [None]:
df_kravpunkter = pd.read_csv("kravpunkter.csv", sep=";", engine="pyarrow", dtype={"dato":str})
df_kravpunkter["dato"] = pd.to_datetime(df_kravpunkter["dato"].str.pad(8,"left","0"), format="%d%m%Y") 
df_kravpunkter

In [None]:
#Vi skal bare ha med kravpunkter som går på renhold og håndvask, det tok så lang tid å laste opp data til databasen hvis ikke.. 
df_kravpunkter = df_kravpunkter[df_kravpunkter["kravpunktnavn_no"].isin(["Håndvask", "Renhold"])]
df_kravpunkter

In [None]:
# Nå må vi koble til databasen:
from sqlalchemy import create_engine
CONNSTR = "postgresql+psycopg2://postgres:mysecretpassword@localhost/postgres"
conn = create_engine(CONNSTR)

In [None]:
df_tilsyn.to_sql("tilsyn", conn, index=False, if_exists="replace")

In [None]:
df_kravpunkter.to_sql("kravpunkter", conn, index=False, if_exists="replace")

In [None]:
pd.read_sql("SELECT * FROM TILSYN LIMIT 5", conn)

In [None]:
# Her lager jeg en litt komplisert funksjon som prosesserer en del data
# Vi teller antall kontroller som har påvist dårlig håndvask på et poststed. 
# Nå er PostgreSQL veldig rask, men jeg saboterer litt under her.. 
def hent_antall_darlig_handvask(poststed):
    lower_poststed = poststed.lower()
    df = pd.read_sql(f"""
    SELECT LOWER(t.POSTSTED) AS POSTSTED, COUNT(*) AS ANTALL_DARLIG_HANDVASK
    FROM TILSYN t 
    LEFT JOIN KRAVPUNKTER kh ON kh.TILSYNID = t.TILSYNID
    WHERE LOWER(POSTSTED) LIKE '%%{lower_poststed}%%'
    AND kh.KRAVPUNKTNAVN_NO = 'Håndvask'
    AND (kh.KARAKTER = 2 OR kh.KARAKTER = 3)
    GROUP BY LOWER(t.POSTSTED)
    """, conn)
    #print("Resultat av SQL:\n")
    #print(df)
    forste_verdi_andre_kolonne = int(df.iloc[0,1])
    time.sleep(3)
    return forste_verdi_andre_kolonne

In [None]:
hent_antall_darlig_handvask("oslo")

In [None]:
# A: 
# Nå skal vi skrive en funksjon som bruker Redis som cache.
# Vi skal altså sjekke om antall kontroller med dårlig håndvask finnes i cache for poststedet før vi eventuelt bruker funksjonen som henter dette fra databasen. 
def hent_antall_darlig_handvask_cached(poststed):
    # Erstatt denne linjen med kode hvor du forsøker å hente cachet verdi
    if cached is not None:
        return cached
    else:
        # To linjer hvor du henter resultatet med hent_antall_darlig_handvask og deretter lagrer i cache.
        return resultat

In [None]:
# B: Prøv å kjøre denne cellen to ganger, sjekk om du får samme svar!
# Hvis du ikke får samme svar bør du forsøke å løse dette problemet
# (Hint! Bruk int(verdi) for å konvertere verdi til et tall) 
hent_antall_darlig_handvask_cached("trondheim")

In [None]:
# Her lager vi enda en komplisert funksjon.. denne gangen for renhold
def hent_antall_darlig_renhold(poststed):
    lower_poststed = poststed.lower()
    df = pd.read_sql(f"""
    SELECT LOWER(t.POSTSTED) AS POSTSTED, COUNT(*) AS ANTALL_DARLIG_HANDVASK
    FROM TILSYN t 
    LEFT JOIN KRAVPUNKTER kh ON kh.TILSYNID = t.TILSYNID
    WHERE LOWER(POSTSTED) LIKE '%%{lower_poststed}%%'
    AND kh.KRAVPUNKTNAVN_NO = 'Renhold'
    AND (kh.KARAKTER = 2 OR kh.KARAKTER = 3)
    GROUP BY LOWER(t.POSTSTED)
    """, conn)
    #print("Resultat av SQL:\n")
    #print(df)
    forste_verdi_andre_kolonne = int(df.iloc[0,1])
    time.sleep(3)
    return forste_verdi_andre_kolonne

In [None]:
# C 
# Lag en tilsvarende caching funksjon som før for renhold. 
# Jeg vil at jeg skal kunne bruke funksjonen:
hent_antall_darlig_renhold_cached("oslo")
#Det er lov med copy-paste fra forrige løsning.

In [None]:
# D 
# Kjør cellene under, har vi litt rar oppførsel?
# Hvordan kan du løse problemet? (løs det!) hint: legg på et prefix til nøkkelen!  

In [None]:
hent_antall_darlig_handvask("oslo")

In [None]:
hent_antall_darlig_renhold_cached("oslo")

In [None]:
hent_antall_darlig_handvask_cached("oslo")