# Oppgaver til DAT2000 22. Januar 2024
NB! Les README.md i samme mappe før du begynner, du må installere noen pakker først!

In [1]:
import redis
import pandas as pd
import time

Vi må starte to docker-containere:
- Redis
- PostgreSQL

Kommandoene for å starte disse er gitt under. Husk at du kanskje må åpne Docker Desktop i windows (søk på startmenyen) først (typisk hvis du får feil om "docker daemon not running"). 
Containerne kjører i bakgrunnen (angitt med -d i kommandoene). 

``
docker run -p 5432:5432 --name some-postgres -e POSTGRES_PASSWORD=mysecretpassword -d postgres
``

``
docker run -p 6379:6379 --name some-redis -d redis
``

Bruk gjerne `docker ps` til å sjekke at disse to kjører. 
Du kan stoppe de med `docker stop some-postgres` og `docker stop some-redis` senere. 
 

## Oppgave 1: Oppvarming med redis (fra [denne](https://redis.io/docs/connect/clients/python/))
Kjør koden under og sjekk at dette fungerer. Her gjør vi sånn at Redis-klienten håndterer konvertering til og fra bytes automatisk.  

In [2]:
r = redis.Redis(host='localhost', port=6379, decode_responses=True)

In [3]:
r.set("warm", "up")

True

In [4]:
r.get("warm")

'up'

In [5]:
r.delete("warm")

1

In [6]:
print(r.get("warm")) #Printer fordi resultatet None gir ingen output under cellen. 

None


In [7]:
r.set("warm", "up")

True

In [8]:
#A: Overskriv verdien til "warm" med en annen verdi, og sjekk at den er oppdatert
r.set("warm", "down")
r.get("warm")

'down'

In [10]:
#B: Utvid koden under sånn at du lagrer posisjonen til hver bokstav i alfabetet til Redis. 
for (i,l) in enumerate("ABCDEFGHIJKLMNOPQRSTUVWXYZ"):
    print(i+1,l)
    r.set(l, i+1)

1 A
2 B
3 C
4 D
5 E
6 F
7 G
8 H
9 I
10 J
11 K
12 L
13 M
14 N
15 O
16 P
17 Q
18 R
19 S
20 T
21 U
22 V
23 W
24 X
25 Y
26 Z


In [12]:
r.get("I")

'9'

In [None]:
#C: Utvid koden under sånn at du henter og skriver ut bokstaven og posisjonen til hver bokstav i alfabetet fra Redis. 
for l in "ABCDEFGHIJKLMNOPQRSTUVWXYZ":
    print(r.get(l))

In [17]:
#D:
my_list = [1,2,"Tre"]
key = "min_liste"
r.set(key, str(my_list))
result_list = r.get(key)
print(result_list)
print(type(result_list))
result_list = eval(result_list)
print(type(result_list))
assert my_list == result_list 


[1, 2, 'Tre']
<class 'str'>
<class 'list'>


## Oppgave 2 - vi cacher svaret på noen spørringer

In [18]:
# Her bruker jeg Pandas til å laste inn noen data fra CSV, som vi skal putte i databasen.
# Pandas er verdens mest populære bibliotek for Data Engineering. 
# Vi skal også se på Pandas senere. 
df_tilsyn = pd.read_csv("tilsyn.csv", sep=";", engine="pyarrow",
    dtype={ #Vi må hjelpe pandas litt med datatypene i noen av kolonnene. 
    "postnr":pd.Int32Dtype(), 
    "orgnummer":pd.Int32Dtype(), 
    "karakter1":pd.Int32Dtype(), 
    "karakter2":pd.Int32Dtype(), 
    "karakter3":pd.Int32Dtype(), 
    "karakter4":pd.Int32Dtype(),
    "dato":pd.StringDtype(),
})
#Vi er ikke helt fornøyde med datatypen til dato-kolonnen (ble et tall!), dette må vi fikse. 
df_tilsyn["dato"] = pd.to_datetime(df_tilsyn["dato"].str.pad(8,"left","0"), format="%d%m%Y") 
df_tilsyn

Unnamed: 0,tilsynsobjektid,orgnummer,navn,adrlinje1,adrlinje2,postnr,poststed,tilsynid,sakref,status,...,karakter1,tema2_no,tema2_nn,karakter2,tema3_no,tema3_nn,karakter3,tema4_no,tema4_nn,karakter4
0,Z1501071230082032024GTOXC_Tilsynsobjekt,914541034,Bakeriet i Brumunddal avdeling CC- Hamar,VANGSVEGEN 62,,2317,HAMAR,Z1601211510285150239IKXEO_TilsynAvtale,2016/6663,0,...,1,Lokaler og utstyr,Lokaler og utstyr,1,Mat-håndtering og tilberedning,Mat-handtering og tillaging,1,Merking og sporbarhet,Merking og sporbarheit,0
1,Z1006120609250331126HFNXO_Tilsynsobjekt,987770740,Aktiven skiheis - Varmestova og Lavo,Kvamskogen,,5600,NORHEIMSUND,Z1603101430592020239SQLTI_TilsynAvtale,2016/53185,0,...,0,Lokaler og utstyr,Lokaler og utstyr,0,Mat-håndtering og tilberedning,Mat-handtering og tillaging,0,Merking og sporbarhet,Merking og sporbarheit,1
2,Z1107281100559960160KWPRX_Tilsynsobjekt,998066662,Golfkafeen,Belsjøveien 50,,1445,DRØBAK,Z1605111530190600240CQCNS_TilsynAvtale,2016/106865,0,...,0,Lokaler og utstyr,Lokaler og utstyr,1,Mat-håndtering og tilberedning,Mat-handtering og tillaging,0,Merking og sporbarhet,Merking og sporbarheit,1
3,Z1205111414434020144PXTCM_Tilsynsobjekt,972297925,Fargeriet Café,Ivar Aasgaardsveg 1,Arna Næringspark,5265,YTRE ARNA,Z1605201329276090239MNMHB_TilsynAvtale,2016/113661,0,...,1,Lokaler og utstyr,Lokaler og utstyr,0,Mat-håndtering og tilberedning,Mat-handtering og tillaging,0,Merking og sporbarhet,Merking og sporbarheit,0
4,Z1305061320139293177THOPJ_Tilsynsobjekt,911860805,Marianne Bakeri og Kafe,ODDEN 2,,5745,AURLAND,Z1601281551398970239WJGDG_TilsynAvtale,2016/20626,0,...,2,Lokaler og utstyr,Lokaler og utstyr,3,Mat-håndtering og tilberedning,Mat-handtering og tillaging,1,Merking og sporbarhet,Merking og sporbarheit,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
44531,Z2309271241301782024NHDHO_Tilsynsobjekt,932158868,Tinholt bakeri - Lietorvet,LIEGATA 9,,3717,Skien,Z2310241237046620240DBZLM_TilsynAvtale,2023/224916,0,...,0,Lokaler og utstyr,Lokaler og utstyr,1,Mat-håndtering og tilberedning,Mat-handtering og tillaging,0,Merking og sporbarhet,Merking og sporbarheit,0
44532,Z1204270921043750193OYUMT_Tilsynsobjekt,998775779,Verona Pizza og kebab,Brugata 10,,186,OSLO,Z2310251858238720239YXGFM_TilsynAvtale,2023/228934,0,...,0,Lokaler og utstyr,Lokaler og utstyr,1,Mat-håndtering og tilberedning,Mat-handtering og tillaging,1,Merking og sporbarhet,Merking og sporbarheit,0
44533,Z2111151423051540127XABKH_Tilsynsobjekt,818056982,Delicia Jernbantorget,Jernbanetorget 6,,154,OSLO,Z2312041357301130240UQABL_TilsynAvtale,2023/259192,0,...,2,Lokaler og utstyr,Lokaler og utstyr,2,Mat-håndtering og tilberedning,Mat-handtering og tillaging,2,Merking og sporbarhet,Merking og sporbarheit,2
44534,Z2011031709491430128SFCDS_Tilsynsobjekt,924772417,Sabi Sushi Egersund,Sandakergaten 9,,4370,EGERSUND,Z2311280728222860239URVFH_TilsynAvtale,2023/245218,0,...,0,Lokaler og utstyr,Lokaler og utstyr,0,Mat-håndtering og tilberedning,Mat-handtering og tillaging,0,Merking og sporbarhet,Merking og sporbarheit,0


In [19]:
df_kravpunkter = pd.read_csv("kravpunkter.csv", sep=";", engine="pyarrow", dtype={"dato":str})
df_kravpunkter["dato"] = pd.to_datetime(df_kravpunkter["dato"].str.pad(8,"left","0"), format="%d%m%Y") 
df_kravpunkter

Unnamed: 0,tilsynid,dato,ordningsverdi,kravpunktnavn_no,kravpunktnavn_nn,karakter,tekst_no,tekst_nn
0,Z1601041508412850239LCXIE_TilsynAvtale,2016-01-04,1.1,Synlig rapport for smilefjes,Synleg rapport for smilefjes,5,Ikke vurdert,Ikkje vurdert
1,Z1601041508412850239LCXIE_TilsynAvtale,2016-01-04,1.2,Meldeplikt for virksomheten,Meldeplikt for verksemda,5,Ikke vurdert,Ikkje vurdert
2,Z1601041508412850239LCXIE_TilsynAvtale,2016-01-04,1.3,Ansvaret til driftsansvarlige,Ansvaret til driftsansvarlege,5,Ikke vurdert,Ikkje vurdert
3,Z1601041508412850239LCXIE_TilsynAvtale,2016-01-04,1.4,Internkontroll,Internkontroll,0,,
4,Z1601041508412850239LCXIE_TilsynAvtale,2016-01-04,1.5,Farevurdering og styringstiltak,Farevurdering og styringstiltak,5,Ikke vurdert,Ikkje vurdert
...,...,...,...,...,...,...,...,...
1846188,Z2401191653359700239RCXWH_TilsynAvtale,2024-01-19,3.8,Varmebehandling,Varmebehandling,5,Ikke vurdert,Ikkje vurdert
1846189,Z2401191653359700239RCXWH_TilsynAvtale,2024-01-19,3.9,Nedkjøling,Nedkjøling,5,Ikke vurdert,Ikkje vurdert
1846190,Z2401191653359700239RCXWH_TilsynAvtale,2024-01-19,3.1,Tining,Tining,5,Ikke vurdert,Ikkje vurdert
1846191,Z2401191653359700239RCXWH_TilsynAvtale,2024-01-19,4.1,Sporbarhet og merking,Sporbarheit og merking,0,,


In [20]:
#Vi skal bare ha med kravpunkter som går på renhold og håndvask, det tok så lang tid å laste opp data til databasen hvis ikke.. 
df_kravpunkter = df_kravpunkter[df_kravpunkter["kravpunktnavn_no"].isin(["Håndvask", "Renhold"])]
df_kravpunkter

Unnamed: 0,tilsynid,dato,ordningsverdi,kravpunktnavn_no,kravpunktnavn_nn,karakter,tekst_no,tekst_nn
8,Z1601041508412850239LCXIE_TilsynAvtale,2016-01-04,2.3,Renhold,Reinhald,0,,
11,Z1601041508412850239LCXIE_TilsynAvtale,2016-01-04,2.6,Håndvask,Handvask,0,,
33,Z1601051146519240240JHSEC_TilsynAvtale,2016-01-05,2.3,Renhold,Reinhald,5,Ikke vurdert,Ikkje vurdert
36,Z1601051146519240240JHSEC_TilsynAvtale,2016-01-05,2.6,Håndvask,Handvask,0,,
58,Z1601051329058250240BKOYY_TilsynAvtale,2016-01-05,2.3,Renhold,Reinhald,0,,
...,...,...,...,...,...,...,...,...
1846129,Z2401191534586290239IPESV_TilsynAvtale,2024-01-19,2.6,Håndvask,Handvask,0,,
1846151,Z2401191542546590240JGPBD_TilsynAvtale,2024-01-19,2.3,Renhold,Reinhald,0,,
1846154,Z2401191542546590240JGPBD_TilsynAvtale,2024-01-19,2.6,Håndvask,Handvask,0,,
1846176,Z2401191653359700239RCXWH_TilsynAvtale,2024-01-19,2.3,Renhold,Reinhald,5,Ikke vurdert,Ikkje vurdert


In [21]:
# Nå må vi koble til databasen:
from sqlalchemy import create_engine
CONNSTR = "postgresql+psycopg2://postgres:mysecretpassword@localhost/postgres"
conn = create_engine(CONNSTR)

In [22]:
df_tilsyn.to_sql("tilsyn", conn, index=False, if_exists="replace")

536

In [23]:
df_kravpunkter.to_sql("kravpunkter", conn, index=False, if_exists="replace")

699

In [24]:
pd.read_sql("SELECT * FROM TILSYN LIMIT 5", conn)

Unnamed: 0,tilsynsobjektid,orgnummer,navn,adrlinje1,adrlinje2,postnr,poststed,tilsynid,sakref,status,...,karakter1,tema2_no,tema2_nn,karakter2,tema3_no,tema3_nn,karakter3,tema4_no,tema4_nn,karakter4
0,Z1501071230082032024GTOXC_Tilsynsobjekt,914541034,Bakeriet i Brumunddal avdeling CC- Hamar,VANGSVEGEN 62,,2317,HAMAR,Z1601211510285150239IKXEO_TilsynAvtale,2016/6663,0,...,1,Lokaler og utstyr,Lokaler og utstyr,1,Mat-håndtering og tilberedning,Mat-handtering og tillaging,1,Merking og sporbarhet,Merking og sporbarheit,0
1,Z1006120609250331126HFNXO_Tilsynsobjekt,987770740,Aktiven skiheis - Varmestova og Lavo,Kvamskogen,,5600,NORHEIMSUND,Z1603101430592020239SQLTI_TilsynAvtale,2016/53185,0,...,0,Lokaler og utstyr,Lokaler og utstyr,0,Mat-håndtering og tilberedning,Mat-handtering og tillaging,0,Merking og sporbarhet,Merking og sporbarheit,1
2,Z1107281100559960160KWPRX_Tilsynsobjekt,998066662,Golfkafeen,Belsjøveien 50,,1445,DRØBAK,Z1605111530190600240CQCNS_TilsynAvtale,2016/106865,0,...,0,Lokaler og utstyr,Lokaler og utstyr,1,Mat-håndtering og tilberedning,Mat-handtering og tillaging,0,Merking og sporbarhet,Merking og sporbarheit,1
3,Z1205111414434020144PXTCM_Tilsynsobjekt,972297925,Fargeriet Café,Ivar Aasgaardsveg 1,Arna Næringspark,5265,YTRE ARNA,Z1605201329276090239MNMHB_TilsynAvtale,2016/113661,0,...,1,Lokaler og utstyr,Lokaler og utstyr,0,Mat-håndtering og tilberedning,Mat-handtering og tillaging,0,Merking og sporbarhet,Merking og sporbarheit,0
4,Z1305061320139293177THOPJ_Tilsynsobjekt,911860805,Marianne Bakeri og Kafe,ODDEN 2,,5745,AURLAND,Z1601281551398970239WJGDG_TilsynAvtale,2016/20626,0,...,2,Lokaler og utstyr,Lokaler og utstyr,3,Mat-håndtering og tilberedning,Mat-handtering og tillaging,1,Merking og sporbarhet,Merking og sporbarheit,2


In [27]:
# Her lager jeg en litt komplisert funksjon som prosesserer en del data
# Vi teller antall kontroller som har påvist dårlig håndvask på et poststed. 
# Nå er PostgreSQL veldig rask, men jeg saboterer litt under her.. 
def hent_antall_darlig_handvask(poststed):
    lower_poststed = poststed.lower()
    df = pd.read_sql(f"""
    SELECT LOWER(t.POSTSTED) AS POSTSTED, COUNT(*) AS ANTALL_DARLIG_HANDVASK
    FROM TILSYN t 
    LEFT JOIN KRAVPUNKTER kh ON kh.TILSYNID = t.TILSYNID
    WHERE LOWER(POSTSTED) LIKE '%%{lower_poststed}%%'
    AND kh.KRAVPUNKTNAVN_NO = 'Håndvask'
    AND (kh.KARAKTER = 2 OR kh.KARAKTER = 3)
    GROUP BY LOWER(t.POSTSTED)
    """, conn)
    #print("Resultat av SQL:\n")
    #print(df)
    forste_verdi_andre_kolonne = int(df.iloc[0,1])
    time.sleep(3)
    return forste_verdi_andre_kolonne

In [28]:
hent_antall_darlig_handvask("oslo")

502

In [43]:
# A: 
# Nå skal vi skrive en funksjon som bruker Redis som cache.
# Vi skal altså sjekke om antall kontroller med dårlig håndvask finnes i cache for poststedet før vi eventuelt bruker funksjonen som henter dette fra databasen. 
def hent_antall_darlig_handvask_cached(poststed):
    key = f"handvask_{poststed}"
    cached = r.get(key)
    if cached is not None:
        return int(cached)
    else:
        resultat = hent_antall_darlig_handvask(poststed)
        r.set(key, resultat)
        return resultat

In [44]:
# B: Prøv å kjøre denne cellen to ganger, sjekk om du får samme svar!
# Hvis du ikke får samme svar bør du forsøke å løse dette problemet
# (Hint! Bruk int(verdi) for å konvertere verdi til et tall) 
hent_antall_darlig_handvask_cached("trondheim")

14

In [45]:
# Her lager vi enda en komplisert funksjon.. denne gangen for renhold
def hent_antall_darlig_renhold(poststed):
    lower_poststed = poststed.lower()
    df = pd.read_sql(f"""
    SELECT LOWER(t.POSTSTED) AS POSTSTED, COUNT(*) AS ANTALL_DARLIG_HANDVASK
    FROM TILSYN t 
    LEFT JOIN KRAVPUNKTER kh ON kh.TILSYNID = t.TILSYNID
    WHERE LOWER(POSTSTED) LIKE '%%{lower_poststed}%%'
    AND kh.KRAVPUNKTNAVN_NO = 'Renhold'
    AND (kh.KARAKTER = 2 OR kh.KARAKTER = 3)
    GROUP BY LOWER(t.POSTSTED)
    """, conn)
    #print("Resultat av SQL:\n")
    #print(df)
    forste_verdi_andre_kolonne = int(df.iloc[0,1])
    time.sleep(3)
    return forste_verdi_andre_kolonne

In [46]:
def hent_antall_darlig_renhold_cached(poststed):
    key = f"renhold_{poststed}"
    cached = r.get(key)
    if cached is not None:
        return int(cached)
    else:
        resultat = hent_antall_darlig_renhold(poststed)
        r.set(key, resultat)
        return resultat

In [47]:
# C 
# Lag en tilsvarende caching funksjon som før for renhold. 
# Jeg vil at jeg skal kunne bruke funksjonen:
hent_antall_darlig_renhold_cached("oslo")
#Det er lov med copy-paste fra forrige løsning.

823

In [48]:
# D 
# Kjør cellene under, har vi litt rar oppførsel?
# Hvordan kan du løse problemet? (løs det!) hint: legg på et prefix til nøkkelen!  

In [49]:
hent_antall_darlig_handvask("oslo")

502

In [50]:
hent_antall_darlig_renhold_cached("oslo")

823

In [51]:
hent_antall_darlig_handvask_cached("oslo")

502