In [None]:
import numpy as np
import pandas as pd
import time

In [None]:
import os

Vi bruker Mattilsynets datasett "Smilefjestilsyn på serveringssteder"

Datasettet er tilgjengelig her (velg komplett datasett i CSV):
https://hotell.difi.no/?dataset=mattilsynet/smilefjes/tilsyn 

Datasettet er nærmere beskrevet her:
https://data.norge.no/datasets/288aa74c-e3d3-492e-9ede-e71503b3bfd9



In [None]:
os.listdir(".")

In [None]:
df = pd.read_csv("tilsyn.csv", sep=";", dtype={"dato":str})

## Selecting a series

In [None]:
df

In [None]:
df["navn"].head(20)

In [None]:
df.dtypes

In [None]:
df[["navn", "total_karakter"]].sort_values("total_karakter", ascending=False)

In [None]:
df.sort_values(by=["total_karakter"], ascending=False)

In [None]:
df.dtypes

In [None]:
df["orgnummer"] = df["orgnummer"].astype(pd.Int32Dtype())

In [None]:
df["orgnummer"].duplicated(keep=False).sum()

In [None]:
(~df["orgnummer"].duplicated(keep=False)).sum()


In [None]:
df["dato"] = pd.to_datetime(df["dato"], format="%d%m%Y") 

In [None]:
df["dato"]

In [None]:
df = df.sort_values("dato", ascending=False)

In [None]:
df[["navn","dato"]]

In [None]:
bakeri = df["navn"].str.contains("Bakeri")
bakeri

In [None]:
bakeri.sum()

In [None]:
df[bakeri]

In [None]:
bakeri_lower = df["navn"].str.lower().str.contains("bakeri")

In [None]:
bakeri_lower.sum()

In [None]:
df[bakeri_lower]

In [None]:
df["count"] = 1

In [None]:
dfgr = df.groupby(by=["orgnummer","navn", "poststed"]).agg(
    {"count":lambda x:x.sum(),
     "total_karakter":lambda x:x.mean()})
dfgr

In [None]:
dfgr = dfgr.sort_values(by="total_karakter", ascending=False)
dfgr

In [None]:
dfgr.columns

In [None]:
dfgr = dfgr.reset_index(drop=False)

In [None]:
dfgr

In [None]:
dfgr["navn"]

In [None]:
dfgr[dfgr["poststed"] == "HORTEN"]

In [None]:
df.to_csv("out.csv", index=False)

In [None]:
df2 = pd.read_csv("out.csv")
df2

## Writing data - to Parquet

In [None]:
df.to_parquet("out.parquet")

In [None]:
df3 = pd.read_parquet("out.parquet")
df3

# Anatomy of a dataframe

## Series

In [None]:
s = pd.Series([i for i in range(0,3000)])
s

## Selecting multiple series (a DataFrame)

In [None]:
df["navn"]

In [None]:
df[["navn"]]

## Built-in functions

In [None]:
start = time.time()
(df["total_karakter"] == 3).sum()
end = time.time()
print(f"Builtin (ufunc) took {str(round(end-start, 10))} seconds")


## Avoid iteration if you can

In [None]:
start = time.time()
c = 0
for k in df["total_karakter"]:
    if k == 3:
        c += 1
end = time.time()
print(f"Iteration method took {str(round(end-start, 10))} seconds")


## Pandas and numpy

In [None]:
df[["orgnummer", "total_karakter"]].to_numpy()

## Oppgaver:
1. Finn gjennomsnittlig antall kontroller pr år
2. Finn spisestedet som har blitt kontrollert flest ganger pr. år - hvilket år var dette i? 
3. Hvilke av de store kjedene (maccern, kurger bing, peppes, pizzabakeren) gjør det best (på tvers av lokasjoner)?
4. Bruk data om kravpunkter til å finne ut hvilke restauranter som har slitt mest med håndvask: https://hotell.difi.no/?dataset=mattilsynet/smilefjes/kravpunkter

## Flere oppgaver

Hent datasettet fra: 

https://pvdata.nist.gov/

Data-beskrivelse finnes her:

https://www.nist.gov/system/files/documents/2017/10/04/datadictionary_supplementalcontent.pdf

Hent zip-fil for ground (bulk download) for et år. 
Pakk ut.

1. Skriv prosedyre som leser inn disse som dataframe, parser datoer riktig, konkatenerer de, og lagrer som en stor .parquet.
2. Finn gjennomsnittlig døgnproduksjon pr. string combiner (ShuntEtot_kWh_Avg(i))
3. Bruk df.plot() til å plotte gjennomsnittlig døgnproduksjon for de ulike string combinerne gjennom året. 
