# Analyse av AMS-data steg for steg

Dette er et forslag til hvordan man kan velge å utføre oppgaven. Her er den overordnede oppgaven delt opp i mindre og mer konkrete oppgaver som er gunstige kandidater for egne *funksjoner*. Om du ikke ønsker å følge denne malen kan du besvare gjør det selv-oppgaven istedet. Du står også fritt frem til å endre på funksjonsnavn, returverdier etc. så lenge kodecellen du skriver i steg 6 klarer å kalle alle funksjonene uten feilmelding.

## Steg 1: Fillesing

Første steg i denne oppgaven er å få tak i dataene som er lagret i CSV-filene. CSV står for Comma Separated Value, og filene bruker et spesialtegn (i dette tilfellet semikolon `;`) til å separere *kolonnene* i dataene. Sammen med linjeskift gir dette en oversiktlig tabell for dataene. 

Informasjonen er lagret i filene som ren tekst og dataene vil dermed i første omgang hentes inn som tekststrenger inntil videre konvertering utføres.

Her har vi to muligheter, som er beskrevet nærmere i små eksempler linket til nedenfor:
1. [Standard fillesing med innebygde python-funksjoner](03_Fillesing%20standard.ipynb)
2. [Fillesing med Pandas](04_Fillesing%20pandas.ipynb)

Når man skal lese av en `.csv` fil, er det viktig å ha oversikt over hvordan den er bygd opp. Vi ser på de første linjene i fila `meteringvalues-mp-xxxxx-consumption-201905-20191004T1140.csv`:

    
                            Fra;Til;KWH 60 Forbruk
                            01.05.2019 00:00;01.05.2019 01:00;1.553
                            01.05.2019 01:00;01.05.2019 02:00;1.551
                            01.05.2019 02:00;01.05.2019 03:00;1.571
                            ...
    
    
Her ser vi at hver linje inneholder to semikolon, som deler inn dataene i kolonner. Første linje er en *header* som beskriver hva dataene i hver kolonne er. Formålet med dette er at fila skal kunne gjenkjennes av et program som en serie med data i tabellform. Nedenfor ser du hvordan dette ser ut hvis vi fyller inn verdiene i en konvensjonell tabell:

Fra | Til | KWH 60 Forbruk
---|---|---
01.05.2019 00:00|01.05.2019 01:00|1.553
01.05.2019 01:00|01.05.2019 02:00|1.551
01.05.2019 02:00|01.05.2019 03:00|1.571

#### Oppgave:

Fullfør funksjonen `getAMSdata()`, eller skriv en helt egen funksjon som tar inn en streng med filnavnet som parameter, og returnerer **tre** lister; `startTid`, `stopTid` og `forbruk`. Forbruksdataen kan konverteres til typen `float`, men du trenger ikke å utføre komplisert konvertering av tidsstempel-strengene enda. Husk å importere ekstra moduler hvis du tar i bruk f.eks. csv-modulen.



In [42]:
def getAMSdata(fileName):
    #-------------------------------------
    # SKRIV DIN KODE HER:
    #-------------------------------------
    startTid=[]
    stopTid=[]
    forbruk=[]
    with open(fileName, 'r') as dataFile:
        dataFile.readline()
        for line in dataFile:
            line = line.strip("\n").split(";")
            #print(line)
            startTid.append(line[0])
            stopTid.append(line[1])
            forbruk.append(line[2])
    return startTid, stopTid, forbruk

#### Eksempel på funksjonstest:

In [43]:
# P.S. Denne cellen kan du enre på
startTid, stopTid, forbruk = getAMSdata("meteringvalues-mp-xxxxx-consumption-201905-20191004T1140.csv")
print("Forbruket mellom", startTid[0], "og", stopTid[0], "var", forbruk[0], "kWh")

Forbruket mellom 01.05.2019 00:00 og 01.05.2019 01:00 var 1.553 kWh


Hvis du har lest fila riktig skal utskriften fra cella over være første linje med *data* i fila, **ikke** header-informasjonen: 

    Forbruket mellom 01.05.2019 00:00 og 01.05.2019 01:00 var 1.553 kWh

## Steg 2: "Parsing" av tidsstempel

Så langt er tidsintervallene lastet inn fra datafila fortsatt i form av tekststrenger. Disse er oversiktlige å lese, men ikke velegnet for videre prosessering av data. Her må vi utføre såkalt "parsing", ved å anvende forhåndsdefinert kunnskap om hvordan hvert tidspunkt er skrevet, og hente ut informasjonen vi trenger. Hvis vi studerer csv-fila nøye ser vi at alle tidspunktene overholder formatet `dd.mm.yyyy hh:mm`. Dette betyr at hvert tidsstempel vil bestå av nøyaktig 16 tegn, og hver av de ulike enhetene tar opp de samme indeksene i strengen.

**Indeks** | 0|1|2|3|4|5|6|7|8|9|10|11|12|13|14|15
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---
**Tegn:**|`'d'`|`'d'`|`'.'`|`'m'`|`'m'`|`'.'`|`'y'`|`'y'`|`'y'`|`'y'`|`' '`|`'h'`|`'h'`|`':'`|`'m'`|`'m'`

Her er et eksempel på hvordan man kan hente ut årstall fra en slik tekststreng som viser et gitt tidspunkt.

```python
def getYear(timeStampStr):
    yearStr = timeStampStr[6:10]
    year = int(yearStr)
    return year

timeStamp = '17.05.2020 09:00'
print(getYear(timeStamp)
```
Out \[ \]: `2020`

Det er også fullt mulig å benytte seg av modulen `datetime` for å parse tiden, men dette vil innebære å bruke en ikke ubetydelig tidsmengde på å sette seg inn i dokumentasjonen for å få til nøyaktig det du vil. I denne oppgaven skal vi gjøre så pass enkle beregninger med dato og tid at bruk av `datetime` ikke er hensiktsmessig med mindre du ønsker en utfordring.



### 2.1: Finn antall dager i måneden.

Velg ut én av listene (starttid kan være mest hensiktsmessig her) å ta utgangspunkt i. Fullfør en funksjon `getDayCount()` som returnerer antallet dager i måneden som heltall.

In [38]:
def getDayCount(timeStampList):
    lastMont = timeStampList[0][3:5]
    lastDay = timeStampList[0][:2]
    print(lastMont)
    print(lastDay)
    dayCount = [0]
    for line in timeStampList:
        mont = line[3:5]
        day = line[:2]
        if(mont != lastMont):
            dayCount.append(0)
        if day != lastDay:
            dayCount[-1] += 1
        lastMont = mont
        lastDay = day
    return dayCount

print(getDayCount(startTid))

05
01
[30]


*NB! Det vil ikke oppgis noen egne test-celler videre i oppgaven for å verifisere returverdien til funksjonene. Du oppfordres til å kalle funksjonene du har laget etter hver oppgave for å verifisere at de fungerer slik som ønsket.*

### 2.2: Identifiser måned.

Velg ut én av listene (starttid kan være mest hensiktsmessig her) å ta utgangspunkt i. Fullfør en funksjon `getMonth()` som returnerer ***navnet*** på måneden som tekststreng.

In [47]:
import datetime

def getMonth(dateAndTimeStr):
    #-------------------------------------
    # SKRIV DIN KODE HER:
    month = int(dateAndTimeStr[0][3:5])
    month = datetime.date(2015, month, 1).strftime('%B')
    
    #-------------------------------------
    return month
print(getMonth(startTid))

May


### 2.3: Lag egne lister for dato og time.

Én måte å holde orden på dato og tidspunkt som numeriske verdier er å skille de ut i én liste hver. Det vil si at vi ønsker én liste med datoer for måneden, og en annen liste for timeslag. Minutter trengs ikke da alle minuttverdiene i csv-filen er "00". Listene bør være like lange som listen med forbruksdata. På den måten vil f.eks. `dayList[121]`, `hourList{121]` og `consumption[121]` være henholdsvis dato og time på dagen for måling nr. 122, samt forbruk i løpet av påfølgende time.

Fullfør funksjonene `getDays()` og `getHours()` slik at de returnerer lister med heltallsverdier for henholdsvis dato og timeslag.

In [50]:
def getDays(timeStampList):
    #-------------------------------------
    # SKRIV DIN KODE HER:
    dayList = []
    for line in timeStampList:
        dayList.append(line[:2])
    #-------------------------------------
    return dayList
    
def getHours(timeStampList):
    #-------------------------------------
    # SKRIV DIN KODE HER:
    hourList = []
    for line in timeStampList:
        hourList.append(line[:2])
    #-------------------------------------
    return hourList
print(getHours(startTid))

['01', '01', '01', '01', '01', '01', '01', '01', '01', '01', '01', '01', '01', '01', '01', '01', '01', '01', '01', '01', '01', '01', '01', '01', '02', '02', '02', '02', '02', '02', '02', '02', '02', '02', '02', '02', '02', '02', '02', '02', '02', '02', '02', '02', '02', '02', '02', '02', '03', '03', '03', '03', '03', '03', '03', '03', '03', '03', '03', '03', '03', '03', '03', '03', '03', '03', '03', '03', '03', '03', '03', '03', '04', '04', '04', '04', '04', '04', '04', '04', '04', '04', '04', '04', '04', '04', '04', '04', '04', '04', '04', '04', '04', '04', '04', '04', '05', '05', '05', '05', '05', '05', '05', '05', '05', '05', '05', '05', '05', '05', '05', '05', '05', '05', '05', '05', '05', '05', '05', '05', '06', '06', '06', '06', '06', '06', '06', '06', '06', '06', '06', '06', '06', '06', '06', '06', '06', '06', '06', '06', '06', '06', '06', '06', '07', '07', '07', '07', '07', '07', '07', '07', '07', '07', '07', '07', '07', '07', '07', '07', '07', '07', '07', '07', '07', '07', '07

## Steg 3: Generell Statistikk

Når du har forbruksdata og tidsinformasjon i listeform kan du gjøre noen statistiske beregninger på dataene. Det oppfordres til å teste ut funksjonene, og kontrollere resultatet ved å se gjennom csv-fila selv.

### 3.1: Regn ut gjennomsnittlig timesforbruk

Fullfør funksjonen `getAverage()`, eller skriv en helt egen funksjon som tar inn listen med timesforbruk som parameter og returnerer gjennomsnittlig timesforbruk.



In [None]:
# Dette er kun et forslag til funksjonsoppsett
def getAverage(dataList):
    #-------------------------------------
    # SKRIV DIN KODE HER:
    #-------------------------------------
    return average

### 3.2: Regn ut høyeste forbruk, og tidspunktet for høyeste forbruk.

Fullfør funksjonen `findPeakInterval()`, eller skriv en helt egen funksjon som tar inn listene med timesforbruk **og** tidspunkt, og returnerer både toppforbruket og hvilken dato/tidspunkt det fant sted. Her kan listemetoden `list.index()` komme svært godt med.


In [None]:
# Dette er kun et forslag til funksjonsoppsett
def findPeakInterval(consumption, dateList, hourList):
    #-------------------------------------
    # SKRIV DIN KODE HER:
    #-------------------------------------
    return consumptionPeak, peakDate, peakHour

### 3.3: Regn ut standardavvik for månedens timeforbruk *(frivillig)*.

Fullfør funksjonen `getStdDev()`, eller skriv en helt egen funksjon som tar inn listen med timesforbruk *og* gjennomsnittsverdi, og regner ut standardavvik.

In [None]:
def getStdDev(dataList, average):
    #-------------------------------------
    # SKRIV DIN KODE HER:
    #-------------------------------------
    return stdDev

## Steg 4: Listeprosessering

Du skal nå ta utgangspunkt i listene med informasjon om timesforbruk og tidspunkt, og generere nye lister som kan brukes til plotting av grafer i neste oppgave.

### 4.1: Regn ut daglig forbruk

Målet med denne oppgaven er å lage en ny liste for å kartlegge forbruket, hvor hver verdi i lista tilsvarer det totale forbruket i løpet av en dag. Et forslag for hvordan du kan utføre dett er med å definere en funksjon som `getDailyConsumtion()`, hvor informasjonen i listene med timesforbruk og datoer kombineres til å produsere ønsket data.

Fullfør funksjonen `getDailyConsumption()`, eller skriv din egen som tar inn nødvendig informasjon ved hjelp av parametre, og returnerer en liste med daglig forbruk.

In [None]:
# Dette er kun et forslag til funksjonsoppsett
def getDailyConsumption(hourConsumption, dayList):
    #-------------------------------------
    # SKRIV DIN KODE HER:
    #-------------------------------------
    return dailyConsumption

### 4.2: Regn ut forbruket i et gjennomsnittlig døgn for den aktuelle måneden *(frivillig)*

Fullfør eller lag en funksjon som regner ut timesforbruket i en gjennomsnittlig dag.

In [None]:
# Dette er kun et forslag til funksjonsoppsett
def getAvgDay(hourConsumption, hourList):
    #-------------------------------------
    # SKRIV DIN KODE HER:
    #-------------------------------------
    return avgHourly

## Steg 5: Visualisering

Du skal nå bruke modulen `matplotlib.pyplot` til å visualisere listedataen(e) fra steg 4. Du står fritt til å velge hva slags graf du lager med dataen, men for denne typen data ville jeg personlig foreslått å lage søylediagram med funksjonen `bar()`. 

*Husk å merke aksene på figuren med informative merkelapper, samt å gi figuren en tittel som inkluderer navnet på måneden.*

### 5.1: Vis daglig forbruk

Fullfør funksjonen `plotDailyConsumption()` som vil lage en graf av daglig forbruk. Her skal du bruke dataen fra steg 4.1.

In [None]:
import matplotlib.pyplot as plt # Forslag til importering av pyplot-modul
%matplotlib notebook # Genererte plot integreres i notebook-dokumentet som interaktive grafer

def plotDailyConsumption(dailyConsumption, month):
    #-------------------------------------
    # SKRIV DIN KODE HER:
    #-------------------------------------

### 5.2: Vis gjennomsnittlig timesforbruk (*frivillig*)

Fullfør funksjonen `plotAvgDay()` som vil lage en graf av daglig forbruk. Her skal du bruke dataen fra steg 4.2.

In [None]:
def plotAvgDay(avgHourly, month):
    #-------------------------------------
    # SKRIV DIN KODE HER:
    #-------------------------------------

## Steg 6: Sett sammen alle bitene

Skriv programkode som kaller *alle* funksjonene vi har skrevet hittil i steg 1-5til å utføre databehandlingen beskrevet i [oppgavebeskrivelsen](01_Oppgavebeskrivelse.ipynb), samt presentere de aktuelle utregnede verdiene som grafer eller utskrift.

In [None]:
#-------------------------------------
# SKRIV DIN KODE HER:
#-------------------------------------