## Oppgaver om Covid-19 vaksinering i EØS (Pandas og Plotting)

Disse oppgavene er inspirert av den evinnelige COVID-19 pandemien. Det siste året er det produsert og rapportert store mengder data og ulike figurer og plot av disse. I denne oppgaven skal vi utforske litt selv hvordan vi kan jobbe med disse datasettene og lage slike figurer.

Kilde: https://www.ecdc.europa.eu/en/publications-data/data-covid-19-vaccination-eu-eea

Om du går inn på siden kan du laste ned datasettet i CSV, som vi så skal laste inn i Python ved hjelp av pandas.

Oppgavene går så ut på å bruke pandas og plotly express til å utforske og visualisere data. I alle oppgaver bør du bruke tid på å formatere figurene slik at de er forståelige og lett leselige. Her bør du f.eks legge på gode figur- og aksetitler.

In [None]:
import pandas as pd
import plotly.express as px

### Oppgave 0 (Last ned og importer data)

**a)** Gå inn på nettsiden over og last ned datasettet i CSV-format. Lagre filen i samme mappe som notebooken ligger, så Python enkelt finner filen.

**b)** Fyll inn i kodelinja under så filen lastes inn som et Pandas `DataFrame`

In [None]:
df = pd.read_csv("...")

### Oppgave 1 (Få oversikt)

Utforsk datasettet og få en følelse for hvordan dataene er ordnet. Sjekk spesielt hvilke kolonner datasettet består av. 

Hint: Her kan kanskje funksjonene `head`, `info`, `describe` være nyttige.

In [None]:
# Fyll inn kode

### Oppgave 2 (Antall doser satt i hele EØS)

Vi begynner nå med å se på antall doser som har blitt satt i EØS som helhet. Datasettet er veldig stort, så vi begynner med å plukke ut og summere data vi er interessert i.

**a)** Les de to kodelinjene under og forklar hva de gjør. Hvilke data vil `weekly` innholde til slutt?

In [None]:
all_groups = df.query("TargetGroup == 'ALL'")
weekly = all_groups.groupby("YearWeekISO").sum()

**b)** Utforsk kort `weekly`-variabelen og bekreft at den inneholder omtrent det du trodde.

In [None]:
# Fyll inn kode

**c)** Bruk Plotly Express til å lage et plot over antall første doser satt per uke. 

In [None]:
# Fyll inn kode

**d)** Kopier koden fra c), og legg til en kurve som viser andre doser satt. Hint: Du kan lage to linjer ved å sende inn en liste som y-argumentet: `y = ['a', 'b']`

In [None]:
# Fyll inn kode

**e)** Hvilken uke er det satt flest doser ifølge datasettet?

Ifølge nettsiden vi hentet data fra vil disse datene publiseres fortløpende og endrer/korriges i ettertid. Dette kan forklare hvorfor de siste datapunktene i datasettet innholder så lite data.

**f)** Klarer du å endre så de to siste ukene i datasettet ikke plottes? Hint: Funksjonen `head` kan brukes med negative tall.

In [None]:
# Fyll inn kode

**g)** Legg til en kolonne i datasettet som inneholder alle typer doser satt. Denne bør altså være summen av første doser og andre doser satt, men også kolonnen som heter `UnknownDose`. Legg til denne tredje kurven i figuren din.

In [None]:
# Fyll inn kode

### Oppgave 3 (Vaksiner i Tyskland)

Vi går nå over til å se på vaksinering i Tyskland og se på hvilke *typer* vaksiner som er blitt gitt. Gå derfor tilbake til den originale dataen og lag en ny dataframe for denne problemstillingen

**a)** Bruk `query` til å plukke ut alle datapunkter for Tyskland (Hint: `ReportingCountry` er kolonnen, og `DE` er koden for Tyskland). Kontroller at dataene du plukker ut ser rimelige ut.

In [None]:
germany = all_groups.query(...)

**b)** Plott et bar-graf over vaksinene satt i Tyskland per uke. Her bør x-aksen settes til uke-data, y-aksen til antall første doser, og vaksinetyper kan knyttes til farge.

In [None]:
# Fyll inn kode

**c)** Hvilken vaksine ser det ut til å settes flest av?

### Oppgave 4 (Vaksiner i Norge)

Vi beveger oss nå over til Norge og skal se på antall doser satt i Norge. Her ønsker vi å både se på kumulative plot og andelsplot. Vi formulerer oppgavene nå mer åpent for å gjøre de mer utfordrende.

**a)** Trekk først ut data for Norge fra `all_groups` dataene. Hent så ut et punktestimat (ett tall) for populasjonen av Norge.

In [None]:
norway = all_groups.query(...)
pop = ...

**b)** Grupper nå dataene på uker og summer dem over vaksinetyper.

In [None]:
# Fyll inn kode

**c)** Legg til to nye kolonner til dataene som er andel førstedoser og andel andredoser satt. Plot disse to kolonnene i samme kurveplot. Hvilken uke var den første hvor mer enn 1% av befolkningen fikk sin først dose?

Hint: Du kan bruke `fig.update_yaxes(tickformat='.1%')` for å vise andelen som en prosent (med én desimal).

Merk: Her finner vi andel av *total befolkning*, ikke av den *voksne befolkningen*. Dette er relevant fordi barn og unge ikke blir vaksinert per nå.



In [None]:
# Fyll inn kode

**d)** Finn ut hvordan funksjonen `DataFrame.cumsum` i Pandas fungerer. Bruk denne til å lage en figur som viser den *kumulative* andelen av befolkningen i Norge som har fått sin første og sin andre dose. Forklar forskjellene på forrige figur og denne.

In [None]:
# Fyll inn kode

### Oppgave 5 (Doser per aldersgruppe)

Vi skal nå gå over til å se på de ulike aldersgruppene i Norge. Vi må nå gå helt tilbake til det originale datasettet og bruke dette.

**a)** Ta det originale/komplette datasettet og trekk ut kun data som gjelder for Norge vha `query`. Bruk så `query` på nytt for å fjerne alle datapunkter som gjelder alle aldersgrupper. Plot så til slutt antall doser satt fordelt på de ulike aldersgruppene per uke.

Hint: du kan bruke `.query("TargetGroup != 'ALL'")`



In [None]:
# Fyll inn kode

**b)** Hvilke aldersgrupper er det som hovedsakelig ble vaksinert i uke 14, 15 og 16?
Når ble vi ferdige med å vaksinere 80+ gruppa?

### Oppgave 6 (Åpen leking)

Da har du nådd bunnen av dette oppgavesettet. Men her står du selvfølgelig fritt til å lage dine egne plots og visualiseringer av vaksinestatus i EU!

In [None]:
# Fyll inn kode