# Hente og lese inn data til pandas

## CSV 

* En vanlig m친te 친 lagre data p친 er i csv-format
* csv = comma separated values
* I en csv-fil har vi data lagret som tekst i en type tabellformat
* Hver linje i filen er et datapunkt, og inneholder et eller flere felt med data (kolonner)
* Datafeltene er separert med en *separator*, ofte et komma
* F칮rste linje i filen gir gjerne metadata (navn p친 kolonnene)

## Tegnkoding

* CSV-filer er som sagt vanlig tekst, men:
    - Tekst kan representeres p친 forkjellige m친ter i en datamaskin
    - M친ten kalles tegnkodingen (character-coding)
    - Vi m친 ofte s칮rge for riktig inputkoding (input-encoding) for 친 f친 ut riktig tekst
* Enkleste mulige tegnkoding er ASCII
* Unicode s칮rger for at vi kan bruke 칝,칮,친 $\Delta$, $\Gamma$ osv. Feks UTF-8 og UTF-16

<img src="https://upload.wikimedia.org/wikipedia/commons/1/1b/ASCII-Table-wide.svg">

## Unicode
* Unicode er et tegnsett/tegnkoding som har som form친l 친 st칮tte alle spr친k
* Alle tegn som brukes m친 da f친 sin egen kode
* Til og med [emojis](https://unicode.org/emoji/charts/full-emoji-list.html)
* U+1f911, CLDR Short name: money-mouth-face, 游뱀

## Vanlige tegnkodinger:
* Unicode har flere m친ter 친 gi tegnkodingene p친:
  * 'utf-8'
  * 'utf-16'
  * 'utf-32'
* I tillegg har vi en annen standard litt p친 siden av  unicode: *ISO-8859-1*
  * Kalles ofte "Latin-1"
  * Koder for det latinske alfabetet
  * Vanlig i bruk i Amerika, Vest-Europa, Oceania og store deler av Afrika

#### SSB
* SSB bruker 'UTF-8' for .XML og JSON formater (mer om JSON senere)
* SSB bruker 'ISO-8859-1' for .csv formatene sine

## CSV + Pandas

* Vi bruker pandas til 친 lese og lagre csv-filer
* `pd.read_csv("filnavn")`
* `read_csv` har **haugevis** med keyword arguments for 친 lese rare og potensielt f칮kka csv-filer
* Vi burde i de fleste tilfeller klare oss med:
    - `encoding = "input-enc"` feks `"utf-8"`
    - `sep = "separator"` feks `","` eller "`\t`" (tab)
    -  `header = rad` feks `header=0`dersom f칮rste rad gir kolonnenavnene
    -  `index_col = 춺kolonnenummer췉` Angir hvilken av kolonnene som skal brukes som indeks (nummer eller etikette) 

In [1]:
import pandas as pd

#Leser inn data .csv
BB_df = pd.read_csv("blackboard.csv", encoding="utf-16", sep="\t", index_col=0) 
BB_df

Unnamed: 0,Etternavn,Fornavn,Brukernavn
0,Aadde,Petter,petteaad
1,Aas,Edvard Tynes,edvardta
2,Adolfsen,Simon Anker,simonado
3,Amundsen,Albert Bakke,alberbam
4,Amundsen,Amanda Oddli,amandaam
...,...,...,...
105,Ulvestad,Andreas Hovden,andrhul
106,Vatle,Camilla,camilvat
107,Vatne,Silje Eiken,siljeeva
108,Zahl-Brathaug,Saga,sagaz


* Filen vi har lastet inn er klasselisten fra blackboard
* p친 iirmoodle.it.ntnu.no er det mulig 친 melde folk opp i fag ved 친 laste *opp* en csv-fil
* `moodle_example.csv` viser hvordan denne filen skal se ut

In [2]:
moodleEx_df = pd.read_csv("moodle_example.csv")
moodleEx_df 

Unnamed: 0,username,firstname,lastname,email
0,student1,Student,One,s1@example.com
1,student2,Student,Two,s2@example.com
2,student3,Student,Three,s3@example.com


### Opppgave 1

* Lag et dataframe fra "blackboard.csv" som er formatert slik moodle vil ha det

In [3]:
BB_df
data_til_moodle = {"username": BB_df["Brukernavn"],
                   "firstname": BB_df["Fornavn"],
                   "lastname": BB_df["Etternavn"]}
moodle_formatert_df = pd.DataFrame(data=data_til_moodle)

#Med for l칮kke
#email_data = []
#for brukernavn in BB_df["Brukernavn"]:
#    email_data.append(f"{brukernavn}@stud.ntnu.no")
#moodle_formatert_df["email"] = email_data
#moodle_formatert_df

#Med serialisering
moodle_formatert_df["email"] = moodle_formatert_df["username"]+"@stud.ntnu.no"

#Med .apply/map
def leggtilstud(brukernavn):
    epost = f"{brukernavn}@stud.ntnu.no"
    return epost

moodle_formatert_df["email"] = moodle_formatert_df["username"].map(leggtilstud)
moodle_formatert_df

Unnamed: 0,username,firstname,lastname,email
0,petteaad,Petter,Aadde,petteaad@stud.ntnu.no
1,edvardta,Edvard Tynes,Aas,edvardta@stud.ntnu.no
2,simonado,Simon Anker,Adolfsen,simonado@stud.ntnu.no
3,alberbam,Albert Bakke,Amundsen,alberbam@stud.ntnu.no
4,amandaam,Amanda Oddli,Amundsen,amandaam@stud.ntnu.no
...,...,...,...,...
105,andrhul,Andreas Hovden,Ulvestad,andrhul@stud.ntnu.no
106,camilvat,Camilla,Vatle,camilvat@stud.ntnu.no
107,siljeeva,Silje Eiken,Vatne,siljeeva@stud.ntnu.no
108,sagaz,Saga,Zahl-Brathaug,sagaz@stud.ntnu.no


* Vi lagrer et dataframe til csv med `df.to_csv("filnavn.csv", **kwargs)`
* n친r vi ser `**kwargs` p친 denne m친ten, betyr det at her kommer 춺keyword arguments췉
* Vi kan se i [dokumentasjonen](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html) f친r 친 finne hvilke 춺kwargs췉 funksjonen tar

In [4]:
moodle_formatert_df.to_csv("moodle_formatert.csv", index=False)

* Det er mye 친 holde styr p친 i Pandas, og vi g친r ikke igjennom alle aspekter
* Ha en [cheat sheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf) for h친nden
* Sl친 opp i diverse [tutorials](https://pandas.pydata.org/pandas-docs/stable/getting_started/tutorials.html)
* Spesielt [denne](https://www.skytowner.com/explore/pandas_recipes_reference) kan v칝re kjekk (Pandas oppskrifter :) )

# Pandas i praksis

* Vi kan hente data 친 analysere, feks fra [statistisk sentralbyr친](http://www.ssb.no)
* SSB bruker tegnkodinger 춺UTF-8췉 og 춺ISO-8859-1췉

In [17]:
#Vi g친r til ssb.no og henter et datasett om arbeidsledige
arbeidsledige_df = pd.read_csv("arbeidsledige.csv", encoding="ISO-8859-1", header=1, sep=";")
arbeidsledige_df = arbeidsledige_df.set_index("kvartal")
arbeidsledige_df

Unnamed: 0_level_0,Arbeidsledige (1 000 personer)
kvartal,Unnamed: 1_level_1
1972K1,24
1972K2,26
1972K3,31
1972K4,31
1973K1,22
...,...
2023K2,105
2023K3,107
2023K4,106
2024K1,119


In [21]:
# Vi henter et datasett med 친pnede konkurser fra SSB
konkurser_df = pd.read_csv("konkurser.csv", encoding="ISO-8859-1", sep="\t", index_col=0)
konkurser_df


Unnamed: 0_level_0,Opna konkursar
m친ned,Unnamed: 1_level_1
1980M01,75
1980M02,49
1980M03,65
1980M04,58
1980M05,56
...,...
2024M04,466
2024M05,387
2024M06,419
2024M07,261


### Analyse:
* Vi vil sl친 sammen dataene v친re om arbeidsledighet og 친pnede konkurser
* Er det en sammenheng?

In [22]:
konkurser_df+arbeidsledige_df #Det funket d친rlig....

Unnamed: 0,Arbeidsledige (1 000 personer),Opna konkursar
1972K1,,
1972K2,,
1972K3,,
1972K4,,
1973K1,,
...,...,...
2024M04,,
2024M05,,
2024M06,,
2024M07,,


# Sl친 sammen data
Vi m친 passe p친 en rekke ting n친r vi skal sl친 sammen data:
* Matchende datatyper: 2 kolonner blir ansett som forkjellige dersom de har forskjellige datatyper men matchende data
* Hva skal vi beholde (Alt som matcher, kun matchende data fra nr 1 eller 2 dataframe)
* Dersom man sl친r sammen p친 index, m친 disse samsvare

* Vi trenger n친 친 sl친 sammen data som g친r over forskjellige tidsspenn
* Indeksen v친r best친r av *tekststrenger* -- dette byr p친 problemer

<img src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEgCOoEr1biiaMsoejCtfdvgJAq_T6TfbjVkrc-zyfJ8ReSf8BvldJXPjyNy1gjfGVmB2hk2i39ybpaLHKDK4kTn4n2Zh-dXlaayliZoiygxhTQ3W7mC2LoxzTOARAhltRmSn84pdQdmqrbu/s1600/AD951881-737E-4F2C-AE8E-D80E280CFFD5.png">

## Datetime, pandas.Period
* Veldig mye av data tilgjengelig viser statistiske variabler over tid.
* For ingeni칮rer er tid veldig enkelt: Det er en fysisk st칮rrelse og en av grunnenhetene i SI-system: *sekund*
* I business er det verre. Vi m친ler tid i dager, sekunder, minutter, uker, m친neder, kvartaler eller 친r
* 칀r er delt inn i m친neder med ujevnt fordelte dager, vi har skudd친r og tidssoner, sommertid/vintertid osv...
* Vi kan f친 masse hjelp dersom tidsseriene v친r bruker datatyper for tid fra `datetime` eller `pandas.Period`

In [42]:
#Jeg m친tte gj칮re f칮lgende for 친 f친 norsk output
import locale
locale.setlocale(locale.LC_ALL, "nb_NO.utf8")

'nb_NO.utf8'

In [32]:
import datetime
from zoneinfo import ZoneInfo
#Henter tid/dato fra datetime.datetime
naa = datetime.datetime.now()

#Henter dato fra datetime.date
dato_i_dag = datetime.date.today()

print("I dag er datoen", dato_i_dag)


I dag er datoen 2024-10-25


In [39]:
#Vi kan lage et spesifikt tidspunkt eller dato:
 
min_dato = datetime.date(1990, 11, 23)  #칀r, m친ned, dag
print("Jeg valgte dato: ", min_dato)

#칀r, m친ned, dag, time, minutt, sekund, tzinfo=TIDSSONE
tid =  datetime.datetime(2024, 12, 13, 12,0, tzinfo=ZoneInfo("Europe/Oslo") )
print("Mappeinnlevering stenger", tid)

#Vi kan ogs친 lage en ENDRING I TID:
#datetime.timedelta(days=0, seconds=0, microseconds=0, milliseconds=0, minutes=0, hours=0, weeks=0)
utsettelse = datetime.timedelta(hours=7, days=1)

ny_dato_mapp = tid+utsettelse
print("Ny tid for mappeinnlevering", ny_dato_mapp)
#Vi kan sammenligne tider/datoer
print(ny_dato_mapp > tid)

Jeg valgte dato:  1990-11-23
Mappeinnlevering stenger 2024-12-13 12:00:00+01:00
Ny tid for mappeinnlevering 2024-12-14 19:00:00+01:00
True


* Fordelen med en slik datatype er at biblioteket selv kan holde kontroll p친 tidssoner og denslags
* Biblioteket lar oss plusse/trekke fra tider eller datoer med hverandre
* Vi kan sammenligne tid/datoer som betyr at vi lett kan sortere de

# Formattere dato ut
* vi bruker `min_tid.strftime("FORMATTERINGSSTRENG")` for 친 formatere en dato eller tid
* Formateringsstrenger er litt som en f-streng, men vi limer inn feks 친ret for `"%Y"` i stedet for `f"{year}"`
  | Formatkode | Beskrivelse                            | Eksempel (med dato: 2024-10-21 15:30:45) |
|------------|----------------------------------------|------------------------------------------|
| `%a`       | Forkortet ukedag                       | Man                                      |
| `%A`       | Fullt navn p친 ukedag                   | Mandag                                   |
| `%w`       | Ukedag som tall (S칮ndag=0, Mandag=1)   | 1                                        |
| `%d`       | Dag i m친neden (nullutfylt)             | 21                                       |
| `%b`       | Forkortet m친nednavn                    | Okt                                      |
| `%B`       | Fullt m친nednavn                        | Oktober                                  |
| `%m`       | M친ned som tall (nullutfylt)            | 10                                       |
| `%y`       | 칀r (to siffer)                         | 24                                       |
| `%Y`       | 칀r (fire siffer)                       | 2024                                     |
| `%H`       | Time (nullutfylt, 24-timers klokke)    | 15                                       |
| `%I`       | Time (nullutfylt, 12-timers klokke)    | 03                                       |
| `%p`       | AM/PM                                 | PM                                       |
| `%M`       | Minutter (nullutfylt)                  | 30                                       |
| `%S`       | Sekunder (nullutfylt)                  | 45                                       |
| `%f`       | Mikrosekunder (nullutfylt)             | 000000                                   |
| `%z`       | Tidsforskjell fra UTC                  | +0000                                    |
| `%Z`       | Tidsnavn (timezone)                    | UTC                                      |
| `%j`       | Dagnummer i 친ret (001-366)             | 295                                      |
| `%U`       | Ukenummer (S칮ndag som f칮rste dag)      | 43                                       |
| `%W`       | Ukenummer (Mandag som f칮rste dag)      | 43                                       |
| `%c`       | Lokal dato og tid                      | Man 21 Oct 15:30:45 2024                 |
| `%x`       | Lokal dato (kort format)               | 21.10.2024                               |
| `%X`       | Lokal tid (kort format)                | 15:30:45                                 |
| `%%`       | Et prosenttegn                        | %                                        |


In [43]:
#Formatere dato ut i en streng
print(ny_dato_mapp.strftime("Ny dato for mappe er %A den %dende klokken %H:%M"))

Ny dato for mappe er l칮rdag den 14ende klokken 19:00


## Lese inn et datoformat
* Enda mer nyttig er det 친 kunne lese inn tid/dato skrevet i rare formater
* Da bruker vi samme tabell som for `strftime`, men bruker `datetime.datetime.strptime(dato, "FORMATERINGSSTRENG")`

In [45]:
dato_inn = "21/04/1987"
dato_lest = datetime.datetime.strptime(dato_inn, "%d/%m/%Y")
print("Dato som datetime objekt:", dato_lest)

Dato som datetime objekt: 1987-04-21 00:00:00


## Pandas.period
* Pandas har en egen klasse/type for 친 jobbe med perioder og tidsintervall
* Vi jobber da med spenn av tid, pandas kaller det `frekvenser`
  | Frekvenskode | Beskrivelse              | Eksempel                               |
|--------------|--------------------------|----------------------------------------|
| `A` or `Y`   | 칀rlig (Year-End)          | 2024                                  |
| `Q`          | Kvartalsvis               | 2024Q1                                |
| `M`          | M친nedlig                  | 2024-10                               |
| `W`          | Ukentlig (S칮ndag)         | 2024-42 (42. uke, sluttdato S칮ndag)  |
| `W-MON`      | Ukentlig (Mandag)         | 2024-42 (42. uke, sluttdato Mandag)  |
| `D`          | Daglig                    | 2024-10-21                            |
| `B`          | Virkedag (uten helger)    | 2024-10-21                            |
| `H`          | Time                     | 2024-10-21 15:00                      |
| `T` or `min` | Minutt                    | 2024-10-21 15:30                      |
| `S`          | Sekund                    | 2024-10-21 15:30:45                   |
| `L`          | Millisekund               | 2024-10-21 15:30:45.123               |
| `U`          | Mikrosekund               | 2024-10-21 15:30:45.123456            |
| `N`          | Nanosekund                | 2024-10-21 15:30:45.123456789         |


In [None]:
#pd.Period('verdi', freq='frekvenskode')
#Verdien er en gyldig tid i en periode med frekvens freq='frekvenskode'
#Verdien kan v칝re et datetime objekt, eller en tekststreng med riktig format (ie tabellen over)
periode = 



### pd.PeriodIndex
* Vi vil som regel ha mange perioder som indeks i et dataset
* Da kan vi bruke:
  *  `pd.PeriodIndex([춺liste med perioder췉], freq='frekvenskode')`
  *  `pd.period_range('2024-01', '2025-05', freq='M')` ie (start, slutt, frekvens) 
  *  `pd.period_range('2024-01', periods=12, freq='Q')` ie (start, antall perioder, frekvens)

*Vi har ogs친 en `pd.date_range(start, perioder, frekvens)` om vi vil ha `datetime` i stedet*

In [None]:
tidserie =


### Konvertere mellom `datetime` og `Period`
* Ofte trenger man 친 konvertere mellom `datetime` og `Period`
* Kanskje har man brukt `strptime(...)` til 친 lese inn riktig dato f칮rst
* Vi bruker da `df['date'].dt.to_period('frekvenskode')`
* Skal vi g친 andre veien bruker vi `df["periode"].to_timestamp()`

* Det er mye mer vi kunne sett p친 her
* Tid/dato kan bli uhyre komplisert i det virkelige liv

# Tilbake til analysen v친r:
* Vi kan n친 pr칮ve 친 konvertere tidsseriene v친res til et ordentlig format, og sl친 de sammen

In [None]:
display(konkurser_df.head(2))
display(arbeidsledige_df.head(2))

* Arbeidsledige har nesten riktig format p친 indeks
* "1972K1" skulle v칝rt "1972Q1" for at `pd.Periods` skal skunne "lese det riktig"

In [None]:
arbeidsledige_df = pd.read_csv("arbeidsledige.csv", sep=";", header=1, index_col=0)
arbeidsledige_df.index.name = None

#Vi bytter ut "K" med "Q" ved 친 bruke .apply eller .map p친 indexen

* Dataframe av konkurser gj칮r vi litt mer arbeid med
* '1923M01' er ikke gyldig/lesbart for `pd.Period` - det skulle v칝rt '1923-01'
* Vi kan gj칮re som sist og bytte ut 'M' med '-', men hva om det var enda mer komplisert?
* Da kan vi bruke `datetime.datetime.strptime(streng, formatstreng)`

In [None]:
konkurser_df = pd.read_csv("konkurser.csv", encoding="ISO-8859-1", sep="\t", index_col = 0)
konkurser_df.index.name=None



* N친 trenger vi bare 친 summe sammen alle konkurser per kvartal
* Vi kan bruke `.groupby(...)` til dette
* `groupby()` sl친r sammen deler av data i grupper
* feks alle "menn" i en gruppe og alle kvinner i en annen gruppe om vi har en kolonne "kj칮nn" i dataene v친re
* Det returnes et spesialobjekt som vi kan gj칮re noe med, typisk, `.sum(), .mean(), .median(), .max(), .min()`
* Deretter f친r vi et nytt dataframe ut

* N친 kan vi sl친 sammen datasettene med `.merge(...)`

* N친r vi har f친tt dataen slik vi vil ha den er det vanskelige over
* Vil vi feks plotte:

In [None]:
import matplotlib.pyplot as plt



* 칀 finne kovarians og korrelasjon er ogs친 lett

In [None]:
df.cov()

In [None]:
df.corr()

* De som trenger en oppfriskning p친 kovarians og korrelasjon kan se her:


### Kovarians (video)
<a href="https://www.youtube.com/watch?v=9Y0Alg8huJk" 
  target="_blank"><img src="https://img.youtube.com/vi/9Y0Alg8huJk/0.jpg" 
alt="IMAGE ALT TEXT HERE" width="240" height="180" border="10" /></a>

### Korrelasjon (video)
<a href="https://www.youtube.com/watch?v=WpZi02ulCvQ" 
  target="_blank"><img src="https://img.youtube.com/vi/WpZi02ulCvQ/0.jpg" 
alt="IMAGE ALT TEXT HERE" width="240" height="180" border="10" /></a>
