## SQL

Databaser består av samling med tabeller. SQL er standardspråk for å kommunisere med databaser for å lage nye tabeller, modifisere innhold, få ut relevant data og kontrollere brukerrettigheter (mm.). Det finnes mange ulike programvarer for å jobbe med databaser. De bruker variasjoner (eller dialekter) av SQL med litt ulike syntax, litt ulik behandling av datatyper og har litt ulike ekstra funksjonaliteter, men de er stort sett konform med SQL-standarden.

SQL er et high-level declarative språk der implementajsonsdetaljer i stor grad er skjult og blir håndtert av et *database management system* (dbms). De blir oversatt til presise instruksjoner som er optimalisert for å utføre oppgaven på mest mulig effektiv måte. 

### Kategorisering

SQL brukes for å håndtere alle aspekter ved databasen. Det er ikke alle deler av språket som er relevant for alle brukere. Det kan derfor være greit å gjøre litt inndelinger for å få mer oversikt over terrenget.

#### Inndeling av brukere

Ulike brukere forholder seg til SQL og databasen på ulike måter. Tenker vi kan dele inn i fire kategorier:
1. Dataingeniør
    - Har ansvar for utforming av databasen og innstrøm av nye data. Tror det har noe med pipeline å gjøre
    - Tar utgangspunkt i en datamodell (gjerne konseptualisertt gjennom ER-diagram). 
    - Bestemme hvilke tabeller, hvilke koblinger mellom tabeller, passe på at normalisert
2. Databaseadministrator
    - Har ansvar for drift, brukerrettigheter, mm.
    - Har sikkert rollen til dataingeniør for mindre databaser. Glidende overgang.
3. Avansert sluttbruker
    - Skriver spørringer i SQL for å få ut konkret informasjon fra databasen
    - Kan være ad-hoc/one-off analyser
    - Kan også være for rapporter med aggregerte data og nøkkeltall som blir oppdatert ved at de synkroniseres med databsen på jevnlige intervall.
4. Mindre tekniske sluttbrukere
    - Dette er brukere som ikke skriver SQL direkte, men interagerer med databasen gjennom grafiske brukergrensesnitt som genererer SQL-kode for å modifisere innhold i tabell eller få ut data.

#### Inndeling av språket

Vi kan grovt dele bruke funksjonalitetene i SQL inn i tre områder:
1. Datadefinisjon, ddl
    - Hvilke kolonner, hvilke domene (datatype og tillate verdier), hvilke nøkler
    - Lage objekter innenfor et *schema*. Kan være flere schema for en gitt database
    - Hovedkommandoen er `create` som vi bruker til å lage ulike tingene
2. Databehandling, dml
    - Utfører spørring med `select`. Litt usikker på terminologi (klausul, keyword,..)
    - Fjerner rad, legger til rad eller modifisere innhold i rad
3. Datakontroll (håndtere brukerrettigheter mm)
    - Ikkje så relevant for meg

### DDL

Vi bruker sql til å konstruere selve databasen. Selv om vi bare jobber med database som er i produksjon kan vi likevel få bruk for å lage nye objekter, i stedet for å begynne fra scratch med scriptene hver gang. Objektene lar oss abstrahere vekk sql-logikken som ble brukt for å lage de, og det lar oss gjenbruke koden. Det kan blant annet være aktuelt å lage egen-definerte funksjoner og lagre mellom-resultater fra spørringer.

En database består altså av flere objekter enn bare tabellene. Har også views, temp tables, stored procedures, functions, triggers, mm. Et *schema* består av en samling av slike objekter. En database kan ha flere schema.

#### Create

Kan lage ulike objekter med create.. kan se de med object explorer i gui til dbms. Kan også få autocomplete i script.

#### Tabell

```sql
create database test -- vet ikke hvordan ser hvilken som er aktiv; flere databaser på samme server
create table test 
(
[id] int identity(1,1) -- identity(start, step) generer automatisk verdier 
[firstName] varchar(32) NOT NULL, -- error hvis manglende verdi på den kolonnen
[age] int,
constraint PK_test primary key id -- legge til navngitte begrensinger
)
```

##### Constraints

Vanlige constraints:
1. NOT NULL - Feilmelding hvis legge til rad med manglende data på gitt kolonne
2. UNIQUE - Feilmelding hvis legge til duplikat av annen verdi på kolonnen
3. PRIMARY KEY - Kombinerer begrensingene over
4. FOREIGN KEY - Subset av primærnøkkel den refererer til
5. CHECK - Feilmelding hvis ikke tilfredstiller betingelse vi definerer
6. DEFAULT - Hvilken verdi (i stedet for null)  som blir angitt hvis ikke spesifisert
7. CREATE INDEX - Kan gjøre spørringer mer effektive ...

Ser ut som det litt ulike mulige syntaks... Kan ha eget argument der vi lager navngitte begrensinger eller spesifisere på samme rad som vi definerer navn og datatype på kolonnen. Synes det er litt slitsomt å navngi ting.. finnes sikkert konvensjoner man kan lære.
```sql
gruppe varchar(20) check (Gruppe in ('personbil', 'varebil', 'lastebil', 'buss'));

gruppe varchar(20),
add constraint constr_navn check (Gruppe in ('personbil', 'varebil', 'lastebil', 'buss'));
```
Tror uansett det er *best practice* å legge til rader med `add constraint`

##### Primærnøkkel

Kan lage sammensatt primærnøkkel ved å legge til navngitt begrensning
```sql
DROP TABLE IF EXISTS dbo.Bilmodell
create table Bilmodell
(
Bilmodell varchar(32),
AntallHK smallint,
constraint PK_Bilmodell primary key nonclustered (Bilmerke, Bilmodell)
)
```

##### Fremmednøkkel

Referrere til primærnøkkel i annen tabell. Hvis sammensatt må de referrere til alle.

```sql
constraint FK_Bilsalg foreign key (Bilmerke, Bilmodell) references Bilmodell(Bilmerke,Bilmodell)
```

#### Temp table

Eksisterer når session er aktiv.

```sql
select *
into #tester -- tror navn må begynne med #
from test2
```
blir liggende i en tempdb database under system databases

```sql
-- eksempel
select min(a) min_a
into #temp_test2
from test2
group by b;

delete from test2
where a not in (select min_a from #temp_test2);

-- kunne alternativ gjort det med underspørring
delete from test2
where a not in (
	select min(a) from test2
	group by b
	);
```

#### Views

Et view er egentlig bare referanse til en select-spørring. Eksisterer ikke i fysisk forstand. Hvis det inngår i en annen spørring er det ikke sikkert at hele tabellen noen gang får alle verdiene fylt ut: blir del av sammensatt spørring som blir optimalisert internt.

```sql
create view my_name as 
select ...
```

#### Index

Lager disse objektene for at spørringene skal gå raskere..

#### schema

Samling av databaseobjekter. Det har en eier. Tror det blant annet er nyttig fordi vi kan kontrollere brukernes tilgang til ulike schema og lignende..

#### Funksjoner

Kan lage brukerdefinerte funksjoner som tar argumenter som inputs og returner tabell (?). Blir lagret under functions.

##### Scalar-valued function

```sql
create function add(@arg1 as int, @arg2 as int) -- spesifiserer datatype til inputs
returns int -- spesifisere datatype til output
begin
    return (@arg1+@arg2) -- merk at return uten s. Spesisifere body til funksjon; hva den gjør.
end

-- caller funksjonen ved å bruke det i spørring
select add(2,2)
```

##### Table-valued function

```sql
-- finn alle utlånsNr fra bruker med gitt låneNr
create function finn_utlån(@LNr int)
returns table
return 
	(select UtlånsNr from utlån
	 where LNr = @LNr);
     
-- caller funksjonen ved å bruke det som tabell i en spørring
select * from finn_utlån(2)
```     

#### Alter

Endre struktur i tabell etter at har blitt laget.


```sql
-- legge til kolonne
alter table name
add colname datatype optional_constraint
default default_val

-- fjerne kolonne
alter table name
drop column colname

-- endre navn på tabell
alter table name
rename new_name
```

#### Datatype

Spesifiserer datatype til kolonner når vi lager tabell. Er viktig fordi det bestemmer hva slags type data som kan representeres og hvilke funksjoner som er definert. Atferd avhenger av datatype. Viktig å være bevisst på dette. Også viktig å være bevisst på hvordan sql forsøker å inferre datatype til nye kolonner som blir konstruert som funksjon av gamle.

Det er også viktig fordi det påvirker hvor mange bits som blir allokert til å representere data. Kan være fast antall uavhengig av innhold eller avhenge av innhold. Sistnevnte tar mindre plass, men en del operasjoner går tregere.

##### Numerisk

Har presise numeriske representasjoner (big og small ints, desimaltall med gitt presisjon). Har også floats.

Deler to ints så vil SQL forsøke å caste output til int, runder nedover. Ikke det vi vil ha. Må caste kolonne til float før vi deler

```SQL
CAST(kol AS Float)
```

har problem med å caste, kan bruke kolnavn*1.0  for å få det som float


##### String

Har i hovedsak to datatyper:
1. [var]char
2. [var]nchar, unicode

Hvis vi bruker unicode må vi bruke `N'string'` for at den skal evalueres som literal... litt usikker på dette.

Kan bruke wildcards til å filtrere
```sql
WHERE colname LIKE '%substring%' 
WHERE colname LIKE 'substring%' -- må begynne med denne substring
WHERE colname LIKE '__substring_' -- spesifisere nøyaktig hvor mange characters det kan være på sidene 
```

Har litt mer regex matching. Bruker brackets for å indikere flere substrings..
```sql
WHERE colname LIKE '[abc]%' -- begynner med enten a, b eller c
WHERE colname LIKE '[a-c]%' -- begynner med enten a, b eller c
WHERE colname LIKE '[^abc]%' -- begynner ikke med med verken a, b eller c
```
Tror det er litt bergrenset støtte i sql-server. I postgreSQL har vi blant annet `similar to`, mens vi i stedet må bruke flere `like` i sql og kombinere med `or`.

Kan concate strings med concat(a,b). For å få whitespace seperator må jeg først konvertere til varchar... litt usikker på hvorfor den ikke klarer å inferre en felles datatype, men hm.
```sql
select (cast(m.Fornavn as varchar(20)) + ' ' + cast(m.Etternavn as varchar(20))) from dbo.Medlem m
```

```sql
select fornavn,
    substring(fornavn, 1, 3), -- string, start, length
    left(fornavn, 3), -- string, length (begynner fra første, special case av substring)
    right(fornavn, 3), -- string, length (tilsvarende, men fra slutten og teller fremover)
    len(fornavn), -- antall symboler/characters .. 
    charindex('s', fornavn), -- substring, string, [start] (finn index der substring av string starter, elr 0)
    replace(fornavn, 's','S'),
    trim('S' from fornavn) -- trim(expr) fjerne leading og trailing whitespace, kan fjerne andre lead/trail chrs
from kunde
where name like 'Sve%' -- sjekker begynnelse av string
or name like '% Sve%' -- sjekker begynnelse av andre ord i string
```

##### Dato og tid

Har litt ulike datatyper for å representere tidspunkt. Implementasjoner varierer mellom varianter av sql.
- date ('yyyy-mm-dd')
- time ('hh:mm:ss[.nnnnnnn]')
- datetime ('yyyy-mm-dd hh:mm:ss[.nnnnnnn]') (tror datetime2 i sql-server)
mm


har også masse funksjoner 
```sql
select *,
	day(ordredato), -- få ut dag av måneden (int)
	datepart(month,ordredato), -- mer fleksibel, kan få ut month, quarter, ..
	dateadd(day, 1, ordredato), -- (arg, num, col), legge til antall enheter, f.eks dag eller måned
    datediff(day,ordredato, sendtdato), -- antall enheter mellom to datetime. 
    sysdatetime(), -- kan brukes som argument i andre funksjoner..
    GETDATE(), -- tilsvarende men med lavere presisjon (datetime i stedet for dt2?)
    CAST( GETDATE() AS Date ) -- Hvis vi kun vil ha dato-komponent (ikke tid), så må vi konvertere datatype
from ordre
```


Ikke trivielt å jobbe dato og tid. Kan parse fra literal. Vil da implisitt bli konvertert... kunne gjort eksplisitt. Men greit å jobbe med strings siden vi da kan bruke wildcards! For å filtrere på observasjoner i november 2019 kan vi f.eks bruke
```sql
where date like '2019-11%'
where left(date, 7) = '2019-11' -- dette kan også brukes til å gruppere observasjoner innenfor samme måned
```



Kan bestå av både dato og tid... dersom datetime med kun dato spesifisert så defaulter tid til midnatt (00:00:0000000). Kanskje nødvendig å ta hensyn til.. Noe greier med tidssoner og sånt også.

```sql
-- eksempel som finner id til dager som er varmere enn dagen før
select cur.id from Weather cur
join Weather prev
on cur.recordDate=dateadd(day,1,prev.recordDate)
and cur.temperature > prev.temperature 
```

Kan bruke `date_format` til å få formattert string output fra datetime...
```sql
SELECT DATE_FORMAT(day, "%W, %M %e, %Y") AS day
FROM Days
```

##### Nulls

filtrerer nulls med
```sql
WHERE colname is null -- kan ikke bruke colname = null
```

Kan fylle nullverdier med coalesce. Returnerer første ikke-null verdi
```sql
coalesce(null,1) -- returnerer 1
coalesce(colname, val) -- returnerer kolonne med verdi fra kolonne dersom ikke null, ellers val
```

##### Boolean

Kan konstruere kolonne med bools med boolean expression i select ..
```sql
select
    colname = value
from
    tablename
```

##### blobs

#### Collation

Regler for hvordan case-sensitivitet og ting blir behandlet. Tror det alltid finnes en default collation, men vi kan jo spesifisere ting hvis vi vil... litt usikker på dette.

### DML

#### Select

Bruker select til å velge å konstruere tabeller med angitte kolonner med utgangspunkt i data fra databasen. Har mange opsjonelle klausuler.

```SQL
SELECT [kol1, kol2]
    FROM [table1] -- Kan være enkelttabell eller sammensetning av rekker i flere tabeller (joins)
    WHERE [(cond1 OR cond2)] -- evaluerer logisk expression og beholder der sann.
    AND [cond3]
    LIMIT [num] -- har ikke limit i sql-server, må bruke 'top n' i select i stedet
    ORDER BY [kol1] DESC 
    
```

Rekkefølgen clause i statement blir kjørt avhenger av keyword

```SQL
FROM > WHERE > GROUP BY > HAVING > SELECT > ORDER BY > LIMIT
```

Alt som er inni samme logiske fase av spørringen blir utført samtidig, så vi kan ikke bruke noe sekvens der (for eksempel bruke utledet til kolonne i select til å lage annen kolonne i samme spørring..)

##### Data munging

Kan ha lyst til å kontrollere hvordan informasjon fra tabellene blir representert i en gitt kolonne som er bestemt gjennom `select`. For strings kan jeg for eksempel ha lyst til å få ut substring eller erstatte substring med noe annet. For numeriske verdier er det viktig å runde av for at det skal bli leselig. 

Tenker dette blant annet er relevant dersom jeg vil bruke tabeller (views) som jeg definerer gjennom spørring som input for dashboard i f.eks. powerbi.

Hvilke funksjoner som er tilgjengelige avhenger av datatype til kolonne og er derfor beskrevet under datatype. Det vil også variere mellom ulike implementasjoner av sql.

##### Top

Bestemme hvor mange rader av tabellen som returneres. Det er mest meningsfult dersom de er rangert etter noe kriterie, altså kombinert med en `order by` klausul.
```sql
select top 5 -- kan også legge til `percent` for å få første 5% av radene
    *
from tablename
```
Kan eventuelt bruke offset-fetch i `order by` for mer kontroll

#### Where

Har fem måter å filtrere rader av tabellen som vises. 
```SQL
WHERE col_name
> a, = a, <> a, > ALL(a,b), > SOME(a,b) -- 1. sammenligning, bruker <> for !=
BETWEEN a AND b -- 2. medlemskap i intervall, er inclusive
IN (a,b,c) -- 3. medlemskap i tellbar mengde, kan bruke delspørring for å konstruere
IS null -- 4. sjekke om null, kan ikke bruke == null fordi null er plassholder for verdi så evaluerer ukjent
like '%substring' -- 5. string matcher med definert mønster
```
Det er predikater som evalueres som enten sann eller usann for hver av radene, og beholder hvis sann. 

##### Treverdi logikk

Predikat kan evalueres til `true`, `false` eller `unknown`. Det evaluerer til sistnevnte dersom verdi til uttrykket avhenger av hvilken verdi som blir representert av `null` i uttrykket. Merk at `null` kan betraktes som plassholder for ukjent verdi.
```sql
True and Null -- Unknown
True or Null -- True, fordi det er sant uansett om null representerer True eller False
Null = Null -- Unknown, fordi det avhenger av verdier som de ulike Null representerer. Bruk `val is null`
```
Kan være litt inkonsistent hvordan ulike funksjoner behandler predikat..
1. Accept True (forkast dersom unknown)
2. Reject False (beholde dersom unknown)

Må ta hensyn til dette når vi vil beholde alle verdier som ikke har en angitt verdi, inkludert nullverdiene.
```sql
select * from table_name
where col_name <> 'value' -- dropper null fordi NULL <> 'value' er unknown (ikke true) slik at det blir droppet
or col_name is null -- legge til for å bevare null
```
Alternativ løsning som substituerer inn verdi for null før vi evalurerer predikat,
```sql
select * from table_name
where isnull(col_name, 'other_value') <> 'value'
```

#### Order by

I utgangspunktet har ikke radene i tabell en rekkefølge, men vi kan spesifiserer dette ved å rangere de etter kriterium. Kan kombinerer med offset-fetch for å få mer kontroll over hvilke rader som blir returnert.
```sql
select *
from Kunde
order by PostNr
offset 2 rows
fetch next 2 rows only;
```

Merk at vi kan bruke order by på aggregatfunksjoner som ikke er med i select... feks hvis vi vil finne kunde med fleste ordre,
```sql
select top 1 -- kan bruke `select top 1 with ties` hvis vi vil ta med alle med høyeste verdi hvis uavgjort
	knr
from ordre
group by knr
order by count(*) desc -- kan ha aggregatfunksjoner i order by, kult!
```

Kan for eksempel bruke with `with ties`for å få øverste rank i hver undergruppe,
```sql
select top 1 with ties
    employee_id, 
    department_id
from employee
order by rank() over(partition by employee_id order by primary_flag desc) 
```

#### funksjoner

Har funksjoner for å lage nye kolonner fra informasjon i eksisterende. Har en del operasjoner som jo egentlig bare er funksjoenr de óg +, -, *, /, %. Hvilke funksjoner som er tilgjengelige og hva de utfører avhenger av datatypene til input-kolonnene. 
- Har ikke potensfunksjoner; må bruke power(a,b) for a^b
- Bruker a % 2 = 0 for å finne partall, modulus som sjekker om rest fra division
- iif(predikat, if_true, if_false)

##### case

Vil bruke control flow til å utføre ulike funksjoner på ulike rader ut fra kriterie
```sql
CASE
    WHEN predikat THEN value -- der value også kan være funksjon av noe
    ELSE value
END AS colname
```

##### Aggregeringsfunksjoner

Har i utgangspunktet fem aggregeringsfunksjoner (min, max, count, sum, avg)
```SQL
SELECT AGG(kol1) AS 'agg_kol1', 
       AGG(DISTINCT kol2) as 'blalba'
       FROM [...]
       ...
```
Funksjoner $f:\mathbb{R}^n\to\mathbb{R}$ som reduserer kolonnen til enkelt tall. Blir mer spennende når vi kombinerer med groupby

Merk at `count(*)` teller antall rader som tilhører ulike grupper i datasettet, mens `count(colname)` kun teller antall rader med gyldig verdi på angitt kolonne.

#### group by

Grupperer observasjoner med samme verdi på angitt(e) kolonne(r) slik at vi implisitt deler det inn i ulike tabeller. Rekonstruerer en enkelt tabell med de unike verdiene som indeks ved å aggregere innhold i tabell slik at det utgjør enkelt rad.

```SQL
SELECT [idx_col1, idx_col2], -- kolonner i select må enten være angitt i group by klausul
    AGG(val_col1) as 'alias1', -- eller være output av aggregeringsfunksjon
    AGG(val_col2) as 'alias2',
    FROM [table1]
    GROUP BY idx_col1, idx_col2
    HAVING alias1 > value -- filtrere output i aggregert tabell. som WHERE men evaluert etter group by
```

##### Gruppering på tid

Kan enten ønske å gruppere rader med en kolonne som er innenfor samme tidsintervall eller som har en felles komponent (dag, time,..).

For å gruppere observasjoner på samme dag (dato) så kan vi konvertere fra datetime til date
```sql
select
	CAST(start_ts AS date) startDato,
	count(1)
from table_name
group by CAST(start_ts AS date)
```

#### Vindufunksjoner

For hver rad blir det beregnet en skalarverdi ved å utføre en kalkulasjon på delmengde av radene som inngår i *vinduet*. I motsetning til *group by* så blir ikke tabellen kollapset slik at vi bare har de aggregerte verdiene; vi beholder informasjon om observasjon i hver rad samtidig som vi beregner størrelser som avhenger av de andre verdiene i tabellen.

Består av av `over` klausul og opsjonelle argument som avgrenser vinduet. Uten argument består vindu av hele tabellen.
```sql
select
    func(..) over(
        partition by .. -- vindu består av rader med samme verdi på kolonnen(e)
        order by .. -- sortere hvis funksjon avhenger av posisjon/relativ plassering
        frame by ..) -- videre avgrensing av vinduet ... usikker på dette
from table_name


Eksempler på funksjoner:
```sql
select
	department,
	last_name,
	salary,
	max(salary) over (partition by department),
	first_value(salary) over (partition by department order by salary desc), -- vil her tilsvare max
    rank() over (partition by department order by salary desc), -- distinkte ranker, sql-server
	lag(salary) over (partition by department order by salary desc), -- tar verdi til rad før
	lead(salary) over (partition by department order by salary desc), -- tar verdi til rad etter
	ntile(4) over (partition by department order by salary desc) -- kan brukes til å konstruere kvantiler
from
	staff
```    

##### Lag og lead

Koble på raden som er før og etter.. 

##### Kumulativ

Kan enten få kumulativ sum over hele tabellen (hvis kun `ORDER BY`) eller over ulike grupper i tabellen (hvis også `PARTITION BY`)
```sql
select
    player_id,
    event_date,
    sum(games_played) over(partition by player_id order by event_date) games_played_so_far
from activity
order by player_id
```

#### Delspørring

Vi kan bruke output fra en spørring som input i en annen. Output er tabell, som i spesialtilfelle kan være flere verdier (rad eller kolonne) eller atomisk verdi. Har ulike predikat som kan brukes avhengig av om det er flere verdier eller ikke.

Delspørringer kan være selvtilstrekkelig (kan evalueres uavhengig av ytre spørring) eller være vekselvirkende der den blir evaluert for hver rad i den ytre.

En av fordelene med delspørringer er at vi ikke trenger å binde mellomresultat til variabel. Eksempel:
```sql
-- variabel
declare @max_knr as int
= (select max(KNr) from Kunde)

select col_name
from kunde
where KNr=@max_knr

-- delspørring
select col_name
from kunde
where KNr=(select max(KNr) from Kunde)
```
Det kan være enklere/mer leselig, men på en annen side kan det være greit å skjule/dele opp logikk dersom delspørringer blir mer omfattende. Har litt ulike måter å lagre mellomresultat (variabler, cte, temp tables ..). Skal se at delspørring kan brukes i ulike klausuler av spørringer

##### Select

Konstruere kolonne gjennom delspørring. Vet ikke hvor aktuelt.

##### from

Alternativ til cte.. men synes cte er ryddigere, selv om mer verbost.

##### Where

Det er her jeg synes det er mest hensiktsmessig å bruke delspørring. Kan gjerne konstrueres først slik at jeg ser at den får riktige verdier.

##### Vekselvirkende

I vekselvirkende delspørringer matcher vi delmengde av radene i ytre på delmende av radene i indre. Dette får vi blant annet bruk for når vi vil finne rader som har egenskap relativt til gruppetilhørighet (f.eks. høyeste verdi av en kolonne for alle rader med samme verdi av annen kolonne).

Den indre spørring bruker verdi fra ytre spørring.
```sql
-- finn dyreste vare i hver kategori
select v1.VNr, v1.Pris
from vare as v1
where v1.Pris =
    (select max(v2.Pris) from vare as v2
     where v1.KatNr=v2.KatNr) -- kolonne fra tabellen v1 inngår i delspørring
```

Kan også bruke til å finne rader som ikke korresponderer med delspørring med tomt resultat, for eksempel for å finne varer som ikke er solgt fordi de ikke korresponderer med noen ordrelinjer
```sql
select * from vare v
where not exists
    (select * from Ordrelinje ol
     where v.VNr=ol.VNr)
```

#### Joins

I normaliserte databaser er data spredt over mange tabeller. For å få ut relevant data må vi kombinere (*joine*) data fra ulike tabeller. Det sentrale spørsmålet er hvilke rader i den ene tabellen som blir koblet på hvilke rader i den andre tabellen. Vi har en rekke ulike typer joins:
1. cross join - kartesisk produkt
2. inner join - filtrere rader som tilfredstiller betingelse (i praksis: samme verdi på gitt kolonne), default
3. outer join - som inner, men beholder der verdi ikke eksisterer i én av kolonnene slik at ingen match..

```sql
-- Best practice
select ... from ... join ...
ON a.x=b.x

select ... from a, b
where a.x=b.x

```

##### Outer joins

Anta for eksempel at vi vil matche ordrer (høyre) på kunder (venstre). Hvis vi tar inner join så droppes kundene som ikke har gjennomført ordre siden de ikke kan matches på kunde-id i ordre-tabellen. For å beholde informasjon om disse kundene må vi bruker left outer join.

Hvis vi vil telle antall ordre per kunde må vi være obs på å ikke bruke `count(*)` fordi
```sql
select k.Knr,
    count(*), -- Antall rader i tabellen, tilsvarerer 1 for kunde uten ordre
    count(o.OrdreNr) -- Antall rader med ikke-null i OrdreNr-kolonnen, tilsvarer 0 for kunde uten ordre
from Kunde k
left outer join ordre o
on k.KNr=o.KNr
group by k.Knr
```

##### Joins på flere enn to tabeller

Legge til informasjon fra flere kolonner på en tabell. Blir utført sekvensielt slik vi gjør første join og behandler resultatet av dette som venstre i neste join.
```sql
SELECT
    pp.*,
    person.first_name person_name,
    pet.name pet_name,
    pet.age pet_age
FROM person_pet pp
JOIN person 
    ON pp.person_id = person.id
JOIN pet
    ON pp.pet_id=pet.id
```

Kan eventuelt gjøre det med indre/ytre i stedet for sekvensiell.. hmm.. synes sekvensielt er bedre.
```sql
select Ordrelinje.*, OrdreDato, Betegnelse 
from Vare inner join 
	(Ordrelinje
	 inner join Ordre 
	 on Ordrelinje.OrdreNr=Ordre.OrdreNr)
on Vare.VNr=Ordrelinje.VNr
```

##### joins på samme tabell

Koble rader fra samme tabell på hverandre.. Kan jo alltids finnes koblinger/relasjoner mellom samme type entitet.

##### Rekursiv join

Kan også gjøre joins innad i samme tabell dersom releasjon mellom kolonnene.. f.eks. student koblet til supervisor, barn til foreldre mm. Dette er litt mindfuck.
```SQL
SELECT
    e1.employee_id,
    e2.employee_id supervisor_id
FROM employee e1
INNER JOIN employee e2 on e1.reports_to = e2.employee_id
LIMIT 4;
```

#### Mengdeoperasjoner

Kan bruke mengdeoperasjon til å sammenstillere resultar av flere spørringer. Har `union`, `intersect` og `except`.
```sql
SELECT col FROM table1
UNION
SELECT col FROM table2
```
Det forutsetter at spørreresultatene er unionskompatible:
1. Lik antall kolonner
2. Parvis unionskompatible (samme datatype (og domene?))
    - Matcher kolonner etter posisjon, slik at de ikke trenger å ha samme navn

### Mer aggregering

Databaser inneholder veldig mye informasjon. For å gjøre informasjonen operativ for å få innsikt, overvåke drift og få datagrunnlag for strategiske beslutninger må vi aggregere data (sammendragsmål, store linjer). Har allerede sett på dette med group by og aggregeringsfunksjoner der vi implisitt deler tabellen inn i mange små tabeller ut fra like verdier på angitte grupperingskolonner, anvende aggregeringsfunksjon som reduserer hver kolonne i tabell til enkelt tall for deretter å kombinere til felles tabell med de unike verdiene grupperingskolonner som indeks.

Det er litt mer terminologi her og noe ser ut til å korrespondere med funksjonaliteter i sql
1. cubes
2. rollup (høyere aggregeringsnivå)
3. drilldown (lavere aggregeringsnivå)

Tror dette har sammenheng med at vi vil ha data for ulike *grouping sets* i samme tabell...

#### Ulike typer databaser

Databaser har litt ulike bruksområder. Det er nødvendig for daglig drift med mange individuelle transaksjoner og må oppdateres fortløpende. Dessuten kan vi ha lyst til å bruke data i ettertid. Da er vi gjerne interessert i høyere aggregeringsnivåer og trenger ikke kontinuerlig oppdatering. Kan være hensiktsmessig å dele inn i to ulike typer databaser
1. OLTP, Online transactional database
2. OLAP, Online analytical database

Der jeg tror sistnevnte kan betraktes som datavarehus. Kan ha bestå av aggregerte data fra én eller flere databaser, og eventuelt andre kilder. Dette kan blant annet være utgangspunkt for strategiske beslutninger og brukes gjerne i sammenheng med plattformer som representerer data visuelt (rapport/dashboard i powerbi/tableau).

Datavarehus kan gjerne være inndelt i faktatabeller og dimensjonstabeller, der sistnevnte angir ulike dimensjoner vi kan aggregere data over. Tror dette har sammenheng med *data cube*.. og mer av termininologi for aggregering som er implementert i SQL.

#### Lage mer kompliserte aggregeringsfunksjoner

Hvis jeg trenger litt mer sammensatt logikk, f.eks. ulike funksjoner avhengig av egenskap i gruppen, så er det bedre å lage group-by tabellen eksplisitt som f.eks. cte og deretter bruke funksjon på denne tabellen i stedet for å prøve å gjøre flere ting på en gang.
```sql
/* Write your T-SQL query statement below */
with cte as(
select
    ad_id,
    sum(case when action='Clicked' then 1 else 0 end) as num_clicks,
    sum(case when action='Viewed'then 1 else 0 end) as num_views
from ads
group by ad_id)
select
    ad_id,
    case
        when num_clicks+num_views=0 then 0.0
        else round(100*(1.0*num_clicks/(num_clicks+num_views)), 2)
    end as ctr
from cte
order by ctr desc, ad_id
```

### Utledede strukturer

Spørringer på databasen kan bli sammensatte. Kan være idé å lagre et mellomresultat og utføre spørringer på disse i stedet. De utledede stukturene blir ikke fysisk lagret noe sted; det er bare representasjoner av informasjon som er lagret i databasen, og representasjonen er definert av spørringen. Internt blir spørring på utledet struktur behandlet som en sammensatt spørring. Det er ikke noe særlig gevinst eller kostnad i form av tidsbruk/*performance*, men det kan klargjøre og forenkle logikk. Kan blant annet brukes til å omgå begrensinger ved sql; for eksempel at vi ikke kan referere til andre kolonner som blir konstruert i select klausulen i en spørring.

Vi har fire utledete strukturer
1. Inline view
2. Common table expression
3. View
4. Inline table valued function

Hvorav de to første kun eksisterer innen for scope av en spørring, mens referansen til de to siste blir lagret slik at de kan gjenbrukes i flere spørringer.

#### Inline view

Bruker delspørring til å konstruere tabell i `from` klausul i spørringen.

#### Common table expressions

Alternativ er å lage navngitt representasjon. Gir mer lineær/sekvensiell logikk. 
```sql
with cte_name
as (select ... from ...)
select ... from cte_name
```
Kan ha sekvensielle cte
```sql
with 
    cte_name1
    as (select ... from ...),
    cte_name2
    as (select ... from cte_name1)
select ... from cte_name2    
```
Kan også bruke egenkobling på tabeller som henter kolonner fra en cte. Vet ikke når dette er aktuelt.
```sql
with cte_name
as (select ... from ...)
select ... from cte_name as cte1
join cte_name cte2
on cte1.id=cte2.id
```

#### View

Slags tabell som er definert av spørring. Lagrer representasjonen i dbms slik at den fremstår som vanlig tabell, men er ikke fysisk lagret og litt begrensninger på i hvilken grad vi kan oppdatere verdier og sånn. Må sikre intern konsistens med data fra de underliggende tabellene som data er hentet fra.

Views gir fleksibilitet i representasjon av data i databasen. Kan 'erstatte' hele database for utvalgte brukergrupper, eller så vil kanskje bare lagre noen utledede tabeller som vi vil bruke mange ganger (slik at vi slipper å gjøre joins om igjen og om igjen for å konstruere).

Finnes også materialized views som faktisk blir fysisk lagret. Tar lagringsplass, men slipper å kjøre spørring..

#### Inline table valued function

Alternativ til view der representasjon avhenger av parameter/argument. Se table valued function ...

### Modifisere tabell

Andre del av DML går ut på å legge til, endre og slette rader i tabeller som er konstruert med DDL.

#### Legge til

Har to måter, avhengig om vi har verdi på alle kolonner eller kun subset. Må i såfall spesifisere hvilke kolonner vi legger til verdier. Ellers er det tilstrekkelig å legge til verdiene i riktig rekkefølge.
```sql
insert into table_name values (val1, val2)
insert into table_name (col2) values (val2)
```

##### Bulk insert

Kan ha lyst til å laste inn data fra .csv filer inn i database med angitt skjema. Kan bruke såkalt bulk insert
```sql
bulk insert table_name
from path_to_file
    with(
        firstrow = 2, -- ikke ta med kolonnenavn
        FIELDTERMINATOR = ',', -- Viktig å se på filen i tekst-editor får å undersøke struktur!!
        rowterminator = '\n' -- kan være nødvendig å bruke '0x0a', vet ikke hvorfor
        );
```
Det er ikke trivielt å konstruere database fra folder med csv-filer. Sliter med å håndtere nulls og få riktig dato når den parser string som ikke har 'yyyy-mm-dd' format..

Tror en mulig fremgangsmåte er å behandle csv-filene før vi jobber i sql slik at de blir mest mulig medgjørlige, blant annet erstatte string-representasjon av null med `''`.

Tror uansett at jeg er avhengig av å bruke wizard/gui til å generere sql-kode hvis dette noensinne blir aktuelt i praksis.

#### Slette

```sql
delete from table_name where condition -- sjekk at vi ikke gjør feil ved å ta select statement på samme condition
truncate table -- fjerne alle data, men beholde struktur
```

#### Oppdatere

```sql
update table 
set col=new_val 
where condition
```
Eksempel:
```sql
insert into Bilmodell ([Bilmerke], [Bilmodell], [Gruppe], [AntallHK]) 
values ('Mercedes', 'Benz', 'hm', 350);

update Bilmodell set AntallHK=300
where Bilmerke='Mercedes' and Bilmodell='Benz';

delete from Bilmodell 
where Bilmerke='Mercedes' and Bilmodell='Benz';
```

### Transaksjoner

En transaksjoner består av én eller flere spørringer mot en database som utgjør en logisk enhet. Vi vil derfor at enten hele transaksjonen blir utført eller, hvis det skjer noe feil, at ingen av spørringene blir utført. 
1. Flere brukere
2. Sikkerhetskopi
3. Gjenoppbygging

Noe greier med commit (gjøre endelig/lagre) og rollback (angre). Transaksjonslogg.

Vil at transaksjon skal være *ACID*
1. A(tomic)
2. C()
3. I(solated)
4. D(urable)

#### Eksempel

Når bruker bestiller vare må vi legge til rader og oppdatere verdier i flere tabeller. Det utgjør dermed en transaksjon med flere spørringer.
```sql
declare @pris int = (select dbo.get_price(44939)) -- scalar valued function som henter pris fra vare
insert into ordre(ordrenr, ordredato, knr)
    values (219999, CAST( GETDATE() AS Date ) , 5009);
insert into Ordrelinje(ordrenr, VNr, PrisPrEnhet, antall)
	values (219999, 44939, @pris , 5);
update Vare set Antall=Antall-5
where VNr=44939;

```

### Diverse

Vi bør unngå å bruke transformasjoner av kolonner vi filtrerer på fordi vi mister indeks slik at den må søke over hele tabellen. Er for eksempel bedre å bruke
```sql
select *
from ordre
where ordredato > '20190920'
and ordredato <= '20190921'
```
for å finne ordre som ble bestilt '21-09-2019' i stedet for å bruke month(), day() og sånn på ordredato.

## SQL-server

###  Server Management Studio (SSMS)

Kan lage database diagrams

Har lyst på bedre intellisense og autoformatering av kode (upper case og identasjon). Tror jeg må laste ned 3rd party, men var veldig stor fil ..

Det er en del synergi mellom object explorer og script ..

Kan bruke verktøy gjennom gui til programmet for å laste inn data fra csv filer mm. Automatisk generering av skjema..

### T-sql

#### Lokale variabler

Kan definere lokal variabel som kan refereres til i script. Andre kommandoer som bruker den lokale variabelen må utføres i samme kjøring av scriptet siden det ikke blir lagret noe sted (sånn som med cte mm.). Mer presist er det kun i namespace for en gitt batch. Tror batch er konsept i T-sql.

Tror alle lokale variabler vi lager er tabeller (med atomiske verdier som special case), men ekke sikker. Har jo andre typer objekter (funksjoner mm..)
```sql
declare @var_name datype = value
-- eks:
DECLARE @a DATETIME = '2015-05-07 10:05:23.187'
SELECT @a;
```

#### Batch

Tror det er samling av kommandoes som blir sendt til database samtidig. Har felles scope slik at lokale variabler som blir definert innenfor én batch ikke kan bli referreert til utenfor. Vil også bli utført én "execution plan" (internt i dbms) for hver batch av kommandoer.

Hvis vi kjører et helt script rett fram så tror jeg det utgjør en batch, men kan også dele opp script med batch terminator. Default er `GO`. Kan være nødvendig fordi noen ting må bli utført separat, men vi vil ha det i samme script... hmmhmh.

også noe poeng med at `;` indikerer batch.. og noe med procedure..

## Databasemodellering 

Før vi lager en database må vi ha oversikt over hvilke data vi trenger å lagre. Kan for eksempel være aktuelt å bevare historiske data om egenskaper til entiteter.

Finnes ulike måter å modellere data med ulike nivåer av abstraksjon... konseptuelt, som tabeller og representasjon internt (fysisk lagring). Vil se litt på første to. Merk at ikke alle synes det er hensiktsmessig å utføre konseptuell modellering. Kan i stedet gå rett på å modellering av tabellstruktur.

### Konseptuell datamodell

Før vi konstruerer schema til database må vi ha oversikt over hvilke data vi skal lagre og hvordan vi kan organisere det. Vi lager en konseptuell datamodell med entiteter og deres attributt, samt forholdene mellom entitetene. Vi skiller mellom *type* av entitet og deres *forekomster*. Det er forhold mellom to entitetstyper dersom forekomster av den éne er assosiert med forekomst at den andre. For eksempel vil utlån være forbundet med en gitt låntager. Vi bruker *entity-relationship* (ER)-diagram til å representere entiteter og forhold visuelt. Utformingen er en gradvis prosess der vi legger til mer og mer detaljert informasjon.

1. Entiteter (boks)
    - Navn
    - Attributt (navngi egenskaper og eventuelt bestemme datatype)
    - Identifikator
2. Forhold (linjer mellom bokser)
    - Spesifisere minste og største kardinalitet
    - Kan forsøke å navngi forholdet og spesifisere retning
    - Kan være *egenforhold* der forekomster av samme entitet er forbundet med hverandre, f.eks. giftemål mellom personer

#### Svak entititet

Det finnes et spesielt type forhold der en såkalt *svak entitet* ikke kan eksistere uten forekomst av tilhørende *sterk entitet* som den har forhold til. Tror dette forholdet kalles *identifiserende*. Den svake entiteten arver identifikator fra den sterke.

Eksempel er kinosal som arver sin eksistens fra kinoen den er plassert i. Litt usikker på praktisk implikasjoner ved svake entiteter.

#### Historisk data

Kan være hensiktsmessig med egne entiteter for historisk data. Hvis vi kun er interessert i nåværende egenskap ved entitet, så kan vi ha én rad med attributter per entitetsforekomst i en tabell. Denne kan vi oppdaterer ettersom verdiene endrer seg. Men da mister vi informasjon om tidligere verdier.

Kan derfor lage egen entitet med historisk verdi av ulike attributt. Lagre verdi og dagen det blir endret, så vi kan rekonstruere historien.

#### Notasjon

Det finnes ulike notasjoner for hvordan vi representerer modellen.
1. Kråkefot
    - Navn fra hvordan den representere største kardinalitet
2. Universal modelling language (UML)
    - Bruker klassediagram. Subtyper (hierarki).
    - Bruker min..max til å beskrivere minste og største kardinalitet, eks: 1..1 0..*
3. Chen
    - Tar større plass siden attributt ikke er i boks til entitet..

### Logisk datamodell

Det er ganske enkelt å gå fra konseptuell til logisk databasemodell fordi entitet og attributt korresponderer med tabell og kolonne, og vi kan operasjonalisere forhold med fremmednøkler. Kan derfor være like greit å tenke tabeller med én gang.

Historisk var det hierarkisk- og nettverksmodeller. Hierarkisk var begrenset av at parent-child koblinger ikke kan være mange til én. Nettverk (graf) er mer fleksibel, men også mer komplisert.

Relasjonsmodellen er fleksibel og abstraherer fra modellen fra fysisk lagring. Det betyr at vi kan fokusere på hva vi vil gjøre og se bort i fra intern implementasjon av databasen. 

Dette er den dominerende modellen siden 80-tallet. Tror vi kan tenke på SQL som slags implementasjon av modellen. I nyere tid har store internettselskaper utviklet egne databasesystem med annen struktur som betegnes som NoSQL. Ikke relevant for meg.

#### Relasjonsmodellen

Matematisk formalisering av hvordan vi kan representere databaser og operasjoner vi ønsker å utføre på dem.

Vi kan betrakte tabeller som relasjoner, det vil si mengder av tupler. Det har i tillegg litt ekstra struktur ved at mengdene som korresponderer med gitte posisjoner i tuplene er *attributter* med *domene*. For å gjøre dette eksplisitt kan vi representere
- Tabell som $T(A_1, \ldots, A_n)$
- Rad som $(A_1:v_1, \ldots, A_n:v_n)$
for å indikere at verdiene i tuppelen korresponderer med attributt.

Modellen gir oss blant annet integritetsregler og en algebra med fåtall operasjoner som vi kan bruke til å produsere nye relasjoner fra eksisterende.

##### Funksjonell avhengighet

Vi kan si at det er funksjonell avhengighet mellom $B$ og $C$, eller at $B$ bestemmer $C$, $B \to C$, hvis for det for alle $(a_1, b_1, c_1)$ og $(a_2, b_2, c_2)$ er slik at $b_1=b_2$ medfører at $c_1=c_2$.

Tror vi vil representere denne funksjonelle avhengigheten i egen tabell.

##### Normalform

Vi vil at tabellene i databasen skal oppfylle noen ønskede egenskaper som vi betegner som normalformer. Endring av tabeller i samsvar med disse egenskapene kalles *normalisering*. Det innebærer i praksis at vi deler opp tabeller for å unngå redundans. Representerer avhengighet mellom kolonner i egen tabell i stedet for å lagre alle verdiene.
1. Først normalform
    - Kun atome data i hver kolonne (for eksemepl ikke liste av barn)
2. Andre normalform
    - Ingen delvis avhengighet i sammensatte primærnøkler.
    - Altså, ingen kolonner som kun har unike verdier for delmengde av kolonnene som utgjør primærnøkkel. 
    - Det medfører *redundans* som kan føre til *anamoliter* når vi modifiserer tabeller
3. Tredje normalform
    - Ingen transitiv avhengighet
    - Ikke kolonne som har kun har unike verdier for subset av de andre kolonnene i tabellen.
    - Ligner på andre normalform, men gjelder ikke bare for sammensatt primærnøkkel.
    
Normalisering gjør det enklere å legge til nye verdier, oppdatere gamle og slette observasjoner. Representasjonen kan derimot gjøre det vanskeligere å analysere siden vi må koble data fra mange tabeller for å finne alle nødvendige egenskaper til en gitt observasjon (entitetsforekomst). Det kan derfor være hensiktsmessig å de-normalisere noen tabeller og lagre denne alternative representasjonen som et *view*.    

##### Integreitetsregler

Kan dele inn i
1. Entitetsintegretitet
    - Primærnøkkel er uten dupliserte verdier eller nullverdier
2. Referanseintegritet
    - Fremmednøkkel er unionskompatibel med primærnøkkel den referrerer til og verdiene i fremmednøkkel er delmengde av verdiene i primærnøkkelen.

##### Algebra

Vet ikke om jeg gidder å ta dette eksplisitt, men kult at vi får så mye funksjonalitet fra få operasjoner og at SQL er en implementering av disse. 

## Representasjon av informasjon

Må representere informasjon som bitstrenger.

### Tallsystem

Jeg vil si litt om tallsystem. Vi bruker titallssystem med ti "grunnleggende" tall. Kan lage nye tall ved å kombinere disse i en rekkefølge. Vekten vi legger på hver av grunntallene avhenger av plassering. Vekten blir multiplisert med 10 når vi beveger oss én plassering mot venstre. Kan være nyttig å representere det i en liste med omvendt rekkefølge.

In [13]:
tall = 2354
tall_liste = [int(digit) for digit in str(tall)[::-1]]
print(sum([tall_liste[k]*10**k for k in range(len(tall_liste))]))

2354


Mer generelt så er b-tallsystemet kjennetegnet ved:
- base b
- siffer 0,1,..,.b-1
- vekt b^k, der k er index fra høyre og starter i 0
- eks: $(d_2d_1d_0)_b = d_2b^2+d_1b^1+d_0b^0$

#### Binært tallsystem

Den grunnleggende enheten i datamaskiner er elektriske koblinger. Disse kan enten være av (ingen strøm) eller på (strøm). Maskinen kan 'oppfatte' forskjellen på disse to tilstandene. Vi kan assosiere tallene 0,1 eller (FALSE, TRUE) med tilstandene. Det kalles også for 'logic gates'. Uansett, ved å lage et system som består av flere koblinger kan vi bruke de ulike mulige kombinasjonene til å representere langt flere tilstander. Antallet unike mulige utfall er $2^n$ der $n$ er antall koblinger. Med utgangspunkt i dette kan vi få pc'en til å representere tall. Med sekvens av $n$ bits kan jeg vi representere heltall i $[0,2^N-1]$

Totallssystemet fungerer helt analogt til titallssystemet, bare at det er to grunnleggende tall (0,1) og at vekten på hvert siffer ganges med to for hver gang.

In [16]:
tall = 1001011
tall_liste = [int(digit) for digit in str(tall)[::-1]]
print(sum([tall_liste[k]*2**k for k in range(len(tall_liste))]))

75


In [20]:
int(str(tall),base=2)

75

In [21]:
bin(75) # første to chr indikerer hvilket tallsystem det er

'0b1001011'

#### Twos' complement representation

Totallsystemet er ikke det eneste praktiske måten å representere tall for pcen. Kan behandle en sekvens/følge av bits som den grunnleggende enheten. Tror gruppe på 8 bits er byte. Moderne pc'er behandler info i form av bytes. Hver byte kan ha 2^8 tilstander som kan representers med tall [0,255] . Finnes noe annet tallssystem for å jobbe med denne representasjonen (8-tall,16-tall), men dette begynnner å bli ganske perifert.

Utvidelse av binære tallsystem for å håndtere negative tall. Alt fungere som binær, bortsett fra at først siffer tolkes negativ. Verdien av det sifferet er større enn resten av tallene til sammen, så det er nok til å få negativ tall. Blir ganske umulig å konvertere fra sekvens av bits til 10-tallsystem, men er tilstrekkelig at pcen forstår det.

In [72]:
tall = 10
tall_reversed = str(tall)[::-1]
tall_liste = [int(digit) for digit in tall_reversed[:-1]]
K = len(tall_liste)
print(sum([tall_liste[k]*2**k for k in range(K)])-int(tall_reversed[-1])*2**(K))

-2


lavest verdi med $n$ bits er $100..000=-2^{n-1}$ og høyeste verdi er $011\ldots111 = 2^{n-1}-1$. Begynner å få rar atferd når vi forsøker å få representasjon av tall som ikke har representeres med det gitt antallet bits vi har reservert... Dette kalles integer overflow.

In [94]:
import numpy as np
print(np.int8(128)) # høyeste tall vi kan representere er 2^7-1=127
print(np.int16(2**16-1))
print(np.binary_repr(127,8))

-128
-1
01111111


I motsetning til native python are numpy integers med fast bredde (antall bits i reprentasjon, leading 0s hvis ikke trenger alle). Må passe på å unngå overflow, men er ikke så veldig reelt problem med 32/64 bit som vi pleier å bruke. Fordelen med fast lengde er at vi slipper overhead til native python integers og at vi kan feede bit representasjonen inn i kode som kan compiles i numerisk programmeringsspråk (type c/fortran).

### Representasjon av tekst

På samme måte som at vi trener en kobling mellom binær tilstall (0,1) og tall i vårt titallsystem trenger vi også representasjon av symboler i tekst. Vi trenger altså en regel som mapper mellom det pc'en ser og det vi ser. Dette er en såkalt encoding. Kan tenke på det som en dictionary mellom byte og symbol. Litt utfodring at vi trenger med enn 256 symboler.. hm.

Mest kjente er ASCII, men har ikke alle. Dersom tekst er laget med hensyn på en gitt encoding og vi laster inn med ASCII, så kan det være bytes som den ikke kjenner. Dette  gir '[?]' i teksten. 

In [37]:
encoding = 'sv'.encode('ASCII')
print(encoding)
print(type(encoding))
for byte in encoding:
    print(byte)
print(encoding.decode('ASCII'))    

b'sv'
<class 'bytes'>
115
118
sv


In [35]:
'svø'.encode('utf-8') # når den printer så forsøke å finne representasjon av byte fra ascii..

b'sv\xc3\xb8'

Unicode er dictionary mellom symbol (inkl. emojis og sjit) og såkalte tegnkoder. Det er ikke i seg selv en encoding, men finnes encodinger som tar utgangspunkt i dette for å gi representasjon i form av bytes (UTF-8, UTF-16, UTF-32). Tallet henspiller på antall bits som representer hvert symbol. Nedsiden med høyere bits er at det tar mer lagringsplass, men kan ha flere symboler..

Jeg kan
1. Forsøke å oppdage encoding med chardet... bruker detect på byte object, with open('...', mode='tb) as f: 
2. Kan konvertere encoding med å lese inn og skrive på nytt

tar dette ved behov

### Representasjon av bilde

## Litt om internett

Internett er et nettverk av nettverk. Web er en anvendelse av internett og består i enkleste form av en mengde dokumenter som er koblet sammen med referanser (hyperlenker) til hverandres adresse (URL). Dokumentene er lagret i et standardisert format (HTML) som kan tolkes av nettlesere. For å få tilgang til dokumenter som ikke allerede ligger lagret på disk må nettleseren sende forespørsel til en webtjener om å få tilgang til dokumentet. Reglene for kommunikasjonen mellom nettleser (klient) og webtjener er angitt i protokollen HTTP. Hvis forespørselen går gjennom blir dokumentet sendt slik at det ligger lokalt i minnet og kan vises av nettleser. Ellers kan det vises ulike feilkoder. 

Nettsider er ikke bare statiske dokumenter. Det kan være dynamiske applikasjoner som er koblet opp mot database for å vise ulikt innhold til ulike brukere og generere innhold på forespørsel. Applikasjonene kan derfor til dels betraktes som grensesnitt som generer SQL-kode og viser representasjon av resultat av spørring.