## SQL

Databaser består av samling med tabeller. SQL er standardspråk for å kommunisere med databaser for å lage nye tabeller, modifisere innhold, få ut relevant data og kontrollere brukerrettigheter (mm.). Det finnes mange ulike programvarer for å jobbe med databaser. De bruker variasjoner (eller dialekter) av SQL med litt ulike syntax, litt ulik behandling av datatyper og har litt ulike ekstra funksjonaliteter, men de er stort sett konform med SQL-standarden.

SQL er et high-level declarative språk der implementajsonsdetaljer i stor grad er skjult og blir håndtert av et *database management system* (dbms). Det blir oversatt til presise instruksjoner som er optimalisert for å utføre instruksjonen på mest mulig effektiv måte. 

### Kategorisering

SQL brukes for å håndtere alle aspekter ved databasen. Det er ikke alle deler av språket som er relevant for alle brukere. Det kan derfor være greit å gjøre litt inndelinger for å få mer oversikt over terrenget.

#### Inndeling av brukere

Ulike brukere forholder seg til SQL og databasen på ulike måter. Tenker vi kan dele inn i fire kategorier:
1. Dataingeniør
    - Har ansvar for utforming av databasen og innstrøm av nye data. Tror det har noe med pipeline å gjøre
    - Tar utgangspunkt i en datamodell (gjerne konseptualisertt gjennom ER-diagram). 
    - Bestemme hvilke tabeller, hvilke koblinger mellom tabeller, passe på at normalisert
2. Databaseadministrator
    - Har ansvar for drift, brukerrettigheter, mm.
    - Har sikkert rollen til dataingeniør for mindre databaser. Glidende overgang.
3. Avansert sluttbruker
    - Skriver spørringer i SQL for å få ut konkret informasjon fra databasen
    - Kan være ad-hoc/one-off analyser
    - Kan også være for rapporter med aggregerte data og nøkkeltall som blir oppdatert ved at de synkroniseres med databsen på jevnlige intervall.
4. Mindre tekniske sluttbrukere
    - Dette er brukere som ikke skriver SQL direkte, men interagerer med databasen gjennom grafiske brukergrensesnitt som genererer SQL-kode for å modifisere innhold i tabell eller få ut data.

#### Inndeling av språket

Vi kan grovt dele bruke funksjonalitetene i SQL inn i tre områder:
1. Datadefinisjon (struktur i tabeller)
    - Hvilke kolonner, hvilke domene (datatype og tillate verdier), hvilke nøkler
    - Det er noe *schema* og sånne ting som jeg ikke vet hva er
    - Hovedkommandoen er `create` som vi bruker til å lage ulike tingene
2. Databehandling (endre innhold i tabeller og utføre spørringer)
    - Utfører spørring med `select`. Litt usikker på terminologi (klausul, keyword,..)
    - Fjerner rad, legger til rad eller modifisere innhold i rad
3. Datakontroll (håndtere brukerrettigheter mm)

### Databasemodeller

Historisk var det hierarkisk- og nettverksmodeller. Hierarkisk var begrenset av at parent-child koblinger ikke kan være mange til én. Nettverk (graf) er mer fleksibel, men også mer komplisert.

Relasjonsmodellen er fleksibel abstraherer fra modellen for fysisk lagring. Dette er dominerende siden 80-tallet. Tror vi kan tenke på SQL som slags implementasjon av modellen. I nyere tid har store internettselskaper utviklet egne databasesystem med annen struktur som betegnes som NoSQL. Ikke relevant for meg.

#### Relasjonsmodellen

Hver rad er tuppel. Tabell består av mengde av rader, og er dermed en relasjon. Definerer en algebra på relasjonene med noen ulike operasjoner. Gir det matematisk formalisering. SQL er implementerer denne algebraen. 

##### Normalform

Vi vil at tabellene i databasen skal oppfylle noen ønskede egenskaper som vi betegner som normalformer. Endring av tabeller i samsvar med disse egenskapene kalles *normalisering*.
1. Først normalform
    - Kun atome data i hver kolonne (for eksemepl ikke liste av barn)
2. Andre normalform
    - Ingen delvis avhengighet i sammensatte primærnøkler.
    - Altså, ingen kolonner som kun har unike verdier for delmengde av kolonnene som utgjør primærnøkkel. 
    - Det medfører *redundans* som kan føre til *anamoliter* når vi modifiserer tabeller
3. Tredje normalform
    - Ingen transitiv avhengighet
    - Ikke kolonne som har kun har unike verdier for subset av de andre kolonnene i tabellen.
    - Ligner på andre normalform, men gjelder ikke bare for sammensatt primærnøkkel.

### DDL

#### Create

Kan lage ulike objekter med create..

#### Tabell

```sql
create database test -- vet ikke hvordan ser hvilken som er aktiv; flere databaser på samme server
create table test 
(
[firstName] varchar(32) NOT NULL, -- error hvis manglende verdi på den kolonnen
[age] int
)
alter table test add [id] int identity(1,1) primary key -- identity(start, step) generer automatisk verdier 

insert into test (firstName, age) values ('Sverre', 27) -- tuples som matcher kolonnenavn og verdier
```

##### Constraints

Vanlige constraints:
1. NOT NULL - Feilmelding hvis legge til rad med manglende data på gitt kolonne
2. UNIQUE - Feilmelding hvis legge til duplikat av annen verdi på kolonnen
3. PRIMARY KEY - Kombinerer begrensingene over
4. FOREIGN KEY - Subset av primærnøkkel den refererer til
5. CHECK - Feilmelding hvis ikke tilfredstiller betingelse vi definerer
6. DEFAULT - Hvilken verdi (i stedet for null)  som blir angitt hvis ikke spesifisert
7. CREATE INDEX - Kan gjøre spørringer mer effektive ...

Ser ut som det litt ulike mulige syntaks... Kan ha eget argument der vi lager navngitte begrensinger eller spesifisere på samme rad som vi definerer navn og datatype på kolonnen. Synes det er litt slitsomt å navngi ting.. finnes sikkert konvensjoner man kan lære.
```sql
gruppe varchar(20) check (Gruppe in ('personbil', 'varebil', 'lastebil', 'buss'));

gruppe varchar(20),
add constraint constr_navn check (Gruppe in ('personbil', 'varebil', 'lastebil', 'buss'));
```
Tror uansett det er *best practice* å legge til rader med `add constraint`

##### Primærnøkkel

Kan lage sammensatt primærnøkkel ved å legge til navngitt begrensning
```sql
DROP TABLE IF EXISTS dbo.Bilmodell
create table Bilmodell
(
Bilmerke varchar(32),
Bilmodell varchar(32),
Gruppe varchar(10),
AntallHK smallint,
constraint PK_Bilmodell primary key nonclustered (Bilmerke, Bilmodell)
)
```

##### Fremmednøkkel

Referrere til primærnøkkel i annen tabell. Hvis sammensatt må de referrere til alle.

```sql
constraint FK_Bilsalg foreign key (Bilmerke, Bilmodell) references Bilmodell(Bilmerke,Bilmodell)
```

#### Temp table

```sql
select *
into #tester -- tror navn må begynne med #
from test2
```
blir liggende i en tempdb database under system databases

```sql
-- eksempel
select min(a) min_a
into #temp_test2
from test2
group by b;

delete from test2
where a not in (select min_a from #temp_test2);

-- kunne alternativ gjort det med underspørring
delete from test2
where a not in (
	select min(a) from test2
	group by b
	);
```

#### Views

```sql
create view as my_name as 
select ...
```

#### Index

Lager disse objektene for at spørringene skal gå raskere..

#### schema

Oversikt over tables, indexer og views... kan ha flere skjema på samme underliggende database ... tror jeg !!

#### Alter

Kan endra *skjema* som beskriver strukturen til databasen.


```sql
-- legge til kolonne
alter table name
add colname datatype optional_constraint
default default_val

-- fjerne kolonne
alter table name
drop column colname

-- endre navn på tabell
alter table name
rename new_name
```

#### Datatype

Spesifiserer datatype til kolonner når vi lager tabell. Er viktig fordi det bestemmer hva slags type data som kan representeres og hvilke funksjoner som er definert. Atferd avhenger av datatype. Viktig å være bevisst på dette. Også viktig å være bevisst på hvordan sql forsøker å inferre datatype til nye kolonner som blir konstruert som funksjon av gamle.

Det er også viktig fordi det påvirker hvor mange bits som blir allokert til å representere data. Kan være fast antall uavhengig av innhold eller avhenge av innhold. Sistnevnte tar mindre plass, men en del operasjoner går tregere.

##### Numerisk

Har presise numeriske representasjoner (big og small ints, desimaltall med gitt presisjon). Har også floats.

Deler to ints så vil SQL forsøke å caste output til int, runder nedover. Ikke det vi vil ha. Må caste kolonne til float før vi deler

```SQL
CAST(kol AS Float)
```

har problem med å caste, kan bruke kolnavn*1.0  for å få det som float


##### String

Kan bruke wildcards til å filtrere
```sql
WHERE colname LIKE '%substring%' 
WHERE colname LIKE 'substring%' -- må begynne med denne substring
WHERE colname LIKE '__substring_' -- spesifisere nøyaktig hvor mange characters det kan være på sidene 
```

Bruker brackets for å indikere flere substrings..
```sql
WHERE colname LIKE '[abc]%' -- begynner med enten a, b eller c
WHERE colname LIKE '[!abc]%' -- begynner ikke med med verken a, b eller c
```

Kan concate strings med concat(a,b). For å få whitespace seperator må jeg først konvertere til varchar... litt usikker på hvorfor den ikke klarer å inferre en felles datatype, men hm.
```sql
select (cast(m.Fornavn as varchar(20)) + ' ' + cast(m.Etternavn as varchar(20))) from dbo.Medlem m
```

##### Dato

Har litt ulike datatyper for å representere tidspunkt. Implementasjoner varierer mellom varianter av sql.
- date ('yyyy-mm-dd')
- time ('hh:mm:ss[.nnnnnnn]')
- datetime ('yyyy-mm-dd hh:mm:ss[.nnnnnnn]')
mm

har også masse funksjoner 
- day() gir dag av måneden (dd), tilsvarende med month() og year()
- datepart(arg, colname) gir økt fleksibilitet, der arg in (quarter, dayofyear, ...)
- dateadd(arg, num, colname) kan brukes til aritmetikk med date, arg in (day, year,..) og num er hvor mange av enhet vi legge til

```sql
-- eksempel som finner id til dager som er varmere enn dagen før
select cur.id from Weather cur
join Weather prev
on cur.recordDate=dateadd(day,1,prev.recordDate)
and cur.temperature > prev.temperature 
```

##### Nulls

filtrerer nulls med
```sql
WHERE colname is null
```

##### blobs

### DML

#### Select

Bruker select til å velge å konstruere tabeller med angitte kolonner med utgangspunkt i data fra databasen. Har mange opsjonelle klausuler.

```SQL
SELECT [kol1, kol2]
    FROM [table1] -- Kan være enkelttabell eller sammensetning av rekker i flere tabeller (joins)
    WHERE [(cond1 OR cond2)] -- evaluerer logisk expression og beholder der sann.
    AND [cond3]
    LIMIT [num] -- antall rekker som returnerers. kan kombineres med offset dersom vi ikke vil ha n første
    ORDER BY [kol1] DESC -- har i utgangspunktet vilkårlig rekkefølge, så kan være greit å sortere
    
```

Rekkefølgen clause i statement blir kjørt avhenger av keyword

```SQL
FROM > WHERE > GROUP BY > HAVING > SELECT > ORDER BY > LIMIT
```

#### Where

Har fem måter å filtrere rader av tabellen som vises. 
1. Sammenligning
2. Medlemskap i intervall
3. Medlemskap i i tellbar mengde
4. Sjekke om null
5. String inneholder substring med angitt mønster

Det er predikater som evalueres som enten sann eller usann for hver av radene, og beholder hvis sann. Merk at SQL har treverdi-logikk med nulls som kan være greit å se på.

Eksempler på ulike måter å sammenligne
```SQL
WHERE ...
> a, = a, <> a, > ALL(a,b), > SOME(a,b) -- bruker <> for !=, bruke some og all for å atom på mengde

BETWEEN a AND b -- inclusive
IN (a,b,c)
IS null
```
Har wildcards for å matche substrings
```SQL
col_name = "string" -- case sensitive
col_name LIKE "string" -- case insenstive
col_name LIKE "%st%" -- matcher alle strings som inneholder `st`
col_name LIKE "st_" -- matcher alle strings som innehold st og ekstra bokstav, eg `ste`. kan bruke flere _
```

#### funksjoner

Har funksjoner for å lage nye kolonner fra informasjon i eksisterende. Har en del operasjoner som jo egentlig bare er funksjoenr de óg +, -, *, /, %. Hvilke funksjoner som er tilgjengelige og hva de utfører avhenger av datatypene til input-kolonnene. 
- Har ikke potensfunksjoner; må bruke power(a,b) for a^b
- Bruker a % 2 = 0 for å finne partall, modulus som sjekker om rest fra division

##### case

Vil bruke control flow til å utføre ulike funksjoner på ulike rader ut fra kriterie
```sql
CASE
    WHEN predikat THEN value -- der value også kan være funksjon av noe
    ELSE value
END AS colname
```

```sql
select 
	case
		when 2021-Fødselsår>=18 then Kjønn+cast(2021-Fødselsår as varchar(3))
		else Kjønn
	end as Klasse
from dbo.Medlem
```

##### Aggregeringsfunksjoner

Har i utgangspunktet fem aggregeringsfunksjoner (min, max, count, sum, avg)
```SQL
SELECT AGG(kol1) AS 'agg_kol1', 
       AGG(DISTINCT kol2) as 'blalba'
       FROM [...]
       ...
```
Funksjoner $f:\mathbb{R}^n\to\mathbb{R}$ som reduserer kolonnen til enkelt tall. Blir mer spennende når vi kombinerer med groupby

Merk at `count(*)` teller antall rader som tilhører ulike grupper i datasettet, mens `count(colname)` kun teller antall rader med gyldig verdi på angitt kolonne.

#### group by

Grupperer observasjoner med samme verdi på angitt(e) kolonne(r) slik at vi implisitt deler det inn i ulike tabeller. Rekonstruerer en enkelt tabell med de unike verdiene som indeks ved å aggregere innhold i tabell slik at det utgjør enkelt rad.

```SQL
SELECT [idx_col1, idx_col2], -- kolonner i select må enten være angitt i group by klausul
    AGG(val_col1) as 'alias1', -- eller være output av aggregeringsfunksjon
    AGG(val_col2) as 'alias2',
    FROM [table1]
    GROUP BY idx_col1, idx_col2
    HAVING alias1 > value -- filtrere output i aggregert tabell. som WHERE men evaluert etter group by
```

```sql
-- Finne samlet inntekt i de ulike butikkene
select stores.store_name, sum(items.quantity*items.list_price) revenue
from sales.stores stores 
join sales.orders orders
on stores.store_id=orders.store_id
join sales.order_items items on orders.order_id=items.order_id
group by store_name
order by revenue desc
```

#### Delspørring

Bruke output fra output fra en spørring som input i en annen. Output er tabell, som i spesialtilfelle kan være rad eller atomisk verdi. Kunne kjørt iterativt og flyttet verdier over manuelt, men mye bedre å bruke output fra en subquery. Underspørring løser i hvertfall to problem med filtrering av rader i WHERE-klausul

1. Utfordring at SELECT blir kjørt så jævlig sent så kan ikke bruke konstruerte variabler hefra til å filtrere output
2. Kan ikke bruke aggregerte funksjoner i where

Bruker exists for å sjekke om resultat av underspørring er ikke-tom (altså om det eksisterer rad)

```SQL
SELECT Major_category, Major
    FROM recent_grads
    WHERE Major_category IN (SELECT Major_category
                            FROM recent_grads
                            GROUP BY Major_category
                            ORDER BY SUM(TOTAL) DESC
                            LIMIT 3
                          );
```                          

```sql
/* Få informasjon om alle dyrene som tilhører zed*/
select pet.* from pet
where pet.id in (
    select person_pet.pet_id from person_pet
        join person 
            on person_pet.person_id=person.id AND person.first_name like "zed"
)
```

##### Vekselvirkende

Indre spørring avhenger av ytre for de det refererer til kolonne i tabell fra ytre. Litt usikker på når det er nødvendig. Et eller annet om å sjekke eksistens..

Tror det er litt analogt til groupby ved at vi internt kun betrakter delmengde av radene om gangen.

Eksempel der vi finner ansatte med inntekt som tilsvarer den høyeste inntekten til ansatte på sin avdeling. Dette er gjort uten vekselvirkende underspørring, men tror vi kunne brukt det i stedet ..
```sql
select
    d.Name Department,
    e.Name Employee,
    e.Salary
from Employee e join Department d
on e.DepartmentId = d.Id
join (
    select DepartmentId, Max(Salary) Salary
from Employee
group by DepartmentId
) t
on e.Salary = t.Salary
where e.DepartmentId = t.DepartmentId;
```


#### Joins

Lage tabell med data fra flere tabeller. Trenger id-kolonner for å matche rows. Begynner med kartesisk produkt av radene og filtrerer etter betingelse. Har litt ulik syntax vi kan bruke

```sql
select ... from ... join ..
ON a.x=b.x
USING x;

select ... from ...
natural join -- inferrer felles kolonne?
where a.x=b.x -- unngå join syntax, tror dette er dårlig 


```

I praksis bruker vi inner og left joins.
1. Inner - beholder kun rad med match
2. Left - beholder alle rader i venstre, padder attributt fra andre tabell med nulls hvis ikke match
3. Right - tilsvarende, men beholder alle i høyre
4. Outer - beholder alle rad i begge tabell, padder nulls dersom ikke match

Vi bestemmer hvilke kolonner som skal være med, hvilke rekkefølge og under hvilke navn med SELECT i første linje. Dette inkluderer kolonner fra tabeller som vi joiner senere i scriptet. Kan være vanskelig å skrive 100% lineært, men enkelt å gå frem og tilbake. Merk at `select` evalueres sent. Kan være greit å gi være kolonne sin egen linje for at det skal være oversiktelig. Merk også at vi kan filtrere og joine på kolonner som vi ikke selecter

```SQL
SELECT left.*, 
       right.kol AS kolnavn
FROM left_data AS left
INNER JOIN right_data AS right on left.idx = right.index 
```

Nyttig å bruke alias på tabellnavn siden jeg refererrer til kolonnenavn med alias.kolnavn. Bruker wildcard for å velge alle kolonner.

Hver tabell har en primary key som er ID som identifiserer unike rekker. I tillegg kan den ha foregin id-keys som mapper til primary keys i andre tabeller.

Eksempel der jeg har tabell med kjøpsorder. Hver invoice kan bestå av flere transaksjoner. De individuelle transaksjonene er primary key. Består av nøkler som mapper til andre tabeller slik at jeg kan få mer informasjon om kunde eller vare som ble solgt ved behov.

| invoice_line_id        | invoice_id           | track_id  |
| ------------- |:-------------:| -----:|
| 1      | 1 | 1600 |
| 2      | 1      |   12 |
| 3 | 2      |    27 |

Kan for eksempel ha en annen tabell med track_id som primary key. Den vil gjerne også inneholde keys slik at vi kan mappe til andre tabeller med informasjon om artisten

|track_id|artist_id|track|
|-|-|-|
| 12 | 23 |"hit me baby one more time"|
|27|123|"oompa"|
|1600|666|"thank u, nxt"|

Vi kan illustrere relasjon mellom tabeller i skjema.. bare liste kolonnenavn og se på koblinger..

##### Joins på flere enn to tabeller

Legge til informasjon fra flere kolonner på en tabell
```sql
SELECT
    pp.*,
    person.first_name person_name,
    pet.name pet_name,
    pet.age pet_age
FROM person_pet pp
JOIN person 
    ON pp.person_id = person.id
JOIN pet
    ON pp.pet_id=pet.id
```

Kan eventuelt gjøre det med indre/ytre i stedet for sekvensiell.. hmm.. litt usikker på hva som er best
```sql
select Ordrelinje.*, OrdreDato, Betegnelse 
from Vare inner join 
	(Ordrelinje
	 inner join Ordre 
	 on Ordrelinje.OrdreNr=Ordre.OrdreNr)
on Vare.VNr=Ordrelinje.VNr
```

##### joins på delspørring

```SQL
SELECT
    ta.album_title album,
    ta.artist_name artist,
    COUNT(*) tracks_purchased
FROM invoice_line il
INNER JOIN (
            SELECT
                t.track_id,
                al.title album_title,
                ar.name artist_name
            FROM track t
            INNER JOIN album al ON al.album_id = t.album_id
            INNER JOIN artist ar ON ar.artist_id = al.artist_id
           ) ta
           ON ta.track_id = il.track_id
GROUP BY 1, 2
ORDER BY 3 DESC LIMIT 5;
```

```sql
select ol.*, OrdreDato, Betegnelse,Totalbeløp from Ordrelinje ol
left join Ordre 
on ol.OrdreNr=Ordre.OrdreNr
left join Vare
on ol.VNr=Vare.VNr
left join (
select OrdreNr, sum(PrisPrEnhet*Antall) Totalbeløp from Ordrelinje -- kan ikke bruke alias fra ytre i delspørring
group by OrdreNr
) sub 
on ol.OrdreNr=sub.OrdreNr;
```

##### joins på samme tabell

Koble rader fra samme tabell på hverandre..
```sql
select e1.Name Employee from Employee e1
join Employee e2 on e1.ManagerId=e2.Id
where e1.Salary > e2.Salary
```

##### Rekursiv join

Kan også gjøre joins innad i samme tabell dersom releasjon mellom kolonnene.. f.eks. student koblet til supervisor, barn til foreldre mm.

```SQL
SELECT
    e1.employee_id,
    e2.employee_id supervisor_id
FROM employee e1
INNER JOIN employee e2 on e1.reports_to = e2.employee_id
LIMIT 4;
```

#### Mengdeoperasjoner

Kan bruke mengdeoperasjon til å sammenstillere resultar av flere spørringer. Har `union`, `intersect` og `except`.
```sql
SELECT col FROM table1
UNION
SELECT col FROM table2
```
Det forutsetter at spørreresultatene er unionskompatible:
1. Lik antall kolonner
2. Parvis unionskompatible (samme datatype (og domene?))
    - Matcher kolonner etter posisjon

### Utledede strukturer

Spørringer på databasen kan bli sammensatte. Kan være idé å lagre et mellomresultat og utføre spørringer på disse i stedet. De utledede stukturene blir ikke fysisk lagret noe sted; det er bare representasjoner av informasjon som er lagret i databasen. Det er hensiktsmessig å bruke dette dersom vi trenger å bruke denne representasjonen flere ganger. Et alternativ er såkalt *inline-view*; altså tabeller definert i underspørringer, der vi ikke beholder referanse til representasjonen.

Det finnes litt ulike typer utledede strukturer og jeg vet ikke helt forskjellen på dem.

#### View

#### Snapshot

Statisk; blir ikke oppdatert når endringer i underliggende data i databasen..

#### Common table expressions

Mulig jeg flytter det et annet sted siden tabellen kun eksister som del av script. Kan dele opp workflow og kjøre sekvensielt slik at enklere å følge logikk, for eksempel hvis vi vil utføre spørring på output av en group by
```sql
with class_cte
as
(select class, count(distinct student) num_students from courses
group by class)
select class from class_cte
where num_students >= 5
```

### Modifisere tabell

#### Legge til

Har to måter, avhengig om vi har verdi på alle kolonner eller kun subset. Må i såfall spesifisere hvilke kolonner vi legger til verdier. Ellers er det tilstrekkelig å legge til verdiene i riktig rekkefølge.
```sql
insert into table_name values (val1, val2)
insert into table_name (col2) values (val2)
```

#### Slette

```sql
delete from table_name where condition -- sjekk at vi ikke gjør feil ved å ta select statement på samme condition

truncate table -- fjerne alle data, men beholde struktur
```

#### Oppdatere

```sql
update table 
set col=new_val 
where condition
```
Eksempel:
```sql
insert into Bilmodell ([Bilmerke], [Bilmodell], [Gruppe], [AntallHK]) 
values ('Mercedes', 'Benz', 'hm', 350);

update Bilmodell set AntallHK=300
where Bilmerke='Mercedes' and Bilmodell='Benz';

delete from Bilmodell 
where Bilmerke='Mercedes' and Bilmodell='Benz';
```

### Diverse

Finner duplikate verdier
```sql
select distinct Email from Person p1
where p1.Email in
(
select Email from Person p2
group by p2.Email
having count(*) > 1
)
```

Kan ha lyst til å laste inn data fra .csv filer inn i database med angitt skjema. Kan bruke såkalt bulk insert
```sql
bulk insert table_name
from path_to_file
    with(
        firstrow = 2, -- ikke ta med kolonnenavn
        FIELDTERMINATOR = ',', -- Viktig å se på filen i tekst-editor får å undersøke struktur!!
        rowterminator = '\n'    
        );
```
Har mange andre opsjoner som kan bli nødvendig å se på

## SQL Server Management Studio (SSMS)

Kan lage database diagrams

Har lyst på bedre intellisense og autoformatering av kode (upper case og identasjon). Tror jeg må laste ned 3rd party, men var veldig stor fil ..

Jeg er veldig lite fornøyd med workflowen, så dette er topprioritert. Trenger å se data som er tilgjengelige i databasen og koblingen mellom tabellene.

## Databasemodellering 

Kan bruke *entity-relationship* (ER)-diagram til å representere datamodell visuelt. Finnes litt ulike notasjoner for å vise egenskaper ved koblinger mm.

Vi kan betrakte en relasjonsdatabase som en implementering eller realisering av den konseptuelle modellen.

### Litt terminologi

I ER-diagram snakker vi ikke om tabeller og kolonner. Vi betrakter entititer med attributter, hvorav en må være identifiserende. 

## Representasjon av informasjon

Må representere informasjon som bitstrenger.

### Tallsystem

Jeg vil si litt om tallsystem. Vi bruker titallssystem med ti "grunnleggende" tall. Kan lage nye tall ved å kombinere disse i en rekkefølge. Vekten vi legger på hver av grunntallene avhenger av plassering. Vekten blir multiplisert med 10 når vi beveger oss én plassering mot venstre. Kan være nyttig å representere det i en liste med omvendt rekkefølge.

In [13]:
tall = 2354
tall_liste = [int(digit) for digit in str(tall)[::-1]]
print(sum([tall_liste[k]*10**k for k in range(len(tall_liste))]))

2354


Mer generelt så er b-tallsystemet kjennetegnet ved:
- base b
- siffer 0,1,..,.b-1
- vekt b^k, der k er index fra høyre og starter i 0
- eks: $(d_2d_1d_0)_b = d_2b^2+d_1b^1+d_0b^0$

#### Binært tallsystem

Den grunnleggende enheten i datamaskiner er elektriske koblinger. Disse kan enten være av (ingen strøm) eller på (strøm). Maskinen kan 'oppfatte' forskjellen på disse to tilstandene. Vi kan assosiere tallene 0,1 eller (FALSE, TRUE) med tilstandene. Det kalles også for 'logic gates'. Uansett, ved å lage et system som består av flere koblinger kan vi bruke de ulike mulige kombinasjonene til å representere langt flere tilstander. Antallet unike mulige utfall er $2^n$ der $n$ er antall koblinger. Med utgangspunkt i dette kan vi få pc'en til å representere tall. Med sekvens av $n$ bits kan jeg vi representere heltall i $[0,2^N-1]$

Totallssystemet fungerer helt analogt til titallssystemet, bare at det er to grunnleggende tall (0,1) og at vekten på hvert siffer ganges med to for hver gang.

In [16]:
tall = 1001011
tall_liste = [int(digit) for digit in str(tall)[::-1]]
print(sum([tall_liste[k]*2**k for k in range(len(tall_liste))]))

75


In [20]:
int(str(tall),base=2)

75

In [21]:
bin(75) # første to chr indikerer hvilket tallsystem det er

'0b1001011'

#### Twos' complement representation

Totallsystemet er ikke det eneste praktiske måten å representere tall for pcen. Kan behandle en sekvens/følge av bits som den grunnleggende enheten. Tror gruppe på 8 bits er byte. Moderne pc'er behandler info i form av bytes. Hver byte kan ha 2^8 tilstander som kan representers med tall [0,255] . Finnes noe annet tallssystem for å jobbe med denne representasjonen (8-tall,16-tall), men dette begynnner å bli ganske perifert.

Utvidelse av binære tallsystem for å håndtere negative tall. Alt fungere som binær, bortsett fra at først siffer tolkes negativ. Verdien av det sifferet er større enn resten av tallene til sammen, så det er nok til å få negativ tall. Blir ganske umulig å konvertere fra sekvens av bits til 10-tallsystem, men er tilstrekkelig at pcen forstår det.

In [72]:
tall = 10
tall_reversed = str(tall)[::-1]
tall_liste = [int(digit) for digit in tall_reversed[:-1]]
K = len(tall_liste)
print(sum([tall_liste[k]*2**k for k in range(K)])-int(tall_reversed[-1])*2**(K))

-2


lavest verdi med $n$ bits er $100..000=-2^{n-1}$ og høyeste verdi er $011\ldots111 = 2^{n-1}-1$. Begynner å få rar atferd når vi forsøker å få representasjon av tall som ikke har representeres med det gitt antallet bits vi har reservert... Dette kalles integer overflow.

In [94]:
import numpy as np
print(np.int8(128)) # høyeste tall vi kan representere er 2^7-1=127
print(np.int16(2**16-1))
print(np.binary_repr(127,8))

-128
-1
01111111


I motsetning til native python are numpy integers med fast bredde (antall bits i reprentasjon, leading 0s hvis ikke trenger alle). Må passe på å unngå overflow, men er ikke så veldig reelt problem med 32/64 bit som vi pleier å bruke. Fordelen med fast lengde er at vi slipper overhead til native python integers og at vi kan feede bit representasjonen inn i kode som kan compiles i numerisk programmeringsspråk (type c/fortran).

### Representasjon av tekst

På samme måte som at vi trener en kobling mellom binær tilstall (0,1) og tall i vårt titallsystem trenger vi også representasjon av symboler i tekst. Vi trenger altså en regel som mapper mellom det pc'en ser og det vi ser. Dette er en såkalt encoding. Kan tenke på det som en dictionary mellom byte og symbol. Litt utfodring at vi trenger med enn 256 symboler.. hm.

Mest kjente er ASCII, men har ikke alle. Dersom tekst er laget med hensyn på en gitt encoding og vi laster inn med ASCII, så kan det være bytes som den ikke kjenner. Dette  gir '[?]' i teksten. 

In [37]:
encoding = 'sv'.encode('ASCII')
print(encoding)
print(type(encoding))
for byte in encoding:
    print(byte)
print(encoding.decode('ASCII'))    

b'sv'
<class 'bytes'>
115
118
sv


In [35]:
'svø'.encode('utf-8') # når den printer så forsøke å finne representasjon av byte fra ascii..

b'sv\xc3\xb8'

Unicode er dictionary mellom symbol (inkl. emojis og sjit) og såkalte tegnkoder. Det er ikke i seg selv en encoding, men finnes encodinger som tar utgangspunkt i dette for å gi representasjon i form av bytes (UTF-8, UTF-16, UTF-32). Tallet henspiller på antall bits som representer hvert symbol. Nedsiden med høyere bits er at det tar mer lagringsplass, men kan ha flere symboler..

Jeg kan
1. Forsøke å oppdage encoding med chardet... bruker detect på byte object, with open('...', mode='tb) as f: 
2. Kan konvertere encoding med å lese inn og skrive på nytt

tar dette ved behov

### Representasjon av bilde