## SQL

### syntax

Store bokstaver og identation er bare konvensjon for å gjøre mer leselig

Hele query er en statement

hver linje er clause.

har keywords og operators

```SQL
SELECT [kol1, kol2,...]
    FROM [table1, table2, ...]
    WHERE [(cond1 OR cond2)]
    AND [cond2]
    LIMIT [num]
    ORDER BY [kol1] DESC
    
```

Rekkefølgen clause i statement blir kjørt avhenger av keyword

```SQL
FROM > WHERE > GROUP BY > HAVING > SELECT > ORDER BY > LIMIT
```

### funksjoner

Kan kjøre aggregeringsfunksjoner på tabell. Eks: MIN, MAX, COUNT, AVG. Svare på spørsmål om verdiene i kolonnen. Kan spesifisere alias som brukes som kolonnenavn i resten av script + output tabell. Merk at jeg ikek kan bruke de nye aliasene når jeg konstrueker nye kolonne i select, eg kol1+kol2 as ny_kol må bruke navn fra tabell

```SQL
SELECT AGG(kol1) AS 'agg_kol1', 
       AGG(DISTINCT kol2) as 'blalba'
       FROM [...]
       ...
```
    

Har også funksjoner som transformerer hver celle i kolonne og gir ny kolonne. Har litt greier på strings men hmm, 

```SQL
SELECT
    CASE
    WHEN [kol1] [cond1] THEN [value1]
    WHEN [kol1] [cond2] THEN [value2]
    ELSE [value3]
    END AS [kolnavn]
```

### group by

```SQL
SELECT [idx_col1, idx_col2],
    AGG(val_col1) as 'alias1',
    AGG(val_col2) as 'alias2',
    FROM [table1]
    GROUP BY idx_col1, idx_col2
    HAVING alias1 > value
```

Litt ukomfortabel med hvordan jeg kombinerer det med aggregeringsfunksjoner.. Tror aggregering må skje i SELECT.. hmhmh.

### Datatype

Deler to ints så vil SQL forsøke å caste output til int, runder nedover. Ikke det vi vil ha. Må caste kolonne til float før vi deler

```SQL
CAST(kol AS Float)
```

har problem med å caste, kan bruke kolnavn*1.0  for å få det som float

### subquery

Bruke output fra output fra en query som input i en annen. Kunne kjørt iterativt og flyttet verdier over manuelt, men mye bedre å bruke output fra en subquery

subquery i klausul blir evaluert før resten

utfordring at SELECT blir kjørt så jævlig sent så kan ikke bruke konstruerte variabler hefra til å filtrere output

```SQL
SELECT Major_category, Major
    FROM recent_grads
    WHERE Major_category IN (SELECT Major_category
                            FROM recent_grads
                            GROUP BY Major_category
                            ORDER BY SUM(TOTAL) DESC
                            LIMIT 3
                          );
```                          

### Joins

Lage tabell med data fra flere tabeller. Trenger id-kolonne for å matche rows. I praksis bruker vi inner og left joins

Vi bestemmer hvilke kolonner som skal være med, hvilke rekkefølge og under hvilke navn med SELECT i første linje. Dette inkluderer kolonner fra tabeller som vi joiner senere i scriptet. Kan være vanskelig å skrive 100% lineært, men enkelt å gå frem og tilbake. Kan være greit å gi være kolonne sin egen linje for at det skal være oversiktelig. Merk også at vi kan filtrere og joine på kolonner som vi ikke selecter

```SQL
SELECT left.*, 
       right.kol AS kolnavn
FROM left_data AS left
INNER JOIN right_data AS right on left.idx = right.index
```

Nyttig å bruke alias på tabellnavn siden jeg refererrer til kolonnenavn med alias.kolnavn. Bruker wildcard for å velge alle kolonner.

Hver tabell har en primary key som er ID som identifiserer unike rekker. I tillegg kan den ha id-keys som mapper til andre tabeller.

Eksempel der jeg har tabell med kjøpsorder. Hver invoice kan bestå av flere transaksjoner. De individuelle transaksjonene er primary key. Består av nøkler som mapper til andre tabeller slik at jeg kan få mer informasjon om kunde eller vare som ble solgt ved behov.

| invoice_line_id        | invoice_id           | track_id  |
| ------------- |:-------------:| -----:|
| 1      | 1 | 1600 |
| 2      | 1      |   12 |
| 3 | 2      |    27 |

Kan for eksempel ha en annen tabell med track_id som primary key. Den vil gjerne også inneholde keys slik at vi kan mappe til andre tabeller med informasjon om artisten

|track_id|artist_id|track|
|-|-|-|
| 12 | 23 |"hit me baby one more time"|
|27|123|"oompa"|
|1600|666|"thank u, nxt"|

Vi kan illustrere relasjon mellom tabeller i skjema.. bare liste kolonnenavn og se på koblinger..

Kan også joine på tabell som jeg konstruerer i subquery

```SQL
SELECT
    ta.album_title album,
    ta.artist_name artist,
    COUNT(*) tracks_purchased
FROM invoice_line il
INNER JOIN (
            SELECT
                t.track_id,
                al.title album_title,
                ar.name artist_name
            FROM track t
            INNER JOIN album al ON al.album_id = t.album_id
            INNER JOIN artist ar ON ar.artist_id = al.artist_id
           ) ta
           ON ta.track_id = il.track_id
GROUP BY 1, 2
ORDER BY 3 DESC LIMIT 5;
```

#### Recurisve join

Kan også gjøre joins innad i samme tabell dersom releasjon mellom kolonnene.. f.eks. student koblet til supervisor, barn til foreldre mm.

```SQL
SELECT
    e1.employee_id,
    e2.employee_id supervisor_id
FROM employee e1
INNER JOIN employee e2 on e1.reports_to = e2.employee_id
LIMIT 4;
```

### Strings

Kan kombinere WHERE klausul med pattern matching dersom jeg kun trenger å matche substring

```SQL
WHERE kol LIKE "%pattern%"
```
der % matcher med alle strings. Kan ha enten på éne av sidene eller begge.

Kan kombinere strings  med || operator ...

### Kombinere med python

SQL er språk/api (?) for å kommunisere med database... greit. Jeg vil kommunisere med de fra et python script slik at jeg kan få ut csv jeg vil ha. Finnes ulike moduler.

1. sqlite3
2. mysql
3. postgres
4. ipython-sql
5. SQLAlchemy

Kan også bruke ipython-sql.. slags extension i stedet for vanlig python library, loader med %%load_ext sql

Kan da hooke opp mot SQLAlchemy url og bruke sql commando %%sql select * .. rett i notebook. Skjønner ingenting.

SQLAlchemy er mest high level.. gir meg python-objekt reperesentasjon, mens andre er mer direkte på databaseting...

Workflow er sqlite3 er:

1. bruke conn = connect('adresse') til å Connection object
2. bruke cursor = conn.cursor() til å aktivere cursor

... ting skjer gjennom cursor...

## Representasjon av informasjon

Må representere informasjon som bitstrenger.

### Tallsystem

Jeg vil si litt om tallsystem. Vi bruker titallssystem med ti "grunnleggende" tall. Kan lage nye tall ved å kombinere disse i en rekkefølge. Vekten vi legger på hver av grunntallene avhenger av plassering. Vekten blir multiplisert med 10 når vi beveger oss én plassering mot venstre. Kan være nyttig å representere det i en liste med omvendt rekkefølge.

In [13]:
tall = 2354
tall_liste = [int(digit) for digit in str(tall)[::-1]]
print(sum([tall_liste[k]*10**k for k in range(len(tall_liste))]))

2354


Mer generelt så er b-tallsystemet kjennetegnet ved:
- base b
- siffer 0,1,..,.b-1
- vekt b^k, der k er index fra høyre og starter i 0
- eks: $(d_2d_1d_0)_b = d_2b^2+d_1b^1+d_0b^0$

#### Binært tallsystem

Den grunnleggende enheten i datamaskiner er elektriske koblinger. Disse kan enten være av (ingen strøm) eller på (strøm). Maskinen kan 'oppfatte' forskjellen på disse to tilstandene. Vi kan assosiere tallene 0,1 eller (FALSE, TRUE) med tilstandene. Det kalles også for 'logic gates'. Uansett, ved å lage et system som består av flere koblinger kan vi bruke de ulike mulige kombinasjonene til å representere langt flere tilstander. Antallet unike mulige utfall er $2^n$ der $n$ er antall koblinger. Med utgangspunkt i dette kan vi få pc'en til å representere tall. Med sekvens av $n$ bits kan jeg vi representere heltall i $[0,2^N-1]$

Totallssystemet fungerer helt analogt til titallssystemet, bare at det er to grunnleggende tall (0,1) og at vekten på hvert siffer ganges med to for hver gang.

In [16]:
tall = 1001011
tall_liste = [int(digit) for digit in str(tall)[::-1]]
print(sum([tall_liste[k]*2**k for k in range(len(tall_liste))]))

75


In [20]:
int(str(tall),base=2)

75

In [21]:
bin(75) # første to chr indikerer hvilket tallsystem det er

'0b1001011'

#### Twos' complement representation

Totallsystemet er ikke det eneste praktiske måten å representere tall for pcen. Kan behandle en sekvens/følge av bits som den grunnleggende enheten. Tror gruppe på 8 bits er byte. Moderne pc'er behandler info i form av bytes. Hver byte kan ha 2^8 tilstander som kan representers med tall [0,255] . Finnes noe annet tallssystem for å jobbe med denne representasjonen (8-tall,16-tall), men dette begynnner å bli ganske perifert.

Utvidelse av binære tallsystem for å håndtere negative tall. Alt fungere som binær, bortsett fra at først siffer tolkes negativ. Verdien av det sifferet er større enn resten av tallene til sammen, så det er nok til å få negativ tall. Blir ganske umulig å konvertere fra sekvens av bits til 10-tallsystem, men er tilstrekkelig at pcen forstår det.

In [72]:
tall = 10
tall_reversed = str(tall)[::-1]
tall_liste = [int(digit) for digit in tall_reversed[:-1]]
K = len(tall_liste)
print(sum([tall_liste[k]*2**k for k in range(K)])-int(tall_reversed[-1])*2**(K))

-2


lavest verdi med $n$ bits er $100..000=-2^{n-1}$ og høyeste verdi er $011\ldots111 = 2^{n-1}-1$. Begynner å få rar atferd når vi forsøker å få representasjon av tall som ikke har representeres med det gitt antallet bits vi har reservert... Dette kalles integer overflow.

In [94]:
import numpy as np
print(np.int8(128)) # høyeste tall vi kan representere er 2^7-1=127
print(np.int16(2**16-1))
print(np.binary_repr(127,8))

-128
-1
01111111


I motsetning til native python are numpy integers med fast bredde (antall bits i reprentasjon, leading 0s hvis ikke trenger alle). Må passe på å unngå overflow, men er ikke så veldig reelt problem med 32/64 bit som vi pleier å bruke. Fordelen med fast lengde er at vi slipper overhead til native python integers og at vi kan feede bit representasjonen inn i kode som kan compiles i numerisk programmeringsspråk (type c/fortran).

### Representasjon av tekst

På samme måte som at vi trener en kobling mellom binær tilstall (0,1) og tall i vårt titallsystem trenger vi også representasjon av symboler i tekst. Vi trenger altså en regel som mapper mellom det pc'en ser og det vi ser. Dette er en såkalt encoding. Kan tenke på det som en dictionary mellom byte og symbol. Litt utfodring at vi trenger med enn 256 symboler.. hm.

Mest kjente er ASCII, men har ikke alle. Dersom tekst er laget med hensyn på en gitt encoding og vi laster inn med ASCII, så kan det være bytes som den ikke kjenner. Dette  gir '[?]' i teksten. 

In [37]:
encoding = 'sv'.encode('ASCII')
print(encoding)
print(type(encoding))
for byte in encoding:
    print(byte)
print(encoding.decode('ASCII'))    

b'sv'
<class 'bytes'>
115
118
sv


In [35]:
'svø'.encode('utf-8') # når den printer så forsøke å finne representasjon av byte fra ascii..

b'sv\xc3\xb8'

Unicode er dictionary mellom symbol (inkl. emojis og sjit) og såkalte tegnkoder. Det er ikke i seg selv en encoding, men finnes encodinger som tar utgangspunkt i dette for å gi representasjon i form av bytes (UTF-8, UTF-16, UTF-32). Tallet henspiller på antall bits som representer hvert symbol. Nedsiden med høyere bits er at det tar mer lagringsplass, men kan ha flere symboler..

Jeg kan
1. Forsøke å oppdage encoding med chardet... bruker detect på byte object, with open('...', mode='tb) as f: 
2. Kan konvertere encoding med å lese inn og skrive på nytt

tar dette ved behov

### Representasjon av bilde