# Skript og moduler

Et skript er en fil med python kode som utfører sekvens av operasjoner.

En modul er også en fil med python kode og .py-suffix. Den har et namespace med variabelnavn som mapper til objekter (tall, funksjoner, classes) som vi kan importere. Ved å organisere kodebasen i moduler kan vi skjule implementasjonsdetaljer for hovedprogrammet (enten dette er et script eller en dataanalyse) og det fasiliterer gjenbruk av kode siden vi får tilgang til det gitte namespacet i ulike script.

En package er en samling med moduler i en folder. Denne folderen må inneholde en `__init__.py`-fil for at interpreteren skal skjønne at folderen utgjør en package.

Library er en samling med packages.

## Namespace

Vi kan betrakte namespace som dictionary som mapper fra variabelnavn til objekter. Vi har flere namespace som kan ha overlappende variabelnavn. Når vi bruker variabelnavn i python vil intepreter først søke over local name space, deretter globalt og til slutt built-in. Hvis vi bruker samme variabelnavn som et built-in objekt vil det overkjøre den opprinnelige bindingen siden interpreter søker over built-in til slutt. 

Hva som utgjør det lokale namespace avhenger av kodeblokken som tolkes. På det *øverste* nivået vil local og global samsvare, men for kode i funksjoner vil bare bindingene som er gjort inni funksjonen være lokale. Tror også det er flere nivåer hvis vi har funksjoner inni funksjoner.

Merk også at global namespace til en funksjon vi har importert fra modul vil være namespace i modulen der funksjon er definert; ikke der den blir kjørt.

Dette medfører at hvis vi vil bruke variabler som er definert i main script inne i funksjoner i moduler, så må vi eksplisitt sende de gjennom funksjonene fordi de ikke finner variabelnavn i sitt globale namespace.

## Skript vs modul

Skript (program) er det meningen at skal bli kjørt og utføre noe handling; ikke bare binde objekter i et namespace som deretter kan bli eksportert. Enkle skript kan ha flat struktur, men generelt vil vi at koden skal bli kjørt gjennom en kontrollfunksjon som kalles `main`. Denne har en interface som håndterer inputs fra bruker samt eventuelle feilmeldinger og annen kommunikasjon (print statements). Selve implementasjonen av programmer skal være organisert i funksjoner som blir callet av main.

```python
import sys
def helper1(x):
    ...
def helper2(y):
    ...
def action(x,y)
    return helper1(x) + helper2(y)

def main():
    x, y = sys.argv[1], sys.argv[2]
    out = action(x, y)
    return out

if __name__ == '__main__':
    main()
```

Hvis filen blir kjørt fra kommandolinjen blir main() kjørt; ellers blir det tolket som en modul og vi binder de ulike funksjonene til namespace uten å kjøre main.

## PATH

Når vi bruker import, så søker interpreteren over

1. Innebygde libraries
2. Folder som er spesifisert i sys.path, liste av strings som angir plasseringer. Søker først over folder som scriptet ligger i, og deretter noe greier knyttet til anaconda... hvis jeg vil lage custom library som jeg har tilgang til globalt i stedet for å hele tiden kopiere over til samme path som scriptet jeg til enhver tid bruker så tror jeg at må lagre det der. Eventuelt finne en måte å legge til ny path i sys.path

Kan bruke dir(library) til å undersøke strukturen i folderen

Merk at import er lazy, så importerer ikke på nytt dersom allerede importert. Hvis vi gjør endring i modul må jeg drepe terminal / restarte notebook for å få inn endring.

## Egne libraries

Litt usikker på om jeg kan lage "offisielt" library som jeg får tak i overalt... Tror jeg kan lage en folder der jeg legger mine moduler.. også må jeg bare legge adressen til denne folder til path variabel ..

Uansett, i hovedsak vil jeg bruke moduler som er spesifikk for mitt prosjekt. Da er det tilstrekkelig at det ligger i samme folder. Men litt usikker på om det blir rot dersom script blir kjørt fra kommandolinje siden folderen som scriptet ligger i da ikke nødvendigvis er working directory... slik at denne folderen ikke nødvendigvis er i PATH.

## Tredjepart libraries

Kan installere med pip install eller conda install. Vet ikke om det er noen spesielle kriterier for at library skal bli tilgjengelig på den måten. Et alternativ er å få det gjennom github der folk laster opp. Finnes sikkert smarte måter å gjøre dette på.

Det er egentlig bare tekstfiler med kode. Kan endres over tid dersom jeg installerer oppdateringer... dersom jeg har program eller kode som avhenger av slike importerte libraries og skal brukes over tid er det viktig å sikre at dette ikke skjer. Tror beste måten er å lage et virtual environment til applikasjonen.. tror anaconda har noe funksjonalitet på dette, eller så finnes det noe som heter "docker". Tror det er overkill ved mindre jeg begynner med software engineering..

pip var lengde den dominerende package manageren og kommer nå default med python installering

anaconda bygger videre på pip, håndterer software som ikke bare er python. Det gir også verktøy for å lage virtualenv.

det er noen ting som kan installeres med pip, men ikke med conda.

## Virtual environments

Når vi oppgraderer pakker så kan det være at våre program som importerer kode fra disse pakkene slutter å fungere 100% som de skal. For å forhindre at dette skal skje må vi isolere de fra det globale miljøet; lage en lokal tidskapsul der tiden står stille. Ved behov kan vi eventuelt oppdatere miljøet for å utnytte forbedrigner/utvidelser av tredjeparts libraries vi importerer.

Finnes en virtualenv pakke som jeg kan laste ned; lurer på om jeg håndterer gjennom conda. Kan bruke gui i navigator, men sikkert bedre å gjøre fra prompt. 

- conda create -n [navn] [python=3.7] [package1 package2 ... ], spesifisere versjon og pakker som er tilgjengelig
- conda create -n [navn_ny] --clone [navn_gamme], kloner eksisterende environment
- conda env create -f environment.yaml, lage environment fra fil
- conda env list, se liste over environments
- conda remove  [navn] --all, fjerne virtual env
- conda activate [navn], aktivere et environment
- conda deactivate, går tilbake til base
- conda install [package], legge til nye pakker i gitt environment
- conda env export > environment.yaml, lage fil i cd med nødvendig info for å gjenskape env

Må installere jupyter... litt kjedelig å innstallere hele notebok for hver env, kan eventuelt bare installere kernel .. hm

Det kan være lurt å ha eget virtual environment for hvert prosjekt. Spesifiserer hvilke pakker og hvilke versjon i filen requirements.txt som ligger i workspace. Gjør workspace til aktiv folder, lager nytt environment som beskrevet over og bruker deretter

- pip install -r requirements.txt (vet ikke om jeg bruker conda eller pip..)

og kjører python i det environmentet..

Det er poeng at jeg vil lagre all nødvendig informasjon for å gjenskape environment i en fil slik at det er enkelt for andre å få samme setup. Litt usikker på hvordan jeg gjør dette.

Mine virtual environments ligger i `envs` folder i anaconda et sted. Jeg synes egentlig at det hadde være greit om de lå i folder til mitt prosjekt...

## Distribution vs deployment

Jeg bruker i hovedsak programmering til å gjennomføre dataanalyse, samt lage tabeller og figurer. Sluttresultatet er da et statisk dokument som jeg kan dele. Det er ikke nødvendig at den underliggende koden blir kjørt flere ganger, men jeg kan gjøre disse tilgjengelig slik analysen kan replikeres.

I andre situasjoner vil jeg at koden skal kunne bli kjørt flere ganger. Dette kan være fordi jeg vil gjøre samme analyse på nye data (for eksempel generere en rapport på nye data hver uke) eller fordi jeg vil at sluttbrukeren skal ha mer kontroll over output (for eksempel lage et slags dashboard der bruker kan generere figurer/tabeller for ulike variabler og ulike avgrensinger).

Jeg kan da lage et script som kan kjøres med argument fra kommandolinjen. Jeg kan dele dette med andre ved at de kloner prosjektet og kjører det på egen pc. Men hva med mindre tekniske brukere? Før var det vanlig å lage et executable program med fil-ikon og gui som sluttbrukere kan laste ned og installere på egen pc. Dette er en *distribusjon* som abstraherer fra den underliggende kodebasen. Nå er det vanligere å *deploye* kodebasen til en server i skyen der koden blir kjørt slik at sluttbruker får tilgang til programmet gjennom nettleser uten å måtte installere noe program. Enklere for bruker og sannsynligvis mye enklere for meg.

# Variabler, objekt og datatyper

Det eksisterer objekt i minnet. Vi knytter objekt til variabelnavn til plassering i minnet slik at vi ikke trenger å huske deres fysiske adresse eller lignende.

a = 2

Vi 'binder' tallet 2 (mer presist: fysisk plassering til objektet 2 som eksister i minnet) til variabel a, som deretter fungerer som en referanse for det objektet.

## Mutable objekter

Vi kan deretter binde variabelen a til en ny variabel b. Dette skaper en enda en referanse for det samme objektet som eksister fysisk i minnet. Et objekt er mutable dersom vi kan endre egensakper på objektet uten å endre plassering i minnet. Siden variabelnavn refererrer til plassering i minnet vil endring i b også endre a. Dersom det ikke er mutable vil måtte lage nytt objekt for å endre b, som da får ny plassering i minnet som vi igjen må binde til variabelnavn. Det opprinnelige objektet som a mapper til er dermed uberørt.

## Lister

Lister er mutable kolleksjon av objekter som potensielt kan ha heterogene datatyper. De er mutable så vi må være litt forsiktig med *side effects*.

In [7]:
arr = [1,2,3]
b = arr
b.append(4)
arr

[1, 2, 3, 4]

Bruker extend dersom vi vil legge til innhold fra én liste til en annen

```python
a = [1]
b = [2,3]
a.append(b) # [1, [2, 3]]
a.extend(b) # [1, 2, 3]
```

In [8]:
def func(arr):
    ''' Har referanse til adresse der arr ligger. Hvis vi gjør endringer på arr innad i funksjonen
        endrer det også arr. Hvis det ikke var mutable så ville endringrer medført at vi lager nytt
        objekt på annen annen adresse og den opprinnelige arr ville forblitt uberørt '''
    arr.append(5)
    
func(arr)
arr

[1, 2, 3, 4, 5]

In [10]:
GLOBAL = 3
def func(GLOBAL):
    GLOBAL = 4
GLOBAL

3

### comprehension

Ofte vil vi gjøre operasjon på hver element av iterable og lagre resultat i ny container. Kunne gjort dette eksplisitt ved å første lage container og deretter kontrusere en for-loop, men i python så har vi enkel one-liner,

```python
result = [f(x) for x in iterable]
result = [f(x) for x in iterable if condition(x)]
result = [f(x) if condition(x) else g(x) for x in iterable]
```

Kan bruke inputs fra to iterables
```python
result = [f(x1,x2) for (x1,x2) in zip(y1,y2)]
```

Kan også bruke comprehension på dictionaries
```python
result = {k:f(v) for (k,v) in some_dict.items()}
result = {k:f(v) for (k,v) in some_dict.items() if condition(k)} # if-else er litt komplisert
```

## string

Har mange fine metoder slik at kun i spesialtilfelle det er nødvendig med regex

Vil ha litt oversikt over relevant metoder samt kanskje noe greier om encoding

det er ikke alle symboler som er støttet av default encoding... hvis vi vil ha inn norske bokstaver så må vi bruke spesieell encoding.. kan googles......

## dictionary

Legge til nye greier i dict:

```python
my_dict = {} 
my_dict['key'] = value # legge til nytt key:value pair
my_dict.update(old_dict) # legge til key:value pairs fra annen dict
```
Merk at vi selvsagt ikke kan bruke min_dict['key'] += value hvis key ikke allerde eksister.. litt usikker på om jeg kan håndtere dette på én linje eller om jeg må ha control flow med if/else... sammenheng med defaultdict ?

Kan bruke pop(key) til å få ut item assosiert med key og samtidig slette key fra dict

## Mengder

sjekke om alle elementene  i en liste x er unike

```python
len(x) == len(set(x))
```
kan få ut det ene elementet som er i x men ikke i y
```python
(set(x)-set(y)).pop()
```

## generator

Merker oss at generatorer bare kan blir evaluert én gang. Hele poenget her er at vi ikke lagrer objektet i minnet.. vi bare finner fram én og én del ved behov. deretter kastes det. Så forsiktig hvis du skal iterate flere ganger. da må vi først konvertere til noe som ikke er generator slik at vi har det lagret i minnet! For eksempel list som er ganske fleksibel datastruktur. Funksjon kan sende ut generator med yield tror jeg...

Hvis vi har behov for å loope over generator flere ganger så kan vi lagre det til minnet ved å konvertere til liste.

### zip

Generer en iterable fra to iterables. Lager en tuple fra de korresponderende elementene i hver iterable. Lazy, så blir først evaluert når vi gjør noko spesifikt med generatoren. 

Eksempel:
```python
a = [1,2], b = [3,4]
list(zip(a,b)) = [(1,3),(2,4)]
```
Kan få tilbake listene fra en liste av tuples (liste-evaluering av generatoren). Må bruke asterisk for å få ut tuple.. hmm.. 
eks : zip(*zip(a,b)) ..

Greien her er at vi tar zip på én tuple som består av mange subtubles som så blir unpacket til to tuples. hmmmm......
```python
a = zip(*(1,2),(3,4)) 

print(list(a)) = [(1,3),(2,4)]..
```
Kan loope over par av observasjoner som er ved siden av hverandre i en array,
```python
[a,b for a,b in zip(arr,arr[1:])
```

# Løkker og Control flow

Kodeblokker som blir kjørt avhengig av betingelse

```python
if conditionA:
    ...
elif ConditionB:
    ...
else:
    ...
```

Kodeordet `break` avslutter løkken

```python
while True:
    if condition:
        break
```        

Kodeordet `continue` sender compiler opp til toppen av løkken igjen.

```python
while True:
    if condition:
        continue
    ... # blir ikke kjørt dersom condition er sann
```

# Funksjoner

Vi kan binde kodeblokker som kan avhenge av argumenter til en variabel. Dette kalles funksjoner. Det bidrar blant annet til at vi unngår å skrive kode som utfører samme logikk flere ganger fordi det i stedet kan utføres med flere calls på samme funksjon. Husk: *Do not repeat yourself (DRY)*.

Vi vil ha modularisert kode slik at logikken er til hver del er enkel og slik at vi kan gjenbruke ulike kodeblokker i ulike sammenhenger. Dette gjøre det enklere å forstå, debugge og utvide/endre funksjonalitet i fremtiden. Funksjoner bør derfor følge prinsippet: *Do one thing (DOT)*. Dette medfører at funksjoner som har komplisert logikk må bestå av flere hjelpefunksjoner som hver utfører enkel logikk.

## Argument

Har fleksibilitet i spesifikasjon av argument. Kan åpne for variabelt antall argument med * og ** i funksjonsdefinisjon.
```python
def my_func(x,y=None, *args, **kwargs):
    ''' docstring '''
    for k, v in kwargs.items():
        print(k,v)
    return sum(args)+2*x+y if y else x
```    

Argumentene i funksjonen mottar referanse til objekt. Det medfører at selve objektet kan bli endret av funksjonen dersom det er mutable.

```python
lst = [1,2]
def func(a):
    a.append(3)
    return a
a = func(lst)
a == lst # True
```

## TODO

Funksjoner er helt fundamental byggestein i programmer. Vil utvide min kunnskap om dem. Mer komplekse program vil gjerne ha en litt hierarkisk struktur der hjelpefunksjoner bare gir mening innenfor en gitt context... Kan gjøre alt flatt ved å definere alle funksjoner i et global namespace som kjøres fra main, men skal se at det kan være bedre med nestede funksjoner. Det med nestede funksjoner skaper både utfordringer og muligheter.. Har litt avanserte greier knyttet til

- namespace
- closure
- decorator
- context manager
- generator / yielding 

som vil ta mine python skeelz 2 da nxt lvl. Foreløpig er det kanskje greit nok å vite at dette eksisterer. Lærer ved behov..

## Namespace

Merk at namespace til funksjon avhenger av hvor den er definert, ikke hvor den blir kjørt. Hvis den er ikke definert innad i funksjon må vi eksplisitt sende variabler.

Kan modifesere globale variabler med global.

In [16]:
c = 3
def func():
    global c
    c = 4
func()
c

4

Kan tilsvarende modifisere variabler i namespace høyere opp i nestede funksjoner

In [5]:
def func_outer():
    d = 1
    def func_inner():
        nonlocal d
        d = 2
    print(d)    
    func_inner()
    print(d)
func_outer()

1
2


Kan modifisere variabler inni funksjon uten å bruker global/nonlocal hvis det ikke endrer id. Kan legge til ting i container, endre attributt mm.

Kan ha behov for å definere funksjoner inni main funksjon dersom den tar argument som fungerer som en slags global variabel for funksjonene inni... og jeg ikke har mulighet/lyst til å sende det eksplisitt. Eksempel: callback funksjonene i mitt interaktive ipyleaflet kart.

## Docstrings

Vil at funksjoner skal kunne brukes av andre. Kan tenke på det som api; må vite hva den gjør, hvilke input og hvilke output. Ikke nødvendig å vite hvordan den transformerer input til output, litt av poenget her er å abstrahere. Kanskje ta eksempler og mer utfyllende beskrivelser under, avhenger av kompleksitet til funksjon.

```python

def add(x,y):
    ''' Plusser sammen x og y
    
    Args:
        x (int or float): optional beskrivelse?
        y (int or float):
    
    Returns:
        int or float: int if all inputs are int, else float
    
    Raises:
        ValueError: ..
    
    Notes:
        Example: 
    '''
    
    return x+y
```    

Merk at funksjoner er objekt i likhet med alt annet i python. Kan binde plassering til variabel, plassere de i kolleksjon, gi de attribut med setattr, mm
```python
def my_func(x):
    return 2*x
new_name = my_func
my_list = [my_func, new_name]
4 == my_list[1]() # True
```

## lambda

lambda er annonyme funksjoner. Giddsje gi de navn en gang. Syntax

labda args:expression ---> returnere en funksjon

```python
f = lambda x:2*x**2
```

## Unpacking

Bruker \*args og \*\*kwargs til å åpne for varierende antall argumenter. Når vi caller funksjonen lister vi opp argument på vanlig måte eller definerer liste/dict som vi unpacker i callen

```python
def func(*args, **kwargs):
    return sum(args)

args = [1,2,3]
func(1,2,3, a=2,b=3) == func(*args) # True
```

## Decorator

Funksjoner er first class objects og kan blant annet være argumenter i andre funksjoner. Den ytre funksjonen kan f.eks. definere en modifisert versjon funksjonen som blir sendt inn som argument og returnere den modifiserte versjonen.

```python
def decorate(func): # tar funksjon som argument og returnerer funksjon
    def wrap_func(*args):
        print("I've been modified")
        return func(*args)
    return wrap_func

def my_func(*args):
    print('Hello world..')

my_new_func = decorate(my_func)
my_new_func()
```

Decoratorer er *syntactic* sukring som gjør koden mer leselig
```python
@decorate # funksjonen som er definert over
def my_func(*args): # tilsvarer my_new_func med modifisert atferd
    print('Hello world..')
```

## Context managers

Vet ikke om dette passer inn under funksjoner.

Context managers gjør i stand en blokk der kode kan ha party også rydder de opp etterpå. Analog til å bestille catering...

```python
with <contextmanager>(<args>) [as f]: # noen context managers vil returne variabel..
    <ha party>
```

Kan ha lyst til å sette opp custom context manager.. Kan da enten
1. Bruker decotator @contextlib.contextmanager
2. Lage class med \_\_enter\_\_() og \_\_exit\_\_() metoder

det er et eller annet med at funksjonen "yielder" og får tilbake kontroll senere... og yielding har et eller annet med generatorer å gjøre

# Applikasjoner

## Workspace

Alt som inngår i et prosjekt skal ligge i workspace. Det kan betraktes som en isolert lagringsplass. I tillegg har det environment som består av hvilke 'ytre' filer den har tilgang til (eg. kan importere) og kanskje andre ting. Jeg vil isolere alle egenskaper ved workspace slik at den kan kopieres av andre og kjøres på deres maskin. Det er derfor også viktig at alle paths er relative til plassering innad i workspace (aldri bruke absolutt path på mitt filsystem i script).

For enkle script og prosjekt kan man være litt rask og dirty siden det er mulig å ha oversikt over struktur i hodet. Men hva hvis flere personer samarbeider om samme prosjekt, det varer over lengre tid og kanskje vi får lyst til å omorganisere eller endre retning på prosjektet underveis? Da er det viktig at det har en klar struktur og består av mange separate script som kan endres og behandles separat uten at vi trenger å ha oversikt over helheten (mental overhead). 

De fleste problem består av mange kombinasjoner av enkle steg. For å håndtere dette vil jeg forsøke å behandle ting mest mulig separat. Gjøre én ting om gangen. Deretter vil jeg skjule implementeringen slik at jeg kan følge logikken i hvordan de ulike stegene blir koblet sammen. Jeg trenger et interface til de ulike stegene som jeg får gjennom docstrings.

En enkel workflow kan være å definere funksjoner i en modul som blir importert til main script. Jeg tenker at main script kan være notebook og/eller panel dashboard hvis det er en analyse med figurer og sånn. 

## Kjøre script

Stort sett jobber jeg med script for å gjøre statisk analyse. Det brukes bare av meg og kjøres fra inni en text editor. Alternativt kan scriptet betraktes som (del av) en applikasjon eller program som brukes (som back-end) av andre.

Scriptet har da en main funksjon som viser overordnet logikk og utfører formålet til applikasjon. Alle detaljer og mellom-steg blir behandlet i hjelpefunksjoner med deskriptive navn. Dette abstraherer vekk støy og gjør det mye enklere å følge logikken. Denne modularisering gjør det også enklere å gjenbruke kode. Importerer også hjelpefunksjoner fra andre libraries, potensielt inkludert mine egne. Gjenbruk av kode er bra og kan være lurt å begrense lengden på individuelle script.
```python
def main():
    x = helper()
    return x

def helper():
    pass

main()
```

Scriptet kan kjøres lokalt på maskinen ved å skrive destinasjonen i command line prompt. Mer generelt så tenker jeg at scriptet fungerer som back-end for en web-applikasjon. Har brukervenlig interface med html/css, håndterer kommunikasjon mellom bruker og server med javascript (?) som gir input til mitt python script. Det utfører noen operasjoner og eventuelt returnerer output som blir kommunisert tilbake til bruker.

Merk: kan være noe problem med å importere libraries når jeg kjører fra command line.. Har noe med PYTHONPATH som er liste med directories som søkes over for å finne library..

Hvis jeg vil ha et program som kjører kontinuerlig i bakgrunnen kan jeg bruke,
```python
while True:
    main()
    time.sleep(0.1)
```

## Input

Hvis applikasjonen skal brukes flere ganger og av flere personer så vil gjerne input variere. Ikke bare statistisk analyse av et spesifikt datasett, ikke sant. Har i utgangspunktet to måter å få input fra bruker

1. Prompte bruker til å spesifisere med input()
2. Ta det inn fra command line opsjoner (kan bruke batch fil / shell script, aner ikke hva det er)

I praksis jobber jeg nok mye med filer som er god måte å large og organisere informasjon. Tar inputfil, gjør operasjoner og lagrer output fil. Automatiserer lagring i stedet for å (bare) formidle et resultat til bruker.

Når scriptet har inputs fra bruker så er det ikke tilstrekkelig at *jeg* får det til å kjøre. Jeg må også håndtere at det kan oppstå feil som er syntaktisk korrekt slik at programmet kjører men som ikke vil gi det resultatet bruker forventer. Det er viktig å oppdage feil så tidlig som mulig og å kommunisere dette tilbake til brukeren på en slik måte at det er mulig å forstå problemet. 

Begynner med å validere input. Gjentar spørsmål helt til vi får gyldig
```python
while True:
    prompt = "..."
    response = int(input(prompt))
    if not condition1(response):
        print('Forklarer hva som er feil med input')
    elif not condition2(response):
        print('Forklarer hva som er feil med input')
    ...
    break
```

Utfordring at det kan være mange conditions å ta hensyn til og at det blir mange linjer med kode. Kan forenkle dette ved å bruke library pyinputsplus som har fine funksjoner som erstatter input(), men ser på dette ved behov.

## Error handling

Finnes et hierarki av Errors ..hm

try-except-else-finally 

else gjør ting på de som kom gjennom try. finally gjør sjit på alle. Er selvsagt ikke nødvendig å bruke alle.

In [6]:
try:
    1/0
except ZeroDivisionError:
    print('lol')
else:
    print('halla')
finally:
    print('balla')

lol
balla


# Modularisering

Når vi skriver én-gangs script er det gjerne tilstrekkelig at python compileren forstår hva vi prøver å gjøre: det er syntaktisk og semantisk korrekt. I praksis er det ofte ikke bare pc'en som skal lese koden, men også andre personer eller en fremtidig versjon av meg selv. Den bør derfor være organisert og utformet på en ryddig måte. Koden bør være selvforklarende; hva vi gjør bør komme til uttrykk gjennom variabelnavn og strukturering av koden. Det er enklere å kommunisere intensjon ved å gjøre én ting om gangen, selv om det kan medføre ekstra linjer.

Dersom koden vi skriver skal brukes flere ganger (inngå i applikasjon, bli del av public repo som andre bruker) bør den i tillegg modulariseres slik at det blir enklere å teste, debugge, endre og utvide funksjonalitet. Ved å organisere kode i funksjoner kan vi isolere blokker av kode der vi kun trenger å bry oss om hva som kommer inn og ut av blokken; abstraherer vekk selve implementeringen som kan endres over tid. Dette fasiliterer også gjenbruk av kode. Skal også se på objekt-orientert programmering som er en annen måte å organisere kodebasen.

Tror fremtiden er å tenke på alt som API: må vite hva som er tilgjengelig og hvilke inputs kan transformeres til hvilke output. Unngå å bry meg om implementering (dersom ikke nødvendig). Tilstrekkelig å jobbe med public interface til kode uten å se på source. For at dette skal bli operativt må jeg har workflow der jeg kan lese dokumentasjon på god måte. Tror også det vil hjelpe å bli litt bedre på å skrive egen dokumentasjon.

## Best practice

Det er mange måter å skrive 'korrekt' kode og folk kan ha ulike preferanser og (u)vaner for formatering, navngiving av variabler og lignende. For å gjøre det enklere å lese bør koden følge faste konvensjoner slik at vi ikke trenger å ta hesyn til idiosynkratien til personen som skrev koden. Disse konvensjonene utgjør til dels de *beste* konvensjonene som bestemt av fellesskapet, men det viktigste er at det ugjør én konvensjon. Målet er å frikoble kode fra forfatteren slik at flere personer kan samarbeide uten å se hvem som har skrevet hva. Man blir også vant til å lese kode som følger gitt konvensjon slik at det er enklere å fokusere på logikken.

### pep8

Den offisielle stilguiden for python. Tenker å skrive inn litt regler her etter hvert som de blir relevant. Kan også ha egne regler innenfor et prosjekt, f.eks. med utforming av docstring som vi skal se nedenfor.

# Objektorientert

Alt i python er objekt. Det betyr at det tilhører en class med felles metoder og attributt. Har en del built-in classer, men det kan ofte være gode grunner til å lage våre egne. 

Objektorientert programmering er alternativ design til *procedural*. Vi samler data og funksjoner i classer.

## Objekt

Objekt består av metoder og data. Metodene er felles for alle instancer av objekt, men de kan ha ulik data (instance variable). For eksempel kan to biler i utgangspunktet ha vært identitiske, men hver bil er distinkte instancer med ulik mengde bensin på tanken osv. Data holder oversikt over informasjonen til instance og kan bli brukt i metoder. En metode er en funksjon som tar instance (self) som første argument. Kan skille mellom to typer metoder:
1. Accessor (metode som gir tilgang til spesifikk data om instance)
2. Mutator (metode som endrer/oppdateter da til instance), kan velge om gjøre inplace eller returnere ny referanse 

Når det gjelder denne dataen så er den lagret i instance attributt. Disse blir initialisert når et instance av objektet blir laget i en constructor. Litt usikker på forskjellen mellom instane variable og attribut. Det er forøvrig også poeng at instance variabel er 'intern' selv om dette ikke er enforced i python; kun konvensjon å navngi de med ledende underscore.

### Constructor

In [76]:
class Person:
    def __init__(self,name,age='unknown'):
        self.name = name
        self.age = age
        
    def update_age(self, age):
        self.age = age
        return self

class Student(Person):
    def __init__(self,name,status):
        Person.__init__(self,name) # må calle init til supeclass
        self.status = status

b = Person("Sverre")
print(b.name)
a = Student("Sverre","Master")
a.update_age('26 :(')
print(a.name,a.status, a.age )


Sverre
Sverre Master 26 :(


Kan inherite metoder fra superclass til subclass som er special case med nye metoder. Denne organiseringen kan tillate mye gjenbruk av kode, men hver objekttype er ganske fleksibel så ikke ofte nødvendig å lage eksplisitt hierarki bare fordi ulike instancer kan være litt forskjellig... 

### Namespace

Classer gir oss tilgang til nye namespace. Søker først over instance, deretter class og til slutt superclass

Alternativ til vanlige methods.. trenger ikke å ha instance av class for å kjøre metode... vet ikke bruksområde.
```python
@staticmethod
@classmethod
```

### Getter og setter

I motsetning til andre objektorienterte program så trenger vi ikke eksplisitt getter og setter.. men kan i noen tilfeller være praktisk. Da bruker vi @property decorator.. .HM!!!

### Built-in methods

Har mange spesielle metoder som er gitt med dobbel underscore... har default, men er ikke sikkert at det er velegnet for vår class, så vi kan overkjøre de.

```python
class Fraction:
    def __init__(self, num, denom):
        self.num = num
        self.denom = denom

    def __add__(self, other): # definere + operator mellom to instance av objekt
        new_denom = self.denom*other.denom
        self_num = self.num*other.denom
        other_num = other.num*self.denom
        return Fraction(self_num+other_num, new_denom)

    def __str__(self): # definere output av print(objekt)
        return f'{self.num} / {self.denom}'

    def __repr__(self): # definere representasjon av objekt
        return f'{self.num} / {self.denom}'

```

Har en del metoder for kolleksjoner og iterables. Har spesielle operatør.. indeksing og looping og sånt.

```python
class container:
    def __init__(self, items):
        self.items = [2*item for item in items]
        
    def __getitem__(self, key):  # overkjører [] operator, eg arr[key], der key kan være numerisk idx eller annen id
        return self.items[key+1]
    
    def __setitem__(self, key, val): # overkjører arr[key] = value
        self.items.insert(key, val)
        
```

Kan foreksempel ønske å iterere over alle blader i et tre.. hmhmhm

### Public interface

Noe av fordelen med objektorientert design er at vi kan skjule detaljer ved implementering fra bruker som kun ser metodene (med deres docstrings) og attributt. Det er viktig at funksjonsnavn og docstrings er informativt nok til at bruker ikke har behov til å se på faktisk implementering. Designet er også fleksibelt slik at det går ann å endre kodebase uten at det påvirker bruker eller ødelegger gammel kode.

## Mixin

Design som gjør at vi kan lage nye classer som arver fra flere classer. Alternativt til rent hierarki som gir mer fleksibelt design.

En mixin class har bare én *feature* (for eksempel en public funksjon)...

# Jobbe med filer

Filsystem avhenger av operativsystem. Referanse til mapper og filer kan representeres med en string som angir plassering i filsystem. Dette kalles `path`. Semantisk er dette likt i ulike operativsystem siden det har en tre-struktur, men syntax er litt forskjellig:
1. Unix har en unik base, mens windows har egen base for hver 'drive'
2. Unix bruker `/` som seperator, mens windows bruker `\`. Må også ta hensyn til at `\` er escape i python

På grunn av disse forskjellene er det ikke tilstrekkelig å representere `path` med string hvis det skal kjøres på ulike operativsystem. Tror vi bruker pathlib til å håndtere.

Vi vil lese og skrive innhold fra filer. Dessuten kan vi ønske å flytte og slette og sånn.

## Lese og skrive fra .txt filer

```python
with open(filename) as f:
    lines = f.read_lines():
        for line in lines:
            ...
```        

Det er et poeng at det er ganske tregt å laste/skrive fra harddisk. Noe greie om at jeg heller vil ha ting i minnet, men på en annen side er det begrenset med plass der. Hvis jeg jobber med store filer tror jeg det er noe poeng med at jeg må buffere ting inn i minnet litt gradvis.

In [58]:
with open('test.txt','w') as f:
    f.write('hei')
    print(type(f))
with open('test.txt','rb') as f:
    print(type(f))
    print(f.read()) 

<class '_io.TextIOWrapper'>
<class '_io.BufferedReader'>
b'hei'


### Lese og skrive json-filer

Ofte vil data ha struktur. Json-filer har dictionary-struktur som er fleksibelt nok til å håndtere det meste
```python
import json
with open('test.json', 'w') as f:
    json.dump(my_dict, f)
```

### Lese og skrive pickle

Vi kan lagre python-objekter som binær fil. Dette er veldig praktisk. Filstrukturer som .json og .csv er plain-text og må bli parset av python script for å konstruere python objekt. Med pickle derimot lagrer vi en binær representasjon som kan bli lastet inn direkte.

Jeg liker for eksempel å lagre dataframe som pickle dersom det tar veldig lang til å utføre operasjonene som gir riktig tilstand (datatyper mm.).

## paths

Filer ha to egenskaper
- filnavn som inkluderer en extension som spesifiserer hvilken filtype det er
- path som angir plassering i forhold til en root folder. 

Filer ligger i en folder som igjen ligger i folder.. trestruktur opp til en rot. Har to typer paths
- Absolutt path som begynner i øverste folder i disken
- Relativ path som angir plassering i forhold til current working directory. Merk at all program har cwd. Det kan avhenge litt av hvor program blir kjørt fra

I windows brukes `\` som seperator mellom directories. I python strings brukes '\' til å angi spesielle characters, eks linebreak '\n'. Vi må bruke '\\' for at python skal tolke som '\'. Det er derfor slitsomt å angi paths med string. Dessuten brukes '/' som seperator i andre operativsystem, som må ta hensyn til dette hvis andre skal bruke programmet. I stedet for strings bruker vi derfor et Path-objekt til å representere pathen. Merk at pathlib erstatter os.path

### pathlib

```python
from pathlib import Path
path1 = Path('sub','sub1')
path2 = Path('sub/sub2')
path3 = path2 / 'sub3'
```

returnerer WindowsPath-objekt hvis programmet kjørt på windows. Kan håndtere ulike system. Har diverse metoder på i Path-classen:

```python
str(path) # få ut string som angir path
path.cwd() # få ut Path objekt med absolutt path
path.mkdir('folder_name') # lager folder i cwd 
path.is_absolute() # sjekker om absolutt path
path.cwd() / 'ny' # lage ny absolutt path, vet ikke hvorfor jeg skulle ha lyst
path.home() # Path objekt som peker til os.path.expanduser('~'))
```

## Shell utilities

Gir meg utilities til å flytte, rename, kopiere, slette filer. Interagere med operativsystem; ting som kan gjøres fra skall (terminal), men som jeg også kan gjøre inne i python.

- shutil.copy(source, dest) # inidivduell fil
- shutil.copytree(source, dest) # flytte alt innhold av folder, inkludert subfolderse
- shutil.move( ) # ikke behold i source

Bruker send2trash module for å slette filer. Lurt å kjøre skript med print() på filer som slettes for å unngå feil

```python
path = Path()
for filename in os.listdir():
    if filename.endswith('csv'):
        dest = Path() / 'data' / 'bysykkel' / filename 
        shutil.move(filename, dest) # merk at ikke beholder i source, må være sikker på at destinasjon er riktig
```

## os

litt usikker på hva jeg bruker herfra nå som jeg bruker pathlib i stedet... os.listdir() er jo litt nice og os.walk er fett

### walk

Jobber seg rekursivt gjennom paths i tre med opphav i top_path. Hver directory får sin mulighet til å være rot. For hver directory vi er inni får vi ut tuple med rot, liste av directories og liste av filer. Hvis vi har lyst til å gjøre noe med alle filer som oppfyller et gitt kriterie kan vi feks:

```python
for root, dirs, files in os.walk(top_path):
    for name in files:
        if condition(name):
            path = os.path.join(root, name)
            send2trash.send2trash(path)
```

## zipfile

Kompresse og unkompresse filer. Tar mindre når zippet, men kan ikke kjøre mens zippet. må først unzippes. Likevel greit for å lagre og sende filer..

```python
newZip = ZipFile('name.zip','w')
newzip.write('fil.txt')
```
ZipFile().extractall()

## web scraping

Må lese automate boring stuff with python igjen ..

### BeautifulSoup

Det enkleste er å bruke requests + bs4 stack. Workflow:

1) res = requests.get(url)

2) soup = bs4.BeautifulSoup(res.text)

3) element = soup.select( ... ) -> finner elementen, får ut en liste av tag objekt.. 

4) url1 = element[0]+.. -> får url som string

5) res = requests.get(url1)

6) with open(..,"wb" as f: f.write(res.iter_chunks(10\**5))). Skrive det ned til fil

7) element1 = soup.select( ...) -> finner elementen som tar oss til ny side

8) url = element1[0] + .. -> får url til neste side

algoritmen over fungerer dersom hver side har samme oppsett. forige, neste.. kan ta try/except for tilfeller der filen vi vil ha ikke eksisterer på nettsiden. for mer kompliserte ting kan vi bruke selenium som imiterer menneskelige klikk. 

hashtag: road2scriptkiddie

##### BeautifulSoup

import bs4

soup = bs4.BeautifulSoup(markup string)

lettere å jobbe med dette beautifulsoup objektet enn med stringen direkte

bruker soup.select(CSS LOOKUP) til å få ut element som matcher lookupen... litt usikker på hvordan fungerer. eksempel:

-  elems = soup.select("#author")

elems er liste med bs4.element.tag objekt... har attributt/metoder. Tror dette hadde vært enklere å skjønne hvis jeg kunne HTML lol

### Requests
Bruker requests modul til å laste ned innhold fra nettside

-  res = requests.get(".../fil.txt")

Det gir oss et Respons objekt... Vil få ut stringen og lagre den til som en fil på datamaskinen. Må bruke "wb", write binary, for å lagre formatering. Eksempel:

with open("RomeoJuliet.txt","wb") as f:
    
    for chunk in res.iter_content(10**5):
    
        f.write(chunk)
        
Spesifiserer antall bytes for å ikke bruke opp for mye minne om gangen... kunne alternativ brukt res.text til å få ut hele stringen med en gang.

Kan også bruke requests.get("internettside") til å få html koden til den siden.

##### BeautifulSoup

import bs4

soup = bs4.BeautifulSoup(markup string)

lettere å jobbe med dette beautifulsoup objektet enn med stringen direkte

bruker soup.select(CSS LOOKUP) til å få ut element som matcher lookupen... litt usikker på hvordan fungerer. eksempel:

-  elems = soup.select("#author")

elems er liste med bs4.element.tag objekt... har attributt/metoder. Tror dette hadde vært enklere å skjønne hvis jeg kunne HTML lol

# Annet

## Tid

Har litt ulike moduler

- time
- datetime
- pandas