# Noen viktige elementer i python programmering

Selv om dataanalyse er et litt eget felt innen python, er det en del vanlig programmeringskompetanse du trenger for å være effektiv.

Her går vi gjennom en del ting som vi kommer til å bruke i løpet av kurset, og som du forhåpentligvis allerede kjenner litt til.

## Lister

En liste ligner litt på vektorene som du sikkert husker fra statistikkursene, men bare litt. En liste er i praksis en samling av det som ellers ville vært selvstendige variabler. En liste ligner kanskje litt mer på et Array i SAS, men i SAS er et array en referanse til kolonner i et datasett, i python er lister derimot helt selvstendig.

Lister kan itereres gjennom veldig enkelt:

In [1]:
farger = ["rød", "grønn", "lilla", "blå"]

In [2]:
for farge in farger:
    print(farge)

rød
grønn
lilla
blå


Én veldig vanlig teknikk med lister er såkalte *list comprehensions*, som itererer gjennom en liste og genererer en ny liste. Du kan kalle funksjoner på hvert av elementene, og filtrere listen alt i samme operasjon. Som et enkelt (og tåpelig) eksempel kan vi lage en ny liste som inneholder første bokstav i fargene som har mer enn 3 bokstaver.

In [3]:
farger2 = [farge[0] for farge in farger if len(farge)>3]
print(farger2)

['g', 'l']


## Dictionaries

Dictionaries er kanskje en form for lister på steroider. I stedet for en enkel liste hvor elementene bare kommer i rekkefølge uten noe ytterligere system, er en dictionary såkalt key-value basert. Hvert element i en dictionary har en nøkkel, i praksis en liten tekststreng som identifiserer den. Vi kan begynne med et lite eksempel:

In [4]:
ssb = {'firmanavn': 'Statistisk Sentralbyrå', 'leder': 'Geir Axelsen', 'kontor': ["Oslo", "Kongsvinger"] }

In [5]:
ssb['firmanavn']

'Statistisk Sentralbyrå'

Nye elementer kan legges til en eksisterende dictionary:

In [6]:
ssb['avdelinger'] = ['100', '200', '300', '400', '500', '600', '700', '800']

Dictionaries har noen interessante metoder knyttet til seg. `items()` returnerer en litt enkel type liste som inneholder både key og value for hvert element i dictionaryen. Her ser vi også at avdelinger har kommet med som et element.

In [7]:
for key, value in ssb.items():
    print(key, value)

firmanavn Statistisk Sentralbyrå
leder Geir Axelsen
kontor ['Oslo', 'Kongsvinger']
avdelinger ['100', '200', '300', '400', '500', '600', '700', '800']


En annen nyttig metode er `keys()`, som returnerer en liste med nøklene (keys) som er definert i dictionaryen.

In [8]:
ssb.keys()

dict_keys(['firmanavn', 'leder', 'kontor', 'avdelinger'])

## Funksjoner

Funksjoner bør være kjent stoff for de fleste, men som en liten rekapitulasjon vil vi nevne at funksjoner defineres med `def`, etterfulgt av funksjonsnavnet du velger, argumentene i parantes, og kolon. Selve koden i funksjonen må være indentert, for å markere at koden er en del av funksjonen. Dette avviker fra de fleste andre programmeringsspråk, som normalt bruker krøllparanteser `{}` for å angi at koden er en del av funksjonen. Alle funksjoner returnerer en verdi, og hvis du ikke selv spesifiserer hva som skal returneres vil et eget objekt av typen `NoneType` returneres. Altså et eget objekt som er laget for å være tomt.

Under har vi definert en sånn funksjon, som bare printer en tekststreng men ikke returnerer noe.

In [9]:
def noret():
    print("Here goes nothing!")
    
my_value = noret()
type(my_value)

Here goes nothing!


NoneType

Som regel ønsker vi at funksjoner heller skal returnere en verdi, og det er dårlig praksis at funksjoner skal endre noe i miljøet ditt - derfor er dette også veldig vanskelig å gjøre. Under definerer vi en variabel, og en funksjon som bruker samme variabelnavn. Likevel kræsjer dette ikke. 

In [10]:
my_var = "World"


def var_function():
    my_var = "Hello"
    print(my_var)
    
    
var_function()
print(my_var)

Hello
World


Variabelen `my_var` blir definert både innenfor og utenfor funksjonen, men `my_var` som vi definerte utenfor funksjonen endrer seg ikke selv om vi kaller funksjonen. Dette er fordi variabelen utenfor funksjonen blir regnet som en *global* variabel, mens variabelen inni er en *lokal* variabel. Funksjonen finner den lokale variabelen først, og bruker denne. Om `my_var` ikke hadde vært definert lokalt, ville funksjonen funnet den globale variabelen og brukt denne. Det er derimot dårlig skikk å lage funksjoner som er avhengig av globalt definerte variabler - det er bedre å ha disse variablene som argument til funksjonen.

In [11]:
word_one = "Hello"

def global_hello(word_two):
    print(word_one, word_two)
    
    
global_hello("World")

Hello World


En bedre løsning ville vært å ha begge variablene som argument til funksjonen:


In [12]:
def local_hello(word_one, word_two):
    print(word_one, word_two)
    
local_hello("Hello", "World")

Hello World


Som regel er det også ønskelig at funksjonen returnerer en verdi heller enn å printe noe. Vi kan endre funksjonen `local_hello` (overskrive den) til å returnere teksten (ved hjelp av `return` funksjonen) heller enn å printe den. Så kan vi heller printe den på egenhånd:

In [13]:
def local_hello(word_one, word_two):
    return(word_one + ' ' + word_two)
    
greeting = local_hello("Hello", "World")

print(greeting)

Hello World


Dette er selvfølgelig ganske enkle funksjoner, men de ilustrerer to grunnlegende prinsipp i python programering.

**1) Det er ingenting python ikke lar deg gjøre dersom du prøver hardt nok.**

Dette betyr imidlertid at det er opp til deg som programerer å følge 'best practice' og gjøre koden din forstålig.

**2) Du kan gjøre hva som helst inni funksjoner.**

### Nøstede funksjoner

Funksjonene over er som sagt veldig enkle, og innimellom ønsker du å kalle på andre funksjoner inni den første, dette kalles en nøstet funksjon. Når du definerer funksjonene er det viktig at dette gjøres i rekkefølge.

Tenk på det slik, når en funksjon defineres, kikker den oppover koden din for å se etter hva den har.

In [14]:
def count_numbers_of_char (string):
    n = len(string)
    return (f'the number og chracters in "{string}" is: {n}')
    
count_numbers_of_char('hello SSB')

'the number og chracters in "hello SSB" is: 9'

Dette ble jo ikke helt riktig... Her teller vi med mellomrommet.
Vi kan selvfølgelig endre den første funksjonen til å si `n = len(str.strip(string))`
og ha løst problemet, men da får jeg ikke illustrert et poeng. :P 

La oss definere en funksjon som fjerner mellomrommene

In [15]:
def fjern_tomrom (string):
    letters = str(string).replace(' ', '')
    return letters

def count_numbers_of_char (string):
    n = len(fjern_tomrom(string))
    return (f'the number og chracters in "{string}" is: {n}')

count_numbers_of_char('hello SSB')

'the number og chracters in "hello SSB" is: 8'

Og da ble det riktig. Under er det ett eksempel på en noe mere kompleks funksjon.

Dette er faktisk Python utgaven av Øyvind Langsrud sin Fix regionkode i R

In [16]:
def fixregionalcode(col, region='kommune'):
    '''
    Function to correct the regional code in a given column
    
    This funtion takes a sereis as input. It converts to string variables. 
    Adds leading zeros where needed.
    removes decimalpositions in strings
    
    :param col: the coloumn to perform the correction on
    :type col: Str
    :param region: type of regional code to return. Either kommune or fylke
    :type region: Str, optional *Default: kommune*
    :return: a list contining the corrected regional codes
    '''
    data = col
    all_string = []
    for i in data:
        if type(i)==str:
            all_string.append(i)
        elif type(i)==float:
            s=int(i)
            all_string.append(str(s))
        else:
            all_string.append(str(i))

    corr_region = []
    for i in all_string:
        if len(i)<4:
            corr_region.append("{0:0>4}".format(i))
        elif (len(i)>4)&(i[3]=='.'):
            corr_region.append("{0:0>4}".format(i[:3]))
        else:
            corr_region.append("{0:0>4}".format(i[:4]))

    if region == 'fylke':
        fylkesnr = []
        for i in corr_region:
            fylkesnr.append(i[:2])
        return fylkesnr
    elif region == 'kommune':
        return corr_region
    else:
        raise ValueError('Please enter either: fylke or kommune')

### Lambda funksjoner

Lambda funksjoner er på mange måter det samme som vanlige funksjoner. Bare med en liten twist.

In [17]:
colors = {'1':'red', '2':'blue', '3':'green'}

yndlings_farger_code = [1,2,2,1,2,3,3,2,1,1,2,2,2,2,1,1,2]

look_up_farge = lambda x: colors[str(x)]


yndlingsfarger = [look_up_farge(c) for c in yndlings_farger_code]

In [18]:
yndlingsfarger

['red',
 'blue',
 'blue',
 'red',
 'blue',
 'green',
 'green',
 'blue',
 'red',
 'red',
 'blue',
 'blue',
 'blue',
 'blue',
 'red',
 'red',
 'blue']

## Unntakshåndtering

Det er ikke alltid sikkert at alt fungerer, særlig om vi ikke er 100% trygg på dataene vi jobber med. For at ikke alt skal stoppe når vi holder på å prosessere drøssevis av data, er det en god idé å håndtere eventuelle unntak med en try-except blokk.

Blokken fungerer på den måten at koden vi vil at skal kjøre (og fungere) står i en `try` blokk, mens koden vi vil at skal kjøre hvis noe går galt, står i en `except` blokk. Her er det også mulig å printe feilmeldingen selv om vi vil at programmet skal fortsette, eller vi kan fortsette direkte og ignorere feilen.

In [19]:
invalid_list = [1, 2, 3, 4, "fem"]
halved_list = []
for item in invalid_list:
    try:
        item2 = item/2
        halved_list.append(item2)
    except Exception as e:
        print("Could not be halved:", item)
        print("Error:", e)
        
        
print(halved_list)

Could not be halved: fem
Error: unsupported operand type(s) for /: 'str' and 'int'
[0.5, 1.0, 1.5, 2.0]


## Prøv selv

Det er viktig å gjøre selv for å forstå. Det beste er om du selv finner på utfordringer for bruk av lister, dictionaries, funksjoner og unntakshåndtering, men her er noen ideer:
- Lag en funksjon som tar imot en liste, og returnerer alle elementene i listen unntatt første og siste
- Lag en ny funksjon som tar imot en dictionary og nøkkelen som angir en liste, og returnerer hele dictionaryen utenom første og siste element i listen som ble angitt.

Husk unntakshåndtering, det er mye som må være riktig i inputen for at disse to funksjonene skal fungere.