# Om at skrive kode fra formler

Ikke så sjældent, skal vi lave et program der baseres på en formel, og skive noget kode som implementerer formlen, på de data der er tilgængelige for programmet.

Fromlen er oftest en matematisk formel.  
Vi skal kigge på at bryde formler ned i dele, og sætte dem sammen igen i et program.

Vi skal bruge modulet `math`

In [5]:
import math

## Symboler til kode

_4 hurtige..._

| Matematik | Python |
|-:|:-|
| $ \pi $ | ```math.pi``` |
| $ \sqrt{x} $ |```math.sqrt(x)``` |
| $ x^2 $ | ``` x**2 ```|
| $ x^n $ | ``` x**n ```|

    

### $\pi$ (Pi)
$ \pi$ har jo noget at gøre med cirklers omkreds osv.

En cirkel med radius 10 (mm), har omkreds $$ 10 \cdot \pi = 31,4 $$

I Python bruger vi konstanten `pi`, fra modulet `math`.

In [6]:
math.pi

3.141592653589793

In [7]:
10 * math.pi 

31.41592653589793

Formlen for arealet af en cirkel er $$ A_{cirkel} = \pi \cdot r^2 $$  

f.eks hvis radius r = 5  
$$ \pi \cdot 5^2 = 78,54  $$

In [8]:
math.pi * 5**2

78.53981633974483


I øvrigt kan en kugles areal ud regnes med formlen 
$$ A_{kugle} = 4 \cdot \pi \cdot r^2 $$
i python bliver det:

In [9]:
# hvis radius = 2
r = 2
4 * math.pi * r ** 2

50.26548245743669

Læs mere om kugler på <https://da.wikipedia.org/wiki/Kugle>

### Det væsentlige er at _oversætte_ fra formel til kode!  

$$ A_{kugle} = 4 \cdot \pi \cdot r^2 $$ 

I kugle-eksemplet brugte jeg en varibel `r` fordi den var i formlen. Det kunne også være at den var konstant i det aktuelle program.  
Men, mere sandsynlig, vil jeg gerne udregne arealer af flere kugler med forskellig _radius_, så jeg laver en funktion:

In [10]:
def A_kugle(r):
    return 4 * math.pi * r ** 2

print(A_kugle(5))

314.1592653589793


#### Note
Resultatet her, arealet af en kugle med radius = 5, er $\pi$ fordi $r$ = 5 og $5^2 = 25$.

Hvis vi indsætter 5 for $r$, og bytter om på rækkefølgen mellem gangetegnene i formlen (må man gerne), får vi :

$$ 
A_{kugle} = 4 \cdot \pi \cdot r^2 
$$
$$
A_{kugle} = 4 \cdot \pi \cdot 5^2 
$$
$$
A_{kugle} = 4 \cdot \pi \cdot 25 
$$
$$
A_{kugle} = \pi \cdot 4  \cdot 25 
$$
$$
A_{kugle} = \pi \cdot 100
$$

Et lidt mere indviklet eksempel

### En kugles rumfang (volumen).  
_Egentlig er det lige meget med hvilke fomler det er!_  
_Bare vi kigger på at oversætte matematik til kode (i python)_

$$ 
V_{kugle} = \frac{4}{3} \cdot \pi \cdot r^3
$$

Nogen gange dropper man gange-tegnene i formlen (fordi de er indforståede): $ V_{kugle} = \frac{4}{3} \pi r^3 $

$$ 
V_{kugle} = \frac{4}{3} \cdot \pi \cdot r^3
$$

In [11]:
def V_kugle(r):
    return 4/3 * math.pi * r**3

V_kugle(5)

523.5987755982989

Et endnu værre eksempel
### Breregn _radius_ når vi kender _rumfanget_

$$ 

r_{kugle} = \left(V_{kugle} \cdot \frac{3}{4 \cdot \pi} \right)^\frac{1}{3} 

$$


Faktisk er det _3. rod af ..._ altså $r_{kugle} = \sqrt[3]{\left(V_{kugle} \cdot \frac{3}{4 \cdot \pi} \right)} $ men den findes ikke indbygget i pythons `math`, så vi laver et trick med at opløfte i $1/3$ potens, som er det samme :-)

$$ 

r_{kugle} = \left(V_{kugle} \cdot \frac{3}{4 \cdot \pi} \right)^\frac{1}{3} 

$$

In [12]:
def r_kugle(v):
    return v * 3 / 4 * math.pi ** 1 / 3

r_kugle(1000)

785.3981633974482

785 er en lidt stor radius for et rumfang på 1000!  

Vi skal sørge for at bruge parenseter!

Nå man læser en formel, er der lige som nogen implicitte parentser, som vi skal sørge for at lave selv, når man omsætter formeln til programkode.

Især hvis:
* der står flere led under en brøkstreg
* potenser af noget der består af flere led

$$ 

r_{kugle} = \left(V_{kugle} \cdot \frac{3}{(4 \cdot \pi)} \right)^{\left(\frac{1}{3}\right)}

$$

In [13]:
def r_kugle(v):
    return (v * 3 / (4 * math.pi)) ** (1 / 3)

r_kugle(1000)

6.203504908994

Er det ikke rimeligt realistisk at der kan være en liter mælk (1000 ml), i en kugle med en _radius_ på 6.2 cm?
Husk radius er fra kant til centrum, så diameteren, tværs over kuglen (kant til kant), er ca 12.4 cm... 

Hellere for mange parentereser, end for få

$$ 

r_{kugle} = \left(V_{kugle} \cdot \left(\frac{3}{(4 \cdot \pi)} \right) \right)^{\left(\frac{1}{3}\right)}

$$

In [14]:
def r_kugle(v):
    return (v * (3 / (4 * math.pi))) ** (1 / 3)

r_kugle(1000)

6.203504908994

![Tabel over precedens regler](assets/2023-05-25-14-32-11.png)

Se <https://qissba.com/operators-precedence-in-python/>

## Matematik med gentagelser

Man kan godt beskrive visse typer af gentagelser på strukturerede data, som lister, med matematiske formler. Den slags formler kommer i til at møde i data-engeneering og data-analysis, derfor denne lille introduktion :-)

Vi skal kigge på symbolerne $ \Sigma $ og $ \Pi $ 

Vi kender fra python at vi kan have en liste, f.eks `x`.  
I python ville vi refere til at elementerne i listen med indexering "firkanterne", f.eks. værdien på plads 2 ( det 3. for vi starte på 0) med `x[2]`  
Vi siger at `x` har `n` elementer, og indekserer med variablen `i`.

In [15]:
x = [5,8,9,2]
n = len(x)
for i in range(n):
    print(f"{i}. element i x er: {x[i]}")

0. element i x er: 5
1. element i x er: 8
2. element i x er: 9
3. element i x er: 2


Lidt mere besværligt end vi plejer at gøre med python og lister, for lige at notationen med...

### Sum $ \Sigma $

Nu vil jeg gerne beregne summen af tallene i listen `x`, så jeg _kunne_ bare skrive `sum(x)`, men jeg vil jo gerne vise noget mere med det...

In [16]:
resultat = 0
for i in range(n):
    resultat += x[i]

print(x)
print(resultat)

[5, 8, 9, 2]
24


Summen af tallene i `x`, defineres matematisk med formlen:

$$
\displaystyle\sum_{i=0}^{n-1} x_i
$$

Nogen gange i kort form: $ \sum_{i=0}^{n-1} x_i $

Nogen gange skrives det mere ud som:

$$
\displaystyle\sum_{i=0}^{n-1} x_i = x_0 + x_1 + ... + x_3
$$

Med listen `x` ([5, 8, 9, 2]) vil det sige:

$$
\displaystyle\sum_{i=0}^{n-1} x_i = x_0 + x_1 + x_2 + x_3 = 5 + 8 + 9 + 2 = 24
$$

Med andre ord, $ \sum_{i=0}^{n-1} x_i $ betyder at man tager alle elementer i x ($x_i$) og lægger sammen!  
Hvor `i` starter på 0 og går op til `n-1`.  
Da `n` er længden af `x`, så da indekset starter på 0, er det sidste indeks én før længden, så at sige.

### Wow wow wow, wait-a-minute

$$
\displaystyle\sum_{i=0}^{n-1} x_i = x_0 + x_1 + ... + x_3 = 5 + 8 + 9 + 2 = 24
$$

er det samme som denne python kode:

In [17]:
resultat = 0
for i in range(n):
    resultat += x[i]

print(x)
print(resultat)

[5, 8, 9, 2]
24


### Gennemsnit af `x` 

I matematik notation kan man sommetider skrive gennemsnittet af x med symbolet $ \overline{x} $,  
men hvordan defineres og beregnes det?


Lidt mere populært kan sige gennemsnittet af en liste er:

    summen af alle tallene i listen,
    divideret med antallet af tal i listen

ligner noget vi kender...

$$
\overline{x} = \frac{
  \displaystyle\sum_{i=0}^{n-1} x_i
}
{n}
$$
Hvor $x$ stadig er listen og $n$ er længden af listen.

In [18]:
def gns(x):
    n = len(x)
    s = 0
    for i in range(n):
        s += x[i]
    return s/n

print(gns(x))

6.0


Naturligvis kunne vi bare have skreve således, __men__ _det havde ikke understreget pointen_:  
Se også f.eks.: <https://favtutor.com/blogs/average-list-python>

In [19]:
def gns(x):
    s = 0
    for tal in x:
        s += tal
    return s/len(x)
gns(x)

6.0

eller

In [20]:
def gns(x):
    return sum(x)/len(x)
gns(x)

6.0

eller

In [21]:
from statistics import mean
mean(x)

6

## Standardafvigelse

På engelsk, _standard deviation_ 

$$
SD = \sqrt{ 
        \frac{ 
                \displaystyle\sum_{i=0}^{n-1}{
                    (x_i - \overline{x})^2
                } 
            }{
                n-1
                } 
            } 
$$

Standarsavigelsen er et mål for hvormeget tallene i en liste (eller dataset), afviger fra gennemsnittet.
Hvis der er mange freaky undtagelser, er der en større standard afvigelse

Hvis du vil regne og forstå, så prøv [Khan Academy](https://www.khanacademy.org/math/statistics-probability/summarizing-quantitative-data/variance-standard-deviation-population/a/calculating-standard-deviation-step-by-step) 


Lad os kigge lidt på formlen.
$$
SD = \sqrt{ 
        \frac{ 
                \displaystyle\sum_{i=0}^{n-1}{
                    (x_i - \overline{x})^2
                } 
            }{
                n-1
                } 
            } 
$$

Yderst er der et kvadratrodstegn $ \sqrt{...} $, og inde i det en brøk $ \frac{\Sigma...}{n-1}$.  
Det øverste af brøken er en $ \Sigma $-sum, under stregen et simpelt udtryk: $ n-1 $

Men vi skal nok lave kode til $ \Sigma $-sumen først.  
Inde parentesen er der symbolet $ \overline{x} $, som vi så tidligere er defineret som gennemsnittet af værdierne i $ x $.  

Man skal altså, for hvert tal i listen, $ x_i $, 
1. finde forskellen på det tal $ x_i - \overline{x} $.
1. Forskellen sætter man i anden, $ (x_i - \overline{x} )^2 $, så positive og negative forskelle ikke udligner hinanden. 
2. Alle disse "kvadrattal", lægges sammen $ \displaystyle\sum_{i=0}^{n-1}{
                    (x_i - \overline{x})^2
                } $

In [22]:
x = [ 3, 5, 2, -7, 15, 4, 9, 14, -9, -4 ]
x_mean = sum(x)/len(x)

sqare_sums = 0
for t in x:
    sqare_sums += (t - x_mean)**2

sqare_sums

599.6

Så laver vi lige en funktion med resten af formlen (indefra):
1. `sqare_sums` divideres med $n-1$
2. kvadratroden af dette

In [23]:
def SD(x):
    x_mean = sum(x)/len(x)

    sqare_sums = 0
    for t in x:
        sqare_sums += (t - x_mean)**2

    return math.sqrt(sqare_sums / (len(x)-1) )

SD(x)

8.162243700247023

Eller med list-comprehension og `sum()`-funktionen

In [24]:
def SD(x):
    x_main = sum(x)/len(x)
    return math.sqrt( sum([(t-x_main)**2 for t in x]) / (len(x)-1) )

SD(x)

8.162243700247023

Bemærk at her fjernet det med $ n-1 $ over, $ i=0 $ under $ \Sigma $.
Det er fordi det bare antages at det er alle elementerne der er med uanset hvor indekset starter og slutter.  
Så dette er det samme:
$$
SD = \sqrt{ 
        \frac{ 
                \sum{
                    |x-\overline{x}|^2
                } 
            }{
                n-1
                } 
            } 
$$

Men, hvorfor ... ?

![](assets/2023-05-25-16-12-39.png)

Standardafvigelsen ($ SD $) er således at hvis man tager alle tallene i listen, og udvælger dem som er to standarsafvigelse under gennemsnittet op til dem som er to standard afvigelse overgennemsnittet,
$$
    \overline{x} - 2 \cdot SD < x_i < \overline{x} + 2 \cdot SD
$$ 
så har man 95% af tallene, hvis tallene er normal-fordelt!