# cost_function


#### Qa

Følgende designmatrix skal laves og printes:
$$
    \ar{rl}{
      \bx\pown{1} &= \ac{c}{ 1, 2, 3}^T \\
      \bx\pown{2} &= \ac{c}{ 4, 2, 1}^T \\
      \bx\pown{3} &= \ac{c}{ 3, 8, 5}^T \\
      \bx\pown{4} &= \ac{c}{-9,-1, 0}^T
    }
$$
I kodeblokken importeres de nødvendige biblioteker, herunder NumPy og math. Derefter defineres vektorerne, x1, x2, x3 og x4, der repræsenterer hver søjlevektor i matrixen. Disse vektorer udgør feature-værdierne.

Herefter anvendes NumPy's vstack-funktion til at stable de definerede vektorer vertikalt, hvilket resulterer i oprettelsen af matricen X.

Endelig bruges print-funktionen til at udskrive matricen.

In [1]:
import numpy as np
import math

y = np.array([1,2,3,4]) # actual values

# Define the given vectors 𝐱(𝑖)
x1 = np.array([1, 2, 3])
x2 = np.array([4, 2, 1])
x3 = np.array([3, 8, 5])
x4 = np.array([-9, -1, 0])

X = np.vstack((x1, x2, x3, x4))

# Print the resulting 𝐗 matrix
print(X)


[[ 1  2  3]
 [ 4  2  1]
 [ 3  8  5]
 [-9 -1  0]]


#### Qb

I opgaven blev arbejdet med beregning af normer eller afstande mellem vektorer. To typer blev undersøgt: $\norm{1}$, og $\norm{2}$.

Normerne blev først matematisk defineret og derefter implementeret i Python uden brug af biblioteker som math.sqrt eller numpy.linalg.norm. Først blev en 'low-level' implementering oprettet ved hjælp af grundlæggende operationer som +, *, og ** for at beregne normerne.

Implementeringerne blev testet ved sammenligning med forventede resultater for at sikre korrekt funktion, vha. 'assert' funktionen

Efter bekræftelse af test implementeringer blev $\norm{2}$ optimeret ved at bruge np.numpy's dot-operator i stedet for en eksplicit sum. Denne optimerede version blev kaldt L2Dot.



In [2]:
def L1(vector):
    assert isinstance(vector, np.ndarray), "Input must be a NumPy array"
    l1_norm = 0
    for element in vector:
        l1_norm += abs(element)
    return l1_norm

def L2(vector):
    assert isinstance(vector, np.ndarray), "Input must be a NumPy array"
    l2_norm = 0
    for element in vector:
        l2_norm += element ** 2
    return l2_norm ** 0.5

def L2Dot(vector):
    assert isinstance(vector, np.ndarray), "Input must be a NumPy array"
    return np.sqrt(np.dot(vector, vector))

    

# TEST vectors: here I test your implementation...calling your L1() and L2() functions
tx=np.array([1, 2, 3, -1])
ty=np.array([3,-1, 4,  1])

expected_d1=8.0
expected_d2=4.242640687119285

d1=L1(tx-ty)
d2=L2(tx-ty)

print(f"tx-ty={tx-ty}, d1-expected_d1={d1-expected_d1}, d2-expected_d2={d2-expected_d2}")

eps=1E-9 
# NOTE: remember to import 'math' for fabs for the next two lines..
assert math.fabs(d1-expected_d1)<eps, "L1 dist seems to be wrong" 
assert math.fabs(d2-expected_d2)<eps, "L2 dist seems to be wrong" 

print("OK(part-1)")

# comment-in once your L2Dot fun is ready...
d2dot=L2Dot(tx-ty)
print("d2dot-expected_d2=",d2dot-expected_d2)
assert math.fabs(d2dot-expected_d2)<eps, "L2Ddot dist seem to be wrong" 
print("OK(part-2)")

tx-ty=[-2  3 -1 -2], d1-expected_d1=0.0, d2-expected_d2=0.0
OK(part-1)
d2dot-expected_d2= 0.0
OK(part-2)


### Qc

I opgaven blev der arbejdet med implementeringen af cost-funktionen 𝐽 og specifikt root mean squared error (RMSE).



Først blev funktionen RMSE lavet. Denne funktion tager to input: forudsagte værdier (predictions) og faktiske værdier (actual_values). Internt bruges den tidligere implementerede L2-norm-funktion, L2Dot, til at beregne kvadrerede fejl. Herefter multipliceres resultatet med 1/2 for at opnå RMSE-værdien.

En dummy hypotese-funktion, ℎ𝑑𝑢𝑚𝑚𝑦, blev givet for at returnerer den første kolonne af designmatricen fra opgave Qa.

Endelig blev RMSE-funktionen testet ved at give den hypotesefunktionen samt y fra opgave Qa som inputs. Resultatet blev sammenlignet med forventede værdier for at bekræfte korrektheden af RMSE-beregningerne.

In [3]:
def RMSE(predictions, actual_values):
    assert len(predictions) == len(actual_values), "Input arrays must have the same size"
    error = predictions - actual_values
    rmse = 1/2 * (L2Dot(error))  # Call the L2 function to calculate the squared error
    return rmse

# Dummy h function:
def h(X):    
    if X.ndim!=2:
        raise ValueError("excpeted X to be of ndim=2, got ndim=",X.ndim)
    if X.shape[0]==0 or X.shape[1]==0:
        raise ValueError("X got zero data along the 0/1 axis, cannot continue")
    return X[:,0]

# Calls your RMSE() function:
r=RMSE(h(X),y)

# TEST vector:
eps=1E-9
expected=6.57647321898295
print(f"RMSE={r}, diff={r-expected}")
assert math.fabs(r-expected)<eps, "your RMSE dist seems to be wrong" 

print("OK")

RMSE=6.576473218982953, diff=2.6645352591003757e-15
OK


#### Qd

I denne opgave blev der udviklet en funktion til at beregne Mean Absolute Error (MAE). MAE beregnes ved at bruge L1 funktionen og sammenligne predicted values med actual values og beregne gennemsnittet af absolutte fejl for hvert datapunkt.

Funktionen MAE blev implementeret som vist nedenfor. Den tager de to inputarrays, predictions og actual_values, og kontrollerer først, om de har samme størrelse. Herefter beregnes fejlene ved at trække actual_values fra predictions. MAE-værdien opnås ved at tage gennemsnittet af absolutværdierne ved at gange med 1/4, da der er 4 værdier i hver vektor.

In [4]:
# TODO: solve Qd
def MAE(predictions, actual_values):
    assert len(predictions) == len(actual_values), "Input arrays must have the same size"
    error = predictions - actual_values
    mae = 1/4 * L1(error)  # Call the L2 function to calculate the squared error
    return mae

# Calls your MAE function:
r=MAE(h(X), y)

# TEST vector:
expected=3.75
print(f"MAE={r}, diff={r-expected}")
assert abs(r-expected)<eps, "MAE dist seems to be wrong" 

print("OK")

MAE=3.75, diff=0.0
OK


#### Qe Robust Code 

I funktionerne RMSE MAE er der lavet en assert som tjekker, om længden af inputarrays predictions og actual_values er ens. Hvis de ikke har samme størrelse, udløser assert en fejl med den angivne meddelelse: "Input arrays must have the same size."

For L1 og L2 funktionerne tjekkes der for, om inputparameteren vector er en NumPy-array. Hvis vector ikke er en NumPy-array, udløser assert en AssertionError med meddelelsen: "Input must be a NumPy array."

### Qf Conclusion


I disse øvelser har vi dykket ned i grundlæggende begreber inden for ML, især fokuseret på vektor- og matrixoperationer, norms, cost function fejlmetrikker og robust kode. Her er de vigtigste pointer:

Vektor- og Matrixoperationer: Vi lærte, hvordan man repræsenterer datasamples som vektorer og konstruerer datamatricer. Disse operationer er afgørende for at arbejde med data inden for maskinlæring, da de fleste algoritmer er afhængige af matrixmanipulationer.

Normer og Afstande: Vi udforskede L1 (Manhattan-normen) og L2 (Euklidisk norm) for vektorer. Forståelse af disse normer er afgørende for at måle afstande mellem data punkter.

Fejlmetrikker: Vi implementerede to fejlmetrikker, RMSE og MAE. Disse metrikker hjælper med at vurdere performance af modellerne ved at kvantificere forskellen mellem predicted og actual values.

Robusthed: Vi fik en forståelse for hvordan man skriver robust kode ved at inkludere fejltjekning og datavalidering. Dette sikrer, at vores funktioner håndterer uventede input på en hensigtsmæssig måde.

Gennem disse øvelser dykkede vi dybere ned i matematikken bag maskinlæringsalgoritmer, lærte at måle fejl og afstande mellem datapunkter samt forstod vigtigheden af nøjagtighed og robust kodning i maskinlæring.

REVISIONS||
---------||
2018-12-18| CEF, initial.                  
2019-01-31| CEF, spell checked and update. 
2019-02-04| CEF, changed d1/d2 in Qb to L1/L2. Fixe rev date error.
2019-02-04| CEF, changed headline.
2019-02-04| CEF, changed (.) in dist(x,y) to use pipes instead.
2019-02-04| CEF, updated supervised learning fig, and changed , to ; for thetas, and change = to propto.
2019-02-05| CEF, post lesson update, minor changes, added fabs around two test vectors.
2019-02-07| CEF, updated def section. 
2019-09-01| CEF, updated for ITMAL v2.
2019-09-04| CEF, updated for print-f and added conclusion Q.
2019-09-05| CEF, fixed defect in print string and commented on fabs.
2020-01-30| CEF, F20 ITMAL update.
2020-02-03| CEF, minor text fixes.
2020-02-24| CEF, elaborated on MAE and RMSE, emphasized not to use np functionality in L1 and L2.
2020-09-03| CEF, E20 ITMAL update, updated figs paths.
2020-09-06| CEF, added alt text.
2020-09-07| CEF, updated HOML page refs.
2021-01-12| CEF, F21 ITMAL update, moved revision table.
2021-02-09| CEF, elaborated on test-vectors. Changed order of Design Matrix descriptions.
2021-08-02| CEF, update to E21 ITMAL.
2022-01-25| CEF, update to F22 SWMAL.
2022-02-25| CEF, removed inner product equations.
2022-08-30| CEF, updated to v1 changes.
2023-02-07| CEF, minor update for d.