## Introduktion

 
Inom AI-utveckling handlar allt i grund och botten om att hitta minsta värden för vissa funktioner. 

För det ändamålet gick vi under senaste lektionen igenom den metod som används, för i princip all moden AI-utveckling, för att göra detta: **Gradient Descent**.

Syftet med följande uppgifter är att vi ska få en lite bättre känsla för hur Gradient Descent fungerar


_____

**Vad är Gradient Descent?**

Gradient Descent är en optimeringsmetod som används för att minimera en funktion genom att iterativt justera parametrarna. 

Den grundläggande idén är att vi vid varje iteration beräknar gradienten (derivatan) av funktionen, som visar oss vilken riktning vi ska röra vår oberoende variabel i, för att minska funktionsvärdet. 

I funktionen ovan är x vår oberoende variablen, och Vi uppdaterar vårt x-värde enligt följande formel:

$$
x_{\text{ny}} = x_{\text{gammal}} - \text{learning rate} \times \text{gradient}
$$
Genom att justera learning rate kan vi styra hur stora steg vi tar mot minimum.


_____

In [None]:
import numpy as np
import matplotlib.pyplot as plt

Vi definierar först här en funktion som vi vill hitta minimum till. Specifikt vill vi hitta det x-värde som ger funktionens minsta värde. Vi definierar även funktionens derivata - den behövs för Gradient Descent.


In [None]:
def f(x):
    return x**2 - 4*x + 4

def f_derivative(x):
    return 2*x - 4


### Visualisering av Funktionen

Innan vi kör Gradient Descent, låt oss visualisera funktionen *f* för att se var minimum ligger.


In [None]:
# Visualize the function
x_values = np.linspace(-6, 10, 100)
y_values = f(x_values)

plt.plot(x_values, y_values, label='f(x) = x^2 - 4x + 4')
plt.axhline(0, color='black', lw=1)
plt.axvline(0, color='black', lw=1)
plt.axvline(2, color='red', lw=0.5, ls='--', label='Minimum at x=2')

plt.xlabel('x')
plt.ylabel('f(x)')
plt.legend(loc='upper right')
plt.show()


Vi ser här direkt via plotten att funktionen en har ett minimum vid x=2. Nu ska vi försöka hitta detta minimum automatiskt med hjälp av Gradient Descent.

_____

Låt oss nu definiera funktionen som utför Gradient Descent, vilket interativt hittar oss fram till det x-värde som ger oss minsta funktionsvärdet.

In [None]:
def gradient_descent(f, f_derivative, initial_x, learning_rate=0.1, iterations=1000):

    x = initial_x   # startvärdet av x
    x_values = []   # lista att samla alla värden av x

    for i in range(iterations):
        
        x_values.append(x)
        
        gradient = f_derivative(x)
        
        x = x - learning_rate * gradient

    # ------------ notera att följande endast är kod för som hanterar plotten, ej nödvändig för själva gradient descent ------------
        plt.figure(figsize=(10, 6))
        x_plot = np.linspace(np.abs(initial_x)+1, -np.abs(initial_x)-1, 100)
        plt.plot(x_plot, f(x_plot), label='f(x) = x^2 - 4x + 4', color='blue')
        plt.axhline(0, color='black', lw=1)
        plt.axvline(0, color='black', lw=1)
        plt.axvline(2, color='red', lw=0.5, ls='--', label='Minimum at x=2')

        # plot all previous x values
        plt.scatter(x_values, f(np.array(x_values)), color='orange', label='Previous x values')
        # Plot the current x value
        plt.scatter(x, f(x), color='green', label='Current x value', s=100)
        
        plt.title(f'Gradient Descent Iteration {i + 1}')
        plt.xlabel('x')
        plt.ylabel('f(x)')
        plt.legend()
        plt.show()
    # ------------------------------------------------------------------------------------------------------------------------------

        if abs(gradient) < 0.005:   # bryt om ändringen i gradienten är mindre än ett visst tröskelvärde
            break
        
        print(f"Iteration {i+1}: x = {x}, f(x) = {f(x)}, gradient = {gradient}")
    
    return x

_____

**Problem 1**

Testa att köra funktionen *gradient_descent()* med olika värden på på *initial_x*. Börja med x=6 och testa sedan fler värden, både positiva och negativa.

Vad händer? Varför?

In [None]:
gradient_descent(f, f_derivative, initial_x=6)

**Problem 2**

Vi kan ge funktionen ytterligare en input, learning rate. I klassen gick vi igenom att learning rate är "hur mycket" vi backar i gradientens riktning (dvs, hur snabbt vi närmare oss det optimala värdet av x) vid varje iteration. 

Välj återigen x=6 som startgissning, och testa därefter att köra igenom funktionen för följande värden på learning rate: 

[0.1, 0.01, 0,001]

Vad händer? Hur många iterationen krävs i varje fall för att slutföra funktionen?

Tips: du kan manuellt avbryta funktionen om det tar för lång tid...


In [None]:
gradient_descent(f, f_derivative, learning_rate=0.001, initial_x=6)

**Problem 3**


Vi har i uppgiften ovan testat vad som händer om man har relativt små värden på learning rate. Nu ska vi testa motsatsen, dvs lite större värden på learning rate.

Kör funktionen igen, men x=6 som startgissning, men denna gång testa följande learning rates:

[0.8, 1, 1.2]

Vad händer? 

Återigen, du kan manuellt abryta funktionen om det tar för lång tid...

In [None]:
gradient_descent(f, f_derivative, learning_rate=0.8, initial_x=6)

**Problem 4**

Testa runt för fler värden på learning rate. 

Blir det som du förväntar dig?

Vad kan du dra för slutsatser av problem 1-3?

**Problem 5**

Plotta nu funktionen $f(x) = x^4 - 6x^2 + 4x + 12$. 

Hur ser den ut, generellt?

Vad tror du händer om vi hade försökt köra Gradient Descent på funktionen du plottade ovan? Vad förutser du?

**Problem 6**

Anta att vi nu har

$f(x) = sin(2x) + x$ 

 - Kolla upp derivatan $f'(x)$ av denna funktion online (ex via wolframalpha.com) och skriv ner den. 
 - Skriv därefter ned iterationsformeln för x i gradient descent, med hjälp av derivatan.

Vad händer om vi skulle kört gradient descent på denna funktion? Förklara.

**Problem 7**

Ett problem för gradient descent ärdet s.k. problemet med globala- och lokala minimum. 

Hur stort problem är detta? Sök efter referenser på nätet (ej ChatGPT) och förklara med egna ord vad detta innebär, hur det påverkar gradient gescent och hur man kan försöka kringgå det.