## Definitions

Σύμβολα:

- $m$: το μέγεθος του training set (τα rows / αριθμός των παρατηρήσεων)
- $n$: ο αριθμός των features του training set (τα columns / αριθμός των μεταβλητών)
- $X$: το σύνολο (set) των input
- $Y$: το σύνολο (set) των output
- $i$: το index ενός συγκεκριμένου row. Παίρνει τιμές από $1 \dots m$
- $x^{(i)}$: ένα συγκεκριμένο row του $X$. Είναι ένα διάνυσμα που περιέχει $n$ τιμές.
- $y^{(i)}$: ένα συγκεκριμένο row του $Y$. Είναι διάνυσμα.
- **TODO: προσέθεσε και τα subscripts**
- $h_{θ}(x)$: Η hypothesis function
- $θ_j$: Οι παράμετροι της hypothesis function. 
- $J(θ_j)$: Η cost function

Έννοιες:

- *learning algorithm*: ένα μαθηματικό μοντέλο το οποίο ορίζει τον *τύπο* της **hypothesis function**
- *hypothesis function*: μία συνάρτηση που προβλέπει τιμές output για δεδομένο input
- *cost function*: συνάρτηση την οποία ελαχιστοποιούμε για να διαλέξουμε τις παραμέτρους της 
  hypothesis function.

- *regression*: ένα πρόβλημα στο οποίο το $Y$ είναι συνεχές,
- *classification*: ένα πρόβλημα στο οποίο το $Y$ είναι διακριτό,

## High level overview

Ο σκοπός μας είναι να βρούμε μια συνάρτηση η οποία θα μας 
επιτρέψει να *προβλέψουμε* το $y$ για δεδομένο $x$.

Αρχικά διαλέγουμε «learning algorithm». 
Αυτός είναι ένας fancy τρόπος για να πούμε ότι διαλέγουμε 
τον τύπο του μοντέλου που θα χρησιμοποιήσουμε
(γραμμικό, πολυωνυμικό κτλ).

Πχ, για γραμμικό μοντέλο και για μία μεταβλητή (n=1) η hypothesis function είναι:

$$
h_{θ}\left(x^{(i)}\right) = θ_0 + θ_1 x^{(i)}
$$

Ενώ για πολυωνυμικό μοντέλο β' βαθμού και μία μεταβλητή (n=1) θα έχουμε

$$
h_{θ}\left(x^{(i)}\right) = θ_0 + θ_1 x^{(i)} + θ_2 \left(x^{(i)}\right)^2
$$


Αφού έχουμε τον γενικού τύπο του μοντέλου, δηλαδή το $h_{θ}(x)$,
πρέπει να βρούμε τις παραμέτρους του, δηλαδή να υπολογίσουμε τα $θ_j$

O υπολογισμός των $θ_j$ γίνεται μέσω της ελαχιστοποίησης της συνάρτησης κόστους $J(θ)$.

H επιλογή της συνάρτησης κόστους $J(θ)$ γίνεται και αυτή από εμάς. 
Για προβλήματα *regression* σύνηθης επιλογή είναι το τετράγωνο της μέσης της διαφοράς 
της προβλεπόμενης τιμής από την κανονική  (squared error function *or* mean squared error).

Άρα το πρόβλμα που τελικά καλούμαστε να λύσουμε είναι το

$$
\min{J({θ})}
$$

Aπό τη λύση αυτού του προβλήματος βελτιστοποιήσης (optimization) βρίσκουμε τα $θ_j$ και έτσι έχουμε τον πλήρη ορισμό της συνάρτησης $h_{θ}$

## Επίλυση γραμμικού μοντέλου μιας μεταβλητής (univariate linear regression)

Για προβλήματα μίας μεταβλητής η hypothesis function είναι:

$$
h_{θ}\left(x^{(i)}\right) = θ_0 + θ_1 x^{(i)}
$$

Οι παραμετροι μας λοιπόν είναι:

- $θ_0$
- $θ_1$

Στην γενική περίπτωση, το τετράγωνο της διαφοράς γράφεται ως εξής:

$$
\begin{align}
J(θ) &= \dfrac{1}{2m} \sum_{i=1}^{m}\left( \widehat{y^{(i)}}  - y^{(i)}\right)^2  \\
     &= \dfrac{1}{2m} \sum_{i=1}^{m}\left( h_{θ}\left(x^{(i)}\right) - y^{(i)}\right)^2
\end{align}
$$

> Σημείωση: Τον όρο $\dfrac{1}{2m}$ τον βάζουμε απλά για να κάνουμε πιο εύκολες μερικές από τις πράξεις όταν θα αρχίσουμε τις παραγωγίσεις στη συνέχεια.

Κάνοντας αντικατάσταση της hypothesis function βρίσκουμε ότι:

$$
J(θ_0, θ_1)   = \dfrac{1}{2m} \sum_{i=1}^{m}\left( θ_0 + θ_1 x^{(i)} - y^{(i)}\right)^2
$$

Ο στόχος μας είναι να βρούμε τα $(θ_0, θ_1)$ που ελαχιστοποιούν την συνάρτηση κόστους $J$:

$$ 
\min{J\left(θ_0, θ_1\right)}
$$

Τη συνάρτηση κόστους στη γενική της μορφή μπορούμε να την γράψουμε σε python ως εξής:

In [1]:
import numpy as np

def J(
    X: np.array,
    Y: np.array,
    theta0: float,
    theta1: float
) -> float:
    return 1 / 2 / len(X) * ((theta0 + theta1 * X - Y)**2).sum()

### $θ_0 = 0$

Για να απλοποιήσουμε τα πράγματα ακομα περισσότερο, ας υποθέσουμε για την ώρα ότι $θ_0 = 0$.

Στην περίπτωση αυτή έχουμε:

$$
\begin{align}
h_θ\left(x^{(i)}\right) &= θ_1 x^{(i)} \\
               J(θ_1)   &= \dfrac{1}{2m} \sum_{i=1}^{m}\left( θ_1 x^{(i)} - y^{(i)}\right)^2
\end{align}
$$

Παρόλα αυτά, δεν έχει πολύ νόημα να ξαναορίσουμε την συνάρτηση στην Python, 
καθώς μπορούμε απλά να περάσουμε `theta0=0` ως παράμετρο όταν την καλούμε.

Έστω ακόμα ότι τα training set μας είναι το εξής:

In [2]:
X = np.array([1, 2, 3])
Y = np.array([1, 2, 3])

Ας πάρουμε μερικές τυχαίες τιμές του $θ_1$ και ας δούμε τι τιμές παίρνει η $J$:

In [3]:
theta0 = 0
theta1 = 0.5
J(X=X, Y=Y, theta0=theta0, theta1=theta1)

0.5833333333333333

Δηλαδή βλέπουμε ότι για `θ1=0.5`, το κόστος είναι περίπου `J=0.58`

Ας υπολογίσουμε το κόστος και για άλλες τιμές:

In [4]:
for theta1 in [-2, -1.5, -0.5, 0, 0.5, 0.75, 1, 1.5, 2, 3]:
    cost = J(X=X, Y=Y, theta0=theta0, theta1=theta1)
    print(f"{theta0=}\t{theta1=} \t{cost=}")

theta0=0	theta1=-2 	cost=21.0
theta0=0	theta1=-1.5 	cost=14.583333333333332
theta0=0	theta1=-0.5 	cost=5.25
theta0=0	theta1=0 	cost=2.333333333333333
theta0=0	theta1=0.5 	cost=0.5833333333333333
theta0=0	theta1=0.75 	cost=0.14583333333333331
theta0=0	theta1=1 	cost=0.0
theta0=0	theta1=1.5 	cost=0.5833333333333333
theta0=0	theta1=2 	cost=2.333333333333333
theta0=0	theta1=3 	cost=9.333333333333332


όπως βλέπουμε η συνάρτηση ελαχιστοποιείται στο 0.

Ας πλοτάρουμε:

In [200]:
import functools
import numpy as np

from bokeh.io import output_notebook
from bokeh.layouts import row
from bokeh.layouts import column
from bokeh.layouts import gridplot
from bokeh.models import Legend
from bokeh.plotting import figure
from bokeh.plotting import show

# Output the visualization directly in the notebook
output_notebook()

# Create a figure with no toolbar and axis ranges of [0,3]
hplot = figure(
    title="theta0=0",
    x_range=(0, 4),
    y_range=(0, 4),
    x_axis_label='x',
    y_axis_label='h(x)',
)

_ = hplot.line(x=[-3.75, 3.75], y=[-5.0, 5.0], legend_label="h(θ1=1.25)", line_color="magenta", line_width=2) 
_ = hplot.line(x=[-5, 5], y=[-5.0, 5.0], legend_label="h(θ1=1)", line_color="red", line_width=2)
_ = hplot.line(x=[-5, 5], y=[-2.5, 2.5], legend_label="h(θ1=0.5)", line_color="blue", line_width=2) 
_ = hplot.circle(x=X, y=Y, color='green', size=10, alpha=0.5, legend_label="training set")

hplot.legend.location = "top_left"

jplot = figure(
    #x_range=hplot.x_range,
    #y_range=hplot.y_range,
    x_axis_label='θ1',
    y_axis_label='J(θ1)',
)

# plot the curve
_ = jplot.line(
    x=theta1s,
    y=[J(X=X, Y=Y, theta0=0, theta1=theta1) for theta1 in np.linspace(-0.5, 2.5, 30)],
    line_color="blue",
    legend_label="J(Θ)",
)

# minimum point
theta1 = 1
_ = jplot.triangle(theta1, J(X, Y, theta0=0, theta1=theta1), legend_label=f"J(θ1=1)", size=12, color="magenta", line_color="magenta")

# plot various points
for theta1 in (0, 0.5, 0.85, 1.12, 1.25, 1.5):
    _ = jplot.cross(theta1, J(X, Y, theta0=0, theta1=theta1), legend_label=f"J(θ1={theta1})", size=8, line_color="red")
    

# Show plot
show(gridplot([[hplot, jplot]]))

In [5]:
from bokeh.io import output_notebook
from bokeh.layouts import row
from bokeh.layouts import column
from bokeh.layouts import gridplot
from bokeh.models import Legend
from bokeh.plotting import figure
from bokeh.plotting import show

# Output the visualization directly in the notebook
output_notebook()

# Create a figure with no toolbar and axis ranges of [0,3]
hplot = figure(
    title="theta0=0",
    x_range=(0, 4),
    y_range=(0, 4),
    x_axis_label='x',
    y_axis_label='h(x)',
)

_ = hplot.line(x=[-3.75, 3.75], y=[-5.0, 5.0], legend_label="h(θ1=1.25)", line_color="magenta", line_width=2) 
_ = hplot.line(x=[-5, 5], y=[-5.0, 5.0], legend_label="h(θ1=1)", line_color="red", line_width=2)
_ = hplot.line(x=[-5, 5], y=[-2.5, 2.5], legend_label="h(θ1=0.5)", line_color="blue", line_width=2) 
_ = hplot.circle(x=X, y=Y, color='green', size=10, alpha=0.5, legend_label="training set")

hplot.legend.location = "top_left"

jplot = figure(
    #x_range=hplot.x_range,
    #y_range=hplot.y_range,
    x_axis_label='θ1',
    y_axis_label='J(θ1)',
)

# plot the curve
theta1s = np.linspace(-0.5, 2.5, 30)
_ = jplot.line(
    x=theta1s,
    y=[J(X=X, Y=Y, theta0=0, theta1=theta1) for theta1 in theta1s],
    line_color="blue",
    legend_label="J(Θ)",
)

# minimum point
theta1 = 1
_ = jplot.triangle(theta1, J(X, Y, theta0=0, theta1=theta1), legend_label=f"J(θ1=1)", size=12, color="magenta", line_color="magenta")

# plot various points
for theta1 in (0, 0.5, 0.85, 1.12, 1.25, 1.5):
    _ = jplot.cross(theta1, J(X, Y, theta0=0, theta1=theta1), legend_label=f"J(θ1={theta1})", size=8, line_color="red")

# Show plot
show(gridplot([[hplot, jplot]]))