# Vícenásobná lineární regrese metodou MLE

Úloha zaměřená na implementaci vícenásobné lineární regrese pomocí metody MLE za předpokladu, že data pochází z normálního rozdělení (viz prezentace).

**S výhodou využijete kód z předchozích cvičení.**

Uměle vytvořená data reprezentují cenu bytů v závislosti na rozměru obytné plochy a vzdálenosti od centra města.

Nainstalujte si balíky plotly a pandas, např:

`pip install plotly pandas`

Import knihoven:

In [None]:
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
import pandas as pd

Vygenerování dat:

In [None]:
np.random.seed(0)

n_samples = 200
living_space_m2 = np.random.uniform(50, 150, n_samples)
distance_km = np.random.uniform(0, 12, n_samples)

gen_std = 1_000_000 # Směrodatná odchylka pro generování gaussovského šumu v datech.
price_czk = 100_000 * living_space_m2 - 300_000 * distance_km + np.random.normal(0, gen_std, n_samples)

data = pd.DataFrame({
    "Obytná plocha [m²]": living_space_m2,
    "Vzdálenost od centra [km]": distance_km,
    "Cena [Kč]": price_czk
})


Pro další výpočty využívejte proměnné `n_samples`, `living_space_m2`, `distance_km` a `price_czk`.

Interkativní graf:

In [None]:
def show_data(theta=None, point=None):
    fig = px.scatter_3d(data, x="Obytná plocha [m²]", y="Vzdálenost od centra [km]", z="Cena [Kč]", title="Ceny bytů").update_layout(height=600)

    if theta is not None:
        x = np.linspace(np.min(living_space_m2), np.max(living_space_m2), 2)
        y = np.linspace(np.min(distance_km), np.max(distance_km), 2)

        xx, yy = np.meshgrid(x, y)
        zz = theta[0] + theta[1] * xx + theta[2] * yy

        fig.add_trace(go.Surface(
            x=xx, y=yy, z=zz,
            opacity=0.6,
            showscale=False
        ))

    if point is not None:
        fig.add_trace(go.Scatter3d(
            x=np.array([point[0]]),
            y=np.array([point[1]]),
            z=np.array([point[2]]),
            mode="markers",
            marker=dict(size=10, color="red"),
            name="Predikce"
        ))

    fig.show()

In [None]:
show_data()

Funkce pro odhad parametrů theta pomocí metody MLE **za předpokladu, že data pochází z normálního rozdělení (viz prezentace)**:

In [None]:
def computeThetaMLE(x, y, lmbd=0):
    """
    x - matice vstupních hodnot rozměru (počet vstupních proměnných X počet trénovacích vzorků)
    y - vektor výstupních hodnot (cena bytu)
    lmbd - regularizační parametr lambda
    
    """
    
    #################################################################
    # ZDE DOPLNIT
    
    theta = ... #nezapomente na regularizaci!
    
    #################################################################
    
    return theta


Linearní regrese bez regularizace:

In [None]:
theta = computeThetaMLE(np.c_[living_space_m2, distance_km], price_czk)
print(theta)

Vykreslení výsledků regrese:

In [None]:
show_data(theta)

Určete předpokládanou cenu bytu o ploše 80 m² vzdáleného 4 km od centra:

In [None]:
x_living_space_m2 = 80
x_distance_km = 4

#################################################################
# ZDE DOPLNIT
#x_price_czk, x_living_space_m2 a x_distance_km musi byt cisla!

x_price_czk = ...

#################################################################

print(x_price_czk)
show_data(theta, point=(x_living_space_m2, x_distance_km, x_price_czk))

Vypočítejte rozptyl a z něj směrodatnou odchylku regresního modelu:

In [None]:
#################################################################
# ZDE DOPLNIT
# Vypočítejte rozptyl do proměnné `var` a směrodatnou odchylku do proměnné `std`.

var = ...
std = ...

#################################################################

print(f"var = {var}")
print(f"std = {std}")

Všimněte si, že směrodatná odchylka modelu se blíží směrodatné odchylce nastavené pro generování gaussovského šumu v umělých datech.