<a href="https://colab.research.google.com/github/Jaksta1/Uczenie_Maszynowe_2025/blob/main/Jakub_Kownacki_praca_domowa_8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

---------------------------------
# 1. Importowanie bibliotek
---------------------------------

In [None]:
import torch
import matplotlib.pyplot as plt
import numpy as np
import matplotlib.animation as animation
from IPython.display import HTML
plt.rcParams['animation.embed_limit'] = 50 #zwiƒôkszenie limitu pamiƒôci do stworzenia animacji
# Ustawienie ziarna dla powtarzalno≈õci
torch.manual_seed(42)
np.random.seed(42)

-------------------------------------------
#2. Ustawienia parametr√≥w
-------------------------------------------

In [None]:
# Parametry elipsy
focus1 = torch.tensor([-2.0, 0.0])  # Pierwsze ognisko
focus2 = torch.tensor([2.0, 0.0])   # Drugie ognisko
constant_sum = 6.0                  # Sta≈Ça suma odleg≈Ço≈õci

# Inicjalizacja losowych punkt√≥w
num_points = 100
points = torch.rand((num_points, 2)) * 10 - 5  # Rozk≈Çad jednostajny w [-5, 5]
points.requires_grad = True

------------------------------------------------
#3. Funkcje pomocnicze
------------------------------------------------

In [None]:
# Funkcja obliczajƒÖca odleg≈Ço≈õci
def compute_distances(points, focus1, focus2):
    dist1 = torch.norm(points - focus1, dim=1)
    dist2 = torch.norm(points - focus2, dim=1)
    return dist1, dist2

def l0_approx_sigmoid(epsilon, delta, alpha=50):
    """
    Aproksymacja normy L0 za pomocƒÖ funkcji sigmoidalnej.
    Parametry:
        epsilon: tensor warto≈õci b≈Çƒôd√≥w
        delta: pr√≥g, poni≈ºej kt√≥rego b≈Çƒôdy sƒÖ uznawane za zerowe
        alpha: parametr kontrolujƒÖcy nachylenie funkcji sigmoidalnej, wiƒôksze warto≈õci alpha sprawiajƒÖ,
        ≈ºe aproksymacja staje siƒô bardziej "skokowa", zbli≈ºajƒÖc siƒô do idealnej normy L0
        r√≥≈ºniczkowalno≈õƒá: funkcja sigmoidalna jest r√≥≈ºniczkowalna, zatem mo≈ºemy jej u≈ºyƒá do
        obliczenia gradientu funkcji straty.
    Zwraca:
        aproksymowanƒÖ warto≈õƒá normy L0
    """
    return 1 / (1 + torch.exp(-alpha * (torch.abs(epsilon) - delta)))

# Funkcja treningowa z zapisem trajektorii i straty
def train_with_animation(loss_type, num_epochs=1000, lr=0.1):
    points = torch.rand((num_points, 2)) * 10 - 5
    points.requires_grad = True
    optimizer = torch.optim.Adam([points], lr=lr)
    trajectories = []  # Lista do przechowywania po≈Ço≈ºenia punkt√≥w w ka≈ºdej epoce
    loss_history = []  # Lista do przechowywania warto≈õci straty w ka≈ºdej epoce

    for epoch in range(num_epochs):
        optimizer.zero_grad()
        dist1, dist2 = compute_distances(points, focus1, focus2)
        epsilon = dist1 + dist2 - constant_sum

        if loss_type == "l2":
            loss = torch.mean(epsilon ** 2)
        elif loss_type == "l1":
            loss = torch.mean(torch.abs(epsilon))
        elif loss_type == "linf":
            loss = torch.max(torch.abs(epsilon))
        elif loss_type == "l0":
            delta = 0.01
            loss = torch.mean(l0_approx_sigmoid(epsilon, delta))  # U≈ºyj aproksymacji sigmoidalnej
        else:
            raise ValueError("Nieprawid≈Çowy typ straty")

        loss.backward()
        optimizer.step()

        # Zapisz aktualne po≈Ço≈ºenia punkt√≥w i stratƒô
        trajectories.append(points.detach().clone().numpy())
        loss_history.append(loss.item())

    return trajectories, loss_history

---------------------------------------------
#4. Trening dla straty L1
---------------------------------------------

In [None]:
# Uruchom trening dla straty l1
trajectories_l1, loss_history_l1 = train_with_animation("l1", num_epochs=300)

# Tworzenie animacji z dwoma subplotami
fig_l1, (ax1_l1, ax2_l1) = plt.subplots(1, 2, figsize=(12, 6))

# Subplot 1: Punkty
ax1_l1.set_xlim(-6, 6)
ax1_l1.set_ylim(-6, 6)
scatter_l1 = ax1_l1.scatter([], [], label='Punkty')
ax1_l1.scatter([focus1[0], focus2[0]], [focus1[1], focus2[1]], color='red', marker='x', s=100, label='Ogniska')
ax1_l1.legend()
ax1_l1.grid()
ax1_l1.set_title('Ruch punkt√≥w dla straty L1')

# Subplot 2: Wykres straty
ax2_l1.set_xlim(0, len(loss_history_l1))
ax2_l1.set_ylim(0, max(loss_history_l1) * 1.1)
line_l1, = ax2_l1.plot([], [], color='blue')
ax2_l1.set_xlabel('Epoka')
ax2_l1.set_ylabel('Strata')
ax2_l1.set_title('Przebieg funkcji straty L1')
ax2_l1.grid()

def update_l1(frame):
    # Aktualizacja po≈Ço≈ºenia punkt√≥w
    scatter_l1.set_offsets(trajectories_l1[frame])

    # Aktualizacja wykresu straty
    line_l1.set_data(range(frame + 1), loss_history_l1[:frame + 1])

    return scatter_l1, line_l1

ani_l1 = animation.FuncAnimation(fig_l1, update_l1, frames=len(trajectories_l1), interval=50, blit=True)
print("Ostatnia warto≈õƒá funkcji b≈Çƒôdu L1:", loss_history_l1[-1])

# Wy≈õwietlenie animacji w notebooku
HTML(ani_l1.to_jshtml())


##Dlaczego strata $L^1$ nie zbiega do zera nawet po narysowaniu elipsy?

Norma L1 to $ùêø_{\text{ellipse}}^{(1)}=\frac{1}{ùëÅ}‚àë_{ùëñ=1}^ùëÅ‚à£ùúñ_ùëñ‚à£$, czyli ≈õrednia warto≈õƒá bezwzglƒôdna b≈Çƒôd√≥w.\
Powodem nie zbiegania straty L1 do 0 jest to, ≈ºe w przeciwie≈Ñstwie do normy L2 (b≈Çƒôdu kwadratowego), kt√≥ra silnie karze nawet ma≈Çe odchylenia (gradient ro≈õnie z b≈Çƒôdem), norma L1 ma sta≈Çy gradient (¬±1 w zale≈ºno≈õci od znaku $ùúñ_ùëñ $‚Äã
 ). To sprawia, ≈ºe ma≈Çe b≈Çƒôdy sƒÖ s≈Çabo penalizowane, wiƒôc punkty mogƒÖ byƒá blisko elipsy, ale nie dok≈Çadnie na niej. W zwiƒÖzku z tym optymalizacja mo≈ºe oscylowaƒá lub zwolniƒá, gdy b≈Çƒôdy sƒÖ ma≈Çe, co prowadzi do ustabilizowania warto≈õci straty na poziomie powy≈ºej zera.\
**Wynik**: Strata nie zbiega do zera, bo L1 nie wymusza precyzyjnego dopasowania punkt√≥w do warunku.\
Wszystkie te wnioski sƒÖ zgodne z powy≈ºszƒÖ animacjƒÖ, na kt√≥rej widaƒá, ≈ºe dla odpowiednio du≈ºej liczby iteracji b≈ÇƒÖd utrzymuje siƒô na sta≈Çej warto≈õci oko≈Ço 0.02 pomimo tego, ≈ºe uzyskali≈õmy elipsƒô.

----------------------------------------------
#5. Trening dla straty $L^{‚àû}$
-----------------------------------------------

In [None]:
# Uruchom trening dla straty L_inf
trajectories_linf, loss_history_linf = train_with_animation("linf", num_epochs=800)

# Tworzenie animacji z dwoma subplotami
fig_linf, (ax1_linf, ax2_linf) = plt.subplots(1, 2, figsize=(12, 6))

# Subplot 1: Punkty
ax1_linf.set_xlim(-6, 6)
ax1_linf.set_ylim(-6, 6)
scatter_linf = ax1_linf.scatter([], [], label='Punkty')
ax1_linf.scatter([focus1[0], focus2[0]], [focus1[1], focus2[1]], color='red', marker='x', s=100, label='Ogniska')
ax1_linf.legend()
ax1_linf.grid()
ax1_linf.set_title('Ruch punkt√≥w dla straty L_inf')

# Subplot 2: Wykres straty
ax2_linf.set_xlim(0, len(loss_history_linf))
ax2_linf.set_ylim(0, max(loss_history_linf) * 1.1)
line_linf, = ax2_linf.plot([], [], color='blue')
ax2_linf.set_xlabel('Epoka')
ax2_linf.set_ylabel('Strata')
ax2_linf.set_title('Przebieg funkcji straty L_inf')
ax2_linf.grid()

def update_linf(frame):
    # Aktualizacja po≈Ço≈ºenia punkt√≥w
    scatter_linf.set_offsets(trajectories_linf[frame])

    # Aktualizacja wykresu straty
    line_linf.set_data(range(frame + 1), loss_history_linf[:frame + 1])

    return scatter_linf, line_linf

ani_linf = animation.FuncAnimation(fig_linf, update_linf, frames=len(trajectories_linf), interval=50, blit=True)
print("Ostatnia warto≈õƒá funkcji b≈Çƒôdu L_inf:", loss_history_linf[-1])

# Wy≈õwietlenie animacji w notebooku
HTML(ani_linf.to_jshtml())


##Dlaczego trening trwa d≈Çugo i strata nie zbiega do zera?

Norma $L_{\text{inf}}$ to maksymalny b≈ÇƒÖd w≈õr√≥d wszystkich punkt√≥w.\
Zatem optymalizacja koncentruje siƒô wy≈ÇƒÖcznie na punkcie z najwiƒôkszym b≈Çƒôdem, ignorujƒÖc pozosta≈Çe, dop√≥ki ten b≈ÇƒÖd nie zostanie zredukowany. To powoduje powolny postƒôp, bo tylko jeden punkt (lub kilka) jest poprawianych w ka≈ºdej iteracji. Istnieje te≈º ryzyko prze≈ÇƒÖczanie siƒô miƒôdzy punktami o najwiƒôkszym b≈Çƒôdzie, co prowadzi do nieefektywnego ruchu w przestrzeni, a brak r√≥wnoczesnej poprawy wszystkich punkt√≥w utrudnia pe≈Çne dopasowanie do elipsy.\
**Wynik**: Trening jest wolny i czƒôsto nie zbiega do zera, bo strategia "najgorszego przypadku" nie optymalizuje globalnie uk≈Çadu punkt√≥w.\
Na powy≈ºszej animacji ruchu punkt√≥w widaƒá, ≈ºe na poczƒÖtku udaje siƒô uzyskaƒá "zarys" elipsy, jednak w pewnym momencie algorytmowi ciƒô≈ºko wybraƒá punkty i kierunek ich przesuniƒôcia taki, aby zmniejszyƒá b≈ÇƒÖd, co widaƒá na animacji przebiegu funkcji straty.

-----------------------------------------------
#6. Trening dla straty L0
----------------------------------------------

In [None]:
# Uruchom trening dla straty l0
trajectories_l0, loss_history_l0 = train_with_animation("l0", num_epochs=300)

# Tworzenie animacji z dwoma subplotami
fig_l0, (ax1_l0, ax2_l0) = plt.subplots(1, 2, figsize=(12, 6))

# Subplot 1: Punkty
ax1_l0.set_xlim(-6, 6)
ax1_l0.set_ylim(-6, 6)
scatter_l0 = ax1_l0.scatter([], [], label='Punkty')
ax1_l0.scatter([focus1[0], focus2[0]], [focus1[1], focus2[1]], color='red', marker='x', s=100, label='Ogniska')
ax1_l0.legend()
ax1_l0.grid()
ax1_l0.set_title('Ruch punkt√≥w dla straty L0')

# Subplot 2: Wykres straty
ax2_l0.set_xlim(0, len(loss_history_l0))
ax2_l0.set_ylim(0, max(loss_history_l0) * 1.1 if loss_history_l0 else 1)
line_l0, = ax2_l0.plot([], [], color='blue')
ax2_l0.set_xlabel('Epoka')
ax2_l0.set_ylabel('Strata')
ax2_l0.set_title('Przebieg funkcji straty L0')
ax2_l0.grid()

def update_l0(frame):
    # Aktualizacja po≈Ço≈ºenia punkt√≥w
    scatter_l0.set_offsets(trajectories_l0[frame])

    # Aktualizacja wykresu straty
    line_l0.set_data(range(frame + 1), loss_history_l0[:frame + 1])

    return scatter_l0, line_l0

ani_l0 = animation.FuncAnimation(fig_l0, update_l0, frames=len(trajectories_l0), interval=50, blit=True)
print("Ostatnia warto≈õƒá funkcji b≈Çƒôdu L0:", loss_history_l0[-1])

# Wy≈õwietlenie animacji w notebooku
HTML(ani_l0.to_jshtml())

##Dlaczego trening nie postƒôpuje?
Norma L0 jest zdefiniowana jako $L^{(0)}_{\text{ellipse}}=\frac{1}{N}‚àë_{i=1}^N\mathbb{1}(œµ_i\neq1)$.\
Norma L0 zlicza wiƒôc stosunek liczby punkt√≥w, dla kt√≥rych b≈ÇƒÖd $ùúñ_ùëñ$ nie jest r√≥wny zero do liczby wszystkich punkt√≥w.\
Trening nie postƒôpuje, poniewa≈º indykator $\mathbb{1}_(œµ_i\neq1)$ jest funkcjƒÖ skokowƒÖ ‚Äì zmienia siƒô z 0 na 1 w spos√≥b dyskretny, nie jest to zatem funkcja r√≥≈ºniczkowalna. W optymalizacji gradientowej potrzebujemy ciƒÖg≈Çych gradient√≥w, a norma L0 ich nie dostarcza. Nawet je≈õli spr√≥bujemy jƒÖ przybli≈ºyƒá np. u≈ºywajƒÖc funkcji sigmoidalnej (jest to sensowna propozycja na przybli≈ºenie normy L0, poniewa≈º w granicach $\pm‚àû$ funkcja sigmoidalna przyjmuje warto≈õci 0 i 1, natomiast wysoki wsp√≥≈Çczynnik alfa u≈ºyty w kodzie zapewnia gwa≈Çtowny skok miƒôdzy 0 a 1), gradienty sƒÖ zerowe, co uniemo≈ºliwia skuteczne kierowanie punktami w stronƒô elipsy.\
**Wynik**: Trening nie postƒôpuje, bo optymalizator nie otrzymuje u≈ºytecznych informacji o tym, jak dostosowaƒá pozycje punkt√≥w.\
Wnioski te sƒÖ zgodne z animacjƒÖ ruchu punkt√≥w, na kt√≥rej widaƒá, ≈ºe wiƒôkszo≈õƒá punkt√≥w jest nieruchoma, niekt√≥re punkty nieznacznie siƒô przemieszczajƒÖ, jednak mimo to nie tworzƒÖ elipsy.\
Na wykresie straty widzimy, ≈ºe strata jest prawie stale r√≥wna 1, co jest zgodne z brakiem zbli≈ºania siƒô do kszta≈Çtu elipsy punkt√≥w przedstawionych w animacji.