# Lassos

Rozważmy problem regresji, gdzie $\beta$ to wektor o długości $p$ zawierający nieznane współczynniki $p$ zmiennych objaśniających.

Niech funkcja ryzyka $R(\beta)$ będzię błędem średniokwadratowym. Wtedy

## (zwykłe) Lasso

Metoda `lasso` rozwiązuje problem

\begin{equation}
\hat{\beta} = \underset{\beta}{\mathrm{arg\,min}} \:
\big( R(\beta) + \lambda \cdot {\lVert \beta \rVert}_1
.
\end{equation}

## Group lasso

Gdy predyktory tworzą grupy (zob. Wykład 4), pożądana jest selekcja *grup zmiennych*, a nie *zmiennych* per se.
Metoda `group lasso` rozwiązuje problem

\begin{equation}
\hat{\beta} = \underset{\beta}{\mathrm{arg\,min}} \:
\big( R(\beta) + 
\lambda \sum_{l=1}^K \sqrt{p_l} \cdot {\lVert \beta^{l} \rVert}_2
\big)
,
\end{equation}

gdzie $K$ to liczba grup, $p_l$ to rozmiar $l$tej grupy, a $\beta^l$ to wektor zawierający współczyniki zmiennych tworzących $l$tą grupę.

## Sparse group lasso

Gdy pożądana jest selekcja zarówno grup, jak i zmiennych w ramach tychże grup, z pomocą przychodzi metoda `sparse group lasso`, która opiera funkcję celu na liniowej kombinacji kar `lasso` oraz `group lasso`:

\begin{equation}
\hat{\beta} = \underset{\beta}{\mathrm{arg\,min}} \:
\big( R(\beta) + 
\alpha \lambda  {\lVert \beta \rVert}_1 +
(1 - \alpha) \lambda \sum_{l=1}^K \sqrt{p_l} \cdot {\lVert \beta^{l} \rVert}_2
\big)
.
\end{equation}

# Wybrane implementacje w języku Python

* `celer`,
* `asgl`,
* `group-lasso`,
* `groupyr`.

# Zadanie 0 (przygotowanie środowiska)

Zainstalujmy wybrane pakiety. `groupyr` posłuży nam jedynie do symulacji zbioru danych.

In [None]:
!pip install groupyr
!pip install celer
!pip install asgl

In [3]:
from groupyr.datasets import make_group_regression

In [4]:
X, y, groups, coef = make_group_regression(
    n_samples=100,
    n_groups=20,
    n_informative_groups=4,
    n_features_per_group=4,
    coef=True,
    shuffle=True,
    noise=1.5,
    random_state=42
)

In [5]:
groups

[array([23, 58, 60, 65]),
 array([12, 34, 39, 68]),
 array([17, 37, 55, 74]),
 array([ 5, 61, 66, 70]),
 array([ 1, 36, 53, 79]),
 array([ 2, 28, 49, 69]),
 array([25, 29, 57, 72]),
 array([10, 13, 40, 59]),
 array([15, 33, 77, 78]),
 array([ 4, 16, 38, 75]),
 array([35, 42, 64, 67]),
 array([ 7, 27, 50, 63]),
 array([ 9, 20, 32, 56]),
 array([18, 19, 21, 44]),
 array([11, 24, 26, 73]),
 array([ 6, 43, 52, 54]),
 array([ 0, 45, 47, 48]),
 array([ 3, 22, 30, 46]),
 array([14, 41, 51, 71]),
 array([ 8, 31, 62, 76])]

# Zadanie 1 [3.5 pkt]

## [1.5 pkt]

Modele typu `group lasso` potrzebują informacji o tym, które zmienne tworzą które grupy.
Porównaj konwencje z bibliotek `asgl` oraz `celer`.
Napisz funkcje:
* `groups_asgl_to_celer` oraz
* `groups_celer_to_asgl`

które odpowiednio przekodują informacje z jednej konwencji na drugą.

## [2 pkt]
Następnie dopasuj do danych model z biblioteki `celer`.
Użyj kroswalidacji, by wybrać optymalne wartości hiperparametrów.

Przedstaw wyniki selekcji w formie tabeli oraz ramki danych.

## tabela

Utwórz tabelę kontyngencji dla dwóch zmiennych binarnych: `coef` $\in \{0, 1\}$ zawierającą informację o tym, czy zmienny była istotna czy nie, oraz `model_celer` $\in \{0, 1\}$ zawierającą informację o tym, czy według dopasowanego modelu `celer` zmienna była istotna czy nie.

## ramka danych

Przedstaw powyższe zmienne w formie ramki danych z dwoma kolumnami `coef` oraz `model_celer`.


# Zadanie 2 [2 pkt]

Dopasuj model regresji liniowej za pomocą biblioteki `asgl` do danych. 
Użyj kary związanej z `group lasso`. Dokonaj kroswalidacji, by wybrać optymalne wartości hiperparametrów. 
*Uwaga*: biblioteka `asgl` nie ma *typowej* dokumentacji.
Informacji należy szukać m.in. w artykułach naukowych autorów pakietu, które dotyczą tegoż pakietu.

Jako próg *ściągniecia* oszacowania $\hat{\beta}_j$ przyjmijmy `1e-4` (zgodnie z sugestią zawartą implicite w opracowaniach autorów), tzn. jeżeli 
$\mathrm{abs}(\hat{\beta}_j) < 0.0001$, to zmienna uznawana jest za nieistotną; w przeciwnym razie uznawana jest za zmienną istotną.

Przedstaw podsumowanie podobnie jak w Zadaniu 1: w postaci tabeli kontyngencji ze zmiennymi `coef` oraz `model_asgl`, oraz w postaci ramki danych, tym razem z trzema kolumnami: `coef`, `model_celer`, oraz `model_asgl`.

Przedstaw także swoje wnioski: czy biblioteka `asgl` poprawnie implementuje metodę `group lasso` (chodzi dokładnie o `group lasso`, a nie `sparse group lasso`).

## Zadanie 3 [2pkt]

Pakiet `asgl` implementuje także znany nam już algorytm `adaptive lasso` w połączeniu z `group lasso`.
Sprawdź, czy procedura adaptive lasso poprawia wyniki działania procedury?

Ponownie, przedstaw wyniki w formie dwóch tabel kontyngencji:
1. binarnej zmiennej `model_asgl` $\in \{0, 1\}$ oraz binarnej zmiennej `model_adaptive_asgl` $\in \{0, 1\}$, oraz
2. binarnej zmiennej `coef` oraz binarnej zmiennej `model_adaptive_asgl` $\in \{0, 1\}$.

Przygotuj ramkę danych z 4 kolumnami binarnymi: `coef`, `model_celer`, `model_asgl` oraz `model_adaptive_asgl`.