# Uczenie maszynowe

## Regresja liniowa

Zastosowanie: regresja.

Metoda: uczenie nadzorowane.

## Regresja liniowa

Problemy rozwiązywane za pomocą modelu regresji liniowej mają na celu uchwycenie zależności pomiędzy zmiennymi, co umożliwia przewidywanie wartości zmiennej decyzyjnej dla obiektów spoza zbiorów treningowego i testowego. W kontekście regresji liniowej zmienne niezależne (atrybuty warunkowe) określają dane wejściowe, natomiast zmienna zależna (atrybut decyzyjny) jest wartością, którą model ma przewidzieć.

Regresja liniowa najlepiej opisuje przypadki, w których zmienne są liniowo zależne. Hipoteza w trenowanym modelu może być wyrażona równaniem:

$$
h_\theta(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + \ldots + \theta_d x_d,
$$

gdzie \(\theta_i\) to parametry modelu, które są optymalizowane w procesie uczenia. Wprowadzenie \(x_0 = 1\) pozwala zapisać hipotezę w bardziej zwartej formie:

$$
h_\theta(x) = \sum_{i=0}^d \theta_i x_i = \theta^T x,
$$

co dla \(j\)-tego przykładu ze zbioru treningowego (\(j = 1, \ldots, N\)) wygląda następująco:

$$
h_\theta(x^{(j)}) = \sum_{i=0}^d \theta_i x_i^{(j)} = \theta^T x^{(j)}.
$$

Możemy to zapisać wektorowo:

$$
h_\theta(x^{(j)}) = \theta^T x^{(j)},
$$

gdzie:
- \(\theta = [\theta_0, \theta_1, \ldots, \theta_d]^T\),
- \(x^{(j)} = [x_0^{(j)}, x_1^{(j)}, \ldots, x_d^{(j)}]^T\).

Rozwiązanie problemu regresji polega na znalezieniu takiego wektora \(\theta\), który najlepiej opisuje liniową zależność między zmienną zależną a zmiennymi niezależnymi. Ponieważ dane empiryczne zawierają błędy, można zapisać równanie uwzględniające błąd:

$$
y^{(j)} = \theta^T x^{(j)} + \epsilon^{(j)},
$$

gdzie \(\epsilon^{(j)}\) jest błędem losowym, który można modelować jako zmienną losową o rozkładzie normalnym \(N(0, \sigma^2)\).

Funkcja gęstości prawdopodobieństwa błędu \(\epsilon^{(j)}\) jest zdefiniowana jako:

$$
p(\epsilon^{(j)}) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(\epsilon^{(j)})^2}{2\sigma^2}}.
$$

Dla zmiennej \(y^{(j)}\) z danym \(x^{(j)}\) oraz parametrami \(\theta\), funkcja gęstości prawdopodobieństwa przyjmuje postać:

$$
p(y^{(j)} | x^{(j)}; \theta) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(y^{(j)} - \theta^T x^{(j)})^2}{2\sigma^2}}.
$$

W równaniu funkcji \( p(y|X; \theta) \) określamy prawdopodobieństwo \( y \) dla ustalonych \( X \) i parametrów \(\theta\). Macierz \( X \) (znana jako macierz cech) definiujemy jako zbiór wektorów cech dla wszystkich przykładów w zbiorze treningowym. Zapisujemy ją jako:

$$
X = 
\begin{bmatrix}
1 & x_1^{(1)} & x_2^{(1)} & \cdots & x_d^{(1)} \\
1 & x_1^{(2)} & x_2^{(2)} & \cdots & x_d^{(2)} \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
1 & x_1^{(N)} & x_2^{(N)} & \cdots & x_d^{(N)}
\end{bmatrix},
$$

Zatem funkcja gęstości prawdopodobieństwa dla wektora \(y\) przy danych \(X\) i parametrach \(\theta\) jest opisana jako funkcja wiarygodności \(L(\theta)\):

$$
L(\theta; X, y) = \prod_{j=1}^N p(y^{(j)} | x^{(j)}; \theta).
$$

Przy niezależności \(\epsilon^{(j)}\), funkcja wiarygodności ma postać:

$$
L(\theta) = \prod_{j=1}^N \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(y^{(j)} - \theta^T x^{(j)})^2}{2\sigma^2}}.
$$

Przyjmuje ona maksimum dla tych samych argumentów co funkcja logarytmiczna \(l(\theta) = \ln(L(\theta))\). Logarytm funkcji wiarygodności przekształca się do postaci:

$$
l(\theta) = \ln(L(\theta)) = \ln\left(\prod_{j=1}^N \frac{1}{\sqrt{2\pi\sigma}} e^{-\frac{(y^{(j)} - \theta^T x^{(j)})^2}{2\sigma^2}}\right)
$$

$$
= \ln\left(\frac{N}{\sqrt{2\pi\sigma}}\prod_{j=1}^N e^{-\frac{(y^{(j)} - \theta^T x^{(j)})^2}{2\sigma^2}}\right)
$$

$$
= \ln\left(\frac{N}{\sqrt{2\pi\sigma}}\right) + \ln\left(\prod_{j=1}^N e^{-\frac{(y^{(j)} - \theta^T x^{(j)})^2}{2\sigma^2}}\right)
$$

$$
= \ln\left(\frac{N}{\sqrt{2\pi\sigma}}\right) + \sum_{j=1}^N \ln\left(e^{-\frac{(y^{(j)} - \theta^T x^{(j)})^2}{2\sigma^2}}\right)
$$

$$
= \ln\left(\frac{N}{\sqrt{2\pi\sigma}}\right) + \sum_{j=1}^N -\frac{(y^{(j)} - \theta^T x^{(j)})^2}{2\sigma^2}
$$

$$
= \ln\left(\frac{N}{\sqrt{2\pi\sigma}}\right) - \frac{1}{\sigma^2} \cdot \frac{1}{2} \sum_{j=1}^N (y^{(j)} - \theta^T x^{(j)})^2.
$$

Ponieważ:

$$
\left(y^{(j)} - \theta^T x^{(j)}\right)^2 = \left(-\theta^T x^{(j)} + y^{(j)}\right)^2 = \left(-( \theta^T x^{(j)} - y^{(j)} )\right)^2 = \left(\theta^T x^{(j)} - y^{(j)}\right)^2,
$$

możemy zapisać, że:

$$
l(\theta) = \ln\left(\frac{N}{\sqrt{2\pi\sigma}}\right) - \frac{1}{\sigma^2} \cdot \frac{1}{2} \sum_{j=1}^N \left(y^{(j)} - \theta^T x^{(j)}\right)^2.
$$

Z przedstawionego równania wynika, że maksymalizacja funkcji logarytmu wiarygodności \( l(\theta) \) sprowadza się do minimalizacji wyrażenia:

$$
\frac{1}{2} \sum_{j=1}^N \left(\theta^T x^{(j)} - y^{(j)}\right)^2.
$$

Problem znalezienia wartości \(\theta_i\), które maksymalizują prawdopodobieństwo \( p(y|X; \theta) \), można więc zredukować do minimalizacji funkcji kosztu \( J(\theta) \), która jest zdefiniowana jako:

$$
J(\theta) = \frac{1}{2} \sum_{j=1}^N \left(h_\theta(x^{(j)}) - y^{(j)}\right)^2,
$$

gdzie \( h_\theta(x^{(j)}) \) jest postacią hipotezy modelu.

Aby znaleźć argument minimalizujący funkcję kosztu \( J(\theta) \), można zastosować różne metody optymalizacji, takie jak:
- **metoda analityczna**: polega na rozwiązaniu układu równań normalnych,
- **metoda gradientu prostego**: iteracyjna technika bazująca na minimalizacji błędu poprzez aktualizację parametrów \(\theta\) w kierunku przeciwnym do gradientu funkcji kosztu.

## Metoda analityczna

Niech:
$$
y = \begin{bmatrix}
y^{(1)} \\
y^{(2)} \\
\vdots \\
y^{(N)}
\end{bmatrix}, \quad
X = \begin{bmatrix}
1 & x_1^{(1)} & \cdots & x_d^{(1)} \\
1 & x_1^{(2)} & \cdots & x_d^{(2)} \\
\vdots & \vdots & \ddots & \vdots \\
1 & x_1^{(N)} & \cdots & x_d^{(N)}
\end{bmatrix}, \quad
\theta = \begin{bmatrix}
\theta_0 \\
\theta_1 \\
\vdots \\
\theta_d
\end{bmatrix}.
$$

Wtedy można zapisać wektorowo:

$$
\begin{bmatrix}
h_\theta(x^{(1)}) - y^{(1)} \\
\vdots \\
h_\theta(x^{(N)}) - y^{(N)}
\end{bmatrix}
=
\begin{bmatrix}
\theta^T x^{(1)} \\
\vdots \\
\theta^T x^{(N)}
\end{bmatrix}
-
\begin{bmatrix}
y^{(1)} \\
\vdots \\
y^{(N)}
\end{bmatrix}
= X\theta - y.
$$

Zatem funkcja kosztu przyjmuje postać:
$$
J(\theta) = \frac{1}{2} \sum_{j=1}^N \left(h_\theta(x^{(j)}) - y^{(j)}\right)^2 =
\frac{1}{2} (X\theta - y)^T (X\theta - y) =
\frac{1}{2} \left(\theta^T X^T X \theta - \theta^T X^T y - y^T X \theta + y^T y\right).
$$

W celu wyznaczenia argumentu minimum funkcji kosztu należy znaleźć miejsce zerowe gradientu tej funkcji. Gradient funkcji kosztu można zapisać następująco:

#### Gradient:
$$
\nabla_\theta J(\theta) = \nabla_\theta \frac{1}{2} \left(\theta^T X^T X \theta - \theta^T X^T y - y^T X \theta + y^T y\right)
$$

Korzystając z właściwości macierzy i śladu, otrzymujemy:
$$
\nabla_\theta J(\theta) = \frac{1}{2} \nabla_\theta \text{tr} \left(\theta^T X^T X \theta - \theta^T X^T y - y^T X \theta + y^T y\right)
$$

$$
= \frac{1}{2} \nabla_\theta \left[\text{tr}(\theta^T X^T X \theta) - \text{tr}((y^T X) \theta) - \text{tr}((\theta^T X^T) y) + \text{tr}(y^T y)\right].
$$

Pochodna daje:
$$
\nabla_\theta J(\theta) = \frac{1}{2} \left[2X^T X \theta - 2X^T y\right] = X^T X \theta - X^T y.
$$

Gradient znika (\(\nabla_\theta J(\theta) = 0\)) dla:
$$
X^T X \theta = X^T y.
$$

Rozwiązanie:
$$
\theta = (X^T X)^{-1} X^T y.
$$

Zakładając, że macierz \( X^T X \) jest nieosobliwa, poszukiwany wektor parametrów \(\theta_i\) (\(i = 1, \ldots, d\)) można wyznaczyć przy użyciu następującego wzoru:

$$
\nabla_\theta J(\theta) = 0 \iff X^T X \theta - X^T y = 0 \iff X^T X \theta = X^T y \iff \theta = (X^T X)^{-1} X^T y.
$$

To równanie jest stosunkowo proste i intuicyjne, co może sugerować, że nie ma potrzeby sięgania po alternatywne metody. Niemniej jednak w praktyce, gdy mamy do czynienia z bardzo dużymi zbiorami danych — na przykład z milionami przykładów i tysiącami cech — taka metoda staje się niepraktyczna. Powód leży w znacznym zapotrzebowaniu na zasoby obliczeniowe i pamięć, co sprawia, że bezpośrednie obliczenie odwrotności macierzy \( (X^T X)^{-1} \) jest niewydajne.

## Regularyzacja Tichonowa

Stosowanie metody analitycznej w regresji liniowej może prowadzić do uzyskania wektora \(\theta\) z dużymi wartościami bezwzględnymi. W praktyce oznacza to, że model regresyjny ma wysokie wagi, co powoduje, że prognozowane wyjście \(y\) staje się bardzo wrażliwe na nawet niewielkie zmiany w danych wejściowych \(x_i\). Taka sytuacja jest niekorzystna, ponieważ zwiększa ryzyko przeuczenia modelu oraz może prowadzić do dużego błędu generalizacji.

Dodatkowym problemem jest możliwość występowania liniowej zależności między zmiennymi objaśniającymi. Ryzyko to rośnie, gdy liczba zmiennych objaśniających przewyższa liczbę obserwacji. W takich przypadkach macierz \(X^T X\) może być nieodwracalna, co uniemożliwia zastosowanie metody analitycznej do znalezienia jednoznacznego rozwiązania.

Jednym z najpopularniejszych sposobów rozwiązania tych problemów jest **regularyzacja Tichonowa**, znana również jako regularyzacja \(L2\). Polega ona na modyfikacji funkcji kosztu poprzez dodanie składnika regularyzacyjnego z parametrem \(\alpha \geq 0\), który wprowadza karę za zbyt wysokie wartości wag modelu (Goodfellow i in., 2018). Funkcja kosztu po regularyzacji przyjmuje postać:

$$
J(\theta) = \frac{1}{2} \left[(X\theta - y)^T (X\theta - y) + \alpha \theta^T \theta\right].
$$

W wyniku tego modyfikacja prowadzi do następującego rozwiązania dla wektora \(\theta\):

$$
\theta = (X^T X + \alpha I)^{-1} X^T y,
$$

gdzie \(I\) to macierz jednostkowa o wymiarach \(d \times d\).

### Wpływ parametru \(\alpha\):
- Dla \(\alpha = 0\), model sprowadza się do standardowej regresji liniowej.
- Dla \(\alpha \to \infty\), wszystkie wagi dążą do zera, co zapobiega przeuczeniu.

Wartość parametru regularyzacji \(\alpha\) jest zazwyczaj dobierana na podstawie optymalizacji z użyciem walidacji krzyżowej.

### Uwagi:
- Parametr \(\alpha\) bywa również oznaczany jako \(\lambda\).
- Regresja liniowa z regularyzacją Tichonowa jest nazywana **regresją grzbietową** (ang. *ridge regression*).
- Istnieje także bayesowska wersja regresji grzbietowej, w której zamiast konkretnych wartości współczynników \(\theta_i\) estymuje się ich rozkłady prawdopodobieństwa. Ten wariant nazywa się **bayesowską regresją grzbietową** (ang. *Bayesian ridge regression*).

## Metoda gradientu prostego

Metoda gradientu prostego jest jedną z technik pozwalających na znalezienie wektora \(\theta\) poprzez minimalizację funkcji kosztu za pomocą jej gradientu. Aby zrozumieć zasadę działania tego algorytmu, należy przypomnieć, że gradient funkcji wielowymiarowej jest wektorem wskazującym kierunek, w którym funkcja zmienia się najszybciej, a jego zwrot określa, w którą stronę funkcja rośnie.

Zgodnie z wcześniejszymi wyprowadzeniami gradient funkcji kosztu można zapisać jako:

$$
J(\theta) = \frac{1}{2} \sum_{i=1}^N \left(h_\theta(x^{(i)}) - y^{(i)}\right)^2.
$$

Na podstawie wcześniejszych obliczeń przeprowadzonych w metodzie analitycznej, gradient funkcji kosztu można wyrazić za pomocą następującego wzoru:

$$
\nabla J(\theta) = X^T X \theta - X^T y.
$$

Metoda gradientu prostego polega na iteracyjnym zmniejszaniu wartości funkcji kosztu aż do osiągnięcia punktu minimum, przy czym krok wykonywany w każdej iteracji ma długość proporcjonalną do \(\alpha\) i zmienia kierunek w zależności od gradientu w danym punkcie.

### Kroki algorytmu (metoda gradientu prostego)

1. **Ustalenie kryterium zatrzymania**, na przykład:
   - Maksymalna liczba iteracji \(t_{\text{max}}\),
   - Gradient bliski zera: \(|\nabla J(\theta^{(t)})| < \epsilon\), gdzie \(\epsilon\) to ustalona wartość, np. \(\epsilon = 10^{-3}\),
   - Brak poprawy w funkcji celu: \(d(\theta^{(t+1)}, \theta^{(t)}) < \epsilon\), gdzie \(\epsilon\) to ustalona wartość.

2. **Określenie wielkości kroku \(\alpha\)**.

3. **Wybranie początkowych wartości parametrów \(\theta^{(0)}\)** jako punktu startowego.

4. **Inicjalizacja licznika iteracji**: \(i := 0\).

5. **Obliczenie wartości funkcji kosztu** \(J_i = J(\theta^{(i)})\) oraz gradientu \(g_i = \nabla J(\theta^{(i)})\) w punkcie startowym.

6. **Wyznaczenie kierunku poszukiwań**: \(d = -g_i\).

7. **Wykonanie kroku w kierunku \(d\)**: 
   $$\theta^{(i+1)} := \theta^{(i)} + \alpha d.$$

8. **Obliczenie w nowym punkcie** wartości funkcji kosztu \(J_{i+1} = J(\theta^{(i+1)})\) oraz gradientu \(g_{i+1} = \nabla J(\theta^{(i+1)})\).

9. **Sprawdzenie warunku poprawy funkcji kosztu**:
   - Jeśli \(J_{i+1} < J_i\), zwiększyć \(i := i + 1\) i powrócić do kroków 6–8,
   - Jeśli nie, sprawdzić kryterium zatrzymania; jeśli nie jest spełnione, zmniejszyć krok \(\alpha\) i wrócić do kroku 7.

### Szczegóły dotyczące wyboru parametrów w algorytmie gradientu prostego

#### (*)
Wartość parametru \(\alpha\) (współczynnik uczenia) jest hiperparametrem, którego wybór ma kluczowe znaczenie dla efektywności algorytmu. Wpływa na tempo zbieżności i stabilność procesu optymalizacji:

- Jeśli \(\alpha\) jest **zbyt małe**, algorytm będzie działał bardzo wolno, ponieważ krok w kierunku minimum będzie za mały, co znacząco wydłuży czas zbieżności.
- Jeśli \(\alpha\) jest **zbyt duże**, istnieje ryzyko pominięcia minimum. Algorytm może zacząć oscylować lub funkcja kosztu zacznie rosnąć zamiast maleć.

Z tego powodu wartość \(\alpha\) powinna być dobrana z odpowiednią starannością, często z wykorzystaniem eksperymentalnej optymalizacji lub walidacji krzyżowej.

#### (**)
Gradient funkcji wskazuje kierunek największego wzrostu jej wartości. W problemach optymalizacyjnych, gdzie celem jest znalezienie minimum funkcji, interesuje nas przeciwny kierunek – tam, gdzie funkcja maleje. Dlatego w algorytmie gradientu prostego stosuje się **przeciwny zwrot do gradientu** (czyli \(-\nabla J(\theta)\)), co pozwala na sukcesywne zmniejszanie wartości funkcji kosztu. 

Wartość kroku w tym przeciwnym kierunku jest następnie regulowana przez hiperparametr \(\alpha\).

### UWAGA

Algorytm gradientowy, powszechnie stosowany w zadaniach optymalizacyjnych w celu znalezienia ekstremum funkcji, charakteryzuje się wrażliwością na minima lokalne. Oznacza to, że w danej przestrzeni parametrów algorytm będzie dążył do najbliższego lokalnego minimum, w zależności od punktu początkowego.

W przypadku regresji liniowej taka cecha algorytmu nie jest jednak problematyczna, ponieważ funkcja kosztu dla regresji liniowej ma charakter wypukły i zawiera wyłącznie jedno minimum globalne, co gwarantuje zbieżność do optymalnego rozwiązania niezależnie od punktu startowego.

## Przykład: Regresja liniowa – metoda najmniejszych kwadratów

Pod adresem: [Kaggle – Insurance Dataset](https://www.kaggle.com/datasets/mirichoi0218/insurance) znajduje się zestaw danych dotyczący kosztów procedur medycznych pokrywanych przez firmę ubezpieczeniową. Dane te obejmują siedem zmiennych:

1. **age** – wiek osoby poddanej procedurze medycznej,
2. **sex** – płeć (mężczyzna/kobieta),
3. **bmi** – wskaźnik masy ciała,
4. **children** – liczba dzieci,
5. **smoker** – status palacza („yes” lub „no”),
6. **region** – region geograficzny Stanów Zjednoczonych („northwest”, „northeast”, „southwest”, „southeast”),
7. **charges** – koszty pokrywane przez ubezpieczyciela.

Regresja liniowa może być użyta do przewidywania wysokości kosztów, które ubezpieczyciel poniesie na podstawie dostępnych parametrów. Wyniki tego modelu mogą posłużyć do wyznaczania optymalnych składek ubezpieczeniowych dla różnych klientów.

---

### Przygotowanie danych do analizy

Przed zastosowaniem regresji liniowej konieczne jest przemyślenie kilku aspektów dotyczących danych:

1. **Typ danych wejściowych**: 
   - Model regresji liniowej przyjmuje wyłącznie dane numeryczne.
   - W analizowanych danych znajdują się zmienne kategorialne, takie jak:
     - **sex** (płeć),
     - **smoker** (status palenia),
     - **region** (region geograficzny).

   Te zmienne należy zakodować na wartości liczbowe. Można do tego użyć funkcji **OrdinalEncoder** z biblioteki `scikit-learn`, która automatycznie przekonwertuje wartości tekstowe na numeryczne.

2. **Interpretowalność danych zakodowanych**:
   - **Płeć**: Można ją przedstawić jako zmienną binarną (np. 0 dla kobiety, 1 dla mężczyzny), co jest intuicyjne i logiczne.
   - **Status palacza**: Podobnie jak płeć, tę zmienną można zakodować binarnie (0 dla „nie pali”, 1 dla „pali”).
   - **Region geograficzny**: Zakodowanie regionów jako wartości numerycznych (np. 0 dla „southeast”, 1 dla „northeast”, itd.) jest mniej intuicyjne, ponieważ wartości numeryczne sugerują pewien porządek lub hierarchię, której tutaj brakuje. Przypisanie takich wartości byłoby arbitralne, a różne sposoby kodowania mogłyby prowadzić do różnych wyników modelu.

   **Rozwiązanie**: Zamiast kodować zmienną „region”, można ją pominąć podczas budowy i ewaluacji modelu, aby uniknąć problemów interpretacyjnych.

Przed rozpoczęciem modelowania należy upewnić się, że dane są w odpowiedniej formie numerycznej, a ich reprezentacja jest logiczna i zgodna z założeniami regresji liniowej. W przypadku zmiennych binarnych, takich jak płeć i status palacza, użycie kodowania 0/1 jest odpowiednie. Natomiast w przypadku bardziej złożonych zmiennych kategorialnych, takich jak region, warto rozważyć ich pominięcie, aby uniknąć problemów związanych z arbitralnością przypisywanych wartości liczbowych. 

In [None]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.decomposition import PCA
from sklearn.metrics import (
    mean_absolute_error,
    explained_variance_score,
    max_error
)
from sklearn.preprocessing import OrdinalEncoder

# Wczytanie danych
df = pd.read_csv('insurance.csv')

# Usunięcie kolumny 'region'
df.drop(columns=['region'], inplace=True)

# Przygotowanie danych wejściowych i wyjściowych
X_col_names = df.columns[:-1]
X = df[X_col_names].to_numpy()
y = df['charges'].to_numpy()

# Inicjalizacja kodera OrdinalEncoder
enc = OrdinalEncoder()

# Kodowanie zmiennych nienumerycznych na wartości liczbowe
X[:, 1] = enc.fit_transform(X[:, 1].reshape(-1, 1)).squeeze()  # Kodowanie płci
X[:, 4] = enc.fit_transform(X[:, 4].reshape(-1, 1)).squeeze()  # Kodowanie statusu palacza

# Opis:
# reshape(-1, 1) - Dodanie wymiaru jednostkowego, ponieważ OrdinalEncoder wymaga danych dwuwymiarowych,
# więc z wektora należy utworzyć macierz o wymiarach długość_wektora × 1
# squeeze() - Usunięcie zbędnych wymiarów po kodowaniu

# Podział danych na zbiór treningowy i testowy
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    random_state=42,
    test_size=0.2
)

# Uwaga:
# Podczas pracy z danymi do modelu regresyjnego nie należy przeprowadzać stratyfikacji
# (tj. nie należy używać parametru `stratify=y`)

Aby dopasować model regresji liniowej do danych, można skorzystać z klasy **LinearRegression** dostępnej w bibliotece `scikit-learn`. Domyślnie model uwzględnia wyraz wolny, który nie jest równy zeru. Jeśli chcemy dopasować model bez wyrazu wolnego, wystarczy podczas inicjalizacji przekazać argument `fit_intercept=False`.

Modele regresji liniowej są zazwyczaj oceniane za pomocą dwóch popularnych metryk:
1. **MAE** (*Mean Absolute Error*) – średni błąd bezwzględny, który wskazuje, o jaką wartość model myli się średnio. (patrz: równanie (5.3)).
2. **MSE** (*Mean Squared Error*) – błąd średniokwadratowy, mierzący średnią kwadratową różnic między wartościami rzeczywistymi a przewidywaniami (patrz: równanie).

Dodatkowo, aby oszacować największy błąd popełniany przez model, można skorzystać z funkcji **max_error**.

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, max_error

# Inicjalizacja modelu regresji liniowej
reg = LinearRegression()

# Dopasowanie modelu do danych treningowych
reg.fit(X_train, y_train)

# Przewidywanie wartości na zbiorze testowym
preds = reg.predict(X_test)

# Obliczenie i wyświetlenie metryk błędu
print("Mean Absolute Error (MAE):", mean_absolute_error(y_test, preds))
print("Max Error:", max_error(y_test, preds))

### Analiza błędów modelu

Model regresji liniowej generuje stosunkowo duże błędy:
- **Średni błąd bezwzględny (MAE)** wynosi około **4213**, co oznacza, że model średnio myli się o tę wartość na przykładach testowych.
- **Maksymalny błąd** wynosi około **22 820**, co wskazuje na przypadki, w których przewidywania modelu znacząco odbiegają od rzeczywistości.

Aby lepiej zrozumieć charakterystykę błędów popełnianych przez model, można zwizualizować rozkład wartości rzeczywistych i przewidywanych, korzystając z histogramów.

In [None]:
import matplotlib.pyplot as plt

# Tworzenie wykresu
fig, ax = plt.subplots(1, 1, figsize=(10, 6))

# Ustawienia osi
plt.xticks(fontsize=14)

# Histogramy dla kwot rzeczywistych i przewidywanych
ax.hist(y_test, bins=30, alpha=0.5, label='Kwota rzeczywista')  # Dodano bins i alpha dla lepszej wizualizacji
ax.hist(preds, bins=30, alpha=0.5, label='Kwota przewidywana')

# Legenda
ax.legend(fontsize=14)

# Wyświetlanie wykresu
plt.show()


Aby zwizualizować rozkład różnic pomiędzy kwotami rzeczywistymi a przewidywanymi, możemy obliczyć różnice \( \text{residuals} = y_{\text{test}} - \text{preds} \) i przedstawić je na histogramie.

In [None]:
fig, ax = plt.subplots(figsize=(10, 6))  # Tworzenie wykresu z ustalonym rozmiarem
plt.xticks(fontsize=14)  # Ustawienie wielkości czcionki dla osi X
ax.hist(y_test - preds)  # Rysowanie histogramu różnic
plt.show()  # Wyświetlenie wykresu

Analiza histogramów wskazuje, że najczęściej popełniane przez model błędy dotyczą stosunkowo niewielkich kwot. W większości przypadków model przewyższa rzeczywiste koszty procedur medycznych, co oznacza, że jego przewidywania są zawyżone. Z kolei największe różnice między wartościami rzeczywistymi a przewidywanymi pojawiają się w sytuacjach, gdy model zaniża koszty, co może sugerować trudności w przewidywaniu wyższych wartości w danych.

## Przykład: Metoda stochastycznego zejścia gradientowego (SGD)

Metoda gradientu prostego bywa kosztowna zarówno pod względem obliczeń, jak i czasu, szczególnie przy pracy z dużymi zbiorami danych. W praktyce często zastępuje się ją bardziej efektywną metodą stochastycznego zejścia gradientowego (ang. Stochastic Gradient Descent, SGD).

Główna różnica między SGD a klasycznym gradientem prostym polega na sposobie obliczania gradientu. Zamiast uwzględniania całego zbioru danych uczących, w SGD gradient jest oszacowywany i aktualizowany na podstawie pojedynczego, losowo wybranego przykładu z danych (Ketkar, 2017).

W bibliotece scikit-learn implementacja metody SGD, wykorzystywana do szacowania współczynników regresji liniowej, znajduje się w klasie **SGDRegressor**, dostępnej pod adresem: [SGDRegressor w dokumentacji scikit-learn](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDRegressor.html).

### Uwaga: Implementacja SGD dla klasyfikacji

Oprócz zastosowania stochastycznego zejścia gradientowego w regresji, istnieje także jego implementacja przeznaczona do klasyfikacji. W takim przypadku należy skorzystać z klasy **SGDClassifier**, która również jest dostępna w bibliotece scikit-learn. 

Dokumentację tej klasy można znaleźć pod adresem: [SGDClassifier w dokumentacji scikit-learn](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html). 

Warto pamiętać o tym rozróżnieniu, aby właściwie dobrać narzędzie do konkretnego zadania.

In [None]:
from sklearn.linear_model import SGDRegressor
from sklearn.metrics import mean_absolute_error

# Tworzenie modelu regresji
reg = SGDRegressor()

# Dopasowanie modelu do danych treningowych
reg.fit(X_train, y_train)

# Predykcja na danych testowych
preds = reg.predict(X_test)

# Obliczenie średniego błędu bezwzględnego
mae = mean_absolute_error(y_test, preds)

# Wyświetlenie wyniku
print("Mean Absolute Error:", mae)

Powyższy kod inicjalizuje model **SGDRegressor** z domyślnymi ustawieniami hiperparametrów, które obejmują między innymi:

- **loss** – funkcję kosztu,
- **penalty** – typ regularyzacji,
- **alpha** – wartość parametru regularyzacji,
- **max_iter** – maksymalną liczbę iteracji, czyli przejść przez cały zbiór danych treningowych w trakcie nauki,
- **learning_rate** – parametr określający wielkość kroku podczas poszukiwania minimum lokalnego funkcji kosztu.

Szczegółowy opis wszystkich dostępnych hiperparametrów znajduje się w dokumentacji klasy **SGDClassifier**.

Aby poprawić działanie modelu, można przeprowadzić optymalizację hiperparametrów, np. z wykorzystaniem biblioteki **Optuna**. Poniżej znajduje się przykład kodu ilustrujący, jak optymalizować wybrane parametry modelu.

In [None]:
import optuna
from sklearn.model_selection import cross_validate, KFold
from sklearn.metrics import mean_absolute_error, make_scorer
import numpy as np

# Metryka, która posłuży do określenia funkcji celu
scoring = {'mae': make_scorer(mean_absolute_error)}

# Model, który będzie optymalizowany
model = SGDRegressor

# Definicja przestrzeni hiperparametrów
# Hiperparametry, które zostaną poddane optymalizacji, oraz zakresy ich wartości
def get_space(trial):
    space = {
        "alpha": trial.suggest_uniform("alpha", 0, 1),
        "loss": trial.suggest_categorical("loss", [
            'squared_loss', 'huber', 
            'epsilon_insensitive', 
            'squared_epsilon_insensitive'
        ]),
        "penalty": trial.suggest_categorical("penalty", ['l1', 'l2', 'elasticnet'])
    }
    return space

# Liczba prób
trials = 500

# Definicja funkcji celu
def objective(trial, model, get_space, X, y):
    model_space = get_space(trial)
    mdl = model(**model_space)
    # Walidacja będzie przeprowadzana z użyciem 5-krotnego sprawdzianu krzyżowego
    scores = cross_validate(
        mdl, X, y, 
        scoring=scoring,
        cv=KFold(n_splits=5),
        return_train_score=True
    )
    return np.mean(scores['test_mae'])

# Inicjalizacja optymalizacji
study = optuna.create_study(direction='minimize')

# Przeprowadzenie optymalizacji
study.optimize(
    lambda x: objective(x, model, get_space, X_train, y_train), 
    n_trials=trials
)

# Wyświetlenie dobranych wartości hiperparametrów
print('params:', study.best_params)

# Trening modelu z optymalnymi hiperparametrami
sgd = model(**study.best_params)
sgd.fit(X_train, y_train)

# Predykcja na zbiorze testowym
preds = sgd.predict(X_test)

# Wyświetlenie błędu absolutnego uzyskanego na zbiorze testowym
print('test MAE:', mean_absolute_error(y_test, preds))


## Przykład: Regresja grzbietowa

Regresję grzbietową można zrealizować za pomocą klasy **Ridge** dostępnej w bibliotece scikit-learn. Poniższy kod ilustruje sposób inicjalizacji i trenowania modelu z domyślnymi wartościami hiperparametrów.

In [None]:
from sklearn.linear_model import Ridge
from sklearn.metrics import mean_absolute_error

# Inicjalizacja modelu regresji grzbietowej
reg = Ridge()

# Trenowanie modelu na danych treningowych
reg.fit(X_train, y_train)

# Dokonanie predykcji na zbiorze testowym
preds = reg.predict(X_test)

# Obliczenie średniego błędu bezwzględnego
mae = mean_absolute_error(y_test, preds)

# Wyświetlenie wyniku
print("Mean Absolute Error:", mae)


W regresji grzbietowej najczęściej optymalizuje się trzy kluczowe hiperparametry:

1. **alpha** – parametr regularyzacji, który kontroluje siłę penalizacji modelu,
2. **solver** – metoda używana do obliczenia współczynników regresji,
3. **max_iter** – maksymalna liczba iteracji, po której metoda sprzężonego gradientu powinna osiągnąć zbieżność. Jeśli zbieżność nie zostanie uzyskana, procedura zostanie przerwana, zwracając najlepszy wynik osiągnięty do tego momentu.

Szczegółowy opis wszystkich dostępnych hiperparametrów można znaleźć w dokumentacji klasy **Ridge**, dostępnej pod adresem: [Ridge – dokumentacja scikit-learn](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html).

In [None]:
import optuna
from sklearn.model_selection import cross_validate, KFold
from sklearn.metrics import mean_absolute_error, make_scorer
from sklearn.linear_model import Ridge
import numpy as np

# Metryka, która posłuży do określenia funkcji celu
scoring = {'mae': make_scorer(mean_absolute_error)}

# Model, który będzie optymalizowany
model = Ridge

# Definicja przestrzeni hiperparametrów
# Hiperparametry, które zostaną poddane optymalizacji, oraz zakresy ich wartości
def get_space(trial):
    space = {
        "alpha": trial.suggest_uniform("alpha", 0, 1),
        "solver": trial.suggest_categorical("solver", [
            'svd', 'cholesky', 'sparse_cg'
        ])
    }
    return space

# Liczba prób
trials = 500

# Definicja funkcji celu
def objective(trial, model, get_space, X, y):
    model_space = get_space(trial)
    mdl = model(**model_space)
    # Walidacja będzie przeprowadzana z użyciem 5-krotnego sprawdzianu krzyżowego
    scores = cross_validate(
        mdl, X, y, 
        scoring=scoring,
        cv=KFold(n_splits=5),
        return_train_score=True
    )
    return np.mean(scores['test_mae'])

# Inicjalizacja optymalizacji
study = optuna.create_study(direction='minimize')

# Przeprowadzenie optymalizacji
study.optimize(
    lambda x: objective(x, model, get_space, X_train, y_train), 
    n_trials=trials
)

# Wyświetlenie dobranych wartości hiperparametrów
print('params:', study.best_params)

# Trening modelu z optymalnymi hiperparametrami
ridge = model(**study.best_params)
ridge.fit(X_train, y_train)

# Predykcja na zbiorze testowym
preds = ridge.predict(X_test)

# Wyświetlenie błędu absolutnego uzyskanego na zbiorze testowym
print('test MAE:', mean_absolute_error(y_test, preds))


Bayesowską regresję grzbietową można przeprowadzić za pomocą klasy **BayesianRidge**, która jest dostępna w bibliotece scikit-learn. Dokumentację tej klasy znaleźć można pod adresem: [BayesianRidge w dokumentacji scikit-learn](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.BayesianRidge.html).

## Zadanie: Przewidywanie cen mieszkań za pomocą regresji liniowej

#### 1. Pobranie i wczytanie danych:
Pod adresem: [Kaggle - Real Estate Price Prediction](https://www.kaggle.com/quantbruce/real-estate-price-prediction) znajdują się dane dotyczące cen mieszkań w Singapurze. Pobierz plik, a następnie wczytaj go do struktury **DataFrame**. Wczytana tabela zawiera osiem kolumn:

1. **No** – numer porządkowy,
2. **X1 transaction date** – data zakupu,
3. **X2 house age** – wiek budynku (w latach),
4. **X3 distance to the nearest MRT station** – odległość od najbliższej stacji metra,
5. **X4 number of convenience stores** – liczba sklepów w okolicy,
6. **X5 latitude** – szerokość geograficzna,
7. **X6 longitude** – długość geograficzna,
8. **Y house price of unit area** – cena za jednostkę powierzchni.

#### 2. Przygotowanie danych:
- Usuń zbędne kolumny, które nie będą wykorzystywane w analizie.
- Podziel dane na zbiór uczący i testowy w stosunku 80:20 (0,8:0,2).

#### 3. Trening i ewaluacja modelu:
- Przeprowadź trening modelu regresji liniowej przy użyciu klasy **LinearRegression**.
- Oceń model, obliczając:
  - Średnią wartość błędu przewidywań (np. za pomocą **Mean Absolute Error**).
  - Największy błąd przewidywań (np. za pomocą metryki **Max Error**).

#### 4. Optymalizacja modelu:
Zastanów się, czy model liniowy inicjalizowany funkcją **LinearRegression** można zoptymalizować. Odpowiedź uzasadnij.

## Zadanie: Wyznaczanie częstotliwości tonu podstawowego przy użyciu regresji grzbietowej

#### 1. Przygotowanie danych:
- Pobierz nagrania mowy z korpusu mowy zawierającego nagrania samogłosek o przedłużonej fonacji emitowanych z różną wysokością głosu. Dane dostępne są pod adresem: [https://osf.io/cwquj/](https://osf.io/cwquj/).
- Wykonaj następujące kroki:
  - **Wektor częstotliwości tonu podstawowego**: Wyznacz wektor z częstotliwościami tonu podstawowego na podstawie nagrań.
  - **Macierz parametrów akustycznych**: Wygeneruj zestaw cech akustycznych opisujących sygnał mowy przy użyciu zestawu cech **ComParE_2016** z biblioteki **openSMILE**. Ustaw poziom ekstrakcji na **Functionals**, aby uzyskać statystyczne parametry cech sygnału.
  - **Podział danych**: Podziel dane na zbiór uczący i testowy.
  - **Standaryzacja**: Ustandaryzuj dane, aby każda cecha miała średnią równą 0 i wariancję równą 1.
  - **Redukcja wymiarowości**: Zmniejsz liczbę cech opisujących jeden obiekt do 100, wykorzystując funkcję **SelectKBest**. Wybierz cechy, które mają największy wpływ na działanie modelu: [SelectKBest w dokumentacji scikit-learn](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html).

#### 2. Trening i optymalizacja modelu:
- Przeprowadź trening modelu regresji grzbietowej (**Ridge Regression**) na przygotowanych danych.
- Optymalizuj hiperparametry modelu, aby przewidzieć wartość częstotliwości tonu podstawowego.
- Wybierz metryki ewaluacji używane podczas optymalizacji:
  - **Błąd średniokwadratowy (MSE)**.
  - **Średni błąd bezwzględny (MAE)**.

#### 3. Ewaluacja modelu:
- Oceń uzyskane modele na zbiorze testowym.
- Odpowiedz na pytanie: Czy metryka używana podczas optymalizacji (MSE vs. MAE) wpływa na wyniki uzyskane przez model?

#### 4. Rozszerzenie optymalizacji:
- Zmodyfikuj funkcję celu (**objective**) oraz przestrzeń hiperparametrów (**get_space**), aby objąć optymalizacją również liczbę cech wybieranych przez **SelectKBest**.
- Wykorzystaj funkcję **make_pipeline**, aby uprościć proces optymalizacji: [make_pipeline w dokumentacji scikit-learn](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.make_pipeline.html).