# Modele analizy danych

### 2024/2025, semestr zimowy
Tomasz Rodak

---

## Zadanie 6.1

Przewidywania w szeregu czasowym.

Pobierz ze [strony](https://repod.icm.edu.pl/dataset.xhtml?persistentId=doi:10.18150/SJHAHR) zbiór `factors_base.xlsx` i wczytaj do ramki danych Pandas. Zbiór ten zawiera wiele zmiennych, nas jednak będą interesować jedynie:

* `ln_RVBTC` - logarytm dziennej zmienności kursu BTC. Zmienna celu, którą model powinien przewidywać na podstawie danych historycznych.
* `ln_RVBTCd` - logarytm dziennej zmienności kursu BTC z jednodniowym opóźnieniem.
* `ln_RVBTCw` - logarytm średniej zmienności kursu BTC z ostatniego tygodnia.
* `ln_RVBTCm` - logarytm średniej zmienności kursu BTC z ostatniego miesiąca.
* `D_volume` - pierwsza różnica zlogarytmowanego wolumenu kursu BTC.
* `D_Google` - pierwsza różnica zlogarytmowanych wskaźników wyszukiwań Google dla BTC.
* `ln_Google` - logarytm wskaźników wyszukiwań Google dla BTC.

Celem zadania jest zbudowanie modelu regresji liniowej przewidującego `ln_RVBTC` na podstawie pozostałych wymienionych zmiennych. Więcej informacji na temat modelowania zmienności danych finansowych możesz znaleźć [tutaj](https://statmath.wu.ac.at/~hauser/LVs/FinEtricsQF/References/Corsi2009JFinEtrics_LMmodelRealizedVola.pdf).

Ramka zawiera 1478 obserwacji. Pierwsze 700 obserwacji przeznacz na zbiór treningowy, kolejne 300 na zbiór walidacyjny, a pozostałe na zbiór testowy.

Wytrenuj model regresji liniowej na zbiorze treningowym. Możesz w dowolny sposób przetworzyć dane, usunąć zmienne, dodać nowe, itp., ale staraj się przy tym, aby model był jak najprostszy, a w szczególności aby był łatwy do interpretacji. Model oceniaj za pomocą współczynnika determinacji $R^2$ i błędu średniokwadratowego (MSE) na zbiorze walidacyjnym. Ostateczną ocenę modelu przeprowadź na zbiorze testowym. Wykonaj wspólny wykres wartości przewidywanych i prawdziwych dla zbioru walidacyjnego i testowego. 

## Zadanie 6.2

Niech 

\begin{equation*}
Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \ldots + \beta_p X_p + \varepsilon,
\end{equation*}

gdzie $\varepsilon \sim N(0, \sigma^2)$, a $X_1, X_2, \ldots, X_p$ są zmiennymi objaśniającymi. Symbolem $\mathbf{X}$ oznaczmy macierz obserwacji, w której pierwsza kolumna składa się z jedynek, a pozostałe to kolejne zmienne objaśniające:

\begin{equation*}
\mathbf{X} = \begin{bmatrix}
1 & X_{11} & X_{12} & \ldots & X_{1p} \\
1 & X_{21} & X_{22} & \ldots & X_{2p} \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
1 & X_{n1} & X_{n2} & \ldots & X_{np}
\end{bmatrix}.
\end{equation*}

Podobnie, niech $\mathbf{y}$ oznacza wektor obserwacji zmiennej $Y$: $\mathbf{y} = [Y_1, Y_2, \ldots, Y_n]^T$.

Z metody najmniejszych kwadratów wynika, że współczynniki $\hat{\beta}$ w estymatorze $\hat{y}$ modelu

\begin{equation*}
\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 X_1 + \hat{\beta}_2 X_2 + \ldots + \hat{\beta}_p X_p
\end{equation*}

wyrażają się wzorem

\begin{equation}
\hat{\beta} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y}.
\end{equation}

Niech

\begin{equation*}
Y = \sin X + \varepsilon,
\end{equation*}

gdzie $\varepsilon \sim N(0, 0.3)$, a $X \sim U(0, 2\pi)$. 

Wygeneruj tablice `X` i `Y` zawierające 100 obserwacji zgodnie z powyższym modelem. Ponieważ zależność między $X$ i $Y$ jest nieliniowa, więc prosty model, w którym $Y$ jest funkcją liniową $X$ będzie miał wysoki bias. Regresja wielomianowa polega na zastąpieniu kolumny $X$ przez kolumny $X^0, X^1, X^2, \ldots, X^d$, gdzie $d$ jest stopniem wielomianu. Model ma wówczas postać:

\begin{equation*}
Y = \beta_0 + \beta_1 X + \beta_2 X^2 + \ldots + \beta_d X^d + \varepsilon.
\end{equation*}

Stopień wielomianu $d$ jest hiperparametrem modelu, który powinien zostać odpowiednio dobrany, my jednak na potrzeby tego zadania przyjmijmy, że $d = 5$. Stosując podany wyżej wzór (1) wyznacz współczynniki $\hat{\beta}$ dla stopnia $d = 5$:

\begin{equation*}
\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 X + \hat{\beta}_2 X^2 + \ldots + \hat{\beta}_5 X^5.
\end{equation*}

Narysuj wspólny wykres rozrzutu punktów oraz krzywą regresji w 1000 równoodległych punktach z przedziału $[0, 2\pi]$.

Wszystkie obliczenia wykonaj za pomocą biblioteki NumPy, nie korzystaj z gotowych funkcji do regresji wielomianowej.

## Zadanie 6.3

Podana niżej funkcja `make_regression_data()` generuje losowe dane do problemu regresji. Opis parametrów:
- `n_samples` - liczba obserwacji,
- `n_features` - liczba cech,
- `n_informative` - liczba cech, od których zależy zmienna objaśniana,
- `noise` - poziom szumu dodawanego do zmiennej objaśnianej,
- `eigenvalues` - wartości własne macierzy kowariancji cech,
- `seed` - ziarno losowości.

Zwracane wartości:
- `X` - macierz cech o wymiarach `(n_samples, n_features)`,
- `y` - wektor zmiennych objaśnianych,
- `beta` - wektor współczynników regresji, na pierwszym miejscu znajduje się wyraz wolny.

Obserwacje w macierzy `X` są niezależne i mają rozkład wielowymiarowy normalny o zerowej średniej i macierzy kowariancji kontrolowanej przez parametr `eigenvalues`.

In [None]:
import numpy as np
from scipy.stats import ortho_group


def make_random_psd_matrix(p, eigenvalues=None):
    """
    Losowa dodatnio określona macierz o wymiarach p x p.
    Wartości własne zwracanej macierzy stanowią permutację
    pierwiastków z wartości własnych podanych w `eigenvalues`.   
    """
    if eigenvalues is None:
        eigenvalues = np.ones(p)
    Q = ortho_group.rvs(p)          # losowa macierz ortogonalna
    S = np.diag(eigenvalues)        # macierz diagonalna z wartościami własnymi
    return Q @ np.sqrt(S) @ Q.T

def make_regression_data(
    *,
    n_samples,
    n_features,
    n_informative,
    noise=1.0,
    eigenvalues=None,
    seed=None
    ):
    """
    Losowe dane do regresji liniowej.
    
    Parametry
    ----------
    n_samples : int
        Liczba obserwacji.
    n_features : int
        Liczba cech.
    n_informative : int
        Liczba cech, od których zależy zmienna objaśniana.
    noise : float
        Poziom szumu dodawanego do zmiennej objaśnianej.
    eigenvalues : list
        Wartości własne macierzy kowariancji cech,
    seed : int
        Ziarno losowości.
    """
    if eigenvalues is not None:
        assert len(eigenvalues) == n_features, "eigenvalues must have length equal to n_features"
    if seed is not None:
        np.random.seed(seed)
    X = np.random.normal(size=(n_samples, n_features))
    Sigma = make_random_psd_matrix(n_features, eigenvalues)
    X = X @ Sigma
    beta = np.zeros(n_features)
    beta[:n_informative] = np.exp(np.random.normal(size=n_informative))
    beta0 = np.exp(np.random.normal())
    beta = beta[np.random.permutation(n_features)]
    y = beta0 + X @ beta + np.random.normal(scale=noise, size=n_samples)
    return X, y, np.concatenate(([beta0], beta))

### 6.3.1

Za pomocą funkcji `make_regression_data()` wygeneruj dane do problemu regresji liniowej w dwuwymiarowej przestrzeni cech dla różnych wartości parametru `eigenvalues`. Wyjaśnij, jak parametr ten wpływa na postać macierzy cech `X`. Wykonaj przykładowy wykres rozproszenia danych wraz z prostą regresji jednej z cech względem drugiej.

### 6.3.2

Za pomocą funkcji `make_regression_data()` stwórz ramkę danych o kolumnach `X1`, ..., `X10` oraz `y` dla parametrów:
- `n_samples=1000`,
- `n_features=10`,
- `n_informative=5`,
- `noise=1.0`,
- `seed=<Twój numer albumu>`.

Parametr `eigenvalues` zdefiniuj za pomocą wzoru:

\begin{equation*}
\text{eigenvalues} = \exp\left(-\left(\frac{i}{\text{effective rank}}\right)^2\right)
\end{equation*}

gdzie $i=0,1,2,\ldots,(\text{n features})-1$. Tak zdefiniowany parametr `eigenvalues` jest ciągiem malejącym, zaczynającym się od wartości $1$ i szybko opadającym do zera za wartością `effective_rank`. Powoduje to, że $p-(\text{effective rank})$ wartości własnych macierzy kowariancji cech jest bliskich zeru a macierz $X$ jest bliska macierzy o rzędzie $\text{effective rank}$. Pomysł ten, w nieco innej sytuacji, implementuje funkcja [`sklearn.datasets.make_low_rank_matrix()`](https://github.com/scikit-learn/scikit-learn/blob/6e9039160/sklearn/datasets/_samples_generator.py#L1357).

Jako wartość parametru `effective_rank` przyjmij $3$. 

Stwórz model regresji liniowej zmiennej `y` względem wszystkich zmiennych w `X`. Odpowiedz na pytania:
1. Czy wszystkie zmienne są istotne statystycznie?
2. Czy model jest istotny jako całość?
3. Zapisz model w postaci równania regresji. Czy model odtwarza prawdziwe wartości współczynników? Jeśli nie, to dlaczego?

### 6.3.3

W tym punkcie wykorzystaj dane z punktu 1.2. Przeprowadź selekcję zmiennych stosując następującą procedurę:
1. Sprawdź, która cecha ma najwyższy współczynnik VIF (variance inflation factor). Usuń ją, jeśli współczynnik ten jest większy od 5.
2. Powtarzaj krok 1, aż żaden współczynnik VIF nie będzie większy od 5.

Stwórz model regresji liniowej zmiennej `y` względem wyselekcjonowanych zmiennych. Porównaj wyniki z modelem z punktu 1.2, odpowiedz na analogiczne pytania. 

### 6.3.4

Napisz funkcję `low_vif_variables(df, threshold=5, skip=[])` automatyzującą procedurę selekcji zmiennych z punktu 1.3.

Parametry:
- `df` - ramka danych,
- `threshold` - wartość progowa współczynnika VIF,
- `skip` - lista zmiennych, które mają być pominięte w procesie selekcji (np. kolumna zmiennych objaśnianych).

Funkcja w iteracyjny sposób usuwa zmienne z maksymalnym współczynnikiem VIF o ile jest on większy niż `threshold`.
Proces powtarza się, aż żadna zmienna nie będzie miała współczynnika VIF większego niż `threshold`. Funkcja zwraca listę pozostałych zmiennych.

Zastosuj funkcję `low_vif_variables()` do danych z punktu 1.2. Sprawdź, czy wyniki są zgodne z wynikami z punktu 1.3.