# Biblioteki Pythona w analizie danych

## Tomasz Rodak

Lab 1

---

Literatura:

- [PRML](https://www.microsoft.com/en-us/research/uploads/prod/2006/01/Bishop-Pattern-Recognition-and-Machine-Learning-2006.pdf) Christopher M. Bishop, "Pattern Recognition and Machine Learning", 2006.
- [PML-1](https://probml.github.io/pml-book/) Kevin P. Murphy, "Probabilistic Machine Learning: An Introduction", 2022.
- [Dokumentacja NumPy](https://numpy.org/doc/stable/)

## NumPy

Zapoznaj się z podstawowymi funkcjami biblioteki NumPy: [Numpy: the absolute basics for beginners](https://numpy.org/doc/stable/user/absolute_beginners.html).

W zadaniach poniżej wykorzystaj:
- `np.random.normal()` do generowania zmiennych losowych,
- wektoryzację operacji arytmetycznych, np. jeśli `A` i `B` to tablice numeryczne NumPy o takich samych wymiarach, to `A + B` zwraca tablicę, której elementy to sumy odpowiadających elementów tablic `A` i `B`,
- operator `@` do mnożenia macierzy,
- `np.linalg.inv()` do obliczenia odwrotności macierzy,
- `np.linalg.svd()` do rozkładu SVD macierzy,
- `np.transpose()` lub `.T` do transpozycji macierzy,
- `@` do mnożenia macierzy.




## 1. Regresja liniowa z wykorzystaniem NumPy

Celem ćwiczenia jest implementacja regresji liniowej z wykorzystaniem biblioteki NumPy. Zamiast gotowych narzędzi jak sklearn, wykorzystamy operacje algebraiczne do obliczenia współczynników modelu oraz oceny jego jakości.

Zaczniemy od wygenerowania sztucznych danych, które posłużą nam do przetestowania implementacji.


### 1.1 Generowanie danych


Niech $w_0,w_1,\ldots,w_p$, $X_1,X_2,\ldots,X_p$ oraz $\varepsilon$ będą niezależnymi zmiennymi losowymi o rozkładach:

\begin{align*}
w_i&\sim\mathcal{N}(0,1),\ i=0,1,\ldots,p,\\
X_j&\sim\mathcal{N}(0,1),\ j=1,2,\ldots,p,\\
\varepsilon&\sim\mathcal{N}(0,\sigma^2),
\end{align*}

gdzie $\mathcal{N}(\mu,\sigma^2)$ oznacza rozkład normalny o średniej $\mu$ i wariancji $\sigma^2$.

Gdy parametry $w_0,w_1,\ldots,w_p$ są znane, to zmienną zależną $Y$ definiujemy wzorem:

\begin{equation}
Y = w_0 + w_1 X_1 + w_2 X_2 + \ldots + w_p X_p + \varepsilon.
\end{equation}

Wygeneruj w Numpy zbiór danych zgodnie z powyższym modelem:

1. Zaimportuj bibliotekę NumPy.
2. Wygeneruj losowy wektor współczynników `w` o długości $p+1$ (uwzględniając wyraz wolny). Przyjmij $p=5$.
3. Utwórz zbiór obserwacji zmiennych niezależnych `X` składający się z $N=1000$ obserwacji i $p=5$ zmiennych niezależnych.
4. Stwórz zmienną zależną `y` zgodnie z podanym wyżej modelem. Przyjmij $\sigma=2.0$.

### 1.2 Obliczenie całkowitej sumy kwadratów (TSS)

TSS (*Total Sum of Squares*) to suma kwadratów różnic między wartościami zmiennej zależnej `y` a ich średnią:

\begin{equation*}
\text{TSS} = \sum_{i=1}^{N} (y_i - \bar{y})^2
\end{equation*}

gdzie $\bar{y}$ to średnia wartość zmiennej `y`. Wielkość tę można interpretować jako całkowitą wariancję zmiennej zależnej. Można też powiedzieć, że jest to ocena bazowego modelu wyznaczonego przez średnią wartość zmiennej zależnej.

1. Oblicz średnią wartość zmiennej `y`.
2. Korzystając z definicji oblicz TSS.

### 1.3 Implementacja regresji liniowej


1. Dodaj kolumnę jedynek do macierzy `X` jako pierwszą kolumnę (odpowiadającą wyrazowi wolnemu).
2. Oblicz estymator współczynników regresji $\mathbf{w}_{\text{ML}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y}$, gdzie $\mathbf{X}$ to macierz obserwacji zmiennych $X_i$ rozszerzona o kolumnę jedynek, a $\mathbf{y}$ to wektor wartości zmiennej $Y$. Zobacz jak duże, co do wartości bezwzględnej, są wpisy w macierzy $(\mathbf{X}^T\mathbf{X})^{-1}$. Jak wygląda struktura wartości własnych tej macierzy?
3. Porównaj wartości estymowanych parametrów z wartościami rzeczywistymi. Oblicz błędy względne.

### 1.4 Ocena jakości modelu

RSS (*Residual Sum of Squares*) to suma kwadratów reszt, czyli różnic między rzeczywistymi wartościami $y_i$ a przewidywanymi $\hat{y}_i$ (jak wygląda wzór na $\hat{y}_i$?):

\begin{equation*}
\text{RSS} = \sum_{i=1}^{N} (y_i - \hat{y}_i)^2
\end{equation*}

Wielkość ta jest miarą dopasowania modelu do danych. Parametry modelu są tak dobrane, aby minimalizować RSS na zbiorze treningowym.

Współczynnik determinacji $R^2$ to stosunek wariancji wyjaśnionej przez model do całkowitej wariancji zmiennej zależnej:

\begin{equation*}
R^2 = \frac{\text{TSS} - \text{RSS}}{\text{TSS}}= 1 - \frac{\text{RSS}}{\text{TSS}}
\end{equation*}


1. Oblicz przewidywane wartości $\hat{y_i}$, $i=1,\ldots,N$.
2. Oblicz RSS.
3. Oblicz współczynnik determinacji $R^2$.

### Pytania dodatkowe

Zobacz jak zmienia się wartość TSS, RSS i $R^2$ w zależności od:
1. wariancji szumu,
2. liczby obserwacji $N$,
3. liczby zmiennych niezależnych $p$.

## 2. Przypadek występowania zależności między zmiennymi

W poprzednim zadaniu zakładaliśmy, że zmienne losowe $X_1,\ldots,X_p$ są niezależne, co powodowało, że macierz $\mathbf{X}^T\mathbf{X}$ była odwracalna a estymator $\mathbf{w}_{\text{ML}}$ dobrze aproksymował parametry modelu. Teraz załóżmy, że jedna ze zmiennych, powiedzmy $X_p$, wyraża, z pewnym błędem, jako liniowa kombinacja innych zmiennych, np:

\begin{equation}
X_p = 2X_1 - X_2 + \varepsilon_p,
\end{equation}

gdzie $\varepsilon_p\sim\mathcal{N}(0,\sigma_p^2)$.

Przeprowadź analogiczne analizy jak w poprzednim zadaniu. Czy zmiana struktury zmiennych niezależnych wpływa na jakość modelu? Jak teraz wygląda macierz $(\mathbf{X}^T\mathbf{X})^{-1}$? Jak wyglądają wartości własne macierzy $\mathbf{X}^T\mathbf{X}$?

## 3. Schemat aktywności Słońca

Na [Solar Influences Data Analysis Center (SIDC)](https://sidc.be/SILSO/datafiles) znajduje się baza danych dotycząca aktywności Słońca. Celem zadania jest wyznaczenie przeciętnej liczby plam słonecznych w zależności od czasu.

### 3.1. Wczytanie danych

Pobierz [dane (Sunspot Number)](https://sidc.be/SILSO/INFO/sndtotcsv.php) w formacie CSV. Dane te są dostępne od roku 1818. Dane możesz pobrać ręcznie, ale wygodniej będzie zrobić to wykorzystując bibliotekę `requests`:

```python
import requests

url = 'https://sidc.be/SILSO/INFO/sndtotcsv.php'
r = requests.get(url)
with open('sunspots.csv', 'wb') as f:
    f.write(r.content)
```

### 3.2. Przygotowanie i wizualizacja

1. Dane wczytaj do obiektu DataFrame biblioteki Pandas.
2. Sprawdź typy danych i usuń ewentualne braki (zobacz dokumentację zbioru na stronie SIDC).
3. Wyświetl wykres rozproszenia liczby plam słonecznych w zależności od czasu.

### 3.3 Regresja liniowa

1. Stwórz tablicę `X` zawierającą rok jako zmienną niezależną oraz tablicę `y` zawierającą liczbę plam słonecznych jako zmienną zależną.
2. Zastosuj regresję liniową do wyznaczenia przeciętnej liczby plam słonecznych w zależności od roku. Wykorzystaj bazę funkcji składających się z wyrazu wolnego oraz funkcji bazowych Gaussa: 
\begin{equation*}
\phi_i(x) = \exp\left(-\frac{(x - c_i)^2}{\sigma^2}\right),
\end{equation*}
gdzie $c_i$ to równo odległe punkty na odcinku $[X_{\text{min}},X_{\text{max}}]$ oraz $\sigma>0$ to parametr kontrolujący szerokość funkcji Gaussa.
3. Wyświetl wykres przeciętnej liczby plam słonecznych w zależności od roku wraz z wykresem rozproszenia danych.
4. Przetestuj inne typy funkcji bazowych, np. funkcję sigmoidalną 
\begin{equation*}
\phi_i(x) = \frac{1}{1 + \exp\left(-\frac{x - c_i}{\sigma}\right)}
\end{equation*}
lub ReLU
\begin{equation*}
\phi_i(x) = \max(0, x - c_i).
\end{equation*}

