# RPiS - Laboratoria #1

## Środowisko pracy

Na zajęciach będziemy korzystać z języka Python 3.8 oraz zestawu konkretnych pakietów. Na własną odpowiedzialność można korzystać z innych wersji Pythona. Poprzednie wersje Pythona (w szczególności 2.x) są niezalecane! Jeżeli ktoś nie używał wcześniej Pythona to polecam przejść przez sekcje [Learn the Basics tutaj](https://www.learnpython.org/).


1. Ściągnąć repozytorium przedmiotu: `git clone hhttps://github.com/gmum/rpis_2022_lab.git` <br>
(Można również ściągnąć zipa repozytorium "ręcznie")


2. Sciągnąć miniconde: https://conda.io/en/latest/miniconda.html (Niewymagane jeśli zainstalowana jest Anaconda) <br>
Na windowsie: uruchomić `Anaconda Prompt`


3. Stworzyć środowisko razem z wymaganymi paczkami:<br>
`conda create --name ml python=3.8 numpy scipy matplotlib jupyter notebook`


4. Aktywować środowisko:<br>
Unix/MacOS: conda activate ml<br>
Windows: w Anaconda Prompt: activate ml<br>


5. W folderze repo odpalić serwer jupytera: `jupyter notebook` <br>
Sprawdzić w przeglądarce czy wszystko działa<br>

### Test Środowiska

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import scipy

## Wybrane elementy pakietów numpy, scipy, matplotlib

### numpy
Pakiet numpy implementuje (bądź pozwala zaimplementować) większość operacji jakie będą potrzebne do operowania na (wielowymiarowych) tablicach. Dodatkowo implementacja jest znacznie wydajniejsza niż czysty Python.

### Zadanie 1.
Używając "magii" jupytera `%%timeit` porównać czasy wykonania sumowania 10000 całkowitych liczb losowych z przedziału [1,10] używając czystego Pythona i numpy.

In [None]:
import random

In [None]:
import numpy as np

### Zadanie 2.
Napisz wydajniejszą formę następujących funkcji. Porównaj szybkość wywołania oryginalnych funkcji i ich odpowiedników z numpy.

In [None]:
def cube_sum(x):
    """Zwraca sume szescianow elementow"""
    result = 0
    for i in range(len(x)):
        result += x[i] ** 3
    return result

def almost_variance(x):
    """Oblicza 1/n * SUM (x_i - mean(x))^4"""
    m = sum(x) / len(x)
    result = 0
    for i in range(len(x)):
        result += (x[i] - m) ** 4
    result /= len(x)
    return result

### Zadanie 3.
Wykorzystujac broadcasting (patrz na rysunek poniżej) stwórz tabliczkę mnożenia tzn. tablice  taką, że

$$\large A_{ij} = i \cdot j \quad \forall i,j \in \{1,\ldots,10\} $$

Czy potrafisz wykonać to jednym poleceniem, nie używajac przy tym pętli/comprehensions?
![image.png](attachment:image.png)

### numpy.random
Pakiet [numpy.random](https://numpy.org/doc/1.16/reference/routines.random.html) udostępnia szereg zaimplementowanych funkcji do losowania z wielu rozkładów prawdopodobieństwa. Większość tych funkcji przyjmuje zadane dla danego rozkładu parametry oraz argument `size`, który mówi ile próbek zwrócić.

In [None]:
# rozkład jednostajny
np.random.uniform(low=0, high=1, size=10)

In [None]:
# rozkład normalany
np.random.normal(loc=0, scale=1, size=3)

### Zadanie 4.
Sprawdzić empirycznie paradoks [Monty'ego Halla](https://en.wikipedia.org/wiki/Monty_Hall_problem).

### matplotlib.pyplot
Pakiet `matplotlib` udostępnia szereg funkcjonalności do wizualizacji wszelkiego rodzaju. 

In [None]:
import matplotlib.pyplot as plt

# kosmetyka
plt.rcParams['axes.grid'] = True  
plt.rcParams['figure.dpi'] = 100

In [None]:
x = np.arange(0, 10, 0.01)
y = np.cos(x)

plt.plot(x, y)
_ = plt.axis('equal')

In [None]:
x = np.random.normal(loc=0, scale=1, size=1000)
y = np.random.uniform(-3, 3, size=1000)

plt.scatter(x, y)
_ = plt.axis('equal')

### Zadanie 5.
Sprawdź empirycznie Centralne Twierdzenie Graniczne (tw. Lindeberga-Levy’ego) dla dowolnych wartości średniej $\mu$ i wariancji $\sigma^2$. Zwizualizuj rozkład sum z pomocą `plt.hist`.

### Zadanie 6.
Sprawdź empirycznie specjalny przypadek CLT dla próbek z rozkładu Bernoulliego (tw. de Moivre’a-Laplace’a). <br>*Wskazówka:* `np.random.binomial`

### Zadanie 7. 

Wylosuj współrzędne 1000 punktów na płaszczyźnie z rozkładu normalnego (*i.i.d* dla obu współrzędnych) o dowolnej średniej $\mu$ i wariancji $\sigma^2$. Zwizualizuj prawo dwóch sigm kolorując przykłady w zależności od ich odległości od średniej:

* na zielono dla: $d(x, \mu) < \sigma$
* na pomarańczowo dla: $\sigma < d(x, \mu) < 2\sigma$
* na czerwono dla: $2\sigma < d(x, \mu)$

gdzie $d(\cdot, \cdot)$ to odległość euklidesowa. <br> 

a) Sprawdź ile punktów jest w danym kolorze. Jak to się ma do wariantu jednowymiarowego? <br>
b) Jak to będzie wyglądało w 100 wymiarach? Możesz narysować jak wygląda średnia odległość próbek od średniej dla rosnącej liczby wymiarów.

*Wskazówka*: parametr `c` funkcji [`plt.scatter`](https://matplotlib.org/3.5.0/api/_as_gen/matplotlib.pyplot.scatter.html)