# Języki programowania w analizie danych: Python

# Laboratoria 11.01.2025

# NumPy - podstawy

Moduł NumPy jest częścią większego pakietu o nazwie SciPy, który obejmuje moduły NumPy, SciPy, matplotlib, IPython i SymPy. Pełny pakiet SciPy ma wszystkie funkcje Matlaba, a nawet je przewyższa. Dystrybucja Anaconda, którą polecam do używania na zajęciach, została zaprojektowana do współpracy z pakietem SciPy (w szczególności nie ma potrzeby instalowania żadnych dodatkowych modułów).

Sprawdźmy, czy mamy zainstalowany pakiet `numpy`.

In [1]:
import numpy

Brak modułu zostałby zgłoszony przez wyjątek `ImportError`.

 `ImportError: No module named 'numpy'`

Standardowo moduł `numpy` jest importowany pod skróconą nazwą `np`.

In [2]:
import numpy as np

## Tablica Ndarray 

Kluczowym obiektem w module NumPy jest `ndarray`, czyli $n$-wymiarowa tablica elementów tego samego typu. Tworzymy go za pomocą funkcji `array` z modułu `numpy`. Pełen przykładowy konstruktor obiektu `ndarray` wygląda następująco:

```python
numpy.array(object, dtype = None,*,copy = True, order = 'K', subok = False, ndmin = 0, like = None)
```
gdzie poszczególne parametry to:
- `object` - obiekt, który chcemy przetworzyć na macierz, np. lista znaków `[1,2,3,4]` lub innych elementów
- `dtype` - opcjonalnie, wymuszony końcowy typ elementów macierzy
- `copy` - opcjonalnie (domyślna wartość `True`), wymusza kopiowanie obiektu przetwarzanego na macierz
- `order` - opcjonalnie, kolejność indeksacji w pamięci: `C` - wierszami (jak w C/C++), `F` - kolumnami (jak w Fortranie), `K`, `A` - bez zmian, jeżeli `copy=True`, wtedy zachowana jest kolejność obiektu wejściowego
- `subok` - opcjonalnie, domyślnie `False`, `True` dopuszcza użycie podklas
- `ndmin` - opcjonalnie, minimalny wymiar macierzy wyjściowej
- `like` - obiekt referencyjny; zapewnia utworzenie tablicy zgodnej z obiektem podanym jako odniesienie

Przykładowo:

In [3]:
import numpy as np
A = np.array([1,2,3,4,5])
B = np.array([1,2,3,4,5],dtype=complex)
C = np.array([1,2,3,4,5],ndmin=2)
print(A)
print(B)
print(C)

[1 2 3 4 5]
[1.+0.j 2.+0.j 3.+0.j 4.+0.j 5.+0.j]
[[1 2 3 4 5]]


Główną różnicą pomiędzy tablicami jednowymiarowymi i wielowymiarowymi jest sposób dostępu do elementów.

In [4]:
A[0]

1

In [5]:
C[0]

array([1, 2, 3, 4, 5])

In [6]:
C[0,0]

1

Tablice wyższych wymiarów tworzymy następująco:

In [7]:
D=np.array([[1,2],[3,4],[5,6]])
print(D)

[[1 2]
 [3 4]
 [5 6]]


In [8]:
D[:,0]

array([1, 3, 5])

### Ćwiczenie 1.
Utwórz tablice `ndarray` z podanych obiektów. Tablice jakich wymiarów otrzymaliśmy?

In [9]:
rng=range(101)
st={1,2,3,4,5,6,7,8,9}
tuple_tuples=((1,1),(2,2),(3,3))

#TYPE YOUR CODE BELOW

A=np.array(rng)
B=np.array(st)
C=np.array(tuple_tuples)

print(A,A.ndim)
print(B,B.ndim)
print(C,C.ndim)


[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
  90  91  92  93  94  95  96  97  98  99 100] 1
{1, 2, 3, 4, 5, 6, 7, 8, 9} 0
[[1 1]
 [2 2]
 [3 3]] 2


## Pewne opcje automatycznego tworzenia tablic

- `numpy.arange(n)` tworzy wektor liczb od 0 do $n-1$
- `numpy.arange(start,end,step)` tworzy wektor liczb od `start` (włącznie) do `end` (niewłącznie) co krok `step`
- `numpy.linspace(start,end,n)` tworzy wektor $n$ liczb równomiernie rozłożonych od `start` do `end` **włącznie**
- `numpy.ones((n,m))` - macierz o wymiarze $n\times m$ wypełniona jedynkami
- `numpy.zeros((n,m))` - macierz o wymiarze $n\times m$ wypełniona zerami
- `numpy.eye(n)` - macierz jednostkowa o wymiarze $n\times n$
- `numpy.diag([1, 2, 3, 4])` - macierz, której elementy znajdują się na głównej przekątnej 1,2,3,4, pozostałe miejsca to zera
- `numpy.diag([1, 2, 3, 4],k=1)` - macierz, która na drugiej przekątnej (`k=1`) ma elementy 1,2,3,4, pozostałe miejsca to zera (główna przekątna to `k=0`)
- `numpy.random.rand(n)` - wektor $n$ liczb losowych z zakresu $[0,1]$
- `numpy.random.randn(n)` - wektor $n$ liczb losowych o rozkładzie Gaussa
- `numpy.fromfunction(function,(x_max,y_max,z_max,...),dtype)` tworzy tablicę z wartości funkcji `f` dla argumentów od 0 do `x_max`, `y_max` itd. (w zależności od liczby argumentów funkcji `f`)

In [10]:
A=np.arange(10)
B=np.linspace(1,10,19)
C=np.diag((1,2,3,4),k=-2)

print(A)
print(B)
print(C)

[0 1 2 3 4 5 6 7 8 9]
[ 1.   1.5  2.   2.5  3.   3.5  4.   4.5  5.   5.5  6.   6.5  7.   7.5
  8.   8.5  9.   9.5 10. ]
[[0 0 0 0 0 0]
 [0 0 0 0 0 0]
 [1 0 0 0 0 0]
 [0 2 0 0 0 0]
 [0 0 3 0 0 0]
 [0 0 0 4 0 0]]


In [11]:
np.random.randn(10)

array([-0.63343459, -2.436035  ,  0.74278456, -1.02420284, -1.08161257,
        0.17780535, -0.3119452 ,  0.68851328, -0.20373654,  0.35722   ])

In [12]:
A=np.fromfunction(lambda x: x**3,[4]) #jedna zmienna - będzie wymiar 1
print(A)

[ 0.  1.  8. 27.]


In [13]:
B=np.fromfunction(lambda x,y: x+y**2,(4,5),dtype=int) #dwie zmienne - będzie wymiar 2
print(B)

[[ 0  1  4  9 16]
 [ 1  2  5 10 17]
 [ 2  3  6 11 18]
 [ 3  4  7 12 19]]


In [14]:
C=np.fromfunction(lambda x,y,z: x+y+z,(2,3,4)) #trzy zmienne - będzie wymiar 3
print(C)

[[[0. 1. 2. 3.]
  [1. 2. 3. 4.]
  [2. 3. 4. 5.]]

 [[1. 2. 3. 4.]
  [2. 3. 4. 5.]
  [3. 4. 5. 6.]]]


## Nawigacja i podstawowe operacje na tablicach

Mamy następujące tablice:

In [15]:
A=np.array([[1,2],[3,4]])
B=np.array([[1,1],[0,-1]])
C=np.array([1,2,3,4])

- `A.ndim` zwraca liczbę wymiarów tablicy
- `numpy.vstack((A,B))` łączy tablice w jedną pionowo
- `numpy.hstack((A,B))` łączy tablice w jedną poziomo
- `len(A)` zwraca liczbę elementów pierwszego wymiaru tablicy (w zależności od wybranej konwencji C lub F odpowiednio liczbę wierszy lub liczbę kolumn)
- `A.shape` zwraca kształt (rozmiar) tablicy
- `C.reshape(n,m)` tworzy macierz o wymiarze $n\times m$ z wektora C
- `A.flatten()` zwraca wektor utworzony z elementów tablicy A
- `C[n]` zwraca element $n+1$ wiersza (pamiętaj: numeracja zaczyna się od 0)
- `A[n,m]` zwraca element w wierszu $n+1$ i kolumnie $m+1$
- `A[n]` zwraca $n+1$ wiersz
- `C[start:end:n]` zwraca każdy $n$-ty element wektora C, zaczynając od `start` do `end`, nie włącznie
- `C[::-1]` szybko odwraca kolejność elementów w wektorze C
- w przypadku tablic wielowymiarowych działa kombinacja powyższych operacji, np. `A[0:2,0]` zwróci wektor `[1,3]` (tj. elementy w pierwszej kolumnie, w wierszach 0 i 1)
- dodawanie tablic miejsce w miejsce: `A+B`
- mnożenie tablic miejsce w miejsce: `A*B`
- poprawne matematycznie mnożenie macierzy: `A.dot(B)`
- `A+2` - dodaje liczbę 2 do każdego elementu tablicy
- `A.T` lub `numpy.transpose(A)` - transpozycja macierzy
- `numpy.sum(A)` lub `A.sum()` zwraca sumę wszystkich elementów tablicy
- `A.sum(axis=0)` zwraca tablicę złożoną z sum po pierwszym wymiarze tablicy $A$ (dla drugiego wymiaru `axis=1`)
- `A.min()` - najmniejszy element w tablicy (dla największego - `max`)
- `A.argmin()` - indeks najmniejszego elementu w tablicy
- `numpy.linalg.det(A)` oblicza wyznacznik macierzy
- `numpy.linalg.solve(A,B)` rozwiązuje układ równań w postaci macierzowej $AX=B$

In [16]:
import numpy
A=numpy.array([[1,2],[3,4]])
B=numpy.array([[1,1],[0,-1]])
C=numpy.array([1,2,3,4])

In [17]:
np.vstack((A,B))

array([[ 1,  2],
       [ 3,  4],
       [ 1,  1],
       [ 0, -1]])

In [18]:
np.hstack((A,B))

array([[ 1,  2,  1,  1],
       [ 3,  4,  0, -1]])

In [19]:
A*np.eye(2)

array([[1., 0.],
       [0., 4.]])

In [20]:
A.dot(np.eye(2))

array([[1., 2.],
       [3., 4.]])

In [21]:
C.reshape(2,2)

array([[1, 2],
       [3, 4]])

In [25]:
D=np.arange(9).reshape(3,3)
print(D)

[[0 1 2]
 [3 4 5]
 [6 7 8]]


In [26]:
print(np.sum(D))
print(np.sum(D,axis=0))
print(np.sum(D,axis=1))

36
[ 9 12 15]
[ 3 12 21]


In [27]:
A=np.array([[1,1,1],
           [1,-1,2],
           [1,2,-2]])

B=np.array([2,0,3])

X=np.linalg.solve(A,B)
X

array([ 1.,  1., -0.])

### Ćwiczenie 2.

Utwórz macierz wymiaru $4\times 5$ wszystkich kwadratów liczb nieparzystych od 1 do 40.

In [32]:
#TYPE YOUR CODE BELOW

A=np.array([x**2 for x in range(1,41,2)]).reshape(4,5)
print(A)

B=(np.arange(1,41,2).reshape(4,5))**2
print(B)

C=np.fromfunction(lambda x,y: (10*x+2*y+1)**2,(4,5),dtype=int)
print(C)

[[   1    9   25   49   81]
 [ 121  169  225  289  361]
 [ 441  529  625  729  841]
 [ 961 1089 1225 1369 1521]]
[[   1    9   25   49   81]
 [ 121  169  225  289  361]
 [ 441  529  625  729  841]
 [ 961 1089 1225 1369 1521]]
[[   1    9   25   49   81]
 [ 121  169  225  289  361]
 [ 441  529  625  729  841]
 [ 961 1089 1225 1369 1521]]


### Ćwiczenie 3.
Utwórz macierz wymiaru $10\times 10$ wypełnioną liczbami od 1 do 100 ułożonymi w kolumnach.

In [None]:
#TYPE YOUR CODE BELOW



### Ćwiczenie 4.
Z podanych tablic `A,B` i `C` utwórz w jednej linijce kodu następującą tablicę `D`:

```
[[1 2 9]
 [3 4 8]
 [4 3 2]]
 ```

In [None]:
A=np.arange(1,5).reshape(2,2)
B=np.array([4,3,2])
C=np.array([[9,8]])

#TYPE YOUR CODE BELOW



## Operatory arytmetyczne i operatory porównania

Operacje arytmetyczne i operatory porównania na *ndarrays* są definiowane miejsce w miejsce, z wyjątkiem  matematycznego mnożenia macierzy `A.dot(B)`.

Operatory arytmetyczne: `+`, `-`, `*`, `/`, `//`, `%`, `divmod()`, `**` lub `pow()`

Operatory porównania: `==`, `<`, `>`, `<=`, `>=`, `!=`


In [None]:
A=np.arange(9).reshape(3,3)
B=np.ones((3,3))

print(A)
print(B)

In [None]:
print(2*A)
print(A**3)
print(A-B)
print((2*B)**A)

In [None]:
print(A>3)

In [None]:
print((A!=4)&(A%2==0))

In [None]:
print(A>=B)

## Sortowanie, wyszukiwanie i zliczanie

Następujące funkcje można również wywołać na obiektach typu tablicowego, takich jak listy lub krotki.

- `numpy.sort(A)` - zwraca posortowaną kopię tablicy A
- `numpy.lexsort(A,keys)` - wykonuje sortowanie pośrednie przy użyciu sekwencji kluczy: ostatni klucz jest głównym kluczem sortowania
- `numpy.argsort(A)` - zwraca indeksy posortowanej tablicy
- `numpy.ndarray.sort(A)` - sortuje tablicę
- `numpy.sort_complex(A)` - sortuje tablicę liczb zespolonych
- `numpy.partition(A,k)` - częściowo sortuje tablicę w taki sposób, że $k-ty$ element znajduje się we właściwej pozycji, jak w posortowanej tablicy, wszystkie mniejsze elementy są po lewej, a większe po prawej, w kolejności niesortowanej
- `numpy.argpartition(A,k)` - zwraca tablicę indeksów częściowo posortowanej tablicy
- `numpy.argmax(A,axis=None)` - indeksy maksimów
- `numpy.nanargmax(A,axis=None)` - indeksy maksimów; `NaN` są ignorowane
- `numpy.argmin(A,axis=None)` - indeksy minimów
- `numpy.nanargmin(A,axis=None)` - indeksy minimów; `NaN` są ignorowane
- `numpy.argwhere(A)` - znajduje indeksy niezerowych elementów tablicy i zwraca je w tablicy o rozmiarze $N\times$ `A.dim`, gdzie $N$ to liczba elementów różnych od zera; można używać z warunkiem `cond` i wtedy działa jak filtr
- `numpy.nonzero(A)` - zwraca indeksy niezerowych elementów; można używać z warunkiem `cond` i wtedy działa jak filtr
- `numpy.flatnonzero(A)` - jak `nonzero`, ale wynikowa tablica jest spłaszczona do wektora
- `numpy.where(cond,[A,B])` - zwraca elementy wybrane z A lub B w zależności od warunku `cond`
- `numpy.searchsorted(A,v,side='left',sorter=None)` - zwraca indeksy, na których elementy tablicy `v` powinny zostać wstawione do posortowanej tablicy `A`, aby zachować posortowaną kolejność
- `numpy.extract(cond,A)` - zwraca elementy tablicy A, które spełniają warunek `cond`
- `numpy.count_nonzero(A)` - zlicza liczbę wartości niezerowych; można używać z warunkiem `cond` i wtedy działa jak filtr



In [None]:
a = [1, 5, 1, 4, 3, 4, 4]
b = [9, 4, 0, 4, 0, 2, 1]

t=list(zip(a,b))
print(t)

In [None]:
t_sorted=[(a[i],b[i]) for i in np.lexsort((b,a))] #sortowanie najpierw po a, potem po b
t_sorted2=[(a[i],b[i]) for i in np.lexsort((a,b))] #sortowanie najpierw po b, potem po a

print(t_sorted)
print(t_sorted2)

In [None]:
print(np.partition(a,4)) #podział tablicy na elementy mniejsze od 4 i większe lub równe 4

In [None]:
a = [1, 5, 1, 4, 3, 4, 4]
A=np.array(a)
print(np.argwhere(A>=4)) #szukamy indeksów elementów, na których warunek jest niezerowy, czyli True 

In [None]:
a=[0,0,2,0,0,0,3,1,0,2]
print(np.nonzero(a)) #niezerowe elementy a

In [None]:
a = [1, 5, 1, 4, 3, 4, 4]
A=np.array(a)
print(np.nonzero(A>=4)) #elementy A, na który warunek jest niezerowy, czyli True

In [None]:
A=np.arange(12).reshape(4,3)
print(A)

B=np.arange(20,32).reshape(4,3)
print(B)

print(np.where(A>3,A,B)) #tam, gdzie warunek spełniony - elementy A, gdzie nie spełniony - elementy B

In [None]:
a=[0,3,4,6,8,10,13,14,16]
a.insert(np.searchsorted(a,7),7) #wykorzystanie searchsorted do wstawienia elementu z zachowaniem sortowania

print(a)

### Ćwiczenie 5.

Napisz funkcję `matrix_filter(A,B)` pozostawiającą tylko te elementy macierzy `A`, które są większe od odpowiadających im elementów macierzy `B`. Pozostałe powinny zostać ustawione na 0. Sprawdź swoją funkcję na podanych macierzach.

In [None]:
A=np.array([[1,2,1],[3,2,1],[4,4,2]])
B=np.array([[0,3,1],[3,1,2],[4,5,1]])

#TYPE YOUR CODE BELOW


### Ćwiczenie 6.

Napisz funkcję `count_div7` zwracającą liczbę elementów tablicy podzielnych przez 7. Przetestuj ją na tablicy A.

In [None]:
A=np.array([[ 1, 45, 49, 10, 45, 47, 33,  2, 56, 89],
       [58,  6, 64, 14, 22, 47, 73, 10, 49, 36],
       [21, 22, 88, 13, 65, 37, 31, 90, 11, 84],
       [48, 85, 17, 71, 67, 16,  9, 53, 19, 73],
       [10, 98, 32, 52, 51, 92,  3, 64,  9, 78],
       [13, 44, 70,  3, 54, 28, 17, 43, 77, 93],
       [52, 28, 69, 71, 84, 39, 78, 18, 40,  1],
       [97, 12, 62, 25, 80, 63, 21,  7, 38, 23],
       [94, 39, 72, 90, 85,  9, 77, 97, 74, 95],
       [27, 17, 81, 90, 64, 59, 28, 35, 35,  6]])

#TYPE YOUR CODE BELOW



### Ćwiczenie 7.

W danej tablicy A zamień wszystkie elementy, które nie są podzielne przez 3 ani przez 4, na zera.

In [None]:
A=np.array([[ 1, 45, 49, 10, 45, 47, 33,  2, 56, 89],
       [58,  6, 64, 14, 22, 47, 73, 10, 49, 36],
       [21, 22, 88, 13, 65, 37, 31, 90, 11, 84],
       [48, 85, 17, 71, 67, 16,  9, 53, 19, 73],
       [10, 98, 32, 52, 51, 92,  3, 64,  9, 78],
       [13, 44, 70,  3, 54, 28, 17, 43, 77, 93],
       [52, 28, 69, 71, 84, 39, 78, 18, 40,  1],
       [97, 12, 62, 25, 80, 63, 21,  7, 38, 23],
       [94, 39, 72, 90, 85,  9, 77, 97, 74, 95],
       [27, 17, 81, 90, 64, 59, 28, 35, 35,  6]])

#TYPE YOUR CODE BELOW



In [None]:
B=np.array([[True, False],[True,False]])
C=np.array([[True, False],[False,True]])

print(B)
print(C)

print(B&C)
print(B|C)

## Podstawowe funkcje statystyczne

- `numpy.ptp(A,axis=None)` - zwraca zakres wartości (wzdłuż określonej osi)
- `numpy.percentile(A,q,axis=None)` - oblicza `q`ty percentyl danych w tablicy (wzdłuż określonej osi)
- `numpy.nanpercentile(A,q,axis=None)` - oblicza `q`ty percentyl danych w tablicy, ignorując `NaN`
- `numpy.quantile(A,qaxis=None)` - oblicza `q`ty kwantyl danych w tablicy (wzdłuż określonej osi)
- `numpy.nanquantile(A,q,axis=None)` - oblicza `q`ty kwantyl danych w tablicy, ignorując `Nan`
- `numpy.median(A,axis=None)` - oblicza medianę (wzdłuż określonej osi)
- `numpy.nanmedian(A,axis=None)` - oblicza medianę ignorując `NaN`
- `numpy.average(A,axis=None,weights=None)` - oblicza (ważoną) średnią (wzdłuż określonej osi)
- `numpy.mean(A,axis=None)` - oblicza średnią arytmetyczną (wzdłuż określonej osi)
- `numpy.nanmean(A,axis=None)` - oblicza średnią arytmetyczną ignorując `NaN`
- `numpy.std(A,axis=None)` - oblicza odchylenie standardowe (wzdłuż określonej osi)
- `numpy.nanstd(A,axis=None)` - oblicza odchylenie standardowe ignorując `NaN`
- `numpy.var(A,axis=None)` - oblicza wariancję (wzdłuż określonej osi)
- `numpy.nanvar(A,axis=None)` - oblicza wariancję ignorując `NaN`
- `numpy.corrcoef(A)` - oblicza macierz współczynników korelacji zmiennych w wierszach
- `numpy.correlate(A,B)` - korelacja krzyżowa między dwiema tablicami
- `numpy.cov(A)` - macierz kowariancji
- `numpy.histogram(A,bins=10,range=None, density=None, weights=None)` - oblicza histogram na spłaszczonej tablicy
- `numpy.histogram2d(A,B,bins=10,range=None,density=None, weights=None)` - oblicza histogram dwóch próbek danych `A` i `B`
- `numpy.histogramdd(data,bins=10, range=None, density=None, weights=None)` - oblicza wielowymiarowy histogram wielu danych


In [None]:
A=np.random.randn(10000)
np.histogram(A,bins=50)

In [None]:
import matplotlib.pyplot as plt

plt.hist(A,bins=50)

### Ćwiczenie 8.

Napisz funkcję `sensor_data_cleanser`, która usuwa z danej tablicy wszystkie wartości, które są poza przedziałem ufności dla tej tablicy. Funkcja powinna również zwracać liczbę usuniętych wpisów. Załóż najprostszą możliwą formułę przedziału ufności `[średnia - odchylenie standardowe, średnia + odchylenie standardowe]`. Przetestuj swoją funkcję na danej tablicy A.

In [None]:
A=np.random.randn(1000)

#TYPE YOUR CODE BELOW



# Matplotlib.pyplot - podstawy

Biblioteka Matplotlib służy do tworzenia różnych typów wykresów i wizualizacji danych. Moduł Pyplot, który jest częścią Matplotlib, służy do tworzenia różnych typów wykresów w stylu MatLab. Aby uprościć kod, standardem jest nadanie mu własnej, krótkiej nazwy zaraz po zaimportowaniu:

In [None]:
import matplotlib.pyplot as plt

## Plot

Podstawową funkcją w Pyplot jest `plot()`, gdzie argumentami są zazwyczaj dwie listy (lub jednowymiarowe tablice `ndarray`, co jest o wiele wygodniejsze w praktyce) `x` i `y` zawierające odpowiednio współrzędne punktów wykresu $x$ i $y$.

Prosty przykład:

In [None]:
import matplotlib.pyplot as plt
import numpy as np

x=np.linspace(0,2,100)
y=np.sin(x*np.pi)

plt.plot(x,y)
plt.show()

Style linii do wyboru:
- `'-'` linia ciągła
- `'--'` linia przerywana
- `'-.'` linia kropka, kreska
- `':'` linia kropkowana

Style punktów do wyboru:
- `'.'` pojedyncze punkty (niepołączone linią)
- `','` pojedyncze piksele
- `'o'` pojedyncze okręgi
- `'v'`, `'^'`, `'<'`, `'>'` trójkąty
- `'1', '2', '3', '4'` dzioby
- `'s'` kwadraty
- `'p'` pięciokąty
- `'*'` gwiazdy
- `'h', 'H'` sześciokąty
- `'+'` plusy
- `'x'` x'y
- `'D', 'd'` romby
- `'|'` pionowe linie
- `'_'` linie poziome

Kolory wykresu do wyboru:
- ` 'b'` niebieski
- ` 'g'` zielony
- ` 'r'` czerwony
- ` 'c'` cyjan
- ` 'm'` magenta
- `'y'` żółty
- `'k'` czarny
- `'w'` biały

In [None]:
x=np.linspace(0,2,50)

plt.plot(x,np.sin(x*np.pi),'g*')
plt.show()

Niektóre podstawowe opcje wykresu:
- ` plt.xlabel('description')` - podpis pod osią OX
- ` plt.ylabel('description')` - podpis pod osią OY
- ` plt.title('name')` - nazwa całego wykresu
- ` plt.grid(True/False)` - włącza/wyłącza widoczność siatki
- ` plt.axis()` - funkcja do zarządzania osiami, np. `[x1,x2,y1,y2]` zakresy na osiach, `'off'` wyłącza wyświetlanie osi, `'equal'` równe jednostki na osiach, `'scaled'` zmniejsza ramkę tak, aby jednostki na osiach były równe, `'square'` ustawia równe zakresy na osiach OX i OY itd.
- ` plt.legend(['description1','description2'])` - legenda (`'description2'` itd. dla wielu wykresów)
- ` plt.arrow(x0,y0,dx,dy)` - rysuje strzałkę zaczynającą się w $(x0,y0)$ i kończącą się w $(x0+dx,y0+dy)$ (przydatne do szkicowania osi)
- ` plt.autoscale(enable=True, axis='both', tight=None)` - włącza lub wyłącza automatyczne skalowanie osi. Wybór osi: `'x'`, `'y'`, `'both'`. Opcja `tight` włącza lub wyłącza marginesy wokół wykresu (przy wyłączonych marginesach wykres "dotyka" ramki).


Przykładowe użycie wybranych opcji:

In [None]:
x=np.arange(-2,2.01,0.01)
y=np.sin(x*np.pi)

plt.plot(x,y,'r')
plt.xlabel('x')
plt.ylabel('$\sin(\pi x)$')
plt.title('Example')
plt.grid(True)
plt.axis([-2.5,2.5,-1.1,1.1])
plt.arrow(-2.5,0,5,0,length_includes_head=True,head_width=0.1)
plt.arrow(0,-1.1,0,2.2,length_includes_head=True,head_width=0.1)
plt.legend(['$\sin(\pi x)$'])
plt.savefig('sinus_x.pdf')
plt.show()


Aby zapisać otrzymaną grafikę do pliku używamy funkcji `plt.savefig('sciezka/nazwa')`. Popularne rozszerzenia to `.pdf, .jpg, .bmp`. Możemy również zapisać grafikę z Jupytera po prostu klikając prawym przyciskiem myszki.

## Szkicowanie wielu wykresów

Najprostszym, ale mało profesjonalnym sposobem jest wywołanie `plot` żądaną liczbę razy:


In [None]:
x=np.arange(-2,2.01,0.01)
y=x**2

plt.plot(x,x)
plt.plot(x,y,'g')
plt.axis('scaled')
plt.grid(True)
plt.legend(['$y=x$','$y=x^2$'])

plt.show()

Bardziej profesjonalnym sposobem jest utworzenie obiektu `Axes` i dodawanie do niego wykresów.

In [None]:
x=np.arange(-2,2.01,0.01)
y=x**2

fig,ax=plt.subplots()

ax.plot(x,x)
ax.plot(x,y,'g')
ax.axis('scaled')
ax.grid(True)
ax.legend(['$y=x$','$y=x^2$'])

plt.show()

Jeżeli chcemy umieścić kilka wykresów osobno na jednej grafice (w formie tabeli wykresów), używamy funkcji `plt.subplot(r,c,n)`, gdzie `r` to liczba wierszy, `c` - liczba kolumn, a `n` to numer wykresu.

In [None]:
x=np.arange(-6,6.01,0.01)
t=np.tan(x)
s=np.arctan(x)

plt.subplot(1,2,1)
plt.plot(x,t)
plt.axis([-6,6,-3,3])
plt.grid(True)
plt.title('tg(x)')

plt.subplot(1,2,2)
plt.plot(x,s)
plt.axis([-6,6,-3,3])
plt.grid(True)
plt.title('arctg(x)')

plt.show()

Możemy zrobić to samo w bardziej profesjonalny sposób wykorzystując obiekt `Axes`.

In [None]:
x=np.arange(-6,6.01,0.01)
t=np.tan(x)
s=np.arctan(x)

fig,(ax1, ax2) = plt.subplots(1,2)

ax1.plot(x,t)
ax1.axis([-6,6,-3,3])
ax1.grid(True)
ax1.set_title('tg(x)')  #dla obiektu axes tytuł dodajemy metodą set_title

ax2.plot(x,s)
ax2.axis([-6,6,-3,3])
ax2.grid(True)
ax2.set_title('arctg(x)')
plt.savefig('testowy_obok.pdf')
plt.show()

### Ćwiczenie 9.

Utwórz wykres funkcji $f(x)=x$ w układzie współrzędnych kartezjańskich dla $x\in[-5,5]$. Na powstałym wykresie:
- zaznacz punkty o obu parzystych współrzędnych całkowitych czerwonymi kropkami
- zaznacz punkty o obu nieparzystych współrzędnych całkowitych zielonymi trójkątami

In [None]:
#TYPE YOUR CODE BELOW



## Wykres słupkowy
Funkcja używana do tworzenia dowolnego wykresu słupkowego to `plt.bar(x, y)`, gdzie:
- `x` - lista, macierz lub $n$-krotka $x$ położeń podstaw słupków.
- `y` - lista, macierz lub $n$-krotka wysokości słupków.

Wybrane dodatkowe opcje funkcji `bar`:
- `width` - liczba lub macierz określająca szerokość poszczególnych słupków. Domyślnie 0,8.
- `bottom` - liczba lub macierz określająca położenie podstawy słupka na osi $OY$.
- `color` - kolor słupków (pojedynczy lub w formie listy)
- `edgecolor` - kolor krawędzi prostokąta (pojedynczy lub w formie listy)
- `linewidth` - grubość krawędzi prostokąta. Brak krawędzi wynosi 0.
- `tick_label` - pojedynczy *string* lub ich macierz. Etykiety znaczników na osiach. Można również użyć osobnych funkcji `plt.xticks(), plt.yticks()`.
- `xerr` - liczba lub macierz. Błąd względny względem danych na osi $OX$.
- `yerr` - liczba lub macierz. Błąd względny względem danych na osi $OY$.
- `ecolor` - kolor(y) zakresów błędów.
- `capsize` - liczba. Długość ,,ends'' zakresów błędów.
- `align` - `'center'` lub `'left'`. Określa wyrównanie słupków.
- `orientation` - `'vertical'` lub `'horizontal'`. Określa orientację wykresu (pionową lub poziomą). Wykres słupkowy poziomy można alternatywnie uzyskać za pomocą funkcji `plt.barh()` o analogicznej składni.
- `log=True/False` - wartość `True` wprowadza skalę logarytmiczną na osiach.

Przykład:

In [None]:
import numpy as np
import matplotlib.pyplot as plt

mAvg = (28,35,30,35,27)
fAvg = (37,32,34,20,25)
mOS = (2,3,4,6,2)
fOS = (3,5,2,3,7)
x = np.arange(5)

fig,ax = plt.subplots()

ax.bar(x, mAvg, width=0.45, color='r',yerr=[mOS,[x+10 for x in mOS]],capsize=2)
ax.bar(x, fAvg, width=0.45,bottom=mAvg,yerr=fOS,capsize=2)

ax.set_ylabel('Points')
ax.set_title('Average number of points in groups')
ax.set_xticks(x, ('G1', 'G2', 'G3', 'G4', 'G5'))
ax.set_yticks(np.arange(0, 81, 10))
ax.legend(('Male', 'Female'))

plt.show()

## Histogram

Histogram to wykres słupkowy pokazujący rozkład danej cechy. Oś pozioma jest oznaczona tzw. przedziałami klasowymi (wartościami) cechy, podczas gdy oś pionowa jest oznaczona liczbą elementów w danym przedziale klasowym.

Funkcja `plt.hist()` służy do automatycznego obliczania i tworzenia histogramu z podanych danych. Oprócz wykresu funkcja zwraca w formie 3-krotki obliczoną liczbę elementów w przedziale klasowym, granice przedziałów klasowych i *patches* (w prostych słowach: typ klasy opisujący wygląd grafiki). Pełna domyślna składnia jest następująca:

`plt.hist(x, bins=None,*, range=None, density=False, weights=None, cumulative=False, bottom=None, histtype='bar', align='mid', orientation='vertical', rwidth=None, log=False, color=None, label=None, stacked=False, data=None, **kwargs)`

gdzie:
- `x` - dane wejściowe w postaci jednowymiarowej tablicy lub sekwencji takich tablic (niekoniecznie o tej samej długości `len`). Jedyny nieopcjonalny argument.
- `bins` - parametr określający liczbę przedziałów klasowych
- `range` - ustawia minimalną i maksymalną wartość przedziałów klasowych. Domyślne ustawienia to od `x.min()` do `x.max`.
- `density=True/False` - jeśli `True`, naszkicuje wykres gęstości prawdopodobieństwa; innymi słowy pole histogramu zostanie znormalizowane do 1.

- `weights` - `None` lub tablica wag o takich samych wymiarach jak dane `x`

- `cumulative=True/False` - każdy następny słupek jest sumą poprzednich plus liczba elementów w bieżącym przedziale klasowym

- `bottom` - tablica o długości równej liczbie przedziałów klasowych, liczba lub `None`. Określa pozycję podstawy słupka na wykresie.

- `histtype` - wygląd histogramu:

    - ``bar`` - tradycyjny histogram słupkowy. W przypadku kilku zestawów danych słupki liczby elementów w danym przedziale klas są oddzielne dla każdego zestawu danych.

    - ``barstacked`` - dla kilku zestawów danych generuje histogram, w którym liczba wystąpień w danym przedziale klas jest sumowana dla wszystkich danych i prezentowana jako wspólny słupek.

    - ``step`` - niewypełniony zarys histogramu w formie wykresu liniowego.
    - ``stepfilled`` - generuje zarys histogramu (wykres liniowy) z wypełnieniem między wykresem a osią poziomą.
- `align` - kontroluje położenie słupków histogramu względem przedziału klasowego
    - `'left'` - słupki są wyśrodkowane na lewej krawędzi przedziału.
    - `'mid'` - słupki są wyśrodkowane w środku przedziału.
    - `'right'` - słupki są wyśrodkowane na prawej krawędzi przedziału.
- `orientation` - orientacja słupków. Można wybrać poziomą `'horizontal'` i pionową `'vertical'` (domyślnie).
- `rwidth` - liczba lub `None`. Szerokość słupka względna do długości przedziału klasy.
- `log=True/False` - jeśli `True` skala na osiach będzie logarytmiczna. Puste przedziały klasowe zostaną pominięte.
- `color` - kolor wykresu. Jeden dla każdego zestawu danych.
- `label` - pojedynczy *string* lub sekwencja stringów (w przypadku kilku zestawów danych). Dodaje legendę. Można również użyć funkcji `plt.legend()`.
- `stacked=True/False` - jeśli `True`, wymusza histogram, w którym liczba wystąpień w danym przedziale klasowym jest sumowana dla wszystkich danych i prezentowana jako wspólny słupek, niezależnie od wyboru typu histogramu `histtype`.

Przykład:

In [None]:
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(12345)
A=np.random.randn(10000)
np.random.seed(43210)
B=np.random.randn(10000)


plt.hist([A,B],stacked=True,histtype='step')

plt.show()

In [None]:
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(12345)
A=np.random.randn(10000)
np.random.seed(43210)
B=np.random.randn(10000)

fig,axs=plt.subplots(2,2)
fig.suptitle('Various histograms')   #dodawanie tytyłu do całej grafiki

axs[0,0].hist(A,bins=30,histtype='step',color='r')
axs[0,1].hist(A,bins=30,histtype='step',orientation='horizontal',color='r')
axs[1,0].hist(A,bins=30,bottom=np.linspace(0,500,30),color='r')
axs[1,1].hist((A,B),stacked=True,rwidth=0.6,color=['r','g'])
axs[1,1].legend(['Gauss1','Gauss2'],fontsize='x-small')

plt.tight_layout()

### Ćwiczenie 10.

Używając funkcji `numpy.random.normal()` wygeneruj dwie tablice zawierające po 10000 próbek każda z rozkładów normalnych:
- tablica `normal1` z rozkładu normalnego ze średnią $\mu=0$ i wariancją $\sigma^2=0,2$
- tablica `normal2` z rozkładu normalnego ze średnią $\mu=-2$ i wariancją $\sigma^2=0,5$

Utwórz histogramy z liczbą przedziałów co najmniej 100 każdy i pokaż oba na jednym wykresie, z dodaną odpowiednią legendą.

In [None]:
#TYPE YOUR CODE BELOW



In [None]:
np.random.normal?

## Wykres kołowy

Funkcja `plt.pie()` służy do tworzenia wykresów kołowych z domyślną składnią

`plt.pie(x,*, explode=None, labels=None, colors=None, hatch=None, autopct=None, pctdistance=0.6, shadow=False, labeldistance=1.1, startangle=0, radius=1, counterclock=True, wedgeprops=None, textprops=None, center=(0, 0), frame=False, rotatelabels=False, normalize=True, data=None)`

zwracając, oprócz wykresu, trzy listy: listę *patches* opisujących wygląd poszczególnych klinów, listę etykiet i listę etykiet numerycznych (wartości procentowe w formacie tekstowym).

Opcje funkcji `plt.pie()`:
- `x` - macierz (lista, krotka) danych wejściowych (jedyny wymagany argument funkcji). Kąt klina dla elementu $x_j$ będzie wynosił $2\pi x_j$ `sum(x)` jeśli `sum(x)`$>1$. Jeśli `sum(x)` nie przekracza 1, funkcja `plt.pie()` zinterpretuje każdy element $x_j$ jako daną część pełnego kąta. Domyślnie kliny dla poszczególnych danych zaczynają się na godzinie 3 i są ustawiane przeciwnie do ruchu wskazówek zegara.

- `explode` - macierz (lista, krotka) o długości `len(x)` lub `None`. Określa przesunięcie od środka okręgu dla poszczególnych klinów.

- `labels` - lista ciągów znaków. Etykiety dla poszczególnych klinów.

- `colors` - lista kolorów dla poszczególnych klinów.

- `hatch` - string; wzór kreskowania stosowany do wszystkich klinów lub sekwencja wzorów dla poszczególnych klinów. Opcje do wyboru: `'/'`, `'\\'`, `'|'`, `'-'`, `'+'`, `'x'`, `'o'`, `'O'`, `'.'`, `'*'`. Powtórzenie znaku zagęszcza wzór.

- `autopct` - pojedynczy *string* określający format, funkcję lub `None`. Dodaje ich wartość procentową wewnątrz klinów w określonym formacie lub wywołuje funkcję dodającą odpowiednią etykietę. Najpopularniejsze formaty:
    - `'%1.f%%'` - 10% (zaokrąglone do pełnego procenta, ze znakiem %)
    - `'%1.1f%%'` - 10,0% (jedno miejsce po przecinku, ze znakiem %)
    - `'%1.2f%%'` - 10,00% (dwa miejsca po przecinku, ze znakiem %)
    - `'%1.f'` -10 (zaokrąglone do pełnego procenta)
    - `'%1.1f'` - 10,0 (jedno miejsce po przecinku)
    - `'%1.2f'` - 10,00 (dwa miejsca po przecinku)
- `'pctdistance` - *float* określający położenie tekstu wygenerowanego przez `autopct` względem środka klina.
- `shadow=True/False` - cień (efekt 3D)
- `labeldistance` - *float* definiujący odległość etykiet klinów od wykresu.
- `startangle` - *float* definiujący kąt (w stopniach), pod którym rozpocznie się pierwszy klin.
- `radius` - *float*, promień wykresu.
- `counterclock=True/False` - jeśli `True`, kliny zostaną ułożone przeciwnie do ruchu wskazówek zegara.
- `wedgeprops` - słownik definiujący właściwości krawędzi klinów i całego wykresu.
- `textprops` - słownik definiujący właściwości etykiet i innego tekstu.
- `center` - $(x,y)$ definiujący położenie środka wykresu.
- `frame=True/False` - jeśli `True`, wyświetli osie wykresu.
- `rotatelabels` - jeśli `True`, to etykiety klinów są zrotowane adekwatnie do położenia klina.
- `normalize` - jeśli `True` zawsze wykres w postaci pełnego koła (normalizacja sumy wartości klinów do 1).
- `data` - obiekt indeksowalny; jeśli podany, parametry `x`, `explode`, `labels`, `colors` akceptują również string `s`, który jest interpretowany jako `data[s]`, jeśli `s` jest kluczem w `data`.



Example:

In [None]:
import numpy as np
import matplotlib.pyplot as plt

x=(5,10,20,30)
y=(0.3,0,0,0)

plt.pie(x,explode=y,labels=('Ja','Ślimaki','Sarny','Dziki'),autopct='%1.2f%%',startangle=30,hatch=['/','\\','-','|'])
plt.title('Kto zjadł truskawki?')

plt.show()

Wykresy kołowe są bardzo żadko używane w naukowej wizualizacji danych i nie są również zalecane w żadnych innych zastosowaniach — nasz mózg znacznie lepiej radzi sobie z porównywaniem wysokości i długości niż z porównywaniem kątów.

In [None]:
x=(19,18,21,20)
lbls=('A','B','C','D')

fig,(ax1,ax2)=plt.subplots(1,2)
fig.suptitle('Który jest największy?')

ax1.pie(x,labels=lbls,startangle=30,colors=['green','orange','blue','red'])


ax2.bar(np.arange(4),x,color=['green','orange','blue','red'])
ax2.set_xticks(np.arange(4),lbls)
ax2.tick_params(axis='y',left=False,labelleft=False)
ax2.spines['top'].set_visible(False)
ax2.spines['right'].set_visible(False)
ax2.spines['bottom'].set_visible(False)
ax2.spines['left'].set_visible(False)

plt.show()

## Wykres łodygowy

Wykres łodygowy jest bardziej atrakcyjną wizualnie odmianą klasycznego wykresu słupkowego. Jest używany głównie w sytuacjach, w których chcemy zwrócić uwagę widza na przebieg górnych punktów słupków.

Wykres łodygowy jest tworzony funkcją

`plt.stem([locs,], heads, linefmt=None, markerfmt=None, basefmt=None, bottom=0, label=None, orientation='vertical', data=None)`

gdzie:

- `[locs,]` - lista, tablica, $n$-krotka: pozycja słupka na osi $x$.
- `heads` - lista, tablica, $n$-krotka: wysokości słupków.
- `linefmt` - format słupka. Opcje formatowania identyczne jak dla wykresu `plot`.
- `markerfmt` - format znacznika końca słupka. Opcje takie same jak dla wykresu `plot`.
- `basefmt` - format linii bazowej łączącej podstawy słupków. Opcje takie same jak dla wykresu `plot`.
- `orientation` - pozycja; do wyboru `'vertical'`(domyślna) i `'horizontal'`.
- `bottom` - pozycja linii bazowej wykresu (jak dla histogramu).
- `label` - podpis w legendzie.
- `data` - obiekt indeksowalny; jeśli podany, parametry akceptujące string akceptują również string `s`, który jest interpretowany jako `data[s]`, jeśli `s` jest kluczem w `data`.

Example:

In [None]:
X=np.arange(0,5,1)
Y=[-2,0,2,5,2]

plt.stem(X,Y,linefmt='-.g',basefmt='-r',markerfmt='ob', bottom=1,label='wartość')
plt.legend()
plt.show()

## Wykres pudełkowy (box and whiskers chart)

Wykres pudełkowy jest jednym ze specjalistycznych typów wykresów używanych w statystyce. Zasada tworzenia pojedynczego pudełka: podstawa pudełka to górna granica pierwszego kwartyla $Q1$, góra pudełka to górna granica trzeciego kwartyla $Q3$, kreska wewnątrz pudełka określa położenie mediany. Długości wąsów to półtorej wartości rozstępu ćwiartkowego, tzn. $1,5\cdot(Q3-Q1)$. Pojedyncze punkty reprezentują wartości leżące poza zakresem objętym przez wąsy, tzn. poza $[Q1-1,5\cdot(Q3-Q1),Q3+1,5\cdot(Q3-Q1)]$.

![Tworzenie wykresu pudełkowego](box_creation.png)

Funkcja do automatycznego tworzenia wykresu pudełkowego to `plt.boxplot(x)`. Tworzy ona wykresy pudełkowe osobno dla każdej kolumny macierzy `x` lub, jeżeli `x` jest w postaci listy wektorów (`list`), osobno dla każdego wektora. Składnia domyślna tej funkcji to:

`plt.boxplot(x, *, notch=None, sym=None, vert=None, orientation='vertical', whis=None, positions=None, widths=None, patch_artist=None, bootstrap=None, usermedians=None, conf_intervals=None, meanline=None, showmeans=None, showcaps=None, showbox=None, showfliers=None, boxprops=None, tick_labels=None, flierprops=None, medianprops=None, meanprops=None, capprops=None, whiskerprops=None, manage_ticks=True, autorange=False, zorder=None, capwidths=None, label=None, data=None)`

 - `x` - macierz lub lista wektorów; dane wejściowe,
 - `notch=True/False` - jeżeli `True`, zamiast klasycznego wykresu pudełkowego otrzymamy wykres klepsydrowy z wcięciem na medianie. Wcięcie jest obliczane z użyciem asymptotycznej aproksymacji Gaussa (tzn. zakładającej rozkład normalny próbek) i reprezentuje przedział ufności.
 - `sym` - string, formatowanie pojedynczych punktów,
 - `vert=True/False` - jeżeli `False`, to otrzymamy poziomy wykres,
 - `orientation` - orientacja wykresu; do wyboru `'vertical'` (domyślna) lub `'horizontal'`
 - `whis` - float lub para floatów: współczynnik, przez który mnożony jest rozstęp ćwiartkowy przy obliczaniu długości wąsów albo para percentyli na których rysować wąsy. W przypadku `(0,100)` wąsy będą szkicowane od wartości minimalnej do maksymalnej zbioru danych.
 - `bootstrap` - integer. W przypadku, gdy domyślnie obliczony przedział ufności mija się z rzeczywistością (np. w przypadku gdy rozkład próbek jest daleki od normalnego) domyślny przedział ufności naokoło mediany zostanie ponownie spróbkowany i na tej podstawie zostanie wyznaczony nowy przedział, który zostanie ponownie spróbkowany i tak ` bootstrap` razy. Zalecane wartości od 1000 do 10000.
 - `usermedians` - tablica, lista, $n$-krota o pierwszym wymiarze równym `len(x)`. Mediany zadane przez użytkownika.
 - `conf_intervals` - tablica, lista, $n$-krota o pierwszym wymiarze równym `len(x)` i drugim równym 2. Przedziały ufności zadane przez użytkownika. Pierwsza liczba oznacza bezwzględny początek przedziału ufności, druga jego koniec.
 - `positions` - tablica, lista, $n$-krota o wymiarze równym `len(x)`. Określa rozmieszczenie pudełek względem osi OX.
 - `widths`  - tablica, lista, $n$-krota o wymiarze równym `len(x)`. Określa szerokość poszczególnych pudełek.
 - `patch_artist=True/False` - służy do wyboru metody użytej do tworzenia pudełek. Jeżeli `False`, to zamiast metody *Patch* zostanie użyta metoda *Line2D*.
 - `tick_labels` - labele dla każdego zbioru danych z osobna (podpisy znaczników na osi OX).
 - `manage_ticks=True/False` - włączanie automatycznego dostosowania znaczników na osi OX.
 - `autorange=True/False` - jeżeli `True` oraz dane mają taki rozkład, że liczebność Q1 i Q4 jest taka sama, wartość `whis` zostanie automatycznie ustawiona na `(0,100)` (wąsy od min do max).
 - `meanline=True/False` - jeżeli `True`, średnie zostaną zaznaczone nie jako punkt, tylko jako linia (jak mediana), o ile pozostałe opcje na to pozwalają.
 - `showmeans` - jeżeli `True`, naszkicowana zostanie średnia.
 - `zorder` - float; uporządkowanie wykresów.
 - `showcaps=True/False` - włącza/wyłącza zakończenia na wąsach.
 - `showbox=True/False` - włącza/wyłącza widoczność osi.
 - `showfliers=True/False` - włącza/wyłącza widoczność pojedynczych punktów z poza zakresu.
 
 Opcje z końcówką `...props` służą do wyboru stylu dla konkretnego obiektu.

Prosty przykład wykresu pudełkowego dla dwóch rozkładów normalnych (histogram po lewej):

In [None]:
A=np.random.randn(200)
B=2*np.random.randn(200)

plt.subplot(121)
plt.hist([A,B])
plt.subplot(122)
plt.boxplot([A,B])

plt.show()

Bardziej złożony przykład:

In [None]:
A=np.random.randn(200)
B=2*np.random.randn(200)


plt.boxplot([A,B], notch=True, sym='or',bootstrap=1000, positions=[1,2],showmeans=True, meanline=True)

plt.show()

### Ćwiczenie 11.

Wygeneruj cztery zestawy danych zawierające po 200 próbek każdy z rozkładów normalnych:
- `data1` z rozkładu normalnego ze średnią $\mu=0$ i wariancją $\sigma^2=0,2$
- `data2` z rozkładu normalnego ze średnią $\mu=0$ i wariancją $\sigma^2=0,5$
- `data3` z rozkładu normalnego ze średnią $\mu=0$ i wariancją $\sigma^2=0,7$
- `data4` z rozkładu normalnego ze średnią $\mu=-1$ i wariancją $\sigma^2=0,5$

Utwórz wykres ze wszystkimi czterema wykresami pudełkowymi, z widocznymi wartościami odstającymi, przedziałami ufności i średnimi. Dodaj odpowiednie etykiety na osi x.


In [None]:
#TYPE YOUR CODE BELOW



## Zadanie 1.

Plik `rabbits.txt` zawiera dane o populacji królików, lisów i marchwi w okresie 20 lat (od 1990 do 2010).
1. Pobierz dane do tablicy za pomocą funkcji `numpy.genfromtxt()`. Użyj argumentu `skip_header=0`, aby pominąć początkowy nagłówek.
1. Zwizualizuj dane na wykresie liniowym. Użyj różnych kolorów linii dla każdej populacji. Dodaj legendę, siatkę i odpowiednie nazwy osi.
1. Oblicz i wyraźnie zaznacz na wykresie maksimum dla danej populacji.
1. Oblicz średnią dla każdego gatunku i zaznacz ją na wykresie jako linię poziomą.
1. Nie zapomnij dodać `xtics` oznaczonych kolejnymi latami.

In [None]:
#TYPE YOUR CODE BELOW



## Zadanie 2.

Naszkicuj histogramy danych z plików `women_age.txt` i `men_age.txt` z w formie wykresu łodygowego (jedna grafika, osobne wykresy). Oba pliki zawierają buforowane tablice numpy, więc pliki powinny być otwierane z modyfikatorem `b` (otwarcie w trybie binarnym).

Aby załadować buforowaną tablicę `numpy`, użyj funkcji `numpy.frombuffer()`.

In [None]:
#TYPE YOUR CODE BELOW

