# Fonis Datageeks
## Wokshop: Intro to Python and Data Science
### 3. Uvod u Numpy. Nizovi i osnovna statistika
Pripremio: [Dimitrije Milenković](https://www.linkedin.com/in/dimitrijemilenkovicdm/)
<br>dimitrijemilenkovic.dm@gmail.com

U prvom delu, shvatili smo da su liste jako korisne i moćne, jer:
- čuvaju skup podataka
- mogu da čuvaju podatke različitog tipa
- možemo da menjamo, dodajemo i oduzimamo elemente
<br>Međutim, u radu sa podacima često nam je jako bitno da možemo da izvršavamo matematičke operacije nad elementima kolekcije. Evo poznatog primera:

In [1]:
height = [1.90, 1.73, 1.89, 1.71]
weight = [90, 59.2, 88.6, 65.4]

In [2]:
bmi = weight / height ** 2

TypeError: unsupported operand type(s) for ** or pow(): 'list' and 'int'

Dakle, bilo bi dobro da možemo da izvršimo operaciju nad svim elementima u listi. Međutim, matematičke operacije nad listama u osnovi nisu podržane. Ipak, mogli bismo ovo da uradimo i sa listama sa malo više koda, ali to nećemo raditi jer postoji elegantniji - **Numpy**.
<br>Numpy je skraćenica od Numeric Python. Ovaj paket nudi alternativu Python listama -- NumPy Array, nad kojim mogu da se izvršavaju matematičke operacije brzo i lako. 
<br>U slučaju da nemate numpy, možete ga instalirati pomoću Conde komandom: <br>[conda install -c anaconda numpy](https://anaconda.org/anaconda/numpy)

In [3]:
import numpy as np # standardan nacin za imprtovanje, konvencija je alias np
np_height = np.array(height)
np_weight = np.array(weight)
bmi = np_weight / np_height ** 2
bmi

array([24.93074792, 19.78014635, 24.80333697, 22.36585616])

Za razliku od listi, np.array ne može sadržati različite tipove podataka. Zato pri svakom našem pokušaju da ubacimo elemente različitog tipa, dešava se prinudna promena tipa, tj. **type coercion**.

In [4]:
np.array([1.0, 'is', True]) #  type coercion u str

array(['1.0', 'is', 'True'], dtype='<U32')

In [5]:
np.array([1.0, 100, True]) #  type coercion u double

array([  1., 100.,   1.])

Pogledajmo neke razlike u korišćenju operatora između liste i np niza koje smo već koristili.

In [6]:
py_list = 1,2,3
py_list + py_list

(1, 2, 3, 1, 2, 3)

In [7]:
np_height + np_height

array([3.8 , 3.46, 3.78, 3.42])

In [8]:
bmi

array([24.93074792, 19.78014635, 24.80333697, 22.36585616])

Pristup elementima niza je sličan kao pristup elementima liste:

In [9]:
bmi[1]

19.780146346353035

In [10]:
bmi[2:]

array([24.80333697, 22.36585616])

Jako koristan je i **logički pristup elementima niza**. Funkcioniše tako što nizu u uglastim zagradama definišemo niz True/False vrednosti. Niz će odvojiti podskup elemenata na čijim pozicijama je vrednost True.

In [11]:
log_niz = np.array([ True, True,  False, False])
bmi[log_niz]

array([24.93074792, 19.78014635])

Nad samim numpy nizom možemo i postavljati logički upit. Na primer, da li je bmi indeks iznad 23:

In [12]:
bmi > 23

array([ True, False,  True, False])

Kombinovanjem ova dva, dobijamo jako moćno oružje za biranje podskupa elemenata niza na osnovu uslova:

In [13]:
bmi[bmi>23]

array([24.93074792, 24.80333697])

`Zadatak 1.` Trenutne visine su metrima. Napraviti novi niz visina u inčima. Jedan inč ima 0.0254 metra. Selektovati visine iznad 70 inča. 

In [14]:
np_height_in = np_height / 0.0254
np_height_in[np_height_in > 70]

array([74.80314961, 74.40944882])

Iako sve vreme koristimo jednodimenzionalne nizove, više puta je pomenuto da numpy omogućava rad sa multidimenzionalnim nizovima. Čak i jednodimenzionalni niz je zapravo multidimenzionalni niz dimenzije 1. to se vidi ako proverimo tip promenljive: 

In [15]:
type(np_height)

numpy.ndarray

Multidimenzioni niz se inicijalizuje kao niz nizova.

In [16]:
np_2d = np.array([np_height, np_weight])
np_2d

array([[ 1.9 ,  1.73,  1.89,  1.71],
       [90.  , 59.2 , 88.6 , 65.4 ]])

In [17]:
np_2d.shape

(2, 4)

Dakle, naredba **shape** nam vraća dimenzije niza. Vidimo da je u pitanju 2-dimenzionalni niz, tj. matrica sa 2 reda i 4 kolone.

Svi elementi multidimenzionalnog niza moraju biti istog tipa, a u suprotnom se dešava type coercion.

In [18]:
np_2d_coercion = np.array([[ 1.9 ,  1.73,  1.89,  1.71],
                   [90.  , 59.2 , 88.6 , '65.4' ]])
np_2d_coercion

array([['1.9', '1.73', '1.89', '1.71'],
       ['90.0', '59.2', '88.6', '65.4']], dtype='<U32')

Indeksiranje u 2D nizu je vrlo intuitivno. Navođenjem samo jednog indeksa dobija se čitav red, dok se za konkretan element mora navesti i drugi indeks koji predstavlja kolonu.

In [19]:
np_2d

array([[ 1.9 ,  1.73,  1.89,  1.71],
       [90.  , 59.2 , 88.6 , 65.4 ]])

In [20]:
np_2d[0]

array([1.9 , 1.73, 1.89, 1.71])

In [21]:
np_2d[1][2] # Vrednost u drugom redu i trecoj koloni. Broji se od 0 

88.6

In [22]:
np_2d[1,2] # drugi način, uobičajniji

88.6

Biranje podskupa elemenata, takođe funkcioniše poput onog u 1D nizovima:

In [23]:
np_2d[:,1:3] # sve vrednosti u drugoj i trecoj koloni

array([[ 1.73,  1.89],
       [59.2 , 88.6 ]])

## Osnovna statistika

Kada imamo podatke o određenoj osobini, poput visine, za početak želimo da ih dobro razumemo. Pogledajmo naše visine:

In [24]:
np_height

array([1.9 , 1.73, 1.89, 1.71])

Kada ih je ovako malo, možemo na prvi pogled videti da su u metrima, da je prosek oko 1.8 i da od tog proseka najviše za 0.1 odstupaju vrednosti. To su obično mere koje prve uočimo nad numeričkim podacima. Kada ih ima malo lako ih izračunavama, ali ako imamo visine svih ljudi koji žive u jednom gradu, dobro bi nam došla neka funkcija koja bi to rešila umesto nas. 

Prva mera je aritmetička sredina, to jest **mean** naših podataka. Ona se računa kao količnik sume svih elemenata i broja elemenata.

In [25]:
np_height.sum() / np_height.shape[0]

1.8074999999999999

In [26]:
np.mean(np_height) # ![medijana](img/median.png)

1.8074999999999999

Druga jako bitna mera centralne tendencije skupa podataka je **medijana**. Ona se meri tako što sve elemente skupa sortiramo, a zatim uzmemo vrednost središnjeg.

In [27]:
np.median(np_height)

1.81

![medijana](img/Mean-Median.png)

Često nam ove centralne mere znače tek u kombinaciji sa merama odstupanja podataka. Najčešće se srećemo sa **standardnom devijacijom**. Ona nam govori koliko u proseku vrednosti odstupaju od aritmetičke sredine, tj. meana.

In [28]:
np.std(np_height)

0.08785641695402786

Još jedna jako bitna mera je **Koeficijent korelacije**. On se razlikuje od prethodnih jer on opisuje povezanost između dve osobine, na primer visine i težine. Njegova vrednost se kreće između -1 i 1. Ako je koeficijent negativan, znači da sa povećanjem visine smanjuje se težina (onoliko puta koliko iznosi koeficijent). Ukoliko je pozitivan to znači da sa povećanjem visine raste i težina. Ukoliko je 0 ne postoji povezanost između ove dva osobine, to jest ova dva niza. 

In [29]:
np.corrcoef(np_height, np_weight)

array([[1.        , 0.97098945],
       [0.97098945, 1.        ]])

Numpy ima i sve osnovne Python funkcije za računanja, mada numpy to mnogo brže radi. Kako bismo to pokazali, generisacemo dva niza slucajnih podataka koji podlezu normalnoj raspodeli. Zamislimo da smo izmerili visine i tezine 5000 ljudi. Za generisanje nizova slučajnih brojeva iz normalne raspodele koristimo np.random.normal:

In [30]:
?np.random.normal

[0;31mDocstring:[0m
normal(loc=0.0, scale=1.0, size=None)

Draw random samples from a normal (Gaussian) distribution.

The probability density function of the normal distribution, first
derived by De Moivre and 200 years later by both Gauss and Laplace
independently [2]_, is often called the bell curve because of
its characteristic shape (see the example below).

The normal distributions occurs often in nature.  For example, it
describes the commonly occurring distribution of samples influenced
by a large number of tiny, random disturbances, each with its own
unique distribution [2]_.

Parameters
----------
loc : float or array_like of floats
    Mean ("centre") of the distribution.
scale : float or array_like of floats
    Standard deviation (spread or "width") of the distribution.
size : int or tuple of ints, optional
    Output shape.  If the given shape is, e.g., ``(m, n, k)``, then
    ``m * n * k`` samples are drawn.  If size is ``None`` (default),
    a single value is returne

In [31]:
height = np.round(np.random.normal(1.75, 0.1,5000), 2)
weight = np.round(np.random.normal(70.32, 10,5000), 2)
height[:10]

array([1.65, 2.06, 1.75, 1.7 , 1.77, 1.58, 1.92, 1.57, 1.9 , 1.77])

In [32]:
%%time
np.sum(height) 

CPU times: user 77 µs, sys: 15 µs, total: 92 µs
Wall time: 101 µs


8756.509999999998

In [33]:
%%time
sum(height)

CPU times: user 920 µs, sys: 187 µs, total: 1.11 ms
Wall time: 1.11 ms


8756.510000000013

'Ajmo da nad izgenerisanim vrednostima ponovimo već naučene numpy funkcije i proverimo da li mere odgovaraju parametrima raspodela koje smo zadali pri generisanju:

In [34]:
np.sort(height)

array([1.38, 1.43, 1.44, ..., 2.08, 2.08, 2.1 ])

In [35]:
np.mean(height), np.median(height), np.std(height)

(1.7513019999999997, 1.75, 0.10000682374718238)

In [36]:
np.mean(weight), np.median(weight), np.std(weight)

(70.11080600000001, 70.345, 10.045162846383526)

In [37]:
np.corrcoef(height, weight) # visina i tezina su obicno povezane osobine, ali ako ih random izgenerisemo onda nece biti

array([[ 1.        , -0.01230523],
       [-0.01230523,  1.        ]])