# 6. Statistička analiza

Statistika igra važnu ulogu u mašinskom učenju, jer pruža alate i metode za modeliranje, analizu i tumačenje podataka

## 6.1 Programski alati i paketi za statističku analizu.

U ovom poglavlju koristićemo **Python** i **Jupyter Notebook**. Dostupne su mnoge Python statističke biblioteke, ali u ovom poglavlju koristićemo sledeće:
- **NumPy** je biblioteka u Pythonu koja vam omogućava rad sa velikim nizovima brojeva i izvođenje matematičkih operacija nad njima, kao što su linearna algebra i statistička analiza. Široko se koristi u naučnom računanju, analizi podataka i mašinskom učenju.</li>
- **SciPy** je biblioteka u Pythonu koja proširuje funkcionalnost NumPy-ja za naučno računanje. Takođe uključuje scipy.stats koji se koristi za statističku analizu.</li>
- **Pandas** je Python biblioteka koja olakšava rad sa podacima. Pruža alate za rukovanje i manipulaciju podacima u tabelarnom formatu, slično softveru za proračunske tablice. Često se koristi u analizi podataka, čišćenju, manipulaciji i vizualizaciji podataka, i dobro radi sa drugim bibliotekama kao što su NumPy, SciPy i Matplotlib.</li>
- **Matplotlib** je biblioteka za vizualizaciju podataka. Lako se kombinuje sa NumPy, SciPy i Pandas bibliotekama.


## 6.2 Deskriptivna i inferencijalna statistika

Deskriptivna i inferencijalna statistika su dve glavne grane statistike koje se koriste u različite svrhe. Statistika je način za razumevanje velike količine podataka.

**Deskriptivna statistika** se koristi za sažimanje, organizovanje i opisivanje skupa podataka. Pomaže u pružanju opšte slike podataka, kao što su prosek, medijana i raspon. Na primer, ako želite znati prosečnu visinu učenika u vašem razredu, koristili biste deskriptivnu statistiku za izračunavanje toga.

**Inferencijalna statistika**, s druge strane, koristi se za pravljenje predviđanja ili generalizacija o populaciji na osnovu uzorka podataka. Omogućava vam da izvučete zaključke o većoj grupi analizirajući manju grupu. Na primer, ako želite znati prosečnu visinu svih učenika u vašoj školi, uzeli biste uzorak visina učenika iz vašeg razreda i koristili inferencijalnu statistiku za procenu prosečne visine celokupne školske populacije.

Dakle, jednostavnim rečima, **Deskriptivna statistika** pomaže u razumevanju dostupnih podataka, a **Inferencijalna statistika** pomaže u pravljenju predviđanja o podacima koji još nisu dostupni.
U ovom odeljku ćemo se uglavnom fokusirati na deskriptivnu statistiku. Kako predavanja budu napredovala, sve više ćemo se fokusirati na inferencijalnu statistiku dok se budemo produbljivali u tehnike mašinskog učenja.


## Jednovarijantna analiza
Jednovarijantna statistika podrazumeva posmatranje jednog dela informacija odjednom. Na primer, možda želite da saznate kako su vaši školski drugovi prošli na testu. Možete prikupiti rezultate i koristiti jednovarijantnu statistiku kako biste razumeli i opisali podatke.
Jednovarijantna statistika u ovom primeru uključuje:
nalaženje prosečnog rezultata (takođe poznat kao srednja vrednost),
gledanje koliko ljudi je dobilo različite rezultate,
proveravanje da li se neki rezultati značajno razlikuju od drugih (outlieri),
posmatranje kako su rezultati raspoređeni (varijansa).

Jednovarijantna statistika je dobar način da se stekne opšta ideja kako podaci izgledaju i da se vidi da li postoje neki obrasci ili trendovi. To je kao da gledate jedan deo slagalice kako biste videli šta vam govori o celokupnoj slici.


## 6.4 6.4 Mere centralne tendencije

Mere centralne tendencije su statističke mere koje se koriste za opisivanje centralne ili tipične vrednosti skupa podataka. Najčešće mere centralne tendencije su **srednja vrednost**, **medijana** i **mod**.



### 6.4.1 Aritmetička sredina

Aritmetička sredina, poznata kao "**prosek**", je način da se pronađe središnja vrednost skupa brojeva. Da biste pronašli srednju vrednost, saberite sve brojeve zajedno, a zatim podelite brojem stavki u skupu. Na primer, srednja vrednost skupa x = {1, 2, 3} broj stavki u skupu n = 3 je:


$$
   \frac{x1+x2+...+xn}{n} = \frac{1+2+3}{3} = \frac{6}{3} = 2
$$

U Pythonu možete koristiti numpy biblioteku za pronalaženje aritmetičke sredine skupa brojeva. Evo jednog primera:

In [2]:
import numpy as np

# Create a set of numbers
numbers = np.array([1, 7, 3])

# Use the numpy mean() function to find the mean
mean = np.mean(numbers)

# Print the result
print(mean)


3.6666666666666665


### 6.4.2 6.4.2 Ponderisana sredina

Ponderisana sredina je slična običnoj sredini (takođe poznatoj kao aritmetička sredina), ali daje veći **značaj** (ili težinu) određenim vrednostima u skupu.

Da biste pronašli ponderisanu sredinu, prvo dodelite težinu svakoj vrednosti u skupu, a zatim pomnožite svaku vrednost sa svojom težinom. Nakon toga, saberite sve rezultate i podelite ukupnom težinom.

Na primer, recimo da imate skup test rezultata x = {70, 80, 90} i odgovarajuće težine su w = {2, 3, 5} broj stavki u ovim skupovima je n = 3.
Da biste pronašli ponderisanu sredinu, uradili biste:

$$
    m = \frac{(x_{1}*w_{1}+x_{2}*w_{2}+...+x_{n}*w_{n})}{w_{1}+w_{2}+...+w_{n}} = \frac{(70*2 + 80*3+ 90*5)}{(2+3+5)} = \frac{830}{10} = 83
$$
Kao da dajete veću težinu nekim brojevima u skupu, čineći da se više računaju prema konačnom proseku. Koristi se u slučajevima kada vrednosti imaju različitu važnost, tako da možete dati veću težinu vrednostima koje su važnije.

In [79]:
import numpy as np

# Create a set of numbers
numbers = np.array([70, 80, 90])

# Assign weights to each number
weights = np.array([2, 3, 5])

# Use the numpy average() function to find the weighted mean
weighted_mean = np.average(numbers, weights=weights)

# Print the result
print(weighted_mean)

83.0


### 6.4.3 Geometrijska sredina

Geometrijska sredina je način pronalaženja proseka skupa brojeva tako što se pomnože zajedno, a zatim se izračuna n-ti koren (gde je n broj brojeva u skupu). Koristi se za pronalaženje proseka skupa brojeva kada brojevi nisu svi isti i kada vrednosti mogu biti veće ili manje od 1.

Na primer, recimo da imate skup brojeva x = {2, 4, 8} dužine n = 3. Da biste pronašli geometrijsku sredinu, uradili biste:


$$
  g = \sqrt[n]{x_{1}*x_{2}*...*x_{n}} = \sqrt[3]{2*4*4} = \sqrt[3]{64} = 4
$$
Geometrijska sredina se često koristi za pronalaženje proseka stopa promene ili stopa rasta. Takođe se koristi u finansijama za izračunavanje prosečne stope povrata investicije tokom određenog perioda.

Imajte na umu da je geometrijska sredina uvek manja ili jednaka aritmetičkoj sredini (osim kada su sve vrednosti iste).

U većini slučajeva, koristi se kada je skup podataka pozitivno asimetričan, odnosno kada ima više malih vrednosti nego velikih vrednosti.

In [80]:
from scipy.stats import gmean
# Create a set of numbers
numbers = np.array([2, 4, 8])

# Use the numpy geometric mean() function to find the geometric mean
geometric_mean = gmean(numbers)

# Print the result
print(geometric_mean)

4.0


### 6.4.4 Harmonijska sredina
Harmonijska sredina je način pronalaženja proseka skupa brojeva uzimanjem recipročne vrednosti aritmetičke sredine recipročnih vrednosti brojeva. Koristi se za izračunavanje proseka stopa.

Na primer, recimo da imate skup brojeva {3, 4, 5}, broj stavki u skupu n = 3. Da biste pronašli harmonijsku sredinu, uradili biste:


$$
    h = \frac{n}{\frac{1}{x_{1}}+\frac{1}{x_{2}}+...+\frac{1}{x_{n}}} = \frac{3}{\frac{1}{3}+\frac{1}{4}+\frac{1}{5}} = 3.829
$$

<br>
Harmonijska sredina se često koristi pri radu sa stopama, kao što su brzine ili stope promene. Takođe se koristi u finansijama i ekonomiji za izračunavanje proseka kamatnih stopa, stopa inflacije i stopa rasta.

Imajte na umu da je harmonijska sredina uvek manja od aritmetičke sredine i geometrijske sredine, osim kada su sve vrednosti u skupu podataka iste.

Takođe se koristi kada skup podataka sadrži nule, budući da geometrijska sredina nije definisana kada skup podataka sadrži nulu.

In [81]:
from scipy.stats import hmean

# Create a set of numbers
numbers = np.array([3, 4, 5])

# Use the numpy harmonic mean() function to find the harmonic mean
harmonic_mean = hmean(numbers)

# Print the result
print(harmonic_mean)

3.829787234042554


### 6.4.5 Medijana

Medijana je način pronalaženja srednje vrednosti skupa brojeva. Koristi se za pronalaženje srednje vrednosti skupa brojeva kada postoje neke vrlo velike ili vrlo male vrednosti (autsajderi) koje bi narušile prosek (srednju vrednost) skupa.

Da biste pronašli medijanu, prvo morate poređati sve brojeve u skupu po numeričkom redu. Ako skup ima neparan broj stavki, medijana je srednja vrednost. Ako skup ima paran broj stavki, medijana je prosek dve srednje vrednosti.

Na primer, recimo da imate skup brojeva {5, 2, 4, 8, 10}. Da biste pronašli medijanu, poređali biste brojeve po numeričkom redu: {2, 4, 5, 8, 10}. Budući da skup ima neparan broj stavki, medijana je srednja vrednost, koja je 5.

Ako skup ima paran broj stavki, na primer {2, 7, 1, 12, 5, 6}, ako ga sortiramo: {1, 2, 5, 6, 7, 12}. Medijana je prosek dve srednje vrednosti 5+6/2 = 5,5:

In [82]:
import numpy as np

# Create a set of numbers
numbersOdd = np.array([5, 2, 4, 8, 10])
numbersEven = np.array([1, 2, 5, 6, 7, 12])

# Use the numpy median() function to find the median
medianOdd = np.median(numbersOdd)
medianEven = np.median(numbersEven)
# Print the result
print("Median of the set that has odd number of items: ", medianOdd)
print("Median of the set that has even number of items: ", medianEven)

Median of the set that has odd number of items:  5.0
Median of the set that has even number of items:  5.5


### 6.4.6 Moda
Moda je način pronalaženja najčešće vrednosti / vrednosti u skupu brojeva. Koristi se za pronalaženje vrednosti koje se najčešće pojavljuju u skupu podataka. Skup podataka može imati jednu modu, više modusa ili uopšte nema modu.

Na primer, recimo da imate skup brojeva {1, 2, 2, 3, 4, 4, 4}. Da biste pronašli modu, prebrojali biste koliko puta se svaki broj pojavljuje u skupu. Broj 4 se pojavljuje najčešće, tri puta, pa je moda 4.

Skup podataka može imati jednu modu, više modusa ili uopšte nema modu. Ako skup podataka ima jednu modu, naziva se unimodalni. Ako skup podataka ima više modusa, naziva se multimodalni. Ako skup podataka nema modu, naziva se nemodalni.

Moda se često koristi u statistici za pronalaženje najčešće vrednosti / vrednosti u skupu podataka. Korisna je kada podaci imaju neke autsajdere koji bi narušili srednju vrednost ili medijanu. Takođe se koristi u finansijama i ekonomiji za pronalaženje najčešće vrednosti / vrednosti u skupu podataka, kao što je najčešća cena akcije ili najčešća kamatna stopa.

In [83]:
# import the mode function from the scipy.stats library
from scipy.stats import mode

numbers = np.array([1, 2, 2, 3, 4, 4, 4])
# use the mode function on the set of numbers
mode, modeCount = mode(numbers, keepdims=False)

# print the result
print(mode)

4


## 6.5 Mere varijabilnosti

Mere varijabilnosti su statističke mere koje opisuju koliko je raspodeljen skup podataka. Pružaju informacije o stepenu odstupanja podataka od srednje vrednosti. Neke uobičajene mere varijabilnosti uključuju:

- Varijansa
- Standardna devijacija
- Asimetrija
- Percentili
- Opsezi



### 6.5.1 Varijansa
Varijansa se koristi za pronalaženje količine varijacije ili disperzije u skupu podataka. Što je veća varijansa, podaci su više raspršeni. Što je manja varijansa, podaci su koncentrisaniji.

Da biste pronašli varijansu, prvo pronađete srednju vrednost skupa brojeva, a zatim za svaki broj oduzmete srednju vrednost i kvadrirate rezultat. Zatim saberete sve kvadrate razlika i podelite sa brojem stavki u skupu. To vam daje varijansu.

Na primer, recimo da imate skup brojeva {1, 2, 3, 4, 5}. Da biste pronašli varijansu, prvo biste pronašli srednju vrednost skupa (15/5 = 3), zatim za svaki broj oduzmete srednju vrednost i kvadrirate rezultat:

(1-3)² = 4, (2-3)² = 1, (3-3)² = 0, (4-3)² = 1, (5-3)² = 4. 

Zatim saberete sve kvadrate razlika i podelite sa brojem stavki u skupu

(4+1+0+1+4)/5 = 10/5 = 2. 

Dakle, varijansa skupa je 2.

$$
    S^2 = \frac{(x_{1}-m)^2+(x+{2}-m)^2+..+(x_{n}-m)^2}{n} = \frac{(1-3)^2+(2-3)^2+(3-3)^2+(4-3)^2+(5-3)^2+}{5} = 2
$$

Varijansa je korisna u statistici da bi se znalo koliko varijacija ili disperzije postoji u skupu podataka. Takođe se koristi u finansijama i ekonomiji za merenje rizika ulaganja ili volatilnosti akcije.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Create a dataset
dataSpreadOut = np.array([1, 2, 2, 2, 3])
dataConcentrated = np.array([-10,0,10,20,30])

# Use the numpy var() function to find the variance along the columns
varianceSpread = np.var(dataSpreadOut, axis=0)
varianceConcentrated = np.var(dataConcentrated, axis=0)


# Print the result
print("variance of the data that is spread out: ", varianceSpread)
print("variance of the data that is concentrated: ", varianceConcentrated)


# Plot the scatter plot of the data
plt.scatter(dataSpreadOut, [0] * dataSpreadOut.shape[0])
plt.scatter(dataConcentrated, [0] * dataConcentrated.shape[0])
plt.show()

### 6.5.2 Standardna devijacija
Standardna devijacija je vrlo slična varijansi i uglavnom se koristi za iste stvari. U osnovi, to je koren kvadrat varijanse.

Na primer, recimo da imate skup brojeva {1, 2, 3, 4, 5}. Da biste pronašli standardnu devijaciju, prvo biste pronašli varijansu skupa (15/5 = 3), varijansa je 2, a zatim biste izračunali koren kvadrat varijanse √2 = 1,41. Dakle, standardna devijacija skupa je 1,41.

In [None]:
import numpy as np

# Create a set of numbers
numbers = np.array([1, 2, 3, 4, 5])

# Use the numpy std() function to find the standard deviation
std_dev = np.std(numbers)

# Print the result
print(std_dev)

### 6.5.3 Asimetrija
Asimetrija je mera asimetrije verovatnosne raspodele stvarne slučajne promenljive u odnosu na njenu srednju vrednost. Govori vam koliko su podaci asimetrični ili nagnuti na jednu ili drugu stranu. Ako su podaci simetrični, asimetrija će biti 0. Ako su podaci asimetrični ulevo, asimetrija će biti negativna. Ako su podaci asimetrični udesno, asimetrija će biti pozitivna.

Na primer, ako imate skup brojeva {1, 2, 3, 4, 5}, srednja vrednost je 3, i podaci su simetrični, pa je asimetrija 0. Ako imate skup brojeva {1, 2, 3, 4, 10}, srednja vrednost je 4, i podaci su asimetrični udesno, pa je asimetrija pozitivna.

Asimetrija se koristi za razumevanje raspodele podataka i kako su raspoređeni. Asimetrična raspodela može ukazivati na prisustvo ekstremnih vrednosti ili izuzetaka.

To je mera simetrije, ili preciznije, nedostatka simetrije. Pozitivna asimetrija znači da je veća težina u levom repu raspodele, repu na strani manjih vrednosti. Negativna asimetrija znači da je veća težina u desnom repu, repu na strani većih vrednosti.






In [None]:
from scipy.stats import skew

# Create a set of numbers
numbers = [1, 2, 3, 4, 5]

# Use the skew() function to find the skewness
skewness = skew(numbers)

# Print the result
print(skewness)

### 6.5.4 Percentili
Percentil je mera koja vam govori koji procenat vrednosti u skupu podataka padaju ispod određene vrednosti. Na primer, ako se vrednost nalazi u 90. percentilu, to znači da je 90% vrednosti u skupu podataka ispod te vrednosti. Percentili se često koriste za razumevanje raspodele podataka i za poređenje vrednosti unutar skupa podataka.

Na primer, recimo da imate skup rezultata testova {80, 85, 90, 95, 100}. Da biste pronašli rezultat na 50. percentilu, prvo biste poređali rezultate po veličini: {80, 85, 90, 95, 100}. Zatim biste pronašli rezultat koji je veći ili jednak 50% drugih rezultata. U ovom slučaju, rezultat na 50. percentilu je 90, jer je 50% rezultata ispod 90.

Percentili se često koriste u statistici, posebno u obrazovanju i u oblasti zdravlja. U obrazovanju se percentili često koriste za poređenje rezultata testova učenika sa rezultatima drugih učenika u istom razredu. U zdravstvu se percentili često koriste za poređenje rasta deteta sa rastom druge dece istog uzrasta i pola. Percentili se takođe koriste u finansijama i ekonomiji za merenje performansi akcije ili portfolija u poređenju sa drugim akcijama ili portfeljima.

Važno je napomenuti da se percentil razlikuje od procenta. Percentil je vrednost ispod koje pada određeni procenat posmatranja, dok je procenat vrednost koja predstavlja deo celog.


In [86]:
import numpy as np

# Create a set of numbers
numbers = [80, 85, 90, 95, 100]

# Use the numpy percentile() function to find the 50th percentile
percentile_50 = np.percentile(numbers, 50)

# Print the result
print(percentile_50)

90.2


### 6.5.5 Raspon
Raspon je mera rasprostranjenosti skupa brojeva. Govori vam razliku između najveće i najmanje vrednosti u skupu podataka. Izračunava se oduzimanjem najmanje vrednosti od najveće vrednosti.

Na primer, ako imate skup brojeva {1, 2, 3, 4, 5}, najmanja vrednost je 1, a najveća vrednost je 5, pa je raspon 5 - 1 = 4. To znači da je razlika između najmanje i najveće vrednosti u skupu 4.

Raspon je jednostavna mera rasprostranjenosti, daje ideju o tome koliko su podaci raspršeni, ali ne uzima u obzir frekvenciju ili raspodelu podataka. Može biti pod uticajem ekstremnih vrednosti. Druge mere rasprostranjenosti, kao što su međukvartilni raspon ili standardna devijacija, su robusnije i uzimaju u obzir raspodelu podataka.

U statistici se raspon često koristi za razumevanje rasprostranjenosti podataka i za poređenje rasprostranjenosti različitih skupova podataka. Takođe se koristi u finansijama i ekonomiji za merenje volatilnosti ili rizika investicije ili akcije.

In [87]:
import numpy as np
numbers = [1, 2, 3, 4, 5]

# range
print(np.ptp(numbers))

4


## 6.6 Bivarijantna analiza
Bivarijantna analiza je način proučavanja odnosa između dve promenljive. Pomaže razumeti kako su promene jedne promenljive povezane sa promenama druge promenljive. Na primer, ako želite proučiti odnos između vremena koje studenti posvećuju učenju i njihovih rezultata na testovima, bivarijantna analiza može vam pomoći da shvatite postoji li veza između ta dva faktora.

Postoji nekoliko načina za sprovođenje bivarijantne analize, ali neke uobičajene metode uključuju:

Dijagrami raspršenja: Dijagram raspršenja je grafikon koji prikazuje odnos između dve promenljive tako što ih plota na x-y osi.

Korelacija: Korelacija je broj između -1 i 1 koji pokazuje koliko su dve promenljive usko povezane. Korelacija od 1 znači da su promenljive savršeno povezane, dok korelacija od -1 znači da su savršeno obrnuto povezane, a 0 znači da nemaju nikakvu vezu.

Regresija: Regresija je metoda koja koristi podatke za pronalaženje najbolje linije ili krive koja opisuje odnos između dve promenljive.

Bivarijantna analiza može se koristiti za identifikovanje obrazaca i trendova u podacima, testiranje hipoteza o odnosu između promenljivih i predviđanje budućih događaja ili trendova. Važno je napomenuti da pomaže u razumevanju odnosa između dve promenljive, ali ne objašnjava uzrok tog odnosa.

Može biti korisna za studente koji žele razumeti kako različiti faktori mogu uticati na njihovu školsku uspešnost. Na primer, kako bi povećanje vremena provedenog učenju moglo uticati na njihove rezultate na testovima ili kako bi dovoljno sna moglo uticati na njihovu koncentraciju i sposobnost učenja. Razumevanje veze između ovih promenljivih može im pomoći da donose bolje odluke o tome kako provoditi svoje vreme i koje akcije preduzeti kako bi poboljšali svoju uspešnost.

## 6.8 Multivarijantna analiza

Multivarijantna statistika je grana statistike koja se bavi analizom i razumevanjem odnosa između više od dve promenljive. Pomaže u razumevanju kako su više promenljive povezane i kako utiču jedna na drugu.

Na primer, ako želite da razumete kako su navike učenja, navike spavanja i nivo stresa kod studenta povezani sa njihovim rezultatima na testovima, multivarijantna statistika može vam pomoći da shvatite kako su sve ove promenljive povezane i kako utiču na rezultate testova.

**Vežbe**

- Dodajte različite nizove u prethodne primere i isprobajte kodove.

- Preuzmite skup podataka sa Kaggle-a i primenite ove metode na podacima.