# DataFrame struktura u Pythonu

DataFrame je Python (Pandas paket) struktura za čuvanje podataka u tabelarnom obliku. Osnovne karakteristike DataFrame strukture su:

- Podaci su raspoređeni po vrstama i kolonama
- Svaka kolona može imati ime. Svaka vrsta može imati indeks. Korišćenjem imena kolona/indeksa možemo ukazati na podatke određene kolone/vrste
- U jednoj koloni se mogu nalaziti samo podaci jednog tipa
- Kreiranje DataFrame strukture kreira se odgovarajući objekat klase DataFrame. Ovu klasu karakterišu metode koje je moguće pozivati rad manipulacije sa podacima u strukturi ili drugih aktivnosti.

Serija je Python (Pandas paket) struktura za čuvanje indeksiranih jedno-dimenzionalnih nizova. Serije mogu sadržati samo podatke jednog tipa. Od numpy nizova se razlikuju prema tome što su serije nizovi koje je moguće indeksirati. Serije će se u toku rada na kursu kreirati isecanjem podataka (jednodimenzionalnih nizova) iz DataFrame strukture

## Kreiranje DataFrame strukture popunjene podacima iz CSV datoteke

Podaci se u DataFrame strukturu mogu uvesti na različite načine. U toku rada na kursu, kreiranje popunjene DataFrame strukture ćemo vršiti uvozom podataka iz CSV datoteka. Ovaj uvoz se vrši korišćenjem funkcije read_csv pandas paketa.

In [1]:
import pandas as pd
df=pd.read_csv('kurs_diabetes.csv')

Prikaz prvih redova DataFrame strukture se vrši pozivanjem metode head df objekta. Slično, moguće je prikazati i prve elemente serije, korišćenjem iste metode, ali Series klase. 

Kao argument metode se može dostaviti i broj vrsti koje je potrebno prikazati. Ukoliko taj broj nije naveden, prikazuje se prvih 5 vrsta.

In [2]:
df.head()

Unnamed: 0,6,148,72,35,0,33.6,0.627,50,tested_positive
0,1,85,66,29,0,26.6,0.351,31,tested_negative
1,8,183,64,0,0,23.3,0.672,32,tested_positive
2,1,89,66,23,94,28.1,0.167,21,tested_negative
3,0,137,40,35,168,43.1,2.288,33,tested_positive
4,5,116,74,0,0,25.6,0.201,30,tested_negative


Prilikom učitavanja podataka iz CSV datoteke, read_csv metoda podrazumeva da se u prvom redu CSV datoteke nalaze imena kolona. Kada to nije slučaj, potrebno je prilikom učitavanja podataka, eksplicitno nazvati imena kolona. U tom slučaju, atribut names read_csv metode treba da dobije vrednost liste, čiji su elementi željeni nazivi kolona.

In [3]:
df=pd.read_csv('kurs_diabetes.csv', names=['preg','plas','pres','skin','insu','mass','pedi','age','class'])
df.head(3)

Unnamed: 0,preg,plas,pres,skin,insu,mass,pedi,age,class
0,6,148,72,35,0,33.6,0.627,50,tested_positive
1,1,85,66,29,0,26.6,0.351,31,tested_negative
2,8,183,64,0,0,23.3,0.672,32,tested_positive


Za prikaz vrednosti svih relevantnih statističkih veličina, veličina DataFrame objekta, koristi se njegova describe() metoda. Ove statističke veličine će biti objašnjenje u jednoj od kasnijih tekstova. U prikazu se prepoznaju broj podataka svake od veličina (koji u ovom slučaju odgovara ukupnom broju redova u skupu podataka, što znači da nema nedostajućih podataka) i prosečna vrednost podataka za svaku veličinu skupa podataka.

In [4]:
df.describe()

Unnamed: 0,preg,plas,pres,skin,insu,mass,pedi,age
count,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0
mean,3.845052,120.894531,69.105469,20.536458,79.799479,31.992578,0.471876,33.240885
std,3.369578,31.972618,19.355807,15.952218,115.244002,7.88416,0.331329,11.760232
min,0.0,0.0,0.0,0.0,0.0,0.0,0.078,21.0
25%,1.0,99.0,62.0,0.0,0.0,27.3,0.24375,24.0
50%,3.0,117.0,72.0,23.0,30.5,32.0,0.3725,29.0
75%,6.0,140.25,80.0,32.0,127.25,36.6,0.62625,41.0
max,17.0,199.0,122.0,99.0,846.0,67.1,2.42,81.0


## Pristupanje podacima iz DataFrame strukture

Podskupovi podataka iz DataFrame strukture se mogu dobiti postupkom isecanja. Primer dole prikazuje način isecanja vrsta - isečene su vrste sa indeksom 1 i 2, odnosno druga i treća vrsta DataFrame strukture. Kao rezultat isecanja vrsta, dobija se nova DataFrame struktura. Jedan način za isecanje podataka iz DataFrame strukture je korišćenje operatora za indeksiranje. Ovaj način podrazumeva navođenje kriterijuma za isecanje kao indeksa DataFrame strukture.

In [5]:
df1=df[1:3]
print(df1)

   preg  plas  pres  skin  insu  mass   pedi  age            class
1     1    85    66    29     0  26.6  0.351   31  tested_negative
2     8   183    64     0     0  23.3  0.672   32  tested_positive


Isecanje podataka iz kolona se vrši navođenjem naziva kolone (pod navodnicima). U primeru se koristi se head metoda za skraćeni prikaz podataka. Važno je istaći da, za razliku od isecanja vrsti kada je rezultat novi DataFrame objekat, isecanjem jedne kolone se dobija serija (Series objekat).

In [21]:
sr=df['preg']
sr.head()

0    0
1    2
2    9
3    2
4    1
Name: preg, dtype: int64

Ukoliko postoji potreba da se isecanjem više kolona kreira nova DataFrame struktura, kao kriterijum isecanja se navodi nova lista koja sadrži nazive - labele tih kolona.

In [22]:
sr=df[['preg','plas']]
sr.head()

Unnamed: 0,preg,plas
0,0,148
1,2,85
2,9,183
3,2,89
4,1,137


Moguće je istovremeno isecanje vrsta i kolona, navođenjem indeksa isecanja vrsti i naziva kolone u jednoj liniji. Redosled navođenja indeksa i naziva kolona nije važan.

In [7]:
df1=df[1:3]['class']
print(df1)

1    tested_negative
2    tested_positive
Name: class, dtype: object


### Prikaz podskupa podataka iz DataFrame strukture - filtriranje podataka

Najčešća metoda za filtriranje podataka je korišćenje logičkih iskaza kao indeksa DataFrame strukture. U dole navedenom primeru, kreirana je nova DataFrame struktura df1 koju čine samo one vrste df strukture kod kojih važi da je vrednost preg veličine veća od 2. U ovom slučaju, kao operator za indeksiranje, koristi se logički izraz čija se istinitost utvrđuje za svaku vrstu podataka u DataFrame strukturi.

In [8]:
df1=df[df['preg']>2]
df1.head(3)

Unnamed: 0,preg,plas,pres,skin,insu,mass,pedi,age,class
0,6,148,72,35,0,33.6,0.627,50,tested_positive
2,8,183,64,0,0,23.3,0.672,32,tested_positive
5,5,116,74,0,0,25.6,0.201,30,tested_negative


Ukoliko se formiraju složeni logički iskazi, svaki prost logički iskaz mora biti naveden u zagradi. U ovom slučaju se ne koriste uobičajeni oblici logičkih operatora: and, or, not, već oblici: &,|,~

In [9]:
df1=df[(df['preg']>2) & (df['skin']==0)]
df1.head(3)

Unnamed: 0,preg,plas,pres,skin,insu,mass,pedi,age,class
2,8,183,64,0,0,23.3,0.672,32,tested_positive
5,5,116,74,0,0,25.6,0.201,30,tested_negative
7,10,115,0,0,0,35.3,0.134,29,tested_negative


### Korišćenje iloc i loc metoda za kreiranje podskupova podataka

Korišćenje operatora za indeksiranje za kreiranje podskupa podataka DataFrame strukture se izbegava. Umesto toga, koriste se iloc i loc metode DataFrame objekta. Metod iloc se koristi za kreiranje podskupa podataka, navođenjem indeksa ili intervala indeksa (korišćenjem : simbola), pri čemu se kao indeksi koriste celi brojevi, a ne labele vrsti i kolona. 

Metod loc funkcioniše na isti način, sa razlikom da se umesto indeksa koriste labele vrsti i kolona. Argumenti loc metode se zadaju u srednjim zagradama: loc[arg1,arg2], pri čemu prvi argument ukazuje na kriterijum za filtriranje vrsti (indeks vrste ili logički izraz), a drugi - na kriterijum za filtriranje kolona (indeks kolone - naziv veličine, ili logički izraz). Ukoliko je naveden samo jedan argument, vršiće se samo filtriranje vrsti.

In [10]:
df1=df.loc[df['preg']>2]
df1.head(3)

Unnamed: 0,preg,plas,pres,skin,insu,mass,pedi,age,class
0,6,148,72,35,0,33.6,0.627,50,tested_positive
2,8,183,64,0,0,23.3,0.672,32,tested_positive
5,5,116,74,0,0,25.6,0.201,30,tested_negative


In [11]:
df1=df.loc[df['preg']>2,'class']
df1.head(3)

0    tested_positive
2    tested_positive
5    tested_negative
Name: class, dtype: object

## Manipulacija podacima u DataFrame strukturi

### Grupna manipulacija postojećih podataka

Izmena podataka u postojećim kolonama se vrši prostim deklarisanjem vrednosti DataFrame kolone sa indeksom koji odgovara nazivu veličine čije podatke želimo da izmenimo. U donjem primeru, izvršeno je povećanje broja trudnoća svih pacijenata za 1.

In [12]:
df['preg']=df['preg']+1
df.head(3)

Unnamed: 0,preg,plas,pres,skin,insu,mass,pedi,age,class
0,7,148,72,35,0,33.6,0.627,50,tested_positive
1,2,85,66,29,0,26.6,0.351,31,tested_negative
2,9,183,64,0,0,23.3,0.672,32,tested_positive


### Kreiranje novih kolona manipulacijom postojećih podataka

Kreiranje nove kolone se vrši prostim deklarisanjem vrednosti DataFrame kolone sa indeksom koji odgovara nazivu veličine koju želimo da uvedemo. Vrednost može da se formira korišćenjem vrednosti postojećih veličina. U donjem primeru, kreirana je nova veličina koja ukazuje na podatke o godini rođenja pacijenta (sa pretpostavkom da je trenutna godina 2017-ta).

In [13]:
df['birthyear']=2017-df['age']
df.head(3)

Unnamed: 0,preg,plas,pres,skin,insu,mass,pedi,age,class,birthyear
0,7,148,72,35,0,33.6,0.627,50,tested_positive,1967
1,2,85,66,29,0,26.6,0.351,31,tested_negative,1986
2,9,183,64,0,0,23.3,0.672,32,tested_positive,1985


Dole navedeni primer pokazuje kreiranje nove veličine tipa boolean, čije vrednosti odgovaraju istinitosti logičkog iskaza koji se koristi u deklaraciji nove veličine.

In [14]:
df['is_senior']=df['age']>40
df.head(3)

Unnamed: 0,preg,plas,pres,skin,insu,mass,pedi,age,class,birthyear,is_senior
0,7,148,72,35,0,33.6,0.627,50,tested_positive,1967,True
1,2,85,66,29,0,26.6,0.351,31,tested_negative,1986,False
2,9,183,64,0,0,23.3,0.672,32,tested_positive,1985,False


### Manipulacija podskupa postojećih podataka

In [15]:
df.loc[df['age']>40,'preg']=0
df.head()

Unnamed: 0,preg,plas,pres,skin,insu,mass,pedi,age,class,birthyear,is_senior
0,0,148,72,35,0,33.6,0.627,50,tested_positive,1967,True
1,2,85,66,29,0,26.6,0.351,31,tested_negative,1986,False
2,9,183,64,0,0,23.3,0.672,32,tested_positive,1985,False
3,2,89,66,23,94,28.1,0.167,21,tested_negative,1996,False
4,1,137,40,35,168,43.1,2.288,33,tested_positive,1984,False


### Brisanje podataka 

Brisanje podataka se vrši korišćenjem komande del sa argumentom koji ukazuje na kolonu DataFrame strukture. U dole navedenom primeru, obrisani su svi podaci veličine birthyear.

In [16]:
del df['birthyear']
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 10 columns):
preg         768 non-null int64
plas         768 non-null int64
pres         768 non-null int64
skin         768 non-null int64
insu         768 non-null int64
mass         768 non-null float64
pedi         768 non-null float64
age          768 non-null int64
class        768 non-null object
is_senior    768 non-null bool
dtypes: bool(1), float64(2), int64(6), object(1)
memory usage: 54.8+ KB


## Grupisanje podataka

Veoma često, postoji potreba da se izvrši uporedna analiza (npr. poređenje statističkih veličina) različitih grupa podataka koje postoje u jednom skupu, odnosno jednom DataFrame objektu. Kriterijumi za grupisanje podataka su najčešće vrednosti pojedinačnih veličina tipa kategorije (nominalnih i ordinalnih).

Kreiranje groupby objekta za grupisanje podataka po nekoj od tih veličina se vrši navođenjem metode groupby sa argumentom koji odgovara nazivu veličine po kojoj se vrši grupisanje.

Nad groupby objektom se potom pozivaju metode koje ukazuju na to koje statističke veličine se koriste za poređenje. Na primer, dole navedeni kod vrši prikaz prosečnih vrednosti svih veličina za sve moguće vrednosti veličine class.

In [17]:
df.groupby('class').mean()

Unnamed: 0_level_0,preg,plas,pres,skin,insu,mass,pedi,age,is_senior
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
tested_negative,2.944,109.98,68.184,19.664,68.792,30.3042,0.429734,31.19,0.184
tested_positive,2.86194,141.257463,70.824627,22.164179,100.335821,35.142537,0.5505,37.067164,0.380597


Druge funkcije koje se odnose na druge statističke veličine koje je moguće koristiti su: count, max, min, sum i ostale. Pregled svih statističkih funkcija će biti prikazan u jednom od kasnijih tekstova.

## Sortiranje podataka u DataFrame strukturi

Za sortiranje podataka u DataFrame strukturi, kreira se nova struktura kao rezultat primene metode sort_values nad postojećom strukturom. Obavezni argument metode sort_values je naziv jedne veličine po kojoj se vrši sortiranje. Sortiranje se vrši nad zadatom veličinom, a menja se redosled prikazivanja podataka svih ostalih veličina.

In [18]:
df1=df.sort_values('age')
df1.head(3)

Unnamed: 0,preg,plas,pres,skin,insu,mass,pedi,age,class,is_senior
255,2,113,64,35,0,33.6,0.543,21,tested_positive,False
60,3,84,0,0,0,0.0,0.304,21,tested_negative,False
102,1,125,96,0,0,22.5,0.262,21,tested_negative,False


Podrazumevano, sortiranje se vrši prema rastućem redosledu podataka izabrane veličine. Sortiranje prema opadajućem redosledu se može izvršiti navođenjem vrednosti False (boolean) argumenta ascending sort_values metode.

In [19]:
df1=df.sort_values('plas', ascending=False)
df1.head(3)

Unnamed: 0,preg,plas,pres,skin,insu,mass,pedi,age,class,is_senior
661,2,199,76,43,0,42.9,1.394,22,tested_positive,False
561,1,198,66,32,274,41.3,0.502,28,tested_positive,False
228,5,197,70,39,744,36.7,2.329,31,tested_negative,False


Sortiranje prema vrednosti više veličina (u zadatom redosledu prioriteta) se vrši navođenjem veličina u nizu, odnosno navođenjem pravaca sortiranja (u nizu iste dimenzije) kao vrednosti ascending argumenta. U donjem primeru, sortiranje prvog prioriteta je opadajuće po veličini age, a drugog (relevantno za podatke kod kojih veličina age ima istu vrednost)- rastuće po veličini plas.

In [20]:
df1=df.sort_values(['age','plas'], ascending=[False,True])
df1.head(5)

Unnamed: 0,preg,plas,pres,skin,insu,mass,pedi,age,class,is_senior
459,0,134,74,33,60,25.9,0.46,81,tested_negative,True
453,0,119,0,0,0,19.6,0.832,72,tested_negative,True
666,0,145,82,18,0,32.5,0.235,70,tested_positive,True
123,0,132,80,0,0,26.8,0.186,69,tested_negative,True
684,0,136,82,0,0,0.0,0.64,69,tested_negative,True
