# Skladištenje više vrednosti u jednoj promenljivoj - liste, nizovi i DataFrame

Jedna promenljiva osnovnog tipa (int, float, str, bool) može da sadrži samo jednu vrednost. Lista predstavlja seriju vrednosti, istog ili različitog tipa. Koristi se za skladištenje više vrednosti u jednoj promenljivoj. Vrednost jedne promenljive tipa “lista” se definiše kao serija vrednosti odvojenih zarezima između srednjih zagrada.

In [1]:
t=[1,23,'Tekst',False,23.34,12]
print(t)

[1, 23, 'Tekst', False, 23.34, 12]


Svaka vrednost u listi se naziva elementom liste. Svaki element se nalazi na određenoj poziciji – indeksu. Brojanje indeksa počinje od 0. Korišćenjem indeksa je moguće "pristupiti" pojedinačnim elementima iz liste.

In [2]:
u=t[2]
print(u)

Tekst


Moguće je pristupanje delovima liste. Odnosno, moguće je pristupiti definisanom nizu njenih elemenata i od njih, na primer, napraviti novu listu. Pristupanje podskupu elemenata postojeće liste se naziva još i "isecanje" liste. Opseg podataka koji želimo da isečemo iz postojeće liste definišemo sa dva broja, odvojena znakom : Prvi broj ukazuje na indeks prvog elementa isečene liste. Drugi broj ukazuje na indeks elementa ispred kojeg se vrši isecanje.

In [3]:
w=t[1:3]
print(w)

[23, 'Tekst']


Ukoliko jedan od ova dva broja nije definisan (ostavljeno je prazno mesto), onda se to mesto odnosi na prvi (prazno mesto sa leve), odnosno zadnji (desne strane) element.

In [4]:
w=t[2:]
print(w)

['Tekst', False, 23.34, 12]


Listi se mogu dodavati elementi - na kraju liste. Kao i promenljive drugih tipova, liste su objekti. U paradigmi objektno-orijentisanog programiranja, objekti imaju svoje metode. Ove metode su zajedničke za sve objekte određene klase, odnosno tipa. U ovom slučaju govorimo o klasi listi. Metode objekta se pozivaju navođenjem naziva metode nakon ispisa naziva promenljive - objekta i tačke. 

In [5]:
t.append('Novi el')
print(t)

[1, 23, 'Tekst', False, 23.34, 12, 'Novi el']


Iz liste se mogu izbaciti elementi na određenom mestu u listi - indeksu.

In [6]:
t.pop(1)
print(t)

[1, 'Tekst', False, 23.34, 12, 'Novi el']


Mogu se promeniti vrednosti postojećih, pojedinačnih elemenata u listi.

In [7]:
t[3]=23.33
print(t)

[1, 'Tekst', False, 23.33, 12, 'Novi el']


Dužina liste se utvrđuje korišćenjem funkcije len.

In [8]:
g=len(t)
print(g)

6


Jedan element liste može biti druga lista. Na ovaj način se formiraju tzv. ugnježdene liste.

In [9]:
t[1]=['T',2,4,6]
print(t)

[1, ['T', 2, 4, 6], False, 23.33, 12, 'Novi el']


Tako se mogu kreirati veoma složene strukture podataka. Na primer, tabele se mogu opisati kao liste, kod kojih svaki element predstavlja listu, pri čemu sve ugnježdene liste imaju isti broj elemenata. Ovako, svaka ugnježdena lista može da sadrži podatke u jednoj koloni, jedne tabele. Podaci jedne vrste su, onda, svi podaci na istom indeksu/poziciji u ugnježdenim listama.

In [10]:
v=[['Kolona 1',2,3,7],['Kolona 2','a','c','b'],['Kolona 3',True,False,False]]
print(v)

[['Kolona 1', 2, 3, 7], ['Kolona 2', 'a', 'c', 'b'], ['Kolona 3', True, False, False]]


Pristupanje podacima u jednoj listi se vrši navođenjem naziva liste i indeksa elementa čijoj vrednosti želimo da pristupimo. Moguće je pristupiti i pojedinačnim podacima iz ugnježdenih listi. U tom slučaju navodimo najpre indeks elementa glavne lista - elementa čija je vrednost ugnježdena lista, a potom indeks elementa u toj ugnježdenoj listi.

In [11]:
w=v[0][2]
print(w)

3


## Nizovi

Nizovi, za razliku od listi, omogućavaju skladištenje samo elemenata istog tipa. Kao i liste, i nizovi mogu biti dvodimenzionalni (ugnježdeni nizovi). Dvodimenzionalnim nizom možemo predstaviti matricu, a oni omogućavaju i izvršavanje operacija matričnog računa, kao što su množenje matrica i sabiranje element po element.

Niz se može kreirati od postojeće liste. Nizovi su deo numpy paketa i sve funkcije za manipulaciju nizovima pripadaju ovom paketu. Za kreiranje niza od postojeće liste, koristi se funkcija array, numpy paketa.

In [12]:
lst=[[2.3,3.1],[1.9,2.],[34.2,22.2]]
print(lst)

[[2.3, 3.1], [1.9, 2.0], [34.2, 22.2]]


In [13]:
import numpy as np
arr=np.array(lst)
print(arr)

[[ 2.3  3.1]
 [ 1.9  2. ]
 [34.2 22.2]]


Dole su prikazani primeri množenja i sabiranja dve matrice, kao i sabiranja matrice sa pojedinačnom vrednošću - skalarom.

In [14]:
ar1=np.array([[1,2,3],[2,3,4],[3,4,5]])
ar2=np.array([[4,5,6],[5,6,7],[6,7,8]])
print(ar1*ar2)

[[ 4 10 18]
 [10 18 28]
 [18 28 40]]


In [15]:
print(ar1+ar2)

[[ 5  7  9]
 [ 7  9 11]
 [ 9 11 13]]


In [16]:
print(ar1+99)

[[100 101 102]
 [101 102 103]
 [102 103 104]]


Isecanje dvodimenzionalnih nizova se vrši zadavanjem kriterijuma za isecanje u obe ose, prvo po vrstama, drugo po kolonama. Donji primer pokazuje isecanje svih vrsta prve dve kolone matrice ar1.

In [17]:
ar3=ar1[:,0:2]
print(ar3)

[[1 2]
 [2 3]
 [3 4]]


## DataFrame struktura podataka

DataFrame je struktura u kojoj se uobičajeno smeštaju tabelarni podaci, za koju je ona i prilagođena. DataFrame je u Pythonu sinonim za tabelu. Jednu tabelu čine vrste i kolone. Kolone mogu imati i svoja zaglavlja - vrstu, odnosno značenje podataka u kolonama. Takođe, moguće je zadavati i nazive pojedinačnih vrsta. Dimenzije DataFrame-a se uobičajeno nazivaju osama (axes). Osa 0 je horizontalna osa, odnosno, podaci u osi 0 čine vrste tabele. Osa 1 je vertikalna osa, odnosno, podaci u osi 1 čine kolone tabele.

Za razliku od nizova, DataFrame može skladištiti vrednosti različitih tipova, ali samo po kolonama - u jednoj koloni ove tabelarne strukture mogu postojati samo podaci istog tipa. Izuzetak od ovog pravila je specifičan tip podatka - nedostajući podatak (NaN).

DataFrame struktura podataka je deo paketa pandas. Pre rada sa DataFrame strukturama podataka, potrebno je uvesti ovaj paket.

Uobičajeno, DataFrame strukture se kreiraju od postojećih podataka, npr. od postojećih nizova, ili od podataka koji se nalaze u nekoj datoteci.

In [18]:
import pandas as pd
df=pd.DataFrame(data=ar3)
print(df)

   0  1
0  1  2
1  2  3
2  3  4


Prilikom kreiranja DataFrame strukture od podataka iz niza, automatski su kreirani nazivi kolona i vrsta (indeksi), pošto ove informacije definicija niza ne sadrži. Ove informacije je moguće naknadno definisati. Uobičajeno, indeksi (nazivi vrsta) se ne definišu, već se koriste automatski dodeljeni indeksi.

In [19]:
df.columns=['Kol1','Kol2']
df.index=['Vrs1','Vrs2','Vrs3']
print(df)

      Kol1  Kol2
Vrs1     1     2
Vrs2     2     3
Vrs3     3     4


Moguće je kreirati podskupove podataka od postojećih DataFrame struktura isecanjem podataka, na isti način kao i prilikom isecanja listi. Referenciranje na pojedinačne podatke u DataFrame strukturi se vrši na isti način kao i kod nizova.

Kao što je moguće kreirati DataFrame strukturu od podataka u nizu, tako je moguće i kreirati niz od postojeće DataFrame strukture. Tom prilikom, gube se informacije o nazivima kolona i indeksima vrsti.

In [20]:
ar4=df.values
print(ar4)

[[1 2]
 [2 3]
 [3 4]]


Broj kolona u jednoj matrici se može utvrditi uvidom u vrednost atributa size, DataFrame strukture. Broj vrsti se može utvrditi korišćenjem funkcije len.

In [21]:
dfs=df.size
dfl=len(df)
print('DataFrame ima '+str(dfs)+' kolona i '+str(dfl)+' vrsta.')

DataFrame ima 6 kolona i 3 vrsta.
