# Fonis Datageeks
## Wokshop: Intro to Python and Data Science
### 7. Uvod u Pandas. Rad sa DataFrame-ovima
Pripremio: [Dimitrije Milenković](https://www.linkedin.com/in/dimitrijemilenkovicdm/)
<br>dimitrijemilenkovic.dm@gmail.com

U data science-u, često se susrećemo sa velikom količinom podataka. Naučili smo 2D nizove u kojima možemo smestiti podatke u vidu matrice. Međutim, ovi nizovi čuvaju samo jedan tip podataka, a u praksi često susrećemo podatke različitog tipa, npr podaci studenata: grad(str), pol(boolean), prosecna ocena(double) itd.
<br>Kako bismo mogli lako i brzo da se borimo sa ovim problemima, koristićemo **Pandas** paket, najkorišćeniji alata za manipulaciju podacima u Pythonu. Prilagođena za analizu podataka skladištenih u tabelarnom formatu kao što su `.csv`, `.tsv`, ili `.xlsx`. Ovaj paket je veoma pogodan za učitavanje, procesiranje i analiziranje ovakvih podataka upitima koji su slični SQL-u. 

Osnovna struktura podataka u `Pandas` paketu su  **Series** i **DataFrame** klase. **Series** predstavlja jednodimenzionalni indeksiran niz nekog tipa podatka. **DataFrame** je dvodimenzionalna struktura podataka (tabela) gde svaka kolona sadrži određeni tip podatka. Drugim rečima, `DataFrame` možemo posmatrati kao listu `Series` instanci. 
<br>`DataFrame` je veoma pogodan za predstavljanje podataka u oblasti analize podataka. Naime, redovi predstavljaju instance (slučajeve, objekte, obzervacije itd.), dok kolone predstavljaju osobine instanci (atribut, varijabla itd.). Vrednosti unutar tabele su vrednosti instance za određenu osobinu.

In [1]:
import pandas as pd

In [39]:
life_df = pd.read_csv('data/gapminder.csv', index_col=0)
life_df.head()

Unnamed: 0,country,year,population,cont,life_exp,gdp_cap
11,Afghanistan,2007,31889923.0,Asia,43.828,974.580338
23,Albania,2007,3600523.0,Europe,76.423,5937.029526
35,Algeria,2007,33333216.0,Africa,72.301,6223.367465
47,Angola,2007,12420476.0,Africa,42.731,4797.231267
59,Argentina,2007,40301927.0,Americas,75.32,12779.37964


![pandas_df](img/pandas_df.png)

DataFrame je dvodimenzionalna tabelarna struktura podataka, dok je Series jednodimenzionalna struktura koja obično odgovara jednoj koloni ili redu. U nastavku ćemo objasniti kako možemo izvući jedan red ili jednu kolonu iz df-a. Kako su red ili kolona jednodimenzionalni tip podataka, njih ćemo skladištiti u Series.
<br>Jedan red df-a možemo označiti korišćenjem funkcija loc i iloc. Obe funkcije očekuju 2 parametara, prvi se odnosi na red, drugi na kolone. Razlika je u tome što **loc** očekuje nazive kolona ili indeksa, dok **iloc** očekuje redne brojeve. Više o selektovanju dataframe-a naučite u [sledećem tutorijalu](https://medium.com/dunder-data/selecting-subsets-of-data-in-pandas-6fcd0170be9c).

In [42]:
row = life_df.iloc[0, :]
print(type(row))
row

<class 'pandas.core.series.Series'>


country       Afghanistan
year                 2007
population    3.18899e+07
cont                 Asia
life_exp           43.828
gdp_cap            974.58
Name: 11, dtype: object

In [43]:
series = life_df.loc[:, 'year']
print(type(series))
series[:5]

<class 'pandas.core.series.Series'>


11    2007
23    2007
35    2007
47    2007
59    2007
Name: year, dtype: int64

In [44]:
life_df['year'].value_counts() # nema druga godina

2007    142
Name: year, dtype: int64

In [45]:
life_df = life.loc[:,['country', 'population', 'cont', 'life_exp', 'gdp_cap']]
life_df.head()

Unnamed: 0,country,population,cont,life_exp,gdp_cap
0,Afghanistan,31889923.0,Asia,43.828,974.580338
1,Albania,3600523.0,Europe,76.423,5937.029526
2,Algeria,33333216.0,Africa,72.301,6223.367465
3,Angola,12420476.0,Africa,42.731,4797.231267
4,Argentina,40301927.0,Americas,75.32,12779.37964


In [34]:
life_df.to_csv('data/gap_1.csv', index=False)

In [52]:
cars_csv = pd.read_csv('data/cars.csv', index_col=0)
cars_csv.head()

Unnamed: 0,cars_per_cap,country,drives_right
US,809,United States,True
AUS,731,Australia,False
JAP,588,Japan,False
IN,18,India,False
RU,200,Russia,True


In [63]:
cars_csv.loc['JAP']

cars_per_cap      588
country         Japan
drives_right    False
Name: JAP, dtype: object

In [64]:
cars_csv.loc[['AUS', 'EG'], ['cars_per_cap', 'drives_right']]

Unnamed: 0,cars_per_cap,drives_right
AUS,731,False
EG,45,True


In [65]:
cars_csv[cars_csv['country'] == 'Japan']

Unnamed: 0,cars_per_cap,country,drives_right
JAP,588,Japan,False
