# Fonis Datageeks
## Wokshop: Exploratory Data Analysis
### 3. Datasets. Uvod u Pandas i deskriptivnu statistiku
Pripremio: [Dimitrije Milenković](https://www.linkedin.com/in/dimitrijemilenkovicdm/)
<br>dimitrijemilenkovic.dm@gmail.com
***

Ii... konačno stižemo do podataka! :-)
<br>Do data scientista podaci uglavnom stižu u tabelarnom formatu, poput `.csv`, `.tsv`, ili `.xlsx`. Takvi podaci nam najviše odgovaraju za dalji rad. Zato se upravo upoznajemo sa paketom [Pandas](http://pandas.pydata.org/), glavnim bajom u analizi podataka u Pythonu. Veoma je pogodan za učitavanje, procesiranje i analiziranje podataka u tabelarnom formatu. Najčešće se koristi zajedno sa `Matplotlib` i `Seaborn` paketima u cilju vizualizacije podataka, što će kasnije biti objašnjeno. Iz Pandas struktura podatke možemo lako prebaciti u Numpy niz ili neku standardnu Python strukturu.

Pandas paket dolazi instaliran sa Anacondom, ali u slučaju da ga nemate, možete ga instalirati conda komandom:
<br>[conda install -c anaconda pandas](https://anaconda.org/anaconda/pandas)

Za početak, potrebno je učitati paket. Konvencija je da se za Pandas koristi alias `pd`: 

In [6]:
import pandas as pd

In [7]:
pd.set_option('display.max_columns', 60)
pd.set_option('display.max_rows', 20)

Kada je paket učitan, možemo iskoristiti njegovu funkciju read_csv za učitavanje podataka iz dokumenta:

In [8]:
df = pd.read_csv('data/BlackFriday.csv') 

FileNotFoundError: File b'data/BlackFriday.csv' does not exist

Učitavamo dataset o kupovinama koje su se obavile u prodavnici za vreme Black Fridaya. Više informacija o datasetu možete naći na [Kaggle-u](https://www.kaggle.com/mehdidag/black-friday).
<br>Prvih par redova učitanog dataseta možemo videti pozivom funkcije head():

In [5]:
df.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969


Vidimo da imamo podatke o polu, godinama i profesiju kupca, kategoriji grada u kome se desila kupovina, godinama koliko je u gradu, bračnom, broju kupljenih proizvoda iz svake od 3 kategorija i ukupnoj potrošenoj sumi na kupovinu. Na početku su i ID-evi korisnika i proizvoda, na osnovu kojih već možemo da primetimo da u ovom setu podataka nisu jedinstveni korisnici, već je moguće da je jedan korisnik napravio više računa tokom Black Fridaya.

Osnovne strukture podataka u `Pandas` paketu su  **Series** i **DataFrame** klase. **Series** predstavlja jednodimenzionalni indeksiran niz nekog tipa podatka. **DataFrame** je dvodimenzionalna struktura podataka (tabela) gde svaka kolona sadrži određeni tip podatka. Drugim rečima, `DataFrame` možemo posmatrati kao listu `Series` instanci. 
<br>`DataFrame` je veoma pogodan za predstavljanje podataka. Naime, redovi predstavljaju instance (slučajeve, objekte, obzervacije itd.), dok kolone predstavljaju osobine instanci (atribut, varijabla itd.). Vrednosti unutar tabele su vrednosti instance za određenu osobinu.

![pandas](img/pandas_df.png)

Dimenzije učitanog DataFrame-a možemo saznati na sledeći način:

In [6]:
df.shape 

(537577, 12)

In [7]:
print('Dataset kupovina tokom Black Fridaya ima ', df.shape[0], 'obzervacija', 'i', df.shape[1], 'osobina.')

Dataset kupovina tokom Black Fridaya ima  537577 obzervacija i 12 osobina.


Sada znamo kolikog obima su podaci sa kojima radimo, ali "12 osobina" nam zapravo ne znači puno. Koje su to osobine?

In [8]:
df.columns

Index(['User_ID', 'Product_ID', 'Gender', 'Age', 'Occupation', 'City_Category',
       'Stay_In_Current_City_Years', 'Marital_Status', 'Product_Category_1',
       'Product_Category_2', 'Product_Category_3', 'Purchase'],
      dtype='object')

Dobili smo nazive kolona, ali i dalje ne znamo puno informacija o njima. Prvo želimo da vidimo opšte informacije o kolonama skupa podataka. Metoda `info()` nam može biti od pomoći.

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 537577 entries, 0 to 537576
Data columns (total 12 columns):
User_ID                       537577 non-null int64
Product_ID                    537577 non-null object
Gender                        537577 non-null object
Age                           537577 non-null object
Occupation                    537577 non-null int64
City_Category                 537577 non-null object
Stay_In_Current_City_Years    537577 non-null object
Marital_Status                537577 non-null int64
Product_Category_1            537577 non-null int64
Product_Category_2            370591 non-null float64
Product_Category_3            164278 non-null float64
Purchase                      537577 non-null int64
dtypes: float64(2), int64(5), object(5)
memory usage: 49.2+ MB


Primećujemo da pored svakog atributa imamo broj ne-null vrednosti i tip podatka. Takođe, imamo i podatak koliko memorije je zauzeo skup podataka. 
<br>Primećujemo da imamo 7 numerička atributa, 5 `int64` i 2 `float64` atributa, kao i 5 atributa tipa `object`. Tip podataka `object` predstavlja kategorički tip podatka. 
<br>Ovu metodu možemo da koristimo da vidimo koliko nedostajućih vrednosti u podacima imamo.  Vidimo da kategorije 2 i 3 imaju nedostajuće podatke, dok ostali atributi imaju tačno onoliko nenula vrednosti koliko ima slučajeva u datasetu (za svaku kolonu piše 537577 ne-nula vrednosti, odnosno isti broj koji smo videli kada smo pozivali `shape` metodu).

U prethodnom pasusu se koristi izrazi numerički i kategorički podaci. Evo slike koja objašnjava najčešće statističku podelu podataka:

![types_of_data](img/typesofdata.jpg)

## Indeksiranje dataseta

Ako želimo da selektujemo samo određene kolone dataseta, to možemo uraditi na sledeći način: 

In [10]:
df[['Age', 'Purchase']]

Unnamed: 0,Age,Purchase
0,0-17,8370
1,0-17,15200
2,0-17,1422
3,0-17,1057
4,55+,7969
5,26-35,15227
6,46-50,19215
7,46-50,15854
8,46-50,15686
9,26-35,7871


<br>Međutim ako želimo da biramo i redove i kolone koje selektujemo, koristimo standardniji način.
<br>Pomenuto je ranije da kolone imaju svoje nazive dok redovi imaju indekse. I jedna i druga dimenzija su svakako numerisane i brojevima.
<br>Za selektovanje i redova i kolona koriste se standardne funkcije loc i iloc. Obe funkcije očekuju 2 parametara, prvi se odnosi na red, drugi na kolone. Razlika je u tome što **loc** očekuje _nazive_ kolona ili indeksa, dok **iloc** očekuje _redne brojeve_. Više o selektovanju Dataframe-a može se naučiti u [sledećem tutorijalu](https://medium.com/dunder-data/selecting-subsets-of-data-in-pandas-6fcd0170be9c).

In [11]:
row = df.iloc[0, :]
print(type(row))
row

<class 'pandas.core.series.Series'>


User_ID                         1000001
Product_ID                    P00069042
Gender                                F
Age                                0-17
Occupation                           10
City_Category                         A
Stay_In_Current_City_Years            2
Marital_Status                        0
Product_Category_1                    3
Product_Category_2                  NaN
Product_Category_3                  NaN
Purchase                           8370
Name: 0, dtype: object

In [12]:
series = df.loc[:, 'Age']
print(type(series))
series

<class 'pandas.core.series.Series'>


0          0-17
1          0-17
2          0-17
3          0-17
4           55+
5         26-35
6         46-50
7         46-50
8         46-50
9         26-35
          ...  
537567    18-25
537568    18-25
537569    18-25
537570    18-25
537571    36-45
537572    36-45
537573    36-45
537574    36-45
537575    36-45
537576    36-45
Name: Age, Length: 537577, dtype: object

In [13]:
df.iloc[:10, 3:8]

Unnamed: 0,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status
0,0-17,10,A,2,0
1,0-17,10,A,2,0
2,0-17,10,A,2,0
3,0-17,10,A,2,0
4,55+,16,C,4+,0
5,26-35,15,A,3,0
6,46-50,7,B,2,1
7,46-50,7,B,2,1
8,46-50,7,B,2,1
9,26-35,20,A,1,1


Kao i u slučaju nizova i listi, možemo koristiti logičke uslove za subset podataka:

In [14]:
df[df['Purchase'] > 10000].head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
5,1000003,P00193542,M,26-35,15,A,3,0,1,2.0,,15227
6,1000004,P00184942,M,46-50,7,B,2,1,1,8.0,17.0,19215
7,1000004,P00346142,M,46-50,7,B,2,1,1,15.0,,15854
8,1000004,P0097242,M,46-50,7,B,2,1,1,16.0,,15686


Upravo smo napravili novi dataset koji sadrži samo podatke o korisnicima mlađim od 30 godina. Možemo proveriti koliko procenata u ovom setu podataka su korisnici mlađi od 30 godina:

In [15]:
df[df['Purchase'] > 10000].shape[0] / df.shape[0]

0.3472190960550768

U 35% kupovina je potrošeno preko 10000. Možemo videti kog su pola osobe koje su potrošile toliko novca.

In [16]:
df[df['Gender'] == 'F']['Purchase'].mean(), df[df['Gender'] == 'M']['Purchase'].mean()

(8809.761348593387, 9504.771712960679)

### Pandas i Numpy se druže: Iz DataFrame-a u niz

U slučaju da želimo da primenjujemo neke matematičke operacije nad redovima i kolonama dataseta, DataFrame možemo lako prevesti u Numpy niz, sa kojim smo navikli da radimo. Ako želim ceo DataFrame da prenesemo u dvodimenzionalni niz, potrebno je samo dodati `.values`.

In [17]:
array = df.values
array[:10,:]

array([[1000001, 'P00069042', 'F', '0-17', 10, 'A', '2', 0, 3, nan, nan,
        8370],
       [1000001, 'P00248942', 'F', '0-17', 10, 'A', '2', 0, 1, 6.0, 14.0,
        15200],
       [1000001, 'P00087842', 'F', '0-17', 10, 'A', '2', 0, 12, nan, nan,
        1422],
       [1000001, 'P00085442', 'F', '0-17', 10, 'A', '2', 0, 12, 14.0,
        nan, 1057],
       [1000002, 'P00285442', 'M', '55+', 16, 'C', '4+', 0, 8, nan, nan,
        7969],
       [1000003, 'P00193542', 'M', '26-35', 15, 'A', '3', 0, 1, 2.0, nan,
        15227],
       [1000004, 'P00184942', 'M', '46-50', 7, 'B', '2', 1, 1, 8.0, 17.0,
        19215],
       [1000004, 'P00346142', 'M', '46-50', 7, 'B', '2', 1, 1, 15.0, nan,
        15854],
       [1000004, 'P0097242', 'M', '46-50', 7, 'B', '2', 1, 1, 16.0, nan,
        15686],
       [1000005, 'P00274942', 'M', '26-35', 20, 'A', '1', 1, 8, nan, nan,
        7871]], dtype=object)

Ili možemo selektovati samo određene atribute i slučajeve i njih prebaciti u niz:

In [18]:
arr = df.loc[:10, 'Age':'Purchase'].values
arr

array([['0-17', 10, 'A', '2', 0, 3, nan, nan, 8370],
       ['0-17', 10, 'A', '2', 0, 1, 6.0, 14.0, 15200],
       ['0-17', 10, 'A', '2', 0, 12, nan, nan, 1422],
       ['0-17', 10, 'A', '2', 0, 12, 14.0, nan, 1057],
       ['55+', 16, 'C', '4+', 0, 8, nan, nan, 7969],
       ['26-35', 15, 'A', '3', 0, 1, 2.0, nan, 15227],
       ['46-50', 7, 'B', '2', 1, 1, 8.0, 17.0, 19215],
       ['46-50', 7, 'B', '2', 1, 1, 15.0, nan, 15854],
       ['46-50', 7, 'B', '2', 1, 1, 16.0, nan, 15686],
       ['26-35', 20, 'A', '1', 1, 8, nan, nan, 7871],
       ['26-35', 20, 'A', '1', 1, 5, 11.0, nan, 5254]], dtype=object)

## Promena tipa podataka

Sada kada znamo kako da selektujemo određene kolone i redove, hajmo da se pozabavimo promenom tipa naših kolona kako bi mogli dalje da radimo sa njima:

In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 537577 entries, 0 to 537576
Data columns (total 12 columns):
User_ID                       537577 non-null int64
Product_ID                    537577 non-null object
Gender                        537577 non-null object
Age                           537577 non-null object
Occupation                    537577 non-null int64
City_Category                 537577 non-null object
Stay_In_Current_City_Years    537577 non-null object
Marital_Status                537577 non-null int64
Product_Category_1            537577 non-null int64
Product_Category_2            370591 non-null float64
Product_Category_3            164278 non-null float64
Purchase                      537577 non-null int64
dtypes: float64(2), int64(5), object(5)
memory usage: 49.2+ MB


Ako bolje pogledamo naše kolone i njihove tipove, možemo primetiti da se tipovi baš i ne slažu sa nazivom kolona. Za početak, malo je neočekivano da Age (godine) bude kategorički atribut, a Occupation (Zanimanje) numerički. Možda bi trebalo da proverimo ove atribute.
<br>Selektovanje određenih kolona dataseta može se uraditi na sledeći način:

In [20]:
df[['Age', 'Occupation']]

Unnamed: 0,Age,Occupation
0,0-17,10
1,0-17,10
2,0-17,10
3,0-17,10
4,55+,16
5,26-35,15
6,46-50,7
7,46-50,7
8,46-50,7
9,26-35,20


Vidimo je starost korisnika zapravo definisana kategorijama, odnosno starosnim grupama, i to je opisano u Age atributu pa je zbog toga on kategorički. Sa druge strane jedino logično objašnjenje zašto je atribut Occupation je **maskiranje**. Kada radimo sa otvorenim datasetovima sa interneta, često nailazimo na neke maskirane osobine poput zanimanja, rase, kategorija proizvoda/kupaca. Razloga za to je više, od diskriminacije do toga da kompanija koja otvara podatke ne želi da da informacije za koje misli da će ugroziti njeno poslovanje.

Pomenuli smo da su u Occupation upisane zapravo maskirane kategorije. Dakle, to je i dalje atribut kategorija, samo su te kategorije 1,2,3,4,5... Sličan je slučaj i sa Marital_Status koji može biti 0 ili 1, što očigledno ukazuje na 'slobodan' ili 'u braku'. Vrednosti u koloni User_ID predstavljaju jedinstvenog kupca i takođe nemaju nikakav numerički značaj.
<br>Bilo bi dobro da ove atribute prebacimo u `object` tip kako ih dalje u analizi ne bi gledali kao numeričke. To postižemo funkcijom `astype`: 

In [21]:
df [['Occupation']] = df[['Occupation']].astype('object')
df[['Marital_Status']] = df[['Marital_Status']].astype('object')
df[['User_ID']] = df[['User_ID']].astype('object')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 537577 entries, 0 to 537576
Data columns (total 12 columns):
User_ID                       537577 non-null object
Product_ID                    537577 non-null object
Gender                        537577 non-null object
Age                           537577 non-null object
Occupation                    537577 non-null object
City_Category                 537577 non-null object
Stay_In_Current_City_Years    537577 non-null object
Marital_Status                537577 non-null object
Product_Category_1            537577 non-null int64
Product_Category_2            370591 non-null float64
Product_Category_3            164278 non-null float64
Purchase                      537577 non-null int64
dtypes: float64(2), int64(2), object(8)
memory usage: 49.2+ MB


Sada tipovi atributa izgledaju prihvatljivije. Hajmo nešto da saznamo o vrednostima:

## Deskriptivna statistika

Kao što je i ranije pomenuto u radu sa Numpy-om, uvek kada imamo neki set podataka, prvi naš cilj je da ih razumemo, pa zato koristimo različite statističke mere. Međutim, različite mere mogu se primeniti nad različitim tipom podataka. Podsetimo se, pri statističkoj analizi, razlikujemo sledeće tipove podataka:

![types_of_data](img/typesofdata.jpg)

Za kolone koje su numeričkog tipa, od pomoći nam je describe koji nam vraća sve mere deskriptivne statistike:

In [22]:
df.describe()

Unnamed: 0,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
count,537577.0,370591.0,164278.0,537577.0
mean,5.295546,9.842144,12.66984,9333.859853
std,3.750701,5.087259,4.124341,4981.022133
min,1.0,2.0,3.0,185.0
25%,1.0,5.0,9.0,5866.0
50%,5.0,9.0,14.0,8062.0
75%,8.0,15.0,16.0,12073.0
max,18.0,18.0,18.0,23961.0


Vidimo da je prosečan korisnik potrošio 9333 _nečega_ pri jednoj kupovini. S obzirom da ne znamo tačno odakle je dataset ne možemo reći koja je ovo valuta. Možemo pretpostaviti da je _Indian Rupee_ s obzirom da je dataset zakačen na [Analytics Vidhya](https://www.analyticsvidhya.com/). To bi onda značilo da prosečna kupovina iznosi oko $123. Makes sense :)

### Popunjavanje nedostajućih vrednosti

Za atribute o kategorijama proizvoda možemo pretpostaviti da označavaju broj proizvoda te kategorije obuhvaćenih tom kupovinom. Vidimo da su proseci proizvoda jedne kategorije sve veći i veći, ali setimo se da u ovim kolonama postoje null vrednosti koje je se ne uzimaju u obzir pri računanju deskriptivne statistike.
<br>Prisetimo se koje sve kolone imaju null vrednosti:

In [23]:
df['Product_Category_1'].isnull().sum()

0

In [24]:
df['Product_Category_2'].isnull().sum()

166986

Dakle Kategorija 2 ima dosta null vrednosti. Pogledajmo koje su ostale vrednosti u ovoj koloni kako bismo bolje razumeli šta mogu da budu ove nedostajuće vrednosti:

In [25]:
df['Product_Category_2'].unique()

array([nan,  6., 14.,  2.,  8., 15., 16., 11.,  5.,  3.,  4., 12.,  9.,
       10., 17., 13.,  7., 18.])

Vidimo da je ovo očigledno broj kupljenih proizvoda te kategorije. S obzirom da nigde nema nule, a sigurni da postoje ljudi koji nisu kupili proizvod 2 kategorije, možemo zaključiti da ove nedostajuće vrednosti zapravo treba da budu 0. 

In [26]:
df['Product_Category_2'] = df['Product_Category_2'].fillna(0)
df['Product_Category_2'].isnull().sum()

0

Isto ćemo uraditi i za kategoriju 3:

In [27]:
df['Product_Category_3'] = df['Product_Category_3'].fillna(0)
df['Product_Category_3'].isnull().sum()

0

## Ako te ne mrzi: proveri da 3 već ima nule, pa bi sa nan to bilo mnogo više nula nego u drugim kategorijama, pa pomeni drugu imputation tehniku npr mean pa ubaci to

Prisetimo se da su statističke mere za ove dve kategorije bile znatno više od prve kategorije. Proverimo ih sada kada smo ubacili nule:

In [28]:
df.describe()

Unnamed: 0,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
count,537577.0,537577.0,537577.0,537577.0
mean,5.295546,6.784907,3.871773,9333.859853
std,3.750701,6.211618,6.265963,4981.022133
min,1.0,0.0,0.0,185.0
25%,1.0,0.0,0.0,5866.0
50%,5.0,5.0,0.0,8062.0
75%,8.0,14.0,8.0,12073.0
max,18.0,18.0,18.0,23961.0


Sada ove mere izgledaju realnije. Naravno, describe nam samo olakšava posao, a postoje i funkcije kojima možemo dobiti pojedinačne mere:

In [29]:
df['Purchase'].min(), df['Purchase'].max(), df['Purchase'].mean(), df['Purchase'].median()

(185, 23961, 9333.859852635065, 8062.0)

Međutim, kategorički atributi imaju neke druge mere deskriptivne statistike. Njih možemo saznati ako podesimo parametar include:

In [30]:
df.describe(include=['object'])

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status
count,537577,537577,537577,537577,537577,537577,537577,537577
unique,5891,3623,2,7,21,3,5,2
top,1001680,P00265242,M,26-35,4,B,1,0
freq,1025,1858,405380,214690,70862,226493,189192,317817


U koloni Gender imamo 2 jedinstvene vrednosti, a dominantna vrednost je 'M' koja se pojavljuje čak u 75% slučajeva. Očigledno da ova kompanija prodaje proizvode namenjene muškarcima. Ako nas baš zanima šta je to, možemo otvoriti data description file, videti da se kompanija zove [ABC Privated Limited](https://www.zaubacorp.com/company/A-B-C-PRIVATE-LIMITED/U01110MH1950PTC008007) i uz malo guglanja možemo da saznamo da je to indijska kompanija koja se bavi proizvodima za baštovanstvo i hortikulturu.
<br>Kada znamo ovo, mogu biti logične i mere Zanimanja: zanimanje 4 se javlja u čak 13% dataseta, dok ostalih 87% deli 20 zanimanja. 'Ajmo da proverimo frekventnost svakog zanimanja: 

In [31]:
df['Occupation'].value_counts()

4     70862
0     68120
7     57806
1     45971
17    39090
20    32910
12    30423
14    26712
2     25845
16    24790
      ...  
3     17366
10    12623
5     11985
15    11812
11    11338
19     8352
13     7548
18     6525
9      6153
8      1524
Name: Occupation, Length: 21, dtype: int64

Vrednosti u procentima dobijamo na sledeći način:

In [32]:
df['Occupation'].value_counts(normalize=True)

4     0.131817
0     0.126717
7     0.107531
1     0.085515
17    0.072715
20    0.061219
12    0.056593
14    0.049690
2     0.048077
16    0.046114
        ...   
3     0.032304
10    0.023481
5     0.022294
15    0.021973
11    0.021091
19    0.015536
13    0.014041
18    0.012138
9     0.011446
8     0.002835
Name: Occupation, Length: 21, dtype: float64

Čini se da su kupci uglavnom iz prvih 10 zanimanja dok ostali nose jako malo procenat: 

In [33]:
df['Occupation'].value_counts(normalize=True)[:10].sum()

0.7859878677845219

### Sortiranje

In [34]:
df.sort_values(by='Purchase', ascending=False).head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
87440,1001474,P00052842,M,26-35,4,A,2,1,10,15.0,0.0,23961
93016,1002272,P00052842,M,26-35,0,C,1,0,10,15.0,0.0,23961
370891,1003160,P00052842,M,26-35,17,C,3,0,10,15.0,0.0,23961
349658,1005848,P00119342,M,51-55,20,A,0,1,10,13.0,0.0,23960
503697,1005596,P00117642,M,36-45,12,B,1,0,10,16.0,0.0,23960


Kako bi pokazali koncept dodali smo metodu `head()`. U prvoj koloni (neimenovanoj) vidimo redni broj (odnosno, red) u skupu podataka koji je imao najveću vrednost po `Purchase` atributu. Bitno je napomenuti da vrednosti nisu ažurirane. Odnosno, kada pozovemo metodu `head()` nad originalnim `df` nećemo dobiti iste rezultate.

In [35]:
df.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,0.0,0.0,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,0.0,0.0,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,0.0,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,0.0,0.0,7969


Zamena u originalnoj promenjivoj `df` se postiže dodavanjem parametra `inplace` i prosleđivanjem `True`.

Naravno, nismo ograničeni na jednu kolonu. Odnosno, sortiranje po više kolona ostvarujemo pozivanjem: 

In [36]:
df.sort_values(by=['Purchase', 'Product_Category_1'], 
               ascending=[True, False]).head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
27602,1004227,P00171342,M,26-35,19,A,0,0,13,16.0,0.0,185
377309,1004048,P00041442,F,36-45,1,B,1,0,13,14.0,16.0,185
403039,1001968,P00102142,M,26-35,11,B,2,0,13,16.0,0.0,185
411541,1003391,P00041442,M,18-25,4,A,0,0,13,14.0,16.0,185
5466,1000889,P00041442,M,46-50,20,A,1,0,13,14.0,16.0,186


Dakle, više kolona sortiramo tako što prosledimo listu kolona (u uglastim zagradama) i listu redosleda (takođe, u uglastim zagradama).

## Grupisanje vrednosti

U opštem slučaju, grupisanje preko Pandas paketa se radi na sledeći način:

```python
df.groupby(by=grouping_columns)[columns_to_show].function()
```

1. Prvo se poziva metoda `groupby` u koju se prosleđuju kolone po kojima se grupiše skup podataka (`grouping_columns`).
2. Zatim se definišu kolone koje treba da se prikažu (`columns_to_show`). Ako se ne definišu kolone, prikazuju se sve kolone.
3. Na kraju, jedna ili više funkcija se pozivaju kako bi se vrednosti agregirale.

Želimo da vidimo prosečne vrednosti i standardne devijacije za kolone `Total day minutes`, `Total eve minutes` i `Total night minutes` po koloni `Churn`.

In [43]:
columns_to_show = ['Purchase'] #, 'Product_Category_1', 'Product_Category_2', 'Product_Category_3']
group_columns = ['Gender', 'Age']
df.groupby(['Gender', 'Age'])[columns_to_show].describe(percentiles = [])

Unnamed: 0_level_0,Unnamed: 1_level_0,Purchase,Purchase,Purchase,Purchase,Purchase,Purchase
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,std,min,50%,max
Gender,Age,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
F,0-17,4953.0,8444.70321,4804.650569,197.0,7858.0,23866.0
F,18-25,24057.0,8405.430852,4649.033265,197.0,7767.0,23936.0
F,26-35,49348.0,8791.798654,4675.687698,186.0,7901.0,23955.0
F,36-45,26420.0,9046.573808,4782.039282,185.0,8002.0,23948.0
F,46-50,12856.0,8929.44874,4754.484591,209.0,7971.0,23920.0
F,51-55,9634.0,9131.451837,4797.566353,216.0,8017.0,23959.0
F,55+,4929.0,9119.577196,4716.731956,204.0,8098.0,23899.0
M,0-17,9754.0,9312.322227,5161.323914,187.0,8100.0,23955.0
M,18-25,73577.0,9506.501081,5074.65415,185.0,8133.0,23958.0
M,26-35,165342.0,9470.621052,5049.267265,185.0,8094.0,23961.0


Pozivanjem koda iznad smo prikazali malo više podataka nego što smo hteli. Zbog toga treba da koristimo metodu `agg` gde ćemo proslediti agregacije koje želimo.

In [47]:
import numpy as np

columns_to_show = ['Purchase','Product_Category_1', 'Product_Category_2', 'Product_Category_3']
df.groupby(group_columns)[columns_to_show].agg([np.mean, np.std])

Unnamed: 0_level_0,Unnamed: 1_level_0,Purchase,Purchase,Product_Category_1,Product_Category_1,Product_Category_2,Product_Category_2,Product_Category_3,Product_Category_3
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,std,mean,std,mean,std,mean,std
Gender,Age,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
F,0-17,8444.70321,4804.650569,5.197052,3.353249,6.316172,5.725529,3.532607,5.758975
F,18-25,8405.430852,4649.033265,5.354782,3.41903,6.656067,6.054652,3.511119,5.954263
F,26-35,8791.798654,4675.687698,5.574512,3.413045,6.760477,6.162311,3.380603,5.943744
F,36-45,9046.573808,4782.039282,5.620855,3.59211,6.933838,6.195145,3.663361,6.117644
F,46-50,8929.44874,4754.484591,5.773258,3.615129,6.945862,6.244122,3.570784,6.124874
F,51-55,9131.451837,4797.566353,5.882811,3.456612,6.89371,6.283942,3.303716,5.958186
F,55+,9119.577196,4716.731956,6.2183,3.391138,7.159464,6.352546,3.363563,6.051733
M,0-17,9312.322227,5161.323914,4.803978,3.604843,6.474369,6.10651,4.0244,6.246042
M,18-25,9506.501081,5074.65415,4.888457,3.663747,6.612855,6.13085,4.055765,6.323969
M,26-35,9470.621052,5049.267265,5.110408,3.798971,6.74857,6.205344,4.033609,6.351042


Sada smo prikazali tačno ono što smo hteli. Jasno se vidi da su muškarci trošili više novca tokom kupovine. 

### Sumarne tabele

Pretpostavimo da želimo da prikažemo kako su redovi raspoređeni u kontekstu dva atributa (dve kolone). Tačnije, kolona `Churn` i `International plan`. Dakle, redovi predstavljaju moguće vrednosti kolone `Churn`, a kolone moguće vrednosti kolone `International plan`. Vrednosti treba da predstavljaju broj pojavljivanja redova koji imaju istu vrednost kao red i kao kolona. Takve tabele se nazivaju *tabele kontigencija* i igraju veoma bitnu ulogu u mašinskom učenju (o čemu će biti više reči na drugom času). 

U Python-u, tačnije Pandas-u, se koristi `crosstab` metoda kako bi se napravila tabela kontigencija.

In [48]:
pd.crosstab(df['Gender'], df['Age'])

Age,0-17,18-25,26-35,36-45,46-50,51-55,55+
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
F,4953,24057,49348,26420,12856,9634,4929
M,9754,73577,165342,81079,31670,27984,15974


Primetimo da smo koristili `pd.crosstab` što znači da smo pozivali metodu iz Pandas paketa, a ne nad skupom podataka. Zbog toga smo prosleđivali kolone nezavisno kao parametre.

Ukoliko želimo da prikažemo procente umesto brojeva pojavljivanja dodaćemo parametar `normalize=True`.

In [49]:
pd.crosstab(df['Gender'], df['Age'], normalize=True)

Age,0-17,18-25,26-35,36-45,46-50,51-55,55+
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
F,0.009214,0.044751,0.091797,0.049146,0.023915,0.017921,0.009169
M,0.018144,0.136868,0.307569,0.150823,0.058912,0.052056,0.029715


Za naprednije korisnike Eksela česta je *pivot tabela*. Naravno, pivot tabele se mogu napraviti u Pandas-u korišćenem metode `pivot_table`. Parametri su sledeći:
* `values` - lista kolona za koje se računa agregacija
* `index` - lista kolona po kojima se grupišu podaci
* `aggfunc` - lista statistika koje se računaju po grupama

Na primer, želimo da prikažemo prosečan broj poziva (kolone `Total day calls`, `Total eve calls`, `Total night calls`) po pozivnom broj (kolona `Area code`):

In [52]:
df.pivot_table(['Purchase'],
              ['Age', 'Gender'], aggfunc='mean')

Unnamed: 0_level_0,Unnamed: 1_level_0,Purchase
Age,Gender,Unnamed: 2_level_1
0-17,F,8444.70321
0-17,M,9312.322227
18-25,F,8405.430852
18-25,M,9506.501081
26-35,F,8791.798654
26-35,M,9470.621052
36-45,F,9046.573808
36-45,M,9517.126321
46-50,F,8929.44874
46-50,M,9429.151563


### Dodavanje novih kolona

Dodavanje kolona se može ostvariti na više načina.

Želimo da dodamo kolonu koja predstavlja ukupan broj poziva korisnika:

In [36]:
total_calls = df['Total day calls'] + df['Total eve calls'] + df['Total night calls'] + df['Total intl calls']

df.insert(loc = len(df.columns), column = 'Total calls', value = total_calls)

df.head()

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,...,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn,Total calls
0,KS,128,415,False,True,25,265.1,110,45.07,197.4,...,16.78,244.7,91,11.01,10.0,3,2.7,1,0,303
1,OH,107,415,False,True,26,161.6,123,27.47,195.5,...,16.62,254.4,103,11.45,13.7,3,3.7,1,0,332
2,NJ,137,415,False,False,0,243.4,114,41.38,121.2,...,10.3,162.6,104,7.32,12.2,5,3.29,0,0,333
3,OH,84,408,True,False,0,299.4,71,50.9,61.9,...,5.26,196.9,89,8.86,6.6,7,1.78,2,0,255
4,OK,75,415,True,False,0,166.7,113,28.34,148.3,...,12.61,186.9,121,8.41,10.1,3,2.73,3,0,359


Dakle, koristili smo metodu `insert`, gde su parametri bili `loc` gde smo rekli da ćemo dodati kolonu na kraj (može se specificirati na koje mesto se dodaje kolona), zatim `column` koji predstavlja naziv kolone i `value` koja predstavlja vrednosti koje treba dodati.

Međutim, moguće je i na lakši način dodati kolonu. Dodaćemo ukupnu napratu od korisnika:

In [37]:
df['Total charge'] = df['Total day charge'] + df['Total eve charge'] + df['Total night charge'] + df['Total intl charge']

df.head()

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,...,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn,Total calls,Total charge
0,KS,128,415,False,True,25,265.1,110,45.07,197.4,...,244.7,91,11.01,10.0,3,2.7,1,0,303,75.56
1,OH,107,415,False,True,26,161.6,123,27.47,195.5,...,254.4,103,11.45,13.7,3,3.7,1,0,332,59.24
2,NJ,137,415,False,False,0,243.4,114,41.38,121.2,...,162.6,104,7.32,12.2,5,3.29,0,0,333,62.29
3,OH,84,408,True,False,0,299.4,71,50.9,61.9,...,196.9,89,8.86,6.6,7,1.78,2,0,255,66.8
4,OK,75,415,True,False,0,166.7,113,28.34,148.3,...,186.9,121,8.41,10.1,3,2.73,3,0,359,52.09


### Brisanje redova i kolona

Za brisanje se koristi `drop` metoda koja zahteva prosleđivanje parametra koji označava da li se brišu redovi ili kolone (parametar `axis`, 1 je za kolone, a 0 za redove (podrazumevana vrednost)). Ukoliko dodamo i parametar `inplace` onda se automatski ažurira originalni skup podataka. Najbitniji parametar je broj ili naziv kolona/redova koje je potrebno obrisati.

Brisanje tek kreiranih kolona se postiže na sledeći način:

In [38]:
df.drop(['Total charge', 'Total calls'], axis = 1, inplace = True)
df.head()

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
0,KS,128,415,False,True,25,265.1,110,45.07,197.4,99,16.78,244.7,91,11.01,10.0,3,2.7,1,0
1,OH,107,415,False,True,26,161.6,123,27.47,195.5,103,16.62,254.4,103,11.45,13.7,3,3.7,1,0
2,NJ,137,415,False,False,0,243.4,114,41.38,121.2,110,10.3,162.6,104,7.32,12.2,5,3.29,0,0
3,OH,84,408,True,False,0,299.4,71,50.9,61.9,88,5.26,196.9,89,8.86,6.6,7,1.78,2,0
4,OK,75,415,True,False,0,166.7,113,28.34,148.3,122,12.61,186.9,121,8.41,10.1,3,2.73,3,0


Redovi se brišu na sledeći način (obrisaćemo drugi i treći red):

In [39]:
df.drop([1, 2]).head()

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
0,KS,128,415,False,True,25,265.1,110,45.07,197.4,99,16.78,244.7,91,11.01,10.0,3,2.7,1,0
3,OH,84,408,True,False,0,299.4,71,50.9,61.9,88,5.26,196.9,89,8.86,6.6,7,1.78,2,0
4,OK,75,415,True,False,0,166.7,113,28.34,148.3,122,12.61,186.9,121,8.41,10.1,3,2.73,3,0
5,AL,118,510,True,False,0,223.4,98,37.98,220.6,101,18.75,203.9,118,9.18,6.3,6,1.7,0,0
6,MA,121,510,False,True,24,218.2,88,37.09,348.5,108,29.62,212.6,118,9.57,7.5,7,2.03,3,0


## TODO
### Grupisanje vrednosti
### Sumarne tabele
### Primena funkcija na redove i kolone
### Zamena vrednosti
### Dodavanje i brisanje kolona

In [1]:
df.columns

NameError: name 'df' is not defined

In [19]:
ads.pivot_table(['EstimatedSalary', 'Age'],
              ['Purchased', 'Gender'], aggfunc='mean')

Unnamed: 0_level_0,Unnamed: 1_level_0,Age,EstimatedSalary
Purchased,Gender,Unnamed: 2_level_1,Unnamed: 3_level_1
0,Female,33.110236,61480.314961
0,Male,32.484615,59630.769231
1,Female,47.155844,88714.285714
1,Male,45.5,83424.242424


<br>Vidimo da su kupovini našeg proizvoda skloni stariji korisnici sa platom iznad prosečne. Nema velike razlike između žena i muškaraca koji nisu kupili proizvod, dok to ne možemo da kažemo za one koji su kupili. Žene imaju veću platu.

Isto kao i read_csv funkcioniše i funkcija **read_excel**:

In [20]:
df = pd.read_excel('data/gapminder.xlsx')
df.head()

Unnamed: 0,country,year,population,cont,life_exp,gdp_cap
11,Afghanistan,2007,31889923,Asia,43.828,974.580338
23,Albania,2007,3600523,Europe,76.423,5937.029526
35,Algeria,2007,33333216,Africa,72.301,6223.367465
47,Angola,2007,12420476,Africa,42.731,4797.231267
59,Argentina,2007,40301927,Americas,75.32,12779.37964


### 