# Fonis Datageeks
## Wokshop: Exploratory Data Analysis
### 3. Datasets. Ekplorativna analiza sa Pandasom
Pripremio: [Dimitrije Milenković](https://www.linkedin.com/in/dimitrijemilenkovicdm/)
<br>dimitrijemilenkovic.dm@gmail.com
***

Ii... konačno stižemo do podataka! :-)
<br>Do data scientista podaci uglavnom stižu u tabelarnom formatu, poput `.csv`, `.tsv`, ili `.xlsx`. Takvi podaci nam najviše odgovaraju za dalji rad. Zato se upravo upoznajemo sa paketom [Pandas](http://pandas.pydata.org/), glavnim bajom u analizi podataka u Pythonu. Veoma je pogodan za učitavanje, procesiranje i analiziranje podataka u tabelarnom formatu. Najčešće se koristi zajedno sa `Matplotlib` i `Seaborn` paketima u cilju vizualizacije podataka, što će kasnije biti objašnjeno. Iz Pandas struktura podatke možemo lako prebaciti u Numpy niz ili neku standardnu Python strukturu.

Pandas paket dolazi instaliran sa Anacondom, ali u slučaju da ga nemate, možete ga instalirati conda komandom:
<br>[conda install -c anaconda pandas](https://anaconda.org/anaconda/pandas)

Za početak, potrebno je učitati paket. Konvencija je da se za Pandas koristi alias `pd`: 

In [1]:
import pandas as pd

In [2]:
pd.set_option('display.max_columns', 60)
pd.set_option('display.max_rows', 20)

Kada je paket učitan, možemo iskoristiti njegovu funkciju read_csv za učitavanje podataka iz dokumenta:

In [3]:
df = pd.read_csv('data/bank/bank-additional-full.csv', delimiter=';') 

Učitavamo dataset o promociji računa za štednju portugalske banke. Radi se o o popularnom datasetu, koji možemo pronaći na [UCI Machine Learning Repository](http://archive.ics.uci.edu/ml/datasets/Bank+Marketing).
<br>Prvih par redova učitanog dataseta možemo videti pozivom funkcije head():

In [4]:
df.head(10)

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,month,day_of_week,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y
0,56,housemaid,married,basic.4y,no,no,no,telephone,may,mon,261,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
1,57,services,married,high.school,unknown,no,no,telephone,may,mon,149,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
2,37,services,married,high.school,no,yes,no,telephone,may,mon,226,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
3,40,admin.,married,basic.6y,no,no,no,telephone,may,mon,151,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
4,56,services,married,high.school,no,no,yes,telephone,may,mon,307,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
5,45,services,married,basic.9y,unknown,no,no,telephone,may,mon,198,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
6,59,admin.,married,professional.course,no,no,no,telephone,may,mon,139,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
7,41,blue-collar,married,unknown,unknown,no,no,telephone,may,mon,217,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
8,24,technician,single,professional.course,no,yes,no,telephone,may,mon,380,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
9,25,services,single,high.school,no,yes,no,telephone,may,mon,50,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no


Vidimo da imamo tri grupe podataka: one koje opisuju korisnika (pol, godine, bračni status, da li ima kredit...), kampanju (kad je pozvan, koliko je trajao poziv...) i podatke koje opisuju trenutnu ekonomsku situaciju tokom koje se sprovodi kampanja. Kako bismo bolje razumeli podatke koje imamo, možemo pogledati *bank-data-description* fajl koji se nalazi u folderu data.

Osnovne strukture podataka u `Pandas` paketu su  **Series** i **DataFrame** klase. **Series** predstavlja jednodimenzionalni indeksiran niz nekog tipa podatka. **DataFrame** je dvodimenzionalna struktura podataka (tabela) gde svaka kolona sadrži određeni tip podatka. Drugim rečima, `DataFrame` možemo posmatrati kao listu `Series` instanci. 
<br>`DataFrame` je veoma pogodan za predstavljanje podataka. Naime, redovi predstavljaju instance (slučajeve, objekte, obzervacije itd.), dok kolone predstavljaju osobine instanci (atribut, varijabla itd.). Vrednosti unutar tabele su vrednosti instance za određenu osobinu.

![pandas](img/pandas_df.png)

Dimenzije učitanog DataFrame-a možemo saznati na sledeći način:

In [5]:
df.shape 

(41188, 21)

In [6]:
print('Dataset o marketinškim kampanjama banke ima ', df.shape[0], 'obzervacija', 'i', df.shape[1], 'osobina.')

Dataset o marketinškim kampanjama banke ima  41188 obzervacija i 21 osobina.


Sada znamo kog obima su podaci sa kojima radimo, ali "21 osobina" nam zapravo ne znači puno. Koje su to osobine?

In [7]:
df.columns

Index(['age', 'job', 'marital', 'education', 'default', 'housing', 'loan',
       'contact', 'month', 'day_of_week', 'duration', 'campaign', 'pdays',
       'previous', 'poutcome', 'emp.var.rate', 'cons.price.idx',
       'cons.conf.idx', 'euribor3m', 'nr.employed', 'y'],
      dtype='object')

Dobili smo nazive kolona, ali i dalje ne znamo puno informacija o njima. 'Ajmo da vidimo opšte informacije o kolonama skupa podataka. Metoda `info()` nam može biti od pomoći.

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41188 entries, 0 to 41187
Data columns (total 21 columns):
age               41188 non-null int64
job               41188 non-null object
marital           41188 non-null object
education         41188 non-null object
default           41188 non-null object
housing           41188 non-null object
loan              41188 non-null object
contact           41188 non-null object
month             41188 non-null object
day_of_week       41188 non-null object
duration          41188 non-null int64
campaign          41188 non-null int64
pdays             41188 non-null int64
previous          41188 non-null int64
poutcome          41188 non-null object
emp.var.rate      41188 non-null float64
cons.price.idx    41188 non-null float64
cons.conf.idx     41188 non-null float64
euribor3m         41188 non-null float64
nr.employed       41188 non-null float64
y                 41188 non-null object
dtypes: float64(5), int64(5), object(11)
memory usa

Primećujemo da pored svakog atributa imamo broj ne-null vrednosti i tip podatka. Takođe, imamo i podatak koliko memorije je zauzeo skup podataka. 
<br>Primećujemo da imamo 10 numerička atributa, 5 `int64` i 5 `float64` atributa, kao i 11 atributa tipa `object`. Tip podataka `object` predstavlja kategorički tip podatka. 
<br>Ovu metodu možemo da koristimo da vidimo koliko nedostajućih vrednosti u podacima imamo.  S obzirom da piše da u svakoj koloni imamo onoliko ne-null vrednosti koliko i redova u skupu podataka, to znači da nemamo nedostajuće vrednosti.

U prethodnom pasusu se koristi izrazi numerički i kategorički podaci. Evo slike koja objašnjava najčešće statističku podelu podataka:

![types_of_data](img/typesofdata.jpg)

## Indeksiranje dataseta

Ako želimo da selektujemo samo određene kolone dataseta, to možemo uraditi na sledeći način: 

In [9]:
df['job']

0          housemaid
1           services
2           services
3             admin.
4           services
5           services
6             admin.
7        blue-collar
8         technician
9           services
            ...     
41178        retired
41179        retired
41180         admin.
41181         admin.
41182     unemployed
41183        retired
41184    blue-collar
41185        retired
41186     technician
41187        retired
Name: job, Length: 41188, dtype: object

U slučaju da želimo više kolona da selektujemo, koristimo duple uglaste zagrade:

In [10]:
df[['job', 'education']]

Unnamed: 0,job,education
0,housemaid,basic.4y
1,services,high.school
2,services,high.school
3,admin.,basic.6y
4,services,high.school
5,services,basic.9y
6,admin.,professional.course
7,blue-collar,unknown
8,technician,professional.course
9,services,high.school


<br>Međutim ako želimo da biramo i redove i kolone koje selektujemo, koristimo standardniji način.
<br>Pomenuto je ranije da kolone imaju svoje nazive dok redovi imaju indekse. I jedna i druga dimenzija su svakako numerisane i brojevima.
<br>Za selektovanje i redova i kolona koriste se standardne funkcije loc i iloc. Obe funkcije očekuju 2 parametara, prvi se odnosi na red, drugi na kolone. Razlika je u tome što `loc` očekuje _nazive_ kolona ili indeksa, dok `iloc` očekuje _redne brojeve_. Više o selektovanju Dataframe-a može se naučiti u [sledećem tutorijalu](https://medium.com/dunder-data/selecting-subsets-of-data-in-pandas-6fcd0170be9c).

In [11]:
row = df.iloc[0, :]
print(type(row))
row

<class 'pandas.core.series.Series'>


age                        56
job                 housemaid
marital               married
education            basic.4y
default                    no
housing                    no
loan                       no
contact             telephone
month                     may
day_of_week               mon
                     ...     
campaign                    1
pdays                     999
previous                    0
poutcome          nonexistent
emp.var.rate              1.1
cons.price.idx         93.994
cons.conf.idx           -36.4
euribor3m               4.857
nr.employed              5191
y                          no
Name: 0, Length: 21, dtype: object

In [12]:
series = df.loc[:, 'job']
print(type(series))
series

<class 'pandas.core.series.Series'>


0          housemaid
1           services
2           services
3             admin.
4           services
5           services
6             admin.
7        blue-collar
8         technician
9           services
            ...     
41178        retired
41179        retired
41180         admin.
41181         admin.
41182     unemployed
41183        retired
41184    blue-collar
41185        retired
41186     technician
41187        retired
Name: job, Length: 41188, dtype: object

In [13]:
df.iloc[:10, 2:7]

Unnamed: 0,marital,education,default,housing,loan
0,married,basic.4y,no,no,no
1,married,high.school,unknown,no,no
2,married,high.school,no,yes,no
3,married,basic.6y,no,no,no
4,married,high.school,no,no,yes
5,married,basic.9y,unknown,no,no
6,married,professional.course,no,no,no
7,married,unknown,unknown,no,no
8,single,professional.course,no,yes,no
9,single,high.school,no,yes,no


Kao i u slučaju nizova i listi, možemo koristiti logičke uslove za subset podataka:

In [14]:
df[df['y'] == 'yes'].head()

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,month,day_of_week,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y
75,41,blue-collar,divorced,basic.4y,unknown,yes,no,telephone,may,mon,1575,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,yes
83,49,entrepreneur,married,university.degree,unknown,yes,no,telephone,may,mon,1042,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,yes
88,49,technician,married,basic.9y,no,no,no,telephone,may,mon,1467,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,yes
129,41,technician,married,professional.course,unknown,yes,no,telephone,may,mon,579,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,yes
139,45,blue-collar,married,basic.9y,unknown,yes,no,telephone,may,mon,461,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,yes


Upravo smo napravili novi dataset koji sadrži samo podatke o korisnicima koji su odlučili da štede, to jest kod kojih je ova kampanja *upalila*. Možemo proveriti koji je procenat uspešnosti kampanje, to jest koliko je korisnika potpisalo ugovor o štednji:

In [15]:
df[df['y'] == 'yes'].shape[0] / df.shape[0]

0.11265417111780131

Tek u 11% slučajeva je kampanja uspela i klijenti su odlučili da otvore račun za štednju, Ipak marketing ove banke nije mnogo uspešan.

Proverimo da li je dužina poziva uticala na uspešnost kampanje:

In [16]:
df.mean()

age                 40.024060
duration           258.285010
campaign             2.567593
pdays              962.475454
previous             0.172963
emp.var.rate         0.081886
cons.price.idx      93.575664
cons.conf.idx      -40.502600
euribor3m            3.621291
nr.employed       5167.035911
dtype: float64

In [17]:
df[df['y'] == 'yes']['duration'].mean(), df[df['y'] == 'no']['duration'].mean()

(553.1911637931034, 220.84480682937507)

Vidimo da su znatno bili duži pozivi u slučajevima kada je klijent odlučio da otvori račun za štednju, što je u neku ruku i logično jer bi trebalo da je tada korisnik zainteresovan i želi da sazna što više informacija o štednji.

### Pandas i Numpy se druže: Iz DataFrame-a u niz

U slučaju da želimo da primenjujemo neke matematičke operacije nad redovima i kolonama dataseta, DataFrame možemo lako prevesti u Numpy niz, sa kojim smo navikli da radimo. Ako želim ceo DataFrame da prenesemo u dvodimenzionalni niz, potrebno je samo dodati `.values`.

In [18]:
array = df.values
array[:10,:]

array([[56, 'housemaid', 'married', 'basic.4y', 'no', 'no', 'no',
        'telephone', 'may', 'mon', 261, 1, 999, 0, 'nonexistent', 1.1,
        93.994, -36.4, 4.857, 5191.0, 'no'],
       [57, 'services', 'married', 'high.school', 'unknown', 'no', 'no',
        'telephone', 'may', 'mon', 149, 1, 999, 0, 'nonexistent', 1.1,
        93.994, -36.4, 4.857, 5191.0, 'no'],
       [37, 'services', 'married', 'high.school', 'no', 'yes', 'no',
        'telephone', 'may', 'mon', 226, 1, 999, 0, 'nonexistent', 1.1,
        93.994, -36.4, 4.857, 5191.0, 'no'],
       [40, 'admin.', 'married', 'basic.6y', 'no', 'no', 'no',
        'telephone', 'may', 'mon', 151, 1, 999, 0, 'nonexistent', 1.1,
        93.994, -36.4, 4.857, 5191.0, 'no'],
       [56, 'services', 'married', 'high.school', 'no', 'no', 'yes',
        'telephone', 'may', 'mon', 307, 1, 999, 0, 'nonexistent', 1.1,
        93.994, -36.4, 4.857, 5191.0, 'no'],
       [45, 'services', 'married', 'basic.9y', 'unknown', 'no', 'no',
        't

Ili možemo selektovati samo određene atribute i slučajeve i njih prebaciti u niz:

In [19]:
arr = df.loc[:10, 'marital':'loan'].values
arr

array([['married', 'basic.4y', 'no', 'no', 'no'],
       ['married', 'high.school', 'unknown', 'no', 'no'],
       ['married', 'high.school', 'no', 'yes', 'no'],
       ['married', 'basic.6y', 'no', 'no', 'no'],
       ['married', 'high.school', 'no', 'no', 'yes'],
       ['married', 'basic.9y', 'unknown', 'no', 'no'],
       ['married', 'professional.course', 'no', 'no', 'no'],
       ['married', 'unknown', 'unknown', 'no', 'no'],
       ['single', 'professional.course', 'no', 'yes', 'no'],
       ['single', 'high.school', 'no', 'yes', 'no'],
       ['married', 'unknown', 'unknown', 'no', 'no']], dtype=object)

## Deskriptivna statistika

Kao što je i ranije pomenuto u radu sa Numpy-om, uvek kada imamo neki set podataka, prvi naš cilj je da ih razumemo, pa zato koristimo različite statističke mere. Međutim, različite mere mogu se primeniti nad različitim tipom podataka. Podsetimo se, pri statističkoj analizi, razlikujemo sledeće tipove podataka:

![types_of_data](img/typesofdata.jpg)

Za kolone koje su numeričkog tipa, od pomoći nam je describe koji nam vraća sve mere deskriptivne statistike:

In [20]:
df.describe()

Unnamed: 0,age,duration,campaign,pdays,previous,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed
count,41188.0,41188.0,41188.0,41188.0,41188.0,41188.0,41188.0,41188.0,41188.0,41188.0
mean,40.02406,258.28501,2.567593,962.475454,0.172963,0.081886,93.575664,-40.5026,3.621291,5167.035911
std,10.42125,259.279249,2.770014,186.910907,0.494901,1.57096,0.57884,4.628198,1.734447,72.251528
min,17.0,0.0,1.0,0.0,0.0,-3.4,92.201,-50.8,0.634,4963.6
25%,32.0,102.0,1.0,999.0,0.0,-1.8,93.075,-42.7,1.344,5099.1
50%,38.0,180.0,2.0,999.0,0.0,1.1,93.749,-41.8,4.857,5191.0
75%,47.0,319.0,3.0,999.0,0.0,1.4,93.994,-36.4,4.961,5228.1
max,98.0,4918.0,56.0,999.0,7.0,1.4,94.767,-26.9,5.045,5228.1


In [21]:
df.describe(include=['object'])

Unnamed: 0,job,marital,education,default,housing,loan,contact,month,day_of_week,poutcome,y
count,41188,41188,41188,41188,41188,41188,41188,41188,41188,41188,41188
unique,12,4,8,3,3,3,2,10,5,3,2
top,admin.,married,university.degree,no,yes,no,cellular,may,thu,nonexistent,no
freq,10422,24928,12168,32588,21576,33950,26144,13769,8623,35563,36548


In [22]:
df['loan'].value_counts(normalize=True)

no         0.824269
yes        0.151695
unknown    0.024036
Name: loan, dtype: float64

Vidimo da je prosečan korisnik star oko 40 godina. Prosečan poziv trajao je oko 4 minuta (258 sekundi), ali očigledno da postoje jako dugi pozivi koji su taj prosek podigli jer je medijana 3 minuta (180 sekundi). U pdays atributu upisani su podaci o tome pre koliko dana je korisnik poslednji put pozvan. Vidimo da je većina mera 999 što označava da postoji dosta korisnika koji su pozvani davno ili uopšte nisu pozvani. S obzirom da previous atribut nosi informaciju o tome koliko puta je ranije korisnik pozvan, a vidimo da je on često 0, to jest da su se često pozivali novi korisnici, logično je da pdays ima toliko 999 vrednosti. 

### Sortiranje

In [23]:
df.sort_values(by='age', ascending=True).head()

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,month,day_of_week,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y
38274,17,student,single,unknown,no,no,yes,cellular,oct,tue,896,1,2,2,success,-3.4,92.431,-26.9,0.742,5017.5,yes
37579,17,student,single,basic.9y,no,unknown,unknown,cellular,aug,fri,498,2,999,1,failure,-2.9,92.201,-31.4,0.869,5076.2,yes
37539,17,student,single,basic.9y,no,yes,no,cellular,aug,fri,182,2,999,2,failure,-2.9,92.201,-31.4,0.869,5076.2,no
37140,17,student,single,unknown,no,yes,no,cellular,aug,wed,432,3,4,2,success,-2.9,92.201,-31.4,0.884,5076.2,no
37558,17,student,single,basic.9y,no,yes,no,cellular,aug,fri,92,3,4,2,success,-2.9,92.201,-31.4,0.869,5076.2,no


Kako bi pokazali koncept dodali smo metodu `head()`. U prvoj koloni (neimenovanoj) vidimo redni broj (odnosno, red) u skupu podataka koji je imao najveću vrednost po `Purchase` atributu. Bitno je napomenuti da vrednosti nisu ažurirane. Odnosno, kada pozovemo metodu `head()` nad originalnim `df` nećemo dobiti iste rezultate.

In [24]:
df.head()

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,month,day_of_week,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y
0,56,housemaid,married,basic.4y,no,no,no,telephone,may,mon,261,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
1,57,services,married,high.school,unknown,no,no,telephone,may,mon,149,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
2,37,services,married,high.school,no,yes,no,telephone,may,mon,226,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
3,40,admin.,married,basic.6y,no,no,no,telephone,may,mon,151,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
4,56,services,married,high.school,no,no,yes,telephone,may,mon,307,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no


Zamena u originalnoj promenjivoj `df` se postiže dodavanjem parametra `inplace` i prosleđivanjem `True`.

Naravno, nismo ograničeni na jednu kolonu. Odnosno, sortiranje po više kolona ostvarujemo pozivanjem: 

In [25]:
df.sort_values(by=['age', 'emp.var.rate'], 
               ascending=[True, False]).head()

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,month,day_of_week,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y
37140,17,student,single,unknown,no,yes,no,cellular,aug,wed,432,3,4,2,success,-2.9,92.201,-31.4,0.884,5076.2,no
37539,17,student,single,basic.9y,no,yes,no,cellular,aug,fri,182,2,999,2,failure,-2.9,92.201,-31.4,0.869,5076.2,no
37558,17,student,single,basic.9y,no,yes,no,cellular,aug,fri,92,3,4,2,success,-2.9,92.201,-31.4,0.869,5076.2,no
37579,17,student,single,basic.9y,no,unknown,unknown,cellular,aug,fri,498,2,999,1,failure,-2.9,92.201,-31.4,0.869,5076.2,yes
38274,17,student,single,unknown,no,no,yes,cellular,oct,tue,896,1,2,2,success,-3.4,92.431,-26.9,0.742,5017.5,yes


Dakle, više kolona sortiramo tako što prosledimo listu kolona (u uglastim zagradama) i listu redosleda (takođe, u uglastim zagradama).

### Grupisanje vrednosti

Kada analiziramo podatke, često nam odgovora da pogledamo osobine određenih *grupa podataka*. To grupisanje uglavnom možemo uraditi po kategorički osobinama, dok osobine tako napravljenih grupa mogu biti standardne mere nad numeričkim atributa. Primera radi, tako smo na početku grupisali podatke u pozive koji su rezultovali otvaranjem računa i one koji nisu (grupisanje po kategičkom atributu y), a onda za takve grupe izmerili prosečnu dužinu trajanja poziva (mera nad numeričkim atributom duration).

Ovakvim pristupom možemo napraviti i specifičnije grupe i izmeriti još mera. U opštem slučaju, grupisanje preko Pandas paketa se radi na sledeći način:

```python
df.groupby(by=grouping_columns)[columns_to_show].function()
```

1. Prvo se poziva metoda `groupby` u koju se prosleđuju kolone po kojima se grupiše skup podataka (`grouping_columns`).
2. Zatim se definišu kolone koje treba da se prikažu (`columns_to_show`). Ako se ne definišu kolone, prikazuju se sve kolone.
3. Na kraju, jedna ili više funkcija se pozivaju kako bi se vrednosti agregirale.


In [26]:
columns_to_show = ['age']
group_columns = ['y', 'loan']
df.groupby(group_columns)[columns_to_show].describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,age,age,age,age,age,age,age,age
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,std,min,25%,50%,75%,max
y,loan,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
no,no,30100.0,39.952558,9.917635,17.0,32.0,38.0,47.0,95.0
no,unknown,883.0,39.830125,9.87774,18.0,32.0,38.0,47.0,86.0
no,yes,5565.0,39.70027,9.794217,18.0,32.0,38.0,47.0,91.0
yes,no,3850.0,40.88961,13.787348,18.0,31.0,37.0,49.0,98.0
yes,unknown,107.0,40.953271,13.879116,17.0,30.0,38.0,50.5,82.0
yes,yes,683.0,41.039531,14.129892,17.0,30.0,37.0,50.0,92.0


Pozivanjem koda iznad smo prikazali malo više podataka nego što smo hteli. Zbog toga treba da koristimo metodu `agg` gde ćemo proslediti agregacije koje želimo.

In [27]:
import numpy as np
df.groupby(group_columns)[columns_to_show].agg(['count', np.mean, np.std])

Unnamed: 0_level_0,Unnamed: 1_level_0,age,age,age
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,std
y,loan,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
no,no,30100,39.952558,9.917635
no,unknown,883,39.830125,9.87774
no,yes,5565,39.70027,9.794217
yes,no,3850,40.88961,13.787348
yes,unknown,107,40.953271,13.879116
yes,yes,683,41.039531,14.129892


Sada smo prikazali tačno ono što smo hteli. Jasno se vidi da je znatno više računa za štednju otvoreno od strane korisnika koji nemaju kredit i da su se ljudi odlučili za štednju tek pri drugom pozivu u toku kampanje. Sklonost štednji je takođe malo veća u *yes* varijantama, što je logično jer je to indeks na koji direktno utiče otvaranje računa za štednju. 

### Sumarne tabele

Pretpostavimo da želimo da prikažemo kako su redovi raspoređeni u kontekstu dva atributa (dve kolone). Tačnije, kolona `job` i `y`. Dakle, redovi predstavljaju moguće vrednosti kolone `job`, a kolone moguće vrednosti kolone `y`. Vrednosti treba da predstavljaju broj pojavljivanja redova koji imaju istu vrednost kao red i kao kolona. Takve tabele se nazivaju *tabele kontigencija* i igraju veoma bitnu ulogu u mašinskom učenju. 

U Python-u, tačnije Pandas-u, se koristi `crosstab` metoda kako bi se napravila tabela kontigencija.

In [28]:
pd.crosstab(df['job'], df['y']) # kategoricko-kategoricki podaci

y,no,yes
job,Unnamed: 1_level_1,Unnamed: 2_level_1
admin.,9070,1352
blue-collar,8616,638
entrepreneur,1332,124
housemaid,954,106
management,2596,328
retired,1286,434
self-employed,1272,149
services,3646,323
student,600,275
technician,6013,730


Primetimo da smo koristili `pd.crosstab` što znači da smo pozivali metodu iz Pandas paketa, a ne nad skupom podataka. Zbog toga smo prosleđivali kolone nezavisno kao parametre.

Ukoliko želimo da prikažemo procente umesto brojeva pojavljivanja dodaćemo parametar `normalize=True`.

In [29]:
pd.crosstab(df['job'], df['y'], normalize=True) 

y,no,yes
job,Unnamed: 1_level_1,Unnamed: 2_level_1
admin.,0.22021,0.032825
blue-collar,0.209187,0.01549
entrepreneur,0.03234,0.003011
housemaid,0.023162,0.002574
management,0.063028,0.007963
retired,0.031223,0.010537
self-employed,0.030883,0.003618
services,0.088521,0.007842
student,0.014567,0.006677
technician,0.145989,0.017724


Vidimo da su se za štednju najviše odlučivale osobe na admin, blue-collar, retired, technician pozicijama, poslove koji inače važe za prosečne. Preduzetnici i menadžeri su manje štedeli. Postoji mogućnost da su drugi jako sigurni u svoje pozicije pa sve što zarađuju vole da troše na trenutan život, dok ljudi na prosečnim pozicijama ipak žele da budu sigurniji i da štede određeni novac. Dodatno, odlika druge grupe je ta da češće ulažu u nove biznise i rizičnije poduhvate nego što štede, pa su ovi brojevi i time objašnjivi.

Naprednijim korisnicima Eksela poznata je *pivot tabela*. Nešto slično njima se dobija korišćenjem `groupby` metode. Međutim, u Pandas-u postoji i specifična metoda `pivot_table`. Parametri su sledeći:
* `values` - lista kolona za koje se računa agregacija
* `index` - lista kolona po kojima se grupišu podaci
* `aggfunc` - lista statistika koje se računaju po grupama

Na primer, želimo da prikažemo prosečnu starost klijenata i trajanje poziva (kolone `age`, `duration`) po tipu obrazovanja i ciljnoj osobini (kolona `y`, `education`):

In [30]:
df.pivot_table(['age', 'duration'], # numericko-kategoricki
              ['y', 'education'], aggfunc='mean')

Unnamed: 0_level_0,Unnamed: 1_level_0,age,duration
y,education,Unnamed: 2_level_1,Unnamed: 3_level_1
no,basic.4y,46.383138,232.696638
no,basic.6y,40.462928,222.808935
no,basic.9y,39.071249,227.01346
no,high.school,38.058345,222.932933
no,illiterate,47.571429,243.071429
no,professional.course,39.958262,215.589716
no,university.degree,38.91646,213.126119
no,unknown,43.356081,223.888514
yes,basic.4y,58.221963,546.200935
yes,basic.6y,40.292553,730.042553


Možemo primetiti obrazac ponašanja da manje obrazovani klijenti u oba slučajeva (otvaraju račun ili ne) vode duže telefonske razgovore.

### Dodavanje novih kolona

Dodavanje kolona se može ostvariti na više načina.

Želimo da dodamo kolonu koja predstavlja ukupan broj poziva korisnika:

In [31]:
total_calls = df['previous'] + df['campaign']
df.insert(loc = len(df.columns), column = 'total_calls', value = total_calls)
df.head()

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,month,day_of_week,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,total_calls
0,56,housemaid,married,basic.4y,no,no,no,telephone,may,mon,261,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no,1
1,57,services,married,high.school,unknown,no,no,telephone,may,mon,149,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no,1
2,37,services,married,high.school,no,yes,no,telephone,may,mon,226,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no,1
3,40,admin.,married,basic.6y,no,no,no,telephone,may,mon,151,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no,1
4,56,services,married,high.school,no,no,yes,telephone,may,mon,307,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no,1


Dakle, koristili smo metodu `insert`, gde su parametri bili `loc` gde smo rekli da ćemo dodati kolonu na kraj (može se specificirati na koje mesto se dodaje kolona), zatim `column` koji predstavlja naziv kolone i `value` koja predstavlja vrednosti koje treba dodati.

Međutim, moguće je i na lakši način dodati kolonu:

In [32]:
df['total_calls'] = df['previous'] + df['campaign']
df.head()

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,month,day_of_week,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,total_calls
0,56,housemaid,married,basic.4y,no,no,no,telephone,may,mon,261,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no,1
1,57,services,married,high.school,unknown,no,no,telephone,may,mon,149,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no,1
2,37,services,married,high.school,no,yes,no,telephone,may,mon,226,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no,1
3,40,admin.,married,basic.6y,no,no,no,telephone,may,mon,151,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no,1
4,56,services,married,high.school,no,no,yes,telephone,may,mon,307,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no,1


### Brisanje redova i kolona

Za brisanje se koristi `drop` metoda koja zahteva prosleđivanje parametra koji označava da li se brišu redovi ili kolone (parametar `axis`, 1 je za kolone, a 0 za redove (podrazumevana vrednost)). Ukoliko dodamo i parametar `inplace` onda se automatski ažurira originalni skup podataka. Najbitniji parametar je broj ili naziv kolona/redova koje je potrebno obrisati.

Brisanje tek kreirane kolone se postiže na sledeći način:

In [33]:
df.drop(['total_calls'], axis = 1, inplace = True)
df.head()

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,month,day_of_week,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y
0,56,housemaid,married,basic.4y,no,no,no,telephone,may,mon,261,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
1,57,services,married,high.school,unknown,no,no,telephone,may,mon,149,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
2,37,services,married,high.school,no,yes,no,telephone,may,mon,226,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
3,40,admin.,married,basic.6y,no,no,no,telephone,may,mon,151,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
4,56,services,married,high.school,no,no,yes,telephone,may,mon,307,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no


Redovi se brišu na sledeći način (obrisaćemo drugi i treći red):

In [34]:
df.drop([1, 2]).head()

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,month,day_of_week,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y
0,56,housemaid,married,basic.4y,no,no,no,telephone,may,mon,261,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
3,40,admin.,married,basic.6y,no,no,no,telephone,may,mon,151,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
4,56,services,married,high.school,no,no,yes,telephone,may,mon,307,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
5,45,services,married,basic.9y,unknown,no,no,telephone,may,mon,198,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
6,59,admin.,married,professional.course,no,no,no,telephone,may,mon,139,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no


### Primena fukncija na ćelije, kolone i redove

Primena funkcija na kolone se postiže metodom `apply()`. Najveće vrednosti po kolonama dobijamo:

In [35]:
df.apply(np.max)

age                      98
job                 unknown
marital             unknown
education           unknown
default                 yes
housing                 yes
loan                    yes
contact           telephone
month                   sep
day_of_week             wed
                    ...    
campaign                 56
pdays                   999
previous                  7
poutcome            success
emp.var.rate            1.4
cons.price.idx       94.767
cons.conf.idx         -26.9
euribor3m             5.045
nr.employed          5228.1
y                       yes
Length: 21, dtype: object

Primetite da smo koristili `np.max` što znači da smo koristili metodu `max` iz paketa `numpy`.

Na sličan način možemo da koristimo metodu `apply` na nivou reda. U tom slučaju potreno je da naglasimo da se računanje vrši na nivou reda prosleđivanjem parametra `axis=1`. Na primer, računanje vrednosti u koloni total_calls moglo se uraditi i na sledeći način:

In [36]:
df[['campaign', 'previous']].apply(np.sum, axis=1)

0        1
1        1
2        1
3        1
4        1
5        1
6        1
7        1
8        1
9        1
        ..
41178    5
41179    3
41180    2
41181    1
41182    2
41183    1
41184    1
41185    2
41186    1
41187    4
Length: 41188, dtype: int64

In [37]:
df[['duration']].median()

duration    180.0
dtype: float64

Primena metode `apply` se često koristi sa lambda izrazima. Na primer, ukoliko želimo da selektujemo sve pozive koji su trajali duže od 5 minuta:

In [38]:
df[df['duration'].apply(lambda duration: duration > 300)].head()

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,month,day_of_week,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y
4,56,services,married,high.school,no,no,yes,telephone,may,mon,307,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
8,24,technician,single,professional.course,no,yes,no,telephone,may,mon,380,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
16,35,blue-collar,married,basic.6y,no,yes,no,telephone,may,mon,312,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
17,46,blue-collar,married,basic.6y,unknown,yes,yes,telephone,may,mon,440,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
18,50,blue-collar,married,basic.9y,no,yes,yes,telephone,may,mon,353,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no


A zatim možemo proveriti koji je procenat poziva dužih od 5 minuta od ukupno svih poziva:

In [39]:
df[df['duration'].apply(lambda duration: duration > 300)].shape[0] / df.shape[0] 

0.27202097698358746

Takođe, lambde sa apply-om nam mogu biti jako korisne kada brzo želimo da napravimo novi atribut u datasetu. Nekada se dešava da na osnovu trenutnih atributa želimo da napravimo neki novi koji će bolje opisivati skup podataka. Ispod su navedena dva primera: u prvom se numerički atribut *age* prevodi u kategorički *age_categorical* koji označava starost, dok u drugom se na osnovu više atributa kreira binarni atribut *daddys_sons*.  

In [40]:
df['age_categorical'] = df['age'].apply(lambda age: 'young' if age < 30 else 'adult' if age < 60 else 'old') 
df['age_categorical'].value_counts()

adult    34326
young     5669
old       1193
Name: age_categorical, dtype: int64

In [41]:
def daddys_sons(row):
    if (row['age'] < 20 and row['job'] == 'student' and row['y'] == 'yes'):
        return True
    else:
        return False
df['daddys_son'] = df.apply(lambda row: daddys_sons(row), axis=1)

In [42]:
df['daddys_son'].value_counts(normalize=True)

False    0.999175
True     0.000825
Name: daddys_son, dtype: float64

### Zamena vrednosti

Menjanje vrednosti u skupu podataka moguće je korišćenjem metode `map` gde se prosleđuje `dictionary` u formi `{stara_vrednost: nova_vrednost}`.

In [43]:
print('Pre promene')
print(df['y'].head())

d = {'no': False, 'yes': True}
df['y'] = df['y'].map(d) # df = df.replace({'y': d})

print('Nakon promene')
print(df['y'].head())

Pre promene
0    no
1    no
2    no
3    no
4    no
Name: y, dtype: object
Nakon promene
0    False
1    False
2    False
3    False
4    False
Name: y, dtype: bool


Isti efekat se postiže primenom `replace` metode koja je prikazana u komentaru.

## Literatura:

Ovaj tutorijal zasnovan je na sledećim materijalima:
> 1. Materijali sa predmeta [Mašinsko učenje FON](http://odlucivanje.fon.bg.ac.rs/predmeti/osnovne-studije/masinsko-ucenje/): 1. Pandas - Data Analysis, Sandro Radovanović
> 2. Kaggle Kernel - [ML Bank Marketing Solution](https://www.kaggle.com/mayurjain/ml-bank-marketing-solution)
> 3. [Open Machine Laerning Course Medium](https://medium.com/open-machine-learning-course)

Korišćen je sledeći dataset:
> [Bank Marketing](http://archive.ics.uci.edu/ml/datasets/Bank+Marketing)