# Analiza korelacije podataka u Pythonu

Podsećamo da za demonstraciju procesa analize podataka u Pythonu koristimo skup podataka o preživelim putnicima broda Titanik. Ovaj skup sadrži podatke o putnicima broda, odnosno:

- ID putnika
- Putnik je preživeo ili ne
- Klasa u kojoj je putnik smešten
- Pol putnika
- Starost putnika
- Broj putnika u srodstvu u istom kolenu, odnosno u bračnom odnosu (braća, sestre, supružnici)
- Broj putnika u srodstvu u prethodnom ili sledećem kolenu (roditelji, deca)
- Broj kupljene karte
- Cena kupljene karte
- Oznaka kabine
- Oznaka luke u kojoj je putnik ukrcan

In [1]:
import pandas as pd
df=pd.read_csv('kurs_titanic_train.csv')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Iako promena tipova ne predstavlja sastavni deo analize podataka, već njihove pripreme, radi konzistentnosti analize tipovi će biti promenjeni u odgovarajuće, a veličina PassengerId obrisana.

In [2]:
df['Survived']=df['Survived'].astype('category')
df['Sex']=df['Sex'].astype('category')
df['Embarked']=df['Embarked'].astype('category')
df=df.drop('PassengerId',1)

## Korelacija podataka

Dok statistička analiza individualnih veličina ukazuje na potrebu za određenom pripremom podataka pre učenja, analiza korelacije podataka je važna jer:

- Može da ukaže na potrebu za uklanjanjem neke ulazne veličine u slučaju da postoji korelacija te veličine sa drugom ulaznom veličinom.
- Može da ukaže na najrelevantnije ulazne veličine, odnosno one veličine koje imaju najveći uticaj na promene izlazne veličine.

Korelacija podataka se sagledava u zavisnosti od tipa. Naime, postoje tri situacije u kojima se primenjuju različite metode za utvrđivanje korelacije između dve veličine:

- Korelacija između dve kontinualne veličine
- Korelacija između dve nominalne veličine
- Korelacija između kontinualne i nominalne veličine

Važno je napomenuti da se metodama prikazanim u ovom poglavlju procenjuju korelacije individualnih veličina, odnosno uticaj promena određene veličine na promene druge. Takvo sagledavanje je nepotpuno jer ne uzima u obzir kombinovane uticaje dve ili više veličina na određenu veličinu.

### Korelacija između kontinualnih veličina

Za utvrđivanje korelacija između kontinualnih/numeričkih veličina, može se koristiti Pearsonov koeficijent (Pearsonov koeficijent se koristi SAMO za numeričke veličine). Pozivanjem metode corr DataFrame strukture, prikazuje se matrica svih korelacija (Pearsonovih koeficijenata) između numeričkih tipova u DataFrame strukturi. Ukoliko je koeficijent negativan, korelacija je inverzna. Koeficijent je u intervalu (-1,1), gde vrednosti bliže 1 ili -1 ukazuju na postojanje korelacije.

In [3]:
df.corr(method='pearson')

Unnamed: 0,Pclass,Age,SibSp,Parch,Fare
Pclass,1.0,-0.369226,0.083081,0.018443,-0.5495
Age,-0.369226,1.0,-0.308247,-0.189119,0.096067
SibSp,0.083081,-0.308247,1.0,0.414838,0.159651
Parch,0.018443,-0.189119,0.414838,1.0,0.216225
Fare,-0.5495,0.096067,0.159651,0.216225,1.0


Iz analize koeficijenata korelacije gore, možemo zaključiti da postoji izvesna korelacija između vrednosti SibSp i Parch veličina. To možemo bukvalno interpretirati na sledeći način: putnici koji putuju sa srodnicima u istom kolenu, putuju i sa srodnicima u prethodnom ili narednom kolenu. Zapravo, ovo i nije sasvim tačna interpretacija. Ona može da implicira kauzalnost, a kauzalnost je usmerena relacija. Korelacija, prema Pearsonu (ali i drugim metodama - kendall, spearman) je simetrična relacija, pa shodno tome daje nepotpunu informaciju o korelaciji. Imajući sve ovo na umu, neki parcijalni zaključci koje možemo da donesemo na osnovu vrednosti korelacionih koeficijenata su:

- Za putnike koji putuju sa decom, postoji izvesna verovatnoća da putuju i sa supružnicima, i istovremeno u drugom smeru:
- Za putnike koji putuju sa supružnicima, postoji izvesna verovatnoća da putuju i sa decom

Ostali zaključci iz analize korelacionih koeficijenata su:

- Postoji inverzna korelacija između putničke klase, odnosno što je putnička klasa niža, cena karte je veća, što je i logično.
- Postoji izvesna inverzna korelacija između putničke klase i starosti putnika, odnosno, što je putnik stariji, povećava se verovatnoća da putuje u nižoj (odnosno, boljoj) klasi.
- Postoji izvesna inverzna korelacija između starosti putnika i broja srodnika u istom kolenu ili supružnika, odnosno što je putnik stariji smanjuje se verovatnoća da putuje sa nekim u istoj generaciji.

Ipak, u analizi korelacije treba imati na umu zlatno pravilo statistike: korelacija ne implicira kauzalnost, visoke vrednosti korelacionih koeficijenata mogu biti rezultat i pristrasnosti (usled nereprezentativnog uzorka prikupljenih podataka) ili kombinovanog uticaja dve veličine na treću.

Konačno, dole navedena instrukcija pokazuje na koji način je moguće utvrditi Pearsonov koeficijent korelacije za dve izabrane veličine. Podsećamo da se Pearsonov koeficijent razmatra samo kod korelacije između dve kontinualne, numeričke veličine.

In [4]:
df['Age'].corr(df['SibSp'], method='pearson')

-0.3082467589236563

### Korelacija nominalne i kontinualne veličine

Problem analize korelacije između izabrane nominalne i kontinualnih veličina u DataFrame strukturi se može svesti na upoređenje prosečnih vrednosti kontinualnih veličina za različite grupe podataka, grupisane prema vrednosti izabrane nominalne veličine (npr. izlazne). Ipak treba imati na umu da je ovo površno razmatranje i može samo da ukaže na hipoteze korelacije, ali ne i da ih potvrdi.

Kod dole prikazuje prosečne vrednosti svih numeričkih veličina za svaku vrednost nominalne veličine Survived.

In [6]:
df.groupby('Survived').mean()

Unnamed: 0_level_0,Pclass,Age,SibSp,Parch,Fare
Survived,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,2.531876,30.626179,0.553734,0.32969,22.117887
1,1.950292,28.34369,0.473684,0.464912,48.395408


Zaključci koje je moguće doneti na osnovu analize gore su:

- Sa smanjenjem klase se povećava verovatnoća preživljanja. Iako je razlika između prosečnih vrednosti klasa putnika koji su preživeli i onih nastradalih mala u apsolutnom iznosu, u sagledavanju treba uzeti u obzir opseg veličine Pclass (1,3), koji je mali, pa je razlika srednjih vrednosti statistički značajna.
- Sa povećanjem cene karte, povećava se verovatnoća preživljavanja.
- Interesantno, a suprotno intuiciji, na prvi pogled, starost putnika nema statistički važan uticaj na verovatnoću preživljavanja.

Korelacije (Pearsonovi koeficijenti) između različitih ulaznih veličina je moguće razmatrati i u kontekstu izlazne veličine, odnosno grupisano po njoj.

In [6]:
df.groupby('Survived').corr()

Unnamed: 0_level_0,Unnamed: 1_level_0,Age,Fare,Parch,Pclass,SibSp
Survived,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,Age,1.0,0.076852,-0.096298,-0.434168,-0.403734
0,Fare,0.076852,1.0,0.347307,-0.517378,0.282108
0,Parch,-0.096298,0.347307,1.0,0.068482,0.47794
0,Pclass,-0.434168,-0.517378,0.068482,1.0,0.125714
0,SibSp,-0.403734,0.282108,0.47794,0.125714,1.0
1,Age,1.0,0.162648,-0.315599,-0.418073,-0.143309
1,Fare,0.162648,1.0,0.116519,-0.538125,0.122886
1,Parch,-0.315599,0.116519,1.0,0.021584,0.282498
1,Pclass,-0.418073,-0.538125,0.021584,1.0,-0.0333
1,SibSp,-0.143309,0.122886,0.282498,-0.0333,1.0


### Korelacija između dve nominalne veličine

Najjednostavniji način za analizu korelacije između dve nominalne veličine je razmatranje brojeva instanci/podataka koje pripadaju svim kombinacijama vrednosti obe nominalne veličine. Prikaz koji to omogućava je tzv. crosstab tabela, odnosno tabela frekvencija (frequency table), u čijim se vrstama i kolonama nalaze vrednosti dve nominalne veličine, a u ćelijama brojevi podataka.

Prikaz crosstab tabele za dve izabrane nominalne veličine se vrši na sledeći način:

In [7]:
pd.crosstab(df['Survived'],df['Sex'])

Sex,female,male
Survived,Unnamed: 1_level_1,Unnamed: 2_level_1
0,81,468
1,233,109


Na osnovu uvida u tabelu frekvencija gore, moguće je doneti sledeće zaključke:

- Među ženama postoji veći broj preživelih od broja stradalih
- Među muškarcima, postoji veći broj stradalih od broja preživelih.

Ovakvi zaključci impliciraju da postoji snažna zavisnost između pola i preživljavanja.

Slična analiza se može izvršiti i za preostale dve veličine kategorije - putničku klasu (Pclass) i mesto ukrcavanja (Embarked).

In [8]:
pd.crosstab(df['Survived'],df['Pclass'])

Pclass,1,2,3
Survived,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,80,97,372
1,136,87,119


U ovom slučaju

In [9]:
pd.crosstab(df['Survived'],df['Embarked'])

Embarked,C,Q,S
Survived,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,75,47,427
1,93,30,217


Za razliku od veličina Pclass i Sex, korelaciju između preživljavanja i luke ukrcavanja nije moguće uočiti analizom tabele gore. Ovo nikako ne znači da korelacija ne postoji. Potpuno izvesni zaključak o korelaciji dve veličine tipa kategorije je moguće doneti primenom statističke metode - chi-squared (ki-skuerd) testa.

#### Chi-squared test

Chi-squared test nezavisnosti je statistički test kojim se utvrđuje da li postoji značajna veza između dve veličine tipa kategorije. Test utvrđuje izvesnost tzv. nulte hipoteze, hipoteze da ne postoji statistički važna korelacija između dve veličine. 

U programu dole Chi-squared testiranje se vrši za svaku veličinu osim veličine Survived. Za svaku veličinu se formira tzv. tabela eventualnosti (contingency table) koju čine podaci iz kolona DataFrame objekta čija se korelacija utvrđuje. Potom se izračunava procena tačnosti nulte hipoteze. Ukoliko je ona veća od granične vrednosti, koja je definisana vrednošću 0.05, smatra se da je nulta hipoteza dokazana, odnosno da veličina NIJE statistički značajna za zadatu izlaznu veličinu. Generalno, manja vrednost parametra k ukazuje na veću korelaciju između izabrane ulazne i izlazne veličine.

In [10]:
from scipy.stats import chi2_contingency
alpha=0.05
Xcorarr=df.columns
Ycor=df['Survived']
for x in Xcorarr:
    if(x!='Survived'):
        dfObserved=pd.crosstab(Ycor,df[x])
        chi2, p, dof, expected = chi2_contingency(dfObserved.values)
        print(x+':'+str(p))
        if(p<alpha):
            print('     Feature is important')

Pclass:4.549251711298793e-23
     Feature is important
Name:0.484248151973633
Sex:1.1973570627755645e-58
     Feature is important
Age:0.10141111018860959
SibSp:1.5585810465902116e-06
     Feature is important
Parch:9.703526421039997e-05
     Feature is important
Ticket:0.01152729601163775
     Feature is important
Fare:1.1647635739939964e-11
     Feature is important
Cabin:0.18357354976388165
Embarked:1.769922284120912e-06
     Feature is important


Chi-squared test pokazuje da je statistički najuticajnija veličina pol putnika, a potom putnička klasa putnika. Sledi plaćena cena karte, a za njom, luka ukrcavanja, broj srodnika u istom kolenu i na kraju broj srodnika u narednom ili prethodnom kolenu.

Jedna od najpouzdanijih metoda za određivanje korelacije između veličina tipa kategorije je Kramerov (Cramers V) test. On predstavlja modifikovanu verziju Chi-squared testa. Korišćenje Kramerovog testa za određivanje koeficijenata korelacije (u intervalu:0,1) je prikazano dole (iz testa su isključene veličine tekstualnog tipa).

In [11]:
import numpy as np

def cramers_corrected_stat(confusion_matrix):
    """ calculate Cramers V statistic for categorial-categorial association.
        uses correction from Bergsma and Wicher, 
        Journal of the Korean Statistical Society 42 (2013): 323-328
    """
    chi2 = chi2_contingency(confusion_matrix)[0]
    n = confusion_matrix.sum().sum()
    phi2 = chi2/n
    r,k = confusion_matrix.shape
    phi2corr = max(0, phi2 - ((k-1)*(r-1))/(n-1))    
    rcorr = r - ((r-1)**2)/(n-1)
    kcorr = k - ((k-1)**2)/(n-1)
    return np.sqrt(phi2corr / min( (kcorr-1), (rcorr-1)))

for x in Xcorarr:
    if(x!='Survived' and x!='Name' and x!='Ticket' and x!='Cabin'):
        dfObserved=pd.crosstab(Ycor,df[x])
        p = cramers_corrected_stat(dfObserved)
        print(x+':'+str(p))

Pclass:0.33668387622245516
Sex:0.5401999468101071
Age:0.15456614283818954
SibSp:0.18742816095927226
Parch:0.15693364431605167
Fare:0.4478802481888927
Embarked:0.16605833339661635


## Metode za izbor veličina

Poslednji korak u analizi podataka je primena neke od metoda za izbor veličina. Ove metode vrše najkompleksniju analizu uticaja ulaznih veličina na izlaznu odnosno procenjuju njihovu relevantnost. Metode koje su prikazane u ovoj vežbi su univarijatna selekcija (koja koristi chi-squared test, slično već opisanom gore) i rekurzivna eliminacija veličina (RFE). Druga metoda vrši analizu kombinovanog uticaja ulaznih veličina na izlaznu.

Uslov za izvršenje ovih metoda je da svi tekstualni podaci budu kodirani, odnosno da sve veličine čine podaci koji su celi ili realni brojevi. Za potrebe demonstracije metoda za izbor veličina, instrukcije dole će izvršiti kodiranje veličina Sex i Embarked. Veličine Name, Ticket i Cabin će biti uklonjene iz DataFrame objekta.

In [12]:
from sklearn.preprocessing import LabelEncoder
gle = LabelEncoder()
df['Sex']=df['Sex'].astype('str')
df['Embarked']=df['Embarked'].astype('str')
sexlabels = gle.fit_transform(df['Sex'])
embarkedlabels = gle.fit_transform(df['Embarked'])
df['Sex']=sexlabels
df['Embarked']=embarkedlabels
df=df.drop('Name', 1)
df=df.drop('Ticket', 1)
df=df.drop('Cabin', 1)
agemean=df['Age'].mean()
df['Age']=df['Age'].fillna(agemean)
df['Survived']=df['Survived'].astype('int')
df.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,0,3,1,22.0,1,0,7.25,2
1,1,1,0,38.0,1,0,71.2833,0
2,1,3,0,26.0,0,0,7.925,2
3,1,1,0,35.0,1,0,53.1,2
4,0,3,1,35.0,0,0,8.05,2


### Univarijatna selekcija veličina

Drugi način za chi-squared testiranje je korišćenje funkcije SelectKBest za izbor veličina. Rezultat metoda su ocene relevantnosti pojedinačnih veličina i preporuke o usvajanju pojedinačnih veličina za konačni model.

In [13]:
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

X=df.values[:,1:8]
y=df.values[:,0]

fit = SelectKBest(score_func=chi2, k=5).fit(X, y)
print(fit.scores_)
print(fit.get_support())

[3.08736994e+01 9.27024470e+01 2.46879258e+01 2.58186538e+00
 1.00974991e+01 4.51831909e+03 9.75545583e+00]
[ True  True  True False  True  True False]


### Metod rekurzivne eliminacije veličina 

Metod rekurzivne eliminacije veličina (RFE) vrši rekurzivno uklanjanje veličina i izrađuje model (u kodu dole se koristi model zasnovan na logističkoj regresiji, ali je moguće koristiti i druge algoritme) na osnovu preostalih veličina. Na kraju, upoređuje tačnosti svih kreiranih modela i usvaja one veličine za koje model ima najveću tačnost. Očigledno, imajući u vidu na to da metod upoređuje tačnosti konačnog modela, on uzima u obzir i kombinovane uticaje dve ili više veličina na izlaznu.

Metod se koristi na način opisan dole. Rezultat metoda su rangovi pojedinačnih veličina i preporuke o usvajanju pojedinačnih veličina za konačni model.

In [14]:
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import RFE

fit = RFE(LogisticRegression(solver='liblinear'), 4).fit(X, y)
print(fit.ranking_)
print(fit.support_)

[1 1 3 1 2 4 1]
[ True  True False  True False False  True]


Kao što je već napomenuto, RFE analiza može da se vrši sa različitim algoritmima, ali ne svim - samo sa onim algoritmima koji imaju coef_ ili feature_importances_ atribute, odnosno one koji se mogu koristiti za analizu izbora veličina. Na primer, to nije slučaj za KNN, GaussianNB, SVC,..

Dole je prikazan kod koji iterativno primenjuje RFE za različite izabrane algoritme. Važno je napomenuti da ovaj kod samo ilustruje rad RFE metode. Rezultati ovog testa samo pokazuju relevantnost veličina u kontekstu pojedinačnih algoritama.

In [15]:
def getModels():
    models = []
    from sklearn.linear_model import LogisticRegression
    from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
    from sklearn.tree import DecisionTreeClassifier
    from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
    
    models.append(('LR', LogisticRegression()))
    models.append(('LDA', LinearDiscriminantAnalysis()))
    models.append(('CART', DecisionTreeClassifier()))
    models.append(('RF', RandomForestClassifier()))
    models.append(('GBoost', GradientBoostingClassifier()))
    return models

def showRFESupport(X,y):
    from sklearn.feature_selection import RFE
    
    models=getModels()
    for name, model in models:
        fit=RFE(model).fit(X,y)
        print(fit.ranking_)
        print(fit.support_)
        
showRFESupport(X,y)

[1 1 4 1 3 5 2]
[ True  True False  True False False False]
[1 1 4 2 3 5 1]
[ True  True False False False False  True]
[2 1 1 3 4 1 5]
[False  True  True False False  True False]
[2 1 1 3 4 1 5]
[False  True  True False False  True False]
[2 1 1 3 5 1 4]
[False  True  True False False  True False]


Očigledno, svi algoritmi smatraju veličinu pol putnika najvažnijom za predviđanje. Parametarski smatraju klasu putnika najvažnijom; algoritmi zasnovani na stablima odlučivanja i ensemble metodi (koji se zasnivaju na stablima odlučivanja) klasu svrstavaju kao važnu ali ne najvažniju. Takođe, dok cena karte nema nikakav uticaj u parametarskim algoritmima, ona je izuzetno važna za ove druge. Slično je i sa godinama starosti putnika.

Ponovo treba naglasiti da je ovo samo ilustracija RFE metode. Ovom prilikom su korišćeni algoritmi bez ikakvih podešavanja.

## Rezime analize korelacije podataka i izbora veličina

Na osnovu svih koraka u analizi korelacije podataka i izbora veličina, možemo sažeti sve rezultate u sledeće tvrdnje.

- Nedvosmislen i veliki uticaj na kvalitet modela imaju veličine Sex i Pclass. Ove veličine će biti uzete u obzir u izradi konačnog modela u izvornom obliku.
- Postoje indicije da je cena kupljene karte u korelaciji sa verovatnoćom preživljavanja
- Starost putnika nema važan uticaj na verovatnoću preživljavanja
- Mesto ukrcavanja nema očigledan uticaj na verovatnoću preživljavanja

Konačno, metode izbora veličina ukazuju na sledeče:

- Veličine Sex i Pclass su važne za sve algoritme i u svakom slučaju ih treba uzeti u obzir.
- Ukoliko se kreira model korišćenjem nekog algoritma zasnovanog na stablima odlučivanja, potrebno je svakako uzeti u obzir veličine Fare i Age.