# Exploratory Data Analysis

## Loading Data

In [None]:
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use('fivethirtyeight')
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline

In [None]:
data = pd.read_csv('dataset/titanic.csv')

## Bivariate & Multivariate
### Univariate:
- Cek dimensi data (tabel-tabel)
- Cek tipe data dari masing-masing kolom
- Tampilkan sebagian value dari masing-masing kolom
- Lakukan perhitungan descriptive statistics untuk tiap kolom
- Lakukan analisis visual dengan memplot tiap variable
- Cek missing value
- Cek duplikasi
- Cek validitas (format / range / limit / reference / dll)
- cek duplikat

### Multivariate:
- bivariate analysis
    - Two Categorical
    - Categorical and Numerical
    - Two Numerical
- multivariate
    - Dimensionality Reduction

### Cek Data

In [None]:
data.head()


### Hasil Univariate Analisis

- target variable adalah 'Survived'. 38.4% survived
- tipe variable
    - Categorical: Sex, Embarked
    - Ordinal: PClass
    - Continuous: Age, Fare
    - Discrete: SibSp, Parch
- the middle part of each name is a title of the person, other than that, we can drop the Name column
- Age has some missing value that need to be inputed
- Cabin has too many missing value, we can drop it
- Ticket has too many unique value with difference formats, so we can drop it as well
- Passenger Id holds the unique ID of each person, not much information given for predictiong survivability

In [None]:
data['Initial'] = data.Name.str.extract('([A-Za-z]+)\.')
data['Initial'].replace(['Mlle','Mme','Ms','Dr','Major','Lady','Countess','Jonkheer','Col','Rev','Capt','Sir','Don'],['Miss','Miss','Miss','Mr','Mr','Mrs','Mrs','Other','Other','Other','Mr','Mr','Mr'],inplace=True)
data.drop(columns=['Name','Ticket','Cabin','PassengerId'], inplace=True)
data.head()

## Bivariate Analysis

### Categorical to Categorical

Untuk memeriksa korelasi antara dua variabel kategori, kita dapat mencoba membuat Tabel Kontingensi (cross tabulation/crosstab). Selain itu, untuk memvisualisasikan hasil crosstab, kita dapat memplotnya menggunakan diagram batang atau factor plot.

Jika kita ingin menguji ketergantungan dua variabel kategorikal dengan pendekatan statistik, kita dapat menggunakan chi-square test. 

Namun, pada kesempatan ini, kita tidak akan menekankan pada pengujian tersebut melainkan hanya melihat ketergantungan berdasarkan visualisasi.

#### Chi Square

In [None]:
# Writing a function to find the correlation of all categorical variables with the Target variable
def FunctionChisq(inpData, TargetVariable, CategoricalVariablesList):
    from scipy.stats import chi2_contingency
    
    # Creating an empty list of final selected predictors
    SelectedPredictors=[]

    for predictor in CategoricalVariablesList:
        CrossTabResult=pd.crosstab(index=inpData[TargetVariable], columns=inpData[predictor])
        ChiSqResult = chi2_contingency(CrossTabResult)
        
        # If the ChiSq P-Value is <0.05, that means we reject H0
        if (ChiSqResult[1] < 0.05):
            print(predictor, 'is correlated with', TargetVariable, '| P-Value:', ChiSqResult[1])
            SelectedPredictors.append(predictor)
        else:
            print(predictor, 'is NOT correlated with', TargetVariable, '| P-Value:', ChiSqResult[1])        
            
    return(SelectedPredictors)

In [None]:
CategoricalVariables=['Pclass', 'Sex', 'Embarked']

# Calling the function
FunctionChisq(inpData=data, 
              TargetVariable='Survived',
              CategoricalVariablesList= CategoricalVariables)

#### Sex dan Survived

###### Cross Tab

In [None]:
df_sex_ct = pd.crosstab(data['Sex'], data['Survived'],margins=True)
df_sex_ct.style.background_gradient(cmap='summer_r')

In [None]:
from scipy.stats import chi2_contingency
  
def chi_test(data):    
    # defining the table
    stat, p, dof, expected = chi2_contingency(data)

    # interpret p-value
    alpha = 0.05
    print("p value is " + str(p))
    if p <= alpha:
        print('Dependent (reject H0)')
    else:
        print('Independent (H0 holds true)')

chi_test(df_sex_ct)

###### Visualisasi

In [None]:
f,ax=plt.subplots(1,2,figsize=(18,5))

# subplot 1
data[['Sex','Survived']].groupby(['Sex']).mean().plot.bar(ax=ax[0])
ax[0].set_title('Survived vs Sex')

# subplot 2 
sns.countplot('Sex',hue='Survived',data=data, ax=ax[1])
ax[1].set_title('Sex:Survived vs Dead')

# show
plt.show()

<details>
Jumlah pria di kapal jauh lebih banyak daripada jumlah wanita. Namun jumlah wanita yang diselamatkan hampir dua kali lipat jumlah pria yang diselamatkan. Tingkat Survival untuk **perempuan di kapal adalah sekitar 75% sedangkan untuk pria di sekitar 18-19%**.

Sex tampaknya menjadi fitur yang **sangat penting** untuk pemodelan. Tapi sebelum itu kita perlu juga melihat fitur lainnya.
</details>

#### Pclass and Survived

In [None]:
df_pclass_ct = pd.crosstab(data.Pclass,data.Survived,margins=True)
df_pclass_ct.style.background_gradient(cmap='summer_r')

In [None]:
chi_test(df_pclass_ct)

In [None]:
f,ax=plt.subplots(1,2,figsize=(18,5))

#subplot 1
data['Pclass'].value_counts().sort_index().plot.bar(color=['#CD7F32','#FFDF00','#D3D3D3'],ax=ax[0])
ax[0].set_title('Number Of Passengers By Pclass')
ax[0].set_ylabel('Count')

#subplot 2
sns.countplot('Pclass',hue='Survived',data=data,ax=ax[1])
ax[1].set_title('Pclass: Survived vs Dead')

#show
plt.show()

<details>
Dapat dilihat dengan jelas bahwa penumpang Pclass 1 mendapatkan prioritas yang sangat tinggi dalam proses penyelamatan. Meski jumlah Penumpang di Pclass 3 jauh lebih tinggi, namun angka survival dari mereka masih sangat rendah, sekitar 25%.

Untuk Pclass 1 penumpang selamat sekitar 63% sedangkan untuk Pclass2 sekitar 48%. 

Mari dalami lebih lanjut dan periksa hal lainnya. Mari kita periksa tingkat survival dengan **Seks dan Pclass** secara bersama-sama.
</details>

In [None]:
pd.crosstab([data.Sex,data.Pclass],data.Survived,margins=True).style.background_gradient(cmap='summer_r')

In [None]:
sns.factorplot('Pclass','Survived',hue='Sex',data=data)
plt.show()

<details>
Kita bisa menggunakan FactorPlot dalam kasus ini, karena menjadikan pemisahan nilai kategorikal menjadi mudah.

Dengan melihat CrossTab dan FactorPlot, kita dapat dengan mudah menyimpulkan bahwa kelangsungan hidup Wanita pada  Pclass1 adalah sekitar 95-96%, karena hanya 3 dari 94 Wanita dari Pclass1 yang meninggal.

Terbukti bahwa terlepas dari Pclass, Wanita diberi prioritas pertama saat penyelamatan. Bahkan Pria dari Pclass 1 memiliki tingkat kelangsungan hidup yang sangat rendah.
</details>

#### Embarked and Survived

In [None]:
pd.crosstab(data['Embarked'], data['Survived']).apply(lambda r: r/r.sum(), axis=1).style.background_gradient(cmap='summer_r')

In [None]:
sns.factorplot('Embarked','Survived',data=data)
fig=plt.gcf()
fig.set_size_inches(5,3)
plt.show()

<details>
Peluang bertahan hidup untuk Port C tertinggi sekitar 0,55 sedangkan terendah untuk S.

Mari gabungkan fitur kategorikal lainnya ke variabel Embarked ini.
</details>

In [None]:
pd.crosstab([data.Embarked,data.Pclass],data.Survived,margins=True).style.background_gradient(cmap='summer_r')

In [None]:
f,ax=plt.subplots(1,2,figsize=(20,5))
sns.countplot('Embarked',hue='Survived',data=data,ax=ax[0])
ax[0].set_title('Embarked vs Survived')
sns.countplot('Embarked',hue='Pclass',data=data,ax=ax[1])
ax[1].set_title('Embarked vs Pclass')
plt.subplots_adjust(wspace=0.2,hspace=0.5)
plt.show()

<details>
Pengamatan:
1. Maksimal penumpang yang naik dari S. Mayoritas dari Pclass3.

2. Penumpang dari C terlihat beruntung karena sebagian besar dari mereka selamat. Alasan untuk ini mungkin penyelamatan semua Penumpang Pclass1 dan Pclass2.

3. Pelabuhan S adalah tempat mayoritas orang kaya naik. Peluang bertahan hidup masih rendah di sini, karena banyak penumpang dari Pclass3 sekitar 81% tidak selamat.

4. Pelabuhan Q memiliki hampir 95% penumpang berasal dari Pclass3.
    
</details>

#### Initial vs Survived

In [None]:
data

In [None]:
pd.crosstab(data.Initial,data.Survived,margins=True).style.background_gradient(cmap='summer_r')

In [None]:
sns.factorplot('Initial','Survived',data=data)
fig=plt.gcf()
fig.set_size_inches(5,3)
plt.show()

<details>
Hasilnya menunjukkan hasil yang serupa, inisial untuk wanita memiliki tingkat kelangsungan hidup yang lebih tinggi. Namun kami mendapat temuan baru, hal ini menunjukkan bahwa inisial untuk anak (master) memiliki tingkat kelangsungan hidup yang cukup tinggi.
</details>

### Numeric to Categorical

Seperti yang telah dijelaskan sebelumnya, kita dapat melakukan uji chi-squared untuk mengetahui signifikansi korelasi antara dua variabel kategori. 

Nah, jika kita ingin menguji korelasi antara variabel kategorikal dan numerik, kita dapat melakukan uji ANNOVA.

Kali ini kita hanya akan menitikberatkan pengamatan korelasi berdasarkan analisis visual. Untuk melakukannya, kita dapat membuat boxplot/histogram/distplot yang dikelompokkan serta plot biola untuk menunjukkan distribusi kuantitatif yang berbeda di antara setiap kategori.

#### Anova Test

In [None]:
# Defining a function to find the statistical relationship with all the categorical variables
def FunctionAnova(inpData, TargetVariable, ContinuousPredictorList):
    from scipy.stats import f_oneway

    # Creating an empty list of final selected predictors
    SelectedPredictors=[]
    
    for predictor in ContinuousPredictorList:
        CategoryGroupLists=inpData.groupby(TargetVariable)[predictor].apply(list)
        AnovaResults = f_oneway(*CategoryGroupLists)
        
        # If the ANOVA P-Value is <0.05, that means we reject H0
        if (AnovaResults[1] < 0.05):
            print(predictor, 'is correlated with', TargetVariable, '| P-Value:', AnovaResults[1])
            SelectedPredictors.append(predictor)
        else:
            print(predictor, 'is NOT correlated with', TargetVariable, '| P-Value:', AnovaResults[1])
    
    return(SelectedPredictors)

In [None]:
FunctionAnova(inpData=data, TargetVariable='Survived', ContinuousPredictorList=['Age','Fare'])

#### Age and Initial

In [None]:
sns.boxplot(x='Initial', y='Age', data=data)

In [None]:
from scipy.stats import f_oneway

grp = data.groupby("Pclass").groups
f_oneway(data.Age[grp[1]], data.Age[grp[2]], data.Age[grp[3]])


<details>
Kita dapat melihat dari boxplot bahwa Master adalah inisial untuk anak dan miss adalah inisial untuk orang yang lebih muda (mungkin wanita)
</details>

In [None]:
sns.countplot('Initial',hue='Sex',data=data)

<details>
Kita dapat menggunakan info korelasi ini untuk memasukkan nilai yang hilang di kolom Age. Kita akan menggunakan nilai rata-rata usia dari setiap kelompok Initial.
</details>

In [None]:
map_dict = data.groupby('Initial')['Age'].mean().round().to_dict()
print(map_dict)

for initial in map_dict.keys():
    data.loc[(data.Age.isnull())&(data.Initial==initial),'Age']=map_dict[initial]

data.Age.isnull().any()

In [None]:
data

In [None]:
data.apply(lambda x: map_dict[x.Initial], axis=1)

# data.Age.isna().sum()

In [None]:
data.Age[888]

#### Age and Survived

In [None]:
sns.boxplot(x='Survived', y='Age', data=data)

In [None]:
target_0 = data.loc[data['Survived'] == 0]
target_1 = data.loc[data['Survived'] == 1]

sns.distplot(target_0[['Age']], hist=False, rug=True)
sns.distplot(target_1[['Age']], hist=False, rug=True)


<details>
Kita tidak dapat menyimpulkan korelasi apapun antara Age dan Survived.

Kita dapat melihat dari distplot bahwa seorang anak usia sampai 10 tahun, memiliki tingkat kelangsungan hidup yang lebih tinggi daripada orang lain yang lebih tua dari mereka. Hal ini ditunjukkan dengan garis distribusi merah yang lebih tinggi pada rentang usia tersebut. Kita bisa membuat fitur baru untuk menandai orang sebagai anak <= 10 tahun.

</details>

#### Fare and Survived

In [None]:
sns.boxplot(x='Survived', y='Fare', data=data)

In [None]:
target_0 = data.loc[(data['Survived'] == 0) & (data['Pclass'] == 1)]
target_1 = data.loc[(data['Survived'] == 0) & (data['Pclass'] == 2)]
target_2 = data.loc[(data['Survived'] == 0) & (data['Pclass'] == 3)]
target_3 = data.loc[(data['Survived'] == 1) & (data['Pclass'] == 1)]
target_4 = data.loc[(data['Survived'] == 1) & (data['Pclass'] == 2)]
target_5 = data.loc[(data['Survived'] == 1) & (data['Pclass'] == 3)]


f,ax=plt.subplots(1,3,figsize=(20,5),sharey=True)
sns.distplot(target_0[['Fare']], hist=False, rug=True, ax=ax[0])
# ax[0,0].set_title('Pclass 1 Not Survive')
sns.distplot(target_1[['Fare']], hist=False, rug=True, ax=ax[1])
# ax[0,1].set_title('Pclass 2 Not Survive')
sns.distplot(target_2[['Fare']], hist=False, rug=True, ax=ax[2])
# ax[0,2].set_title('Pclass 2 Not Survive')
sns.distplot(target_3[['Fare']], hist=False, rug=True, ax=ax[0])
# ax[1,0].set_title('Pclass 1 Survive')
sns.distplot(target_4[['Fare']], hist=False, rug=True, ax=ax[1])
# ax[1,1].set_title('Pclass 2 Survive')
sns.distplot(target_5[['Fare']], hist=False, rug=True, ax=ax[2])
# ax[1,2].set_title('Pclass 3 Survive')
plt.subplots_adjust(wspace=0.2,hspace=0.5)
plt.show()

<details>
Semakin tinggi Fare, semakin selamat, seperti yang dapat dilihat pada kepadatan garis merah yang lebih tinggi saat Fare menjadi lebih tinggi. Seperti yang kita ketahui sebelumnya, PClass 1 adalah kelas yang paling mahal dan PClass 3 adalah tiket kelas yang paling rendah.
</details>


#### SibSp and Survived
Fitur ini menunjukkan apakah seseorang sendirian atau bersama anggota keluarganya. Saudara = saudara laki-laki, saudara perempuan, saudara tiri, saudara tiri Pasangan = suami, istri

meskipun variabel ini merupakan variabel numerik diskrit, kita dapat melakukan analisis visual yang sama dengan plot faktor karena variabel ini memiliki rentang nilai yang kecil

In [None]:
sns.factorplot('SibSp','Survived', data=data)

<details>
Factor plot menunjukkan bahwa jika penumpang sendirian di dalam pesawat tanpa saudara kandung, dia memiliki tingkat Survival 34,5%. Grafiknya secara kasar menurun jika jumlah saudara kandung bertambah. Ini masuk akal. Artinya, jika saya memiliki keluarga di kapal, saya akan mencoba menyelamatkan mereka daripada menyelamatkan diri saya terlebih dahulu. Yang mengejutkan, kelangsungan hidup keluarga dengan 5-8 anggota adalah 0%. Alasannya mungkin Pclass??
</details>

In [None]:
pd.crosstab([data.Pclass,data.Survived],data.SibSp).style.background_gradient(cmap='summer_r')

<details>Alasannya adalah Pclass. Crosstab menunjukkan bahwa Orang dengan SibSp> 3 semuanya ada di Pclass3. Hampir semua keluarga besar di Pclass3(>3) mati.</details>

#### Parch and Survived

In [None]:
sns.factorplot('Parch','Survived',data=data,ax=ax[1])
plt.show()

<details>
Di sini juga hasilnya sangat mirip. Penumpang dengan orang tua/anak mereka di dalam pesawat memiliki peluang lebih besar untuk bertahan hidup. Namun berkurang seiring dengan bertambahnya jumlah.

Peluang bertahan hidup baik untuk seseorang yang memiliki 1-3 orang tua/anak di kapal. Sendirian juga terbukti berakibat fatal dan peluang untuk bertahan hidup berkurang ketika seseorang memiliki > 4 orang tua / anak di kapal.
</details>

#### Parch + SibSp

In [None]:
data['SibPar'] = data['SibSp'] + data['Parch']
sns.factorplot('SibPar','Survived',data=data,ax=ax[1])
plt.show()

### Two Numerical

Contingency tables are useful when both variables are qualitative, whereas if we want to show correlation between Scatter two quantitative varible, scatter plot is proven to be effective.

Graphs are nice, but if we need a numerical indicator that can tell us whether our variables are correlated, we need a statistical approach to do so. As the other pairs of variable type, we can use the Pearson’s correlation coefficient to shows us how high the correlation between the two variables.

Strong correlation?

![](http://www.uow.edu.au/content/groups/public/@web/@stsv/documents/mm/uow153493.gif)

In [None]:
sns.heatmap(data.corr(),annot=True,cmap='RdYlGn',linewidths=0.2) #data.corr()-->correlation matrix
fig=plt.gcf()
fig.set_size_inches(10,8)
plt.show()

<details>Interpreting The Heatmap
Hal pertama yang perlu diperhatikan adalah bahwa hanya fitur numerik yang dibandingkan karena jelas bahwa kita tidak dapat menghubungkan antara abjad atau string. Sebelum memahami plot, mari kita lihat apa sebenarnya korelasi itu.

**KORELASI POSITIF**: Jika peningkatan fitur A menyebabkan peningkatan fitur B, maka mereka berkorelasi positif. Nilai 1 berarti korelasi positif sempurna.

**KORELASI NEGATIF**: Jika peningkatan fitur A menyebabkan penurunan fitur B, maka mereka berkorelasi negatif. Nilai -1 berarti korelasi negatif sempurna.

Sekarang katakanlah dua fitur berkorelasi tinggi atau sempurna, jadi peningkatan di satu fitur mengarah ke peningkatan di fitur lainnya. Ini berarti bahwa kedua fitur tersebut mengandung informasi yang sangat mirip dan sangat sedikit atau tidak ada perbedaan informasi. Ini dikenal sebagai MultiColinearity karena keduanya berisi informasi yang hampir sama.

Jadi menurut Anda kita harus menggunakan keduanya karena salah satunya berlebihan. Saat membuat atau melatih model, kita harus mencoba menghilangkan fitur yang berlebihan karena mengurangi waktu pelatihan dan banyak keuntungan lainnya.

Sekarang dari peta panas di atas, kita dapat melihat bahwa fitur-fiturnya tidak banyak berkorelasi. Korelasi tertinggi antara SibSp dan Parch yaitu 0,41.
</details>

### Observations in a Nutshell for all features:

<br/>
<br/>
<details>

**Sex**: Peluang bertahan hidup bagi perempuan lebih tinggi dibandingkan dengan laki-laki.

**Pclass**: Ada tren yang terlihat bahwa menjadi penumpang kelas 1 memberi Anda peluang bertahan hidup yang lebih baik. Tingkat kelangsungan hidup untuk Pclass3 sangat rendah. Bagi wanita, peluang bertahan hidup dari Pclass1 hampir 1 dan juga tinggi bagi mereka yang berasal dari Pclass2. Money wins !!!.

**Age**: Anak-anak yang berusia kurang dari 5-10 tahun memang memiliki peluang bertahan hidup yang tinggi. Penumpang antara kelompok usia 15 sampai 35 meninggal banyak.

**Embarked**: Peluang bertahan hidup di C terlihat lebih baik daripada meskipun mayoritas penumpang Pclass1 bangun di S. Penumpang di Q semuanya dari Pclass3.

**Parch+SibSp**: Memiliki 1-2 saudara kandung, pasangan di kapal atau 1-3 Orang tua menunjukkan kemungkinan lebih besar daripada sendirian atau memiliki keluarga besar yang bepergian dengan Anda.
    
</details>

## Multivariate Analysis

Mutivariate analisis adalah analisis terhadap hubungan antara 3 atau lebih label dalam waktu bersamaan.

Sebagaimana grafik-grafik sebelumnya, mudah bagi kita untuk membuat grafik 2 dimensi dengan sumbu vertikal dan horisontal. Pada analisis 3 dimensi, kita dapat membuat visualisasi, namun visualisasi tersebut lebih sulit dipahami dibanding visualisasi 2 dimensi. Bagaimana dengan 4 dimensi atau lebih? lebih sulit lagi apabila menggunakan visualisasi. Dalam statistik, terdapat teknik yang dapat digunakan untuk melakukan analisis pada data dengan banyak dimensi. Teknik ini juga  dapat digunakan untuk mengurangi jumlah dimensi data agar memudahkan untuk dianalisis.

**Dimensionality reduction Technique - Principal Component Analysis (PCA)<br>**
PCA merupakan teknik yang digunakan untuk menyederhanakan suatu data, dengan cara mentransformasi data secara linier. PCA dapat digunakan untuk mereduksi dimensi suatu data tanpa mengurangi karakteristik data tersebut secara signifikan. Apabila kita menggunakan PCA, dapat dianalisis apakah manfaat menyederhanakan data lebih besar daripada kehilangan informasi.

In [None]:
data

In [None]:
#Mengisi data kosong pada Embarked
data['Embarked'] = data['Embarked'].fillna('S')

#Mengubah kategori menjadi angka
data['Sex'] = data.Sex.map({'male':0,'female':1})

#Mengubah kategori menjadi angka
from sklearn.preprocessing import OneHotEncoder
embEncoder = OneHotEncoder()

#melakukan preprocessing pada Embarked
transformed = embEncoder.fit_transform(data.Embarked.to_numpy().reshape(-1,1))
ohe_df = pd.DataFrame(transformed.toarray(), columns=embEncoder.get_feature_names()).iloc[:,:-1]
data = pd.concat([data, ohe_df], axis=1).drop(['Embarked'], axis=1)
data.head()

In [None]:
#melakukan preprocessing pada Inital
intEncoder = OneHotEncoder()
transformed = intEncoder.fit_transform(data.Initial.to_numpy().reshape(-1,1))
ohe_df = pd.DataFrame(transformed.toarray(), columns=intEncoder.get_feature_names()).iloc[:,:-1]
data = pd.concat([data, ohe_df], axis=1).drop(['Initial'], axis=1)
data.head()

In [None]:
#Fitur numerik menjadi skala
from sklearn.preprocessing import MinMaxScaler

minMax = MinMaxScaler()
data['Age'] = minMax.fit_transform(data.Age.to_numpy().reshape(-1,1))
data['Fare'] = minMax.fit_transform(data.Fare.to_numpy().reshape(-1,1))
data.head()

In [None]:
from sklearn.decomposition import PCA

try_pca = PCA().fit(data.iloc[:,1:])
plt.plot(np.cumsum(try_pca.explained_variance_ratio_))
plt.xlabel('number of components')
plt.ylabel('cumulative explained variance')

In [None]:
#PCA 2 komponen
pca_obj = PCA(n_components=2)
hasil = pca_obj.fit_transform(data.iloc[:,1:])
hasil_pca2 = pd.concat([pd.DataFrame(hasil,columns=['Pca1','Pca2']),data['Survived']], axis = 1)
hasil_pca2.head()

In [None]:
plt.scatter(hasil_pca2['Pca1'], hasil_pca2['Pca2'],
            c=hasil_pca2['Survived'], edgecolor='none', alpha=0.5,
            cmap=plt.cm.get_cmap('inferno', 2))
plt.xlabel('component 1')
plt.ylabel('component 2')
plt.colorbar();

In [None]:
#PCA 3 komponen
pca_obj = PCA(n_components=3)
hasil = pca_obj.fit_transform(data.iloc[:,1:])
hasil_pca3 = pd.concat([pd.DataFrame(hasil,columns=['Pca1','Pca2','Pca3']),data['Survived']], axis = 1)
hasil_pca3.head()

In [None]:
from matplotlib import pyplot
from mpl_toolkits.mplot3d import Axes3D

fig = pyplot.figure(figsize=(10,6))
ax = Axes3D(fig)

ax.scatter(hasil_pca3['Pca1'], hasil_pca3['Pca2'], hasil_pca3['Pca3'],c=hasil_pca3['Survived'])
pyplot.show()

In [None]:
# The loading vectors
pca_loadings = pd.DataFrame(PCA(n_components=2).fit(data.iloc[:,1:]).components_.T, index=data.iloc[:,1:].columns, columns=['V1', 'V2'])
pca_loadings