# Tugas Pendahuluan
Tugas Pendahuluan dikerjakan dengan dataset titanic yang dapat didownload pada link [berikut](https://drive.google.com/file/d/16j_9FEHLjh_Y_3CdUtp9M13VwImyT89T/view?usp=sharing). Lakukan prediksi apakah suatu penumpang selamat atau tidak (kolom **survived**), bernilai 0 jika tidak selamat, dan 1 jika selamat.

<br>
Tugas dikerjakan secara berkelompok, dengan 1 kelompok terdiri atas 2 mahasiswa. Waktu pengerjaan dari 28 Maret 2022 - 3 April 2022 pukul 23.59.

# 0. Loading Data and Library

In [33]:
# Put your library here

import pandas as pd
from pandas.api.types import is_numeric_dtype

In [5]:
# Read data here

# Load titanic dataset
df_raw = pd.read_csv("titanic_dataset.csv")
df = df_raw.copy()

In [18]:
df.iloc[5]

index                                   5
pclass                                1.0
survived                              1.0
name        Chambers, Mr. Norman Campbell
sex                                  male
age                                  27.0
sibsp                                 1.0
parch                                 0.0
ticket                             113806
fare                                 53.1
cabin                                  E8
embarked                                S
Name: 5, dtype: object

# I. Data Understanding
Tujuan dari bagian ini adalah peserta dapat memahami kualitas dari data yang diberikan. Hal ini meliputi:
1. Ukuran data
2. Statistik dari tiap fitur
3. Pencilan (outlier)
4. Korelasi
5. Distribusi 

## I.1 
Carilah:
1. Ukuran dari data (instances dan features)
2. Tipe dari tiap-tiap fitur 
3. Banyaknya unique values dari fitur yang bertipe kategorikal
4. Nilai minimum, maksimum, rata-rata, median, dan standar deviasi dari fitur yang tidak bertipe kategorikal

In [61]:
# I.1 Put your code here

df.describe()

Unnamed: 0,index,pclass,survived,age,sibsp,parch,fare
count,1309.0,1309.0,1309.0,1046.0,1309.0,1309.0,1308.0
mean,654.0,2.294882,0.381971,29.881135,0.498854,0.385027,33.295479
std,378.020061,0.837836,0.486055,14.4135,1.041658,0.86556,51.758668
min,0.0,1.0,0.0,0.1667,0.0,0.0,0.0
25%,327.0,2.0,0.0,21.0,0.0,0.0,7.8958
50%,654.0,3.0,0.0,28.0,0.0,0.0,14.4542
75%,981.0,3.0,1.0,39.0,1.0,0.0,31.275
max,1308.0,3.0,1.0,80.0,8.0,9.0,512.3292


## I.2
Carilah:
1. Missing values dari tiap fitur
2. Outliers dari tiap fitur (gunakan metode yang kalian ketahui)

In [60]:
# I.2 Put your code here

print("1. Missing values dari tiap fitur\n")

for column in df.columns[1:]:
    if (column != "survived"):
        print("• "+column+str(": ")+str(len(df[df[column].isna()])))

print("\n", df[df.isna().any(axis=1)])

print("\n\n2. Outliers dari tiap fitur")

for column in df.columns[1:]:
    if (is_numeric_dtype(df[column]) and column != "survived"):
        print("\n• "+column+str(":"))
        q1 = df[column].quantile(0.25)
        q3 = df[column].quantile(0.75)
        iqr = q3-q1
        lower_bound = 2.5*q1-1.5*q3
        upper_bound = 2.5*q3-1.5*q1
        outliers = df.loc[(df[column]<lower_bound) | (df[column]>upper_bound), [column]]
        print("\t- Lower bound: "+str(lower_bound))
        print("\t- Upper bound: "+str(upper_bound)+"\n")
        if (len(outliers) == 0):
            print("\t  No outliers")
        else:
            print(str(outliers))
            print("Jumlah: "+str(len(outliers)))

1. Missing values dari tiap fitur

• pclass: 0
• name: 0
• sex: 0
• age: 263
• sibsp: 0
• parch: 0
• ticket: 0
• fare: 1
• cabin: 1014
• embarked: 2

       index  pclass  survived                                          name  \
0         0     3.0       1.0                   Abelseth, Miss. Karen Marie   
1         1     3.0       0.0                       Burns, Miss. Mary Delia   
3         3     3.0       1.0  de Messemaeker, Mrs. Guillaume Joseph (Emma)   
4         4     3.0       0.0                     Jonsson, Mr. Nils Hilding   
6         6     2.0       0.0                           Enander, Mr. Ingvar   
...     ...     ...       ...                                           ...   
1301   1301     3.0       0.0              Gronnestad, Mr. Daniel Danielsen   
1302   1302     3.0       1.0                     Madsen, Mr. Fridtjof Arne   
1304   1304     3.0       1.0                         Dahl, Mr. Karl Edwart   
1307   1307     3.0       1.0                Murphy, Miss. 

## I.3
Carilah:
1. Korelasi antar fitur
2. Visualisasikan distribusi dari tiap fitur (kategorikal dan kontinu)
3. Visualisasikan distribusi dari tiap fitur, dengan data dibagi tiap unique values fitur survived

In [None]:
# I.3 Put your code here

## I.4
Lakukanlah analisa pada data lebih lanjut jika dibutuhkan, kemudian lakukanlah:
1. Penambahan fitur jika memungkinkan
2. Pembuangan fitur yang menurut kalian tidak dibutuhkan
3. Penanganan missing values
4. Transformasi data kategorikal menjadi numerikal (encoding), dengan metode yang kalian inginkan
5. Lakukan scaling dengan MinMaxScaler

In [103]:
# I.4 Put your code here

data = {}

# Karena sebutan honorifik menandai status, maka dapat dijadikan fitur
title_count = {}

use_columns = ['pclass', 'survived', 'last_name', 'title', 'sex', 'age', 'sibsp', 'parch', 'ticket_code', 'ticket_num', 'fare', 'embarked']

for col in use_columns:
    data[col] = []
    
# investigasi fitur tambahan
for value in df.iloc:
    name = value['name']
    ticket = value['ticket']
    
    # memproses title dan last name
    commaIdx = name.find(", ")
    dotIdx = name.find(". ", commaIdx)
    title = name[commaIdx+2:dotIdx]
    last_name = name[:commaIdx]
    if (title not in title_count):
        title_count[title] = 1
    else:
        title_count[title] += 1
    
    # memproses tiket
    ticket_sep = ticket[::-1].find(" ")
    if (ticket_sep != -1):
        ticket_sep = len(ticket)-ticket_sep
        ticket_num = int(ticket[ticket_sep:])
        ticket_code = ticket[:ticket_sep].replace(".", "").replace(" ", "")
    else:
        if (ticket == "LINE"):
            ticket_code = "LINE"
            ticket_num = -1
        else:
            ticket_code = "NULLCODE"
            ticket_num = int(ticket)

# Data understanding kolom title count
print("Title count:")
for title in title_count:
    print("• "+title+": "+str(title_count[title]))

# Untuk memudahkan, beberapa sebutan digabung, terutama sebutan wanita menjadi Mrs dan Miss, sesuai
# https://newrepublic.com/article/119432/history-female-titles-mistress-miss-mrs-or-ms
titles = {'Miss': 'Miss', 'Mrs': 'Mrs', 'Mr': 'Mr', 'Master': 'Master', 'Dr': 'Other', 'Rev': 'Other', 'Don': 'Other', 'Col': 'Army', 'Mme': 'Mrs', 'Capt': 'Army', 'Sir': 'Other', 'Ms': 'Mrs', 'the Countess': 'Nobility', 'Dona': 'Other', 'Mlle': 'Miss', 'Major': 'Army', 'Lady': 'Nobility', 'Jonkheer': 'Other'}


348125
330963
19950
345572
350408
113806
236854
3101311 | SOTON/OQ
17598 | PC
33111 | CA
6607 | W/C
12749
17453
2676
21332
17582 | PC
54636
17421
1601
17593 | PC
376566
17765
2678
342684
4001 | C
2144 | CA
244252
110413
28665
250646
2658
349910
347464
17569 | PC
17582 | PC
12749
371110
239854
8475
29105
3101309 | SOTON/OQ
29103
17756 | PC
349909
2647
350035
113787
2627
33638
349238
3101312 | SOTON/OQ
350053
39886 | A/4
17608 | PC
347088
382652
28664
371110
6609 | W/C
243847
243847
17755 | PC
233478
349221
345779
17594 | PC
2696
17474
2 | SO/PP
2671
220845
345764
345765
237789
21171 | A/5
349247
368702
19996
2686
113806
11751
330979
244361
248734
17612 | PC
12749
17599 | PC
237736
21440
329944
347080
3101292 | STON/O2
112277
2861 | SC/A3
19943
330972
9549 | PP
349228
382652
34050 | CA
36967
2651
11767
4133
349206
350045
LINE
2680
35273
349241
347082
372622
13502
17761 | PC
31030 | CA
2654
2661
19950
349222
2695
3464 | SP
347077
17473 | PC
3101317 | SOTON/OQ
26360
349234
17597 | PC
39208

29106
2678
347082
111163
364846
350048
2817 | A/5
29108
113059
1601
315153
17606 | PC
347076
370373
349254
3101295
34644 | CA
315095
364511
113784
110564
237442
2149 | SC/PARIS
31416 | A/4
29566 | CA
14888 | SC
315098
24160
2673 | CA
2669
17562 | PC
19972
347069
349242
65306
1601
36864
7077 | C
315084
350047
35281
236852
29106
29105
113792
349249
349218
17600 | PC
11767
2314 | CA
3101270 | STON/O2
2343 | CA
29107
3101295
349240
345764
111361
371362
110813
17608 | PC
11774
28220
349207
113786
27042
347078
349231
349201
2653
113807
244368
3101277
2652
5734 | WEP
3101293 | STON/O2
315092
5547 | CA
345763
34068 | CA/SOTON
349227
350026
17757 | PC
2655
248726
330923
13049
36928
3101264
112051
349230
36928
347061
370377
16966
3101307 | SOTON/OQ
2625
2003
36947
752 | SO/PP
14208 | W/C
8471
17369 | C
17757 | PC
7598
17758 | PC
230136
367230
2343 | CA
Title count:
• Miss: 260
• Mrs: 197
• Mr: 757
• Master: 61
• Dr: 8
• Rev: 8
• Don: 1
• Col: 4
• Mme: 1
• Capt: 1
• Sir: 1
• Ms: 2
• the Countess:

# II. Experiments Design
Tujuan dari bagian ini adalah peserta dapat memahami cara melakukan eksperimen mencari metode terbaik dengan benar. Hal ini meliputi:
1. Pembuatan model
2. Proses validasi
3. Hyperparameter tuning

## II.1
Tentukanlah metrics yang akan digunakan pada eksperimen kali ini (dapat lebih dari 1 metric)

Put your answer for section II.1 here

## II.2 
Bagi data dengan perbandingan 0.8 untuk data train dan 0.2 untuk data validasi

In [None]:
# II.2 Put your code here

## II.3
Lakukanlah:
1. Prediksi dengan menggunakan model Logistic Regression sebagai *baseline*
2. Tampilkan evaluasi dari model yang dibangun dari metrics yang anda tentukan pada II.1
3. Tampilkan confusion matrix

In [None]:
# II.3 Put your code here

## II.4 
Lakukanlah:
1. Pembelajaran dengan model lain
2. Hyperparameter tuning model yang kalian pakai dengan menggunakan Grid Search (perhatikan random factor pada beberapa algoritma model)
3. Lakukan validasi dengan menggunakan cross validation


In [None]:
# II.4 Put your code here

# III. Improvement
Terdapat beberapa metode untuk melakukan peningkatan performa, contohnya adalah:
1. Melakukan oversampling / undersampling pada data
2. Menggabungkan beberapa model 

Pada bagian ini, kalian diharapkan dapat:
1. Melakukan training dengan data hasil oversampling / undersampling dan melakukan validasi dengan benar
2. Memahami beberapa metode untuk menggabungkan beberapa model

## III.1
Lakukanlah:
1. Oversampling pada kelas minoritas pada data train, kemudian train dengan model *baseline* (II.3), lakukan validasi dengan data validasi. Data train dan validasi adalah data yang kalian bagi pada bagian II.2
2. Undersampling pada kelas mayoritas pada data train, kemudian train dengan model *baseline* (II.3) lakukan validasi dengan data validasi. Data train dan validasi adalah data yang kalian bagi pada bagian II.2

In [None]:
# III.1 Put your code here

## III.2
Lakukanlah:
1. Eksplorasi soft voting, hard voting, dan stacking
2. Buatlah model Logistic Regression dan SVM (boleh menggunakan model dengan beberapa parameter yang berbeda)
3. Lakukanlah soft voting dari model-model yang sudah kalian buat pada poin 2
4. Lakukan hard voting dari model-model yang sudah kalian buat pada poin 2
5. Lakukanlah stacking dengan final classifier adalah Logistic Regression dari model-model yang sudah kalian buat pada poin 2
6. Lakukan validasi dengan metrics yang kalian tentukan untuk poin 3, 4, dan 5

Put your answer for section III.2 point 1 here

In [None]:
# III.2 Put your code here

# IV. Analisis
Bandingkan hasil dari:
1. Model Baseline (II.3)
2. Model lain (II.4)
3. Hasil undersampling
4. Hasil oversampling
5. Hasil soft voting
6. Hasil hard voting
7. Hasil stacking 

Put your answer for section IV here