# Pendahuluan

In [1]:
# Feature Engineering

# Feature Engineering adalah proses dimana kita menerapkan pengetahuan yang kita punya untuk mendapatkan informasi yang lebih dari data yang kita punya. 
# Contohnya dari KTP seseorang, 
# Anda sebenarnya dapat mendapatkan domisili pembuatan KTP, tanggal lahir, usia, dan jenis kelamin. 
# Anda dapat menggolongkan orang-orang dengan kategori yang sama untuk membuat machine learning lebih mudah membedakan ciri orang.

In [2]:
# Dataset yang digunakan

# Di pembahasan kali ini, kita menggunakan dataset titanic yang sangat terkenal dan sering digunakan. 
# Dataset ini berasal dari Kaggle, salah satu situs kompetisi machine learning. 
# Dataset ini terdiri dari 2 file, titanic_train.csv dan titanic_test.csv.

# Untuk lebih mudah mengenali data ini, kita akan langsung memulai praktek untuk meng-eksplor data dengan Python.

In [3]:
# Import Library yang digunakan

# Import library python biasanya dilakukan di awal sebuah projek. Library yang kita akan gunakan antara lain:
# pandas untuk proses dataframe dan csv
# matplotlib untuk plotting grafik
# seaborn untuk plotting grafik
# sklearn untuk machine learning model
# string untuk proses string

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style="darkgrid")
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import OneHotEncoder, LabelEncoder, StandardScaler
from sklearn.metrics import roc_curve, auc
from sklearn.model_selection import StratifiedKFold

import string
import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning)

In [4]:
# Import Data Set dan Concat Data Frame

# Dataset ini adalah dataset Titanic asli yang didapatkan dari Kaggle. 
# Berisi data dari semua orang yang ikut di dalam Kapal Titanic ratusan tahun yang lalu.

# Jadi, di dalam dataset ini kita mempunyai target variable/label yaitu Survived. 
# Semua kolom/fitur lain akan digunakan untuk menentukkan apakah penumpang ini selamat/tidak dari kejadian Titanic.

# Data Train digunakan untuk melatih model machine learning kita. 
# Data Test nantinya digunakan untuk menebak akurasi model kita di Kaggle.

# Pada bagian ini, akan dijelakan untuk melakukan membaca data dari file csv dan melakukan concat dataframe dengan membuat sebuah fungsi.

# 1. Buat Function concat_df digunakan untuk menggabungkan dua dataset/dataframe dari 2 csv menjadi satu dataframe.
def concat_df(train_data, test_data):
    # Returns a concatenated df of training and test set
    return pd.concat([train_data, test_data], sort=True).reset_index(drop=True)

# 2. Untuk memasukkan csv ke dalam Pandas Dataframe, kita harus menggunakan pd.read_csv()
# Data train kita masukkan ke df_train dan Data test kita masukkan ke df_test. df_all adalah gabungan dari kedua dataframe.
df_train = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/challenge/feature-engineering/titanic_train.csv')
df_test = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/challenge/feature-engineering/titanic_test.csv')
df_all = concat_df(df_train, df_test)

# 3. Kita dapat menamai tiap dataframe dengan memberikan "name" untuk masing-masing dataframe dengan cara :
df_train.name = 'Training Set'
df_test.name = 'Test Set'
df_all.name = 'All Set' 

# 4. dfs adalah list yang berisi kedua dataframe.
dfs = [df_train, df_test]

In [None]:
# Penjelasan dari dataset

# PassengerId adalah id pada row, maka tidak ada pengaruh terhadap target yang dicari
# Survived adalah target yang akan diprediksi, nilai 0 = Not Survived dan nilai 1 = Survived
# Pclass (Passenger Class) adalah kategori level sosial ekonomi penumpang dengan nilai (1, 2 atau 3):
# 1 = Upper Class
# 2 = Middle Class
# 3 = Lower Class
# Name, Sex dan Age merupakan data self-explanatory
# SibSp adalah jumlah saudara dari penumpang
# Parch adalah jumlah Orang Tua dan anak dari penumpang
# Ticket adalah jumlah tiket penumpang
# Fare adalah tarif yang di kenakan kepada penumpang
# Cabin adalah nomor kabin penumpang
# Embarked adalah pelabuhan pemberangkatan ada 3 pelabuhan (C, Q atau S):
# C = Cherbourg
# Q = Queenstown
# S = Southampton