## Feature Engineering
Feature Engineering adalah proses dimana kita menerapkan pengetahuan yang kita punya untuk mendapatkan informasi yang lebih dari data yang kita punya. Contohnya dari KTP seseorang, anda sebenarnya dapat mendapatkan domisili, pembuatan KTP, tanggal lahir, usia, dan jenis kelamin. Anda dapat menggolongkan orang-orang dengan kategori yang sama untuk membuat machine learning lebih mudah membedakan ciri orang.



## Dataset yang digunakan
Di pembahasan kali ini saya menggunakan dataset titanic yang sangat terkenal dan sering digunakan. Dataset ini berasal dari Kaggle, salah satu situs kompetisi machine learning. Dataset ini terdiri dari 2 file, titanic_train.csv dan titanic_test.csv.

Untuk lebih mudah mengenali data ini, kita akan langsung memulai praktek untuk meng-eksplor data dengan Python.


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style='darkgrid')
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import OneHotEncoder, LabelEncoder, StandardScaler
from sklearn.metrics import roc_curve, auc
from sklearn.model_selection import StratifiedKFold

import string
import warnings
warnings.filterwarnings('ignore', category=DeprecationWarning)

## Import Data Set dan Concat Data Frame
Dataset ini adalah dataset Titanic asli yang didapatkan dari Kaggle. Berisi data dari semua orang yang ikut di dalam Kapal Titanic ratusan tahun yang lalu.

Jadi, di dalam dataset ini kita mempunyai target variable/label yaitu Survived. Semua kolom/fitur lain akan digunakan untuk menentukkan apakah penumpang ini selamat/tidak dari kejadian Titanic.

Data Train digunakan untuk melatih model machine learning kita. Data Test nantinya digunakan untuk menebak akurasi model kita di Kaggle.

Pada penjelasan ini teman-teman akan dijelakan untuk melakukan membaca data dari file csv dan melakukan concat dataframe dengan membuat sebuah fungsi.

1. Buat Function concat_df digunakan untuk menggabungkan dua dataset/dataframe dari 2 csv menjadi satu dataframe

![image.png](attachment:image.png)

2. Untuk memasukkan csv ke dalam Pandas Dataframe, kita harus menggunakan pd.read_csv()
Data train kita masukkan ke df_train dan Data test kita masukkan ke df_test. df_all adalah gabungan dari kedua dataframe.

![image-2.png](attachment:image-2.png)

3. Kita dapat menamai tiap dataframe dengan memberikan "name" untuk masing-masing dataframe dengan cara

![image-3.png](attachment:image-3.png)

4. dfs adalah list yang berisi kedua dataframe.

![image-4.png](attachment:image-4.png)

 

Jalankan perintah-perintah di atas () dengan setiap bagian di berikan jarak baris dan  untuk melanjutkan ke bagian berikutnya.

In [None]:
import pandas as pd

def concat_df(train_data, test_data):
	return pd.concat([train_data, test_data], sort=True).reset_index(drop=True)

df_train = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/challenge/feature-engineering/titanic_train.csv')
df_test = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/challenge/feature-engineering/titanic_test.csv')
df_all = concat_df(df_train, df_test)

df_train.name = 'Training Set'
df_test.name = 'Test Set'
df_all.name = 'All set'

dfs = [df_train, df_test]

## Penjelasan dari dataset
- PassengerId adalah id pada row, maka tidak ada pengaruh terhadap target yang dicari
- Survived adalah target yang akan diprediksi, nilai 0 = Not Survived dan nilai 1 = Survived
- Pclass (Passenger Class) adalah kategori level sosial ekonomi penumpang dengan nilai (1, 2 atau 3):
    - 1 = Upper Class
    - 2 = Middle Class
    - 3 = Lower Class
- Name, Sex dan Age merupakan data self-explanatory
- SibSp adalah jumlah saudara dari penumpang
- Parch adalah jumlah Orang Tua dan anak dari penumpang
- Ticket adalah jumlah tiket penumpang
- Fare adalah tarif yang di kenakan kepada penumpang
- Cabin adalah nomor kabin penumpang
- Embarked adalah pelabuhan pemberangkatan ada 3 pelabuhan (C, Q atau S):
    - C = Cherbourg
    - Q = Queenstown
    - S = Southampton

## Exploring Data
Untuk mengetahui bentuk dari dataframe kita, berapa banyak row dan column yang ada di dalamnya, kita dapat menggunakan .shape.
contoh:

    df.shape #untuk mengeluarkan array yang berisi row dan column
    df.shape[0] #untuk mendapatkan row
    df.shape[1] #untuk mendapatkan column

1. Untuk bagian [...1...] isilah untuk mendapatkan jumlah row pada dataframe df_train 
2. Untuk bagian [...2...] isilah untuk mendapatkan jumlah row pada dataframe df_test 
3. Untuk bagian [...3...] isilah untuk mendapatkan jumlah row dan column pada dataframe df_train
4. Untuk bagian [...4...] isilah untuk mendapatkan jumlah row pada dataframe df_train pada column Survived
5. Untuk bagian [...5...] isilah untuk mendapatkan jumlah row dan column pada dataframe df_test
6. Untuk bagian [...6...] isilah untuk mendapatkan jumlah row pada dataframe df_test
7. Untuk bagian [...7...] isilah untuk mendapatkan column yang terdapat pada df_train dengan menggunakan .columns
8. Untuk bagian [...8...] isilah untuk mendapatkan column yang terdapat pada df_test dengan menggunakan .columns

Jalankan dan perhatikan hasil yang dikeluarkan, Submit untuk melanjukan konten berikutnya.

In [None]:
import pandas as pd

def concat_df(train_data, test_data):
	return pd.concat([train_data, test_data], sort=True).reset_index(drop=True)

df_train = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/challenge/feature-engineering/titanic_train.csv')
df_test = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/challenge/feature-engineering/titanic_test.csv')
df_all = concat_df(df_train, df_test)
df_train.name = 'Training Set'
df_test.name = 'Test Set'
df_all.name = 'All Set' 
dfs = [df_train, df_test]

print('Number of Training Examples = {}'.format([df_train.shape[0]]))
print('Number of Test Examples = {}\n'.format([df_test.shape[0]]))
print('Training X Shape = {}'.format([df_train.shape]))
print('Training y Shape = {}\n'.format([df_train['Survived'].shape[0]]))
print('Test X Shape = {}'.format([df_test.shape]))
print('Test y Shape = {}\n'.format([df_test.shape[0]]))
print([df_train.columns])
print([df_test.columns])

## Missing Value dan Contoh data
Salah satu cara untuk menemukan Missing value pada data Anda dapat menggunakan

.info(memory_usage=False)
Sekarang, Anda diminta untuk mengeluarkan missing value pada dataframe df_train. Bila dijalankan, maka mengeluarkan di bawah ini

![image.png](attachment:image.png)

Kita dapat melihat bahwa ada beberapa data yang kosong di kolom 'Embarked, 'Age', dan 'Cabin'

Untuk melihat bagian awal dari data Anda dapat menggunakan

.head(10)
Keluarkan 10 data awal pada dataframe df_train sehingga mengeluarkan:

![image-2.png](attachment:image-2.png)

In [None]:
import pandas as pd

def concat_df(train_data, test_data):
	return pd.concat([train_data, test_data], sort=True).reset_index(drop=True)

df_train = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/challenge/feature-engineering/titanic_train.csv')
df_test = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/challenge/feature-engineering/titanic_test.csv')
df_all = concat_df(df_train, df_test)
df_train.name = 'Training Set'
df_test.name = 'Test Set'
df_all.name = 'All Set' 
dfs = [df_train, df_test]

df_train.info(memory_usage=False)
print(df_train.head(10))

## Mengetahui Korelasi Fitur
Untuk mencari korelasi antar kolom pada sebuah dataframe, Anda dapat menggunakan corr().abs() seperti contoh penggunaannya di bawah ini:

    df.corr().abs()
   
Sekarang teman-teman diminta mencari korelasi pada df_train untuk mengisi bagian [...1...]

Pada konten selanjutnya akan menjelaskan hasil tersebut. 

In [None]:
import pandas as pd

def concat_df(train_data, test_data):
	return pd.concat([train_data, test_data], sort=True).reset_index(drop=True)

df_train = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/challenge/feature-engineering/titanic_train.csv')
df_test = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/challenge/feature-engineering/titanic_test.csv')
df_all = concat_df(df_train, df_test)
df_train.name = 'Training Set'
df_test.name = 'Test Set'
df_all.name = 'All Set' 
dfs = [df_train, df_test]

df_train_corr = df_train.corr().abs()
print(df_train_corr.to_string())

## Membaca hasil korelasi fitur
Pada konten sebelumnya, Anda sudah menjalankan perintah mendapatkan korelasi dan menghasilkan seperti di bawah ini:

![image.png](attachment:image.png)

Apabila Anda melihat table ini Anda akan mengetahui korelasi antar kolom. Korelasi dapat ditentukan dengan mendekati nilai 1 untuk korelasi positive dan nilai -1 untuk korelasi terbalik.

Pada data ini dapat dilihat bahwa target variable kita Survived sangat besar korelasinya dengan Pclass dan Fare. Sedangkan Age sangat berkaitan dengan Pclass, Sibling Spouse (SibSp), Parent Children (Parch).

Dapat diasumsikan bahwa kebanyakan orang yang selamat adalah orang dengan PClass atas dan Tuanya umur seseorang dapat dikatakan dia akan membawa saudara/orang tua/anak/pasangan.

Dan Fare (harga) tentu saja berkaitan dengan Pclass (kelas penumpang) seorang penumpang

## Mengenali missing data dari kolom
Perhatikan LiveCode terdapat function display_missing. Function tersebut digunakan untuk mengetahui jumlah missing value dari setiap kolom.

Untuk mengeluarkan hasil missing value Anda diminta untuk mengisi bagian [...1...] dengan dataframe df dan jalankan.

Hasilnya akan seperti di bawah ini

    Training Set
    PassengerId column missing values: 0
    Survived column missing values: 0
    Pclass column missing values: 0
    Name column missing values: 0
    Sex column missing values: 0
    Age column missing values: 177
    SibSp column missing values: 0
    Parch column missing values: 0
    Ticket column missing values: 0
    Fare column missing values: 0
    Cabin column missing values: 687
    Embarked column missing values: 2
    
    Test Set
    PassengerId column missing values: 0
    Pclass column missing values: 0
    Name column missing values: 0
    Sex column missing values: 0
    Age column missing values: 86
    SibSp column missing values: 0
    Parch column missing values: 0
    Ticket column missing values: 0
    Fare column missing values: 1
    Cabin column missing values: 327
    Embarked column missing values: 0

Dari hasil tersebut ada beberapa kolom masih terdapat nilai kosong seperti age, cabin, embarked pada dataframe training set.

In [None]:
import pandas as pd

def concat_df(train_data, test_data):
	return pd.concat([train_data, test_data], sort=True).reset_index(drop=True)

df_train = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/challenge/feature-engineering/titanic_train.csv')
df_test = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/challenge/feature-engineering/titanic_test.csv')
df_all = concat_df(df_train, df_test)
df_train.name = 'Training Set'
df_test.name = 'Test Set'
df_all.name = 'All Set' 

dfs = [df_train, df_test]

def display_missing(df):    
    for col in df.columns.tolist():          
        print('{} column missing values: {}'.format(col, df[col].isnull().sum()))
    print('\n')

for df in dfs:
    print('{}'.format(df.name))
    display_missing(df)

## Mencari nilai untuk missing value
Untuk mengisi data Age yang kosong, karena kita mengetahui bahwa Umur seseorang berkaitan dengan Kelas penumpangnya, kita dapat mengisinya dengan nilai tengah umur seseorang di dalam kelas tersebut dan berdasar jenis kelaminnya.

Jadi kita lakukan groupby terhadap Jenis Kelamin dan Kelas Penumpang, lalu isi nilai tersebut ke dalam missing value yang ada di dalam data kita.

Masukan perintah di bawah ini pada LiveCode

![image.png](attachment:image.png)

 

Hasilnya akan seperti di bawah ini:

    Median age of Pclass 1 females: 36.0
    Median age of Pclass 1 males: 42.0
    Median age of Pclass 2 females: 28.0
    Median age of Pclass 2 males: 29.5
    Median age of Pclass 3 females: 22.0
    Median age of Pclass 3 males: 25.0
    Median age of all passengers: 28.0

## Coding Challenge at SMKDEV

Jake is a very habitual person. He eats breakfast at 7:00 a.m. each morning, lunch at 12:00 p.m. and dinner at 7:00 p.m. in the evening.

Create a function that takes in the current time as a string and determines the duration of time before Jake’s next meal. Represent this as an array with the first and second elements representing hours and minutes, respectively.

Examples:

timeToEat('2:00 p.m.') -> [5, 0]
// 5 Hour until the next meal, dinner

timeToEat('5:50 a.m.') -> [1, 10]
// 1 Hour and 10 minutes until the next meal, breakfast

In [5]:
from datetime import datetime

def eat(current_time):
    schedule = {'Breakfast' : datetime.strptime('7:00 am', '%I:%M %p'),
               'Lunch' : datetime.strptime('12:00 pm', '%I:%M %p'),
               'Dinner' : datetime.strptime('7:00 pm', '%I:%M %p')}
    
    print(f'Time to Eat : {current_time}')

    current_time = datetime.strptime(current_time, '%I:M %p')
    
    if current_time < schedule['Breakfast']:
        next_meal = schedule['Breakfast'] - current_time
        
eat('2:50 pm')

Time to Eat : 2:50 pm


4:10:00


datetime.datetime(1900, 1, 1, 19, 0)

In [17]:
reakfast_time = datetime.strptime("7:00 pm", "%I:%M %p")
time = datetime.strptime('2:50 pm', '%I:%M %p')
nextm = reakfast_time - time
nextm.hour

AttributeError: 'datetime.timedelta' object has no attribute 'hour'