# Belajar Machine Learning: Penanganan Missing Values

## Dataset

### Importing pandas

In [None]:
import pandas as pd

### Memuat dataset sebagai pandas.DataFrame

Dataset yang di gunakan adalah Iowa Housing Dataset; dataset ini merupakan dataset
yang sifatnya public dan dapat digunakan untuk keperluan eksplorasi dan penelitian

In [None]:
housing_df = pd.read_csv('./dataset/iowa_data.csv')
housing_df.shape

### Menentukan target dan features

In [None]:
housing_df.columns

### SalePrice sebagai target

In [None]:
housing_df.dropna(axis=0, subset=['SalePrice'], inplace=True)
housing_df.shape

In [None]:
y = housing_df['SalePrice']
y.head()

### Hanya kolom numerik yang disertakan sebagai features

In [None]:
X = housing_df.drop(['SalePrice'], axis=1)
X = X.select_dtypes(exclude=['object'])
X.head()

### Menyisihkan sebagian dataset training sebagai dataset validation

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.8, test_size=0.2, random_state=0)

### Menampilkan dataset

In [None]:
X_train.head()

## Model

### Importing RandomForestRegressor

In [None]:
from sklearn.ensemble import RandomForestRegressor

### Mempersiapkan beberapa model dengan konfigurasi berbeda

In [None]:
model_rf = RandomForestRegressor(n_estimators=100, random_state=0)

### Fungsi untuk mengukur performa dari dataset terhadap model dengan MAE

In [None]:
from sklearn.metrics import mean_absolute_error

In [None]:
def score_dataset(X_train, X_test, y_train, y_test, model=model_rf):
    model.fit(X_train, y_train)
    y_hat = model.predict(X_test)
    return mean_absolute_error(y_test, y_hat)

## identifikasi Missing Values

### Dimensi dari trainig dataset

In [None]:
X_train.shape

### Kolom dengan missing values

In [None]:
na_cols = (X_train.isna().sum())
na_cols[na_cols > 0]

### Total jumlah baris (rows) dengan missing values

In [None]:
sum(na_cols[na_cols > 0])

## Penanganan Missing Values

Di sini kita akan mengenal beberapa cara yang dapat di tempuh untuk mengangani missing values pada dataset

### Cara 1: Drop kolom yang mengandung missing values

Cara pertama yang bisa kita lakukan untuk menangani missing value adalah dengan menyingkirkan kolom yang mengandung missing values

### Identifikasi kolom dengan missing values

In [None]:
cols_with_na = [col for col in X_train.columns if X_train[col].isna().any()]
cols_with_na

### Menyingkirkan Kolom dengan missing values

In [None]:
X_train_reduced = X_train.drop(cols_with_na, axis=1)
X_test_reduced = X_test.drop(cols_with_na, axis=1)

In [None]:
print(f'X_train: {X_train.shape} \t X_train_reduced: {X_train_reduced.shape}')

### Mengukur performa dataset X_train_reduced

In [None]:
score_dataset(X_train_reduced, X_test_reduced, y_train, y_test)

### Cara 2: Imputation missing values

### Importing SimpleImputer

In [None]:
from sklearn.impute import SimpleImputer

### Mempersiapkan SimpleImputer

In [None]:
my_inputer = SimpleImputer()
my_inputer.fit(X_train)

### Menerapkan SimpleImputer untuk menangani missing value

In [None]:
X_train_imputed = pd.DataFrame(my_inputer.transform(X_train))
X_test_imputed = pd.DataFrame(my_inputer.transform(X_test))

In [None]:
X_train_imputed.head()

### Mengenakan/Memasangkan kembali nama kolom pada dataset

In [None]:
X_train_imputed.columns = X_train.columns
X_test_imputed.columns = X_test.columns

In [None]:
X_train_imputed.head()

### Mengukur Performa dataset X_train_imputed

In [None]:
score_dataset(X_train_imputed, X_test_imputed, y_train, y_test)