In [3]:
import numpy as np
import pandas as pd

from copy import deepcopy
from sklearn.preprocessing import OneHotEncoder

In [4]:
from src.utils import deserialize_data

X_train = deserialize_data("data/interim/X_train.pkl")
y_train = deserialize_data("data/interim/y_train.pkl")

X_valid = deserialize_data("data/interim/X_valid.pkl")
y_valid = deserialize_data("data/interim/y_valid.pkl")

X_test = deserialize_data("data/interim/X_test.pkl")
y_test = deserialize_data("data/interim/y_test.pkl")

In [53]:
def drop_duplicate_data(X, y):
    """
    This function drops duplicated data from row X and y.
    
    Parameters
    -----------
    X : dataframe
        features of dataset
        
    y : series
        target of dataset

    Returns
    -------
    X : dataframe
        dropped duplicated data features of dataset
        
    y : dataframe
        dropped duplicated data target of dataset
    """
    
    if not isinstance(X, pd.DataFrame):
        raise TypeError("Fungsi median_imputation: parameter X haruslah bertipe DataFrame!")
    
    if not isinstance(y, pd.Series):
        raise TypeError("Fungsi median_imputation: parameter y haruslah bertipe DataFrame!")
    
    print(f"Fungis drop_duplicate_data telah divalidasi.")
    
    X = X.copy()
    y = y.copy()
    print(f"Fungsi drop_duplicate_data: shape dataset sebelum dropping duplicate adalah {X.shape}.")
    
    X_duplicate = X_train[X_train.duplicated()]
    print(f"Fungsi drop_duplicate_data: shape dari data yang duplicate adalah {X_duplicate.shape}.")

    X_clean = (X.shape[0] - X_duplicate.shape[0], X.shape[1])
    print(f"Fungsi drop_duplicate_data: shape dataset setelah drop duplicate seharusnya adalah {X_clean}.")
    
    X.drop_duplicates(inplace=True)
    y = y[X.index]
    
    print(f"Fungsi drop_duplicate_data: shape dataset setelah dropping duplicate adalah {X.shape}.")
    
    return X, y

Fungsi drop_duplicate_data: shape dataset sebelum dropping duplicate adalah (25946, 11).
Fungsi drop_duplicate_data: shape dari data yang duplicate adalah (0, 11).
Fungsi drop_duplicate_data: shape dataset setelah drop duplicate seharusnya adalah (25946, 11).
Fungsi drop_duplicate_data: shape dataset setelah dropping duplicate adalah (25946, 11).


In [None]:
X_train, y_train = drop_duplicate_data(X_train, y_train)

In [None]:
def median_imputation(data, subset_data, fit):
    """
    Parameters
    -----------
    data : dataframe
        dataset to be imputed
        
    subset_data : list of string
        columns name

    fit : boolean
        if fit=true, this function will return median of subset_data
        if fit=false, this function will impute the data based on subset_data

    Returns
    -------
    X : dataframe
        dropped duplicated data features of dataset
        
    y : dataframe
        dropped duplicated data target of dataset
    """
    
    if not isinstance(data, pd.DataFrame):
        raise TypeError("Fungsi median_imputation: parameter data haruslah bertipe DataFrame!")
    
    if fit is True and not isinstance(subset_data, list):
        raise TypeError(
            "Fungsi median_imputation: untuk nilai parameter fit = True, subset_data harus bertipe list dan berisi " 
            "daftar nama kolom yang ingin dicari nilai mediannya guna menjadi data imputasi pada kolom tersebut")
    
    if fit is False and not isinstance(subset_data, dict):
        raise TypeError(
            "Fungsi median_imputation: untuk nilai parameter fit = False, subset_data harus bertipe dict dan berisi "
            "key yang merupakan nama kolom beserta value yang merupakan nilai median dari kolom tersebut")
    
    if not isinstance(fit, bool):
        raise TypeError("Fungsi median_imputation: parameter fit haruslah bertipe boolean, bernilai True atau False.")
    
    print("Fungsi median_imputation: parameter telah divalidasi.")
    
    data = data.copy()
    subset_data = deepcopy(subset_data) 
    
    """
    Handles fitting data
    """
    if fit is True:
        imputation_data = {}
        for subset in subset_data:
            imputation_data[subset] = data[subset].median(numeric_only=True)
            
        print(f"Fungsi median_imputation: proses fitting telah selesai, berikut hasilnya {imputation_data}")
            
        return True
    
    """
    Handles transforming data
    """
    print("Fungsi median_imputation: informasi count na sebelum dilakukan imputasi")
    print(data.isna().sum())
    print()
    
    for subset in subset_data:
        data[subset] = data[subset].fillna(subset_data[subset], inplace=True)
        
    print("Fungsi median_imputation: informasi count na setelah dilakukan imputasi.")
    print(data.isna().sum())
    print()
    
    return data

In [1]:
X_train.head()

NameError: name 'X_train' is not defined