# Bank Churners Data

- Seorang Data Analyst ingin melakukan analisis pada data Sales tetapi datanya masih kotor.
- Oleh karena itu, sebagai seorang Data Engineer, anda diminta untuk **membersihkan data** tersebut.
- Jadi, tugas yang anda akan kerjakan adalah sebagai berikut :
    <center>
    <img src="https://sekolahdata-assets.s3.ap-southeast-1.amazonaws.com/notebook-images/mde-intro-to-data-eng/7-7.png" alt="Drawing" width= 500px;/>
    <center>

- Berikut gambaran pipeline data validations yang akan dibuat :
    <center>
    <img src="https://sekolahdata-assets.s3.ap-southeast-1.amazonaws.com/notebook-images/mde-intro-to-data-eng/7-8.png" alt="Drawing";/>
    <center>
- Berikut datanya :

- **Bank Churners**

In [1]:
# Import library
import pandas as pd

# Read Data
bankChurnersDF = pd.read_csv('BankChurners.csv')

# Get top 5 data
bankChurnersDF.head()

Unnamed: 0,CLIENTNUM,Attrition_Flag,Customer_Age,Gender,Dependent_count,Education_Level,Marital_Status,Income_Category,Card_Category,Months_on_book,...,Months_Inactive_12_mon,Contacts_Count_12_mon,Credit_Limit,Total_Revolving_Bal,Avg_Open_To_Buy,Total_Amt_Chng_Q4_Q1,Total_Trans_Amt,Total_Trans_Ct,Total_Ct_Chng_Q4_Q1,Avg_Utilization_Ratio
0,768805383.0,Existing Customer,45,M,3,High School,Married,$60K - $80K,Blue,39,...,1,3,12691.0,777,11914.0,1.335,1144,42,1.625,0.061
1,818770008.0,Existing Customer,49,F,5,Graduate,Single,Less than $40K,Blue,44,...,1,2,8256.0,864,7392.0,1.541,1291,33,3.714,0.105
2,713982108.0,Existing Customer,51,M,3,Graduate,Married,$80K - $120K,Blue,36,...,1,0,3418.0,0,3418.0,2.594,1887,20,2.333,0.0
3,769911858.0,Existing Customer,40,F,4,High School,Unknown,Less than $40K,Blue,34,...,4,1,3313.0,2517,796.0,1.405,1171,20,2.333,0.76
4,709106358.0,Existing Customer,40,M,3,Uneducated,Married,$60K - $80K,Blue,21,...,1,0,4716.0,0,4716.0,2.175,816,28,2.5,0.0


---
- Selain diberikan sebuah data, Anda juga diberikan sebuah requirements :
    - `column_requirements`
- Jadi :
    - Nama kolom dari data yang diberikan harus sesuai dengan `column_requirements`
    - Tipe data kolom dari data yang diberikan harus sesuai dengan `column_requirements`

In [3]:
def columns_requirements():
    columns = {} # no columns_requirements provided
    return columns

---
- Fungsi untuk memvalidasi data dari pelajaran sebelumnya

In [4]:
#--------------------------------------------------------------------------------------
# Fungsi untuk melakukan validasi data
def data_validation(data):
    print("\033[1m>>>>> STEP 1 : CHECK DATA SHAPE \033[0m")

    # Mendapatkan jumlah baris dan kolom pada data aktual
    rowNum = data.shape[0]
    colNum = data.shape[1]

    # Menampilkan jumlah baris dan kolom
    print(f"=> Number of rows : {rowNum}")
    print(f"=> Number of columns : {colNum}")

    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)

    #--------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 2 : CHECK COLUMNS \033[0m")

    # Mendapatkan set kolom requirements
    reqCols = set(columns_requirements().keys())

    # Mendapatkan set kolom pada data aktual
    actCols = set(data.columns)

    # Memeriksa apakah kolom aktual sesuai dengan requirements.
    # Memeriksa apakah kolom aktual sesuai dengan requirements.
    # Jika sesuai
    if actCols == reqCols:
        # Print "=> Columns match with requirements."
        print("=> Columns match with requirements")
    # Jika tidak sesuai
    else:
        # Print "=> Actual Column you should delete :"
        print("=> Actual Column you should delete :")
        # Iterasi pada list kolom data aktual untuk menampilkan kolom aktual yang seharusnya dihapus
        for col in actCols:
            # Cek apakah kolom pada data aktual TIDAK ADA di dalam requirements
            if col not in reqCols:
                # Tampilkan kolom yang TIDAK ADA di dalam requirements
                print(f"\t- {col}")
        # Print "=> Columns must exist in your data :"
        print("\n=> Columns must exist in your data :")
        # Iterasi ada list kolom requirements untuk menampilkan kolom yang seharusnya ada dalam data aktual
        for col in reqCols:
            # Cek Apakah requirement kolom TIDAK ADA di dalam data aktual
            if col not in actCols:
                # Tampilkan kolom yang TIDAK ADA di dalam requirements
                print(f"\t- {col}")

    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)

    #--------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 3 : CHECK DATA TYPES \033[0m")
    # Mendapatkan kolom dan tipe data yang diperlukan untuk setiap kolom
    reqColTypeDict = columns_requirements()

    # Mendapatkan list kolom pada data aktual
    actCols = list(actCols)

    # Buat list kosong untuk menyimpan kolom yang tipe datanya tidak sesuai dengan rquirements
    mismatchColTypes = []

    # Lakukan iterasi untuk mendapatkan setiap kolom dan tipe data yang diperlukan
    for col, colType in reqColTypeDict.items():
        # Cek apakah kolom requirements ada di dalam data aktual.
        # Jika iya
        if col in actCols:
            # Dapatkan tipe data aktual pada kolom tersebut
            actColType = data[col].dtype
            # Cek apakah tipe data aktual TIDAK sama dengan requirements
            if (actColType != colType):
                # Jika tidak sesuai, tambahkan ke dalam list kosong yang telah dibuat sebelumnya
                mismatchColTypes.append(col)

        # Jika kolom requirements TIDAK ada di dalam data aktual.
        else:
            # Print "...Skip check column '{nama_kolom}' because this column doesn't exist in your data."
            print(f"...Skip check column '{col}' because this column doesn't exist in your data.")

    # Cek jika ada kolom yang tipe datanya tidak match dengan requirements
    if len(mismatchColTypes) > 0:
        # Print "=> There are some columns that don't match :"
        print("=> There are some columns that don't match :")

        # Print "\t- Column type doesn't match the requirements :"
        print("\t- Column type doesn't match the requirements :")

        # Lakukan iterasi (untuk mendapatkan nama kolom) pada list kolom yang tipe datanya tidak match
        for col in mismatchColTypes:
            # Print : "{nama_kolom} must be {required_types}"
            print(f"\t\t- {col} must be {reqColTypeDict[col]}")

    # Jika semua kolom tipe datanya match dengan requirements
    else:
        # Print "=> All checked columns type are match with requirements."
        print("\n=> All checked columns type are match with requirements.")

    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)

- Sebelumnya anda telah membuat pipeline data validations dan sudah melakukan pengecekan :
    - `Data Shape`
    - `Columns`
    - `Data Type`
- Sekarang anda diminta untuk melanjutkan pipeline data validaions yang telah dibuat sebelumnya:
    - Check **Missing Value**
    - Check **Duplicates Data**

- Cek **Missing Value**
- Berikut langkah-langkah pengerjaannya :

1. Lakukan :
    - Dapatkan list kolom aktual.
    - Buat dictionary untuk menyimpan informasi persentase dan nama kolom yang mempunyai missing value.

In [25]:
print("\033[1m>>>>> STEP 4 : CHECK MISSING VALUES \033[0m")
# Mendapatkan list kolom aktual (bankchurners)
actCols = list(bankChurnersDF.columns)
# Membuat dictionary kosong untuk menyimpan informasi nama kolom dan persentase nilai missing valuenya
missValDicts = {}

[1m>>>>> STEP 4 : CHECK MISSING VALUES [0m


2. Lakukan iterasi pada kolom aktual dan hitung persentase missing valuenya.

In [26]:
# Iterasi pada list kolom aktual
for col in actCols:
    # Hitung persentase missing value pada kolom tersebut
    missValPrctg = (
        100 *
        len(bankChurnersDF[bankChurnersDF[col].isna()]) / 
        len(bankChurnersDF)
    )

    # Cek jika persentase missing value pada kolom lebih dari 0 atau ada missing value
    if missValPrctg > 0:
        # Tambahkan nama kolom sebagai key dan persentase missing value sebagai values pada dictionary yang telah dibuat
        missValDicts[col] = round(missValPrctg, 2)

# Hasil dictionary kolom-kolom yang mempunyai missing value
print(missValDicts)

{'CLIENTNUM': 1.97, 'Education_Level': 1.11, 'Income_Category': 0.38}


In [22]:
missValDicts

{'CLIENTNUM': 1.97, 'Education_Level': 1.11, 'Income_Category': 0.38}