# Bank Churners Data

- Seorang Data Analyst ingin melakukan analisis pada data Sales tetapi datanya masih kotor.
- Oleh karena itu, sebagai seorang Data Engineer, anda diminta untuk **membersihkan data** tersebut.
- Jadi, tugas yang anda akan kerjakan adalah sebagai berikut :
    <center>
    <img src="https://sekolahdata-assets.s3.ap-southeast-1.amazonaws.com/notebook-images/mde-intro-to-data-eng/7-7.png" alt="Drawing" width= 500px;/>
    <center>

- Berikut gambaran pipeline data validations yang akan dibuat :
    <center>
    <img src="https://sekolahdata-assets.s3.ap-southeast-1.amazonaws.com/notebook-images/mde-intro-to-data-eng/7-8.png" alt="Drawing";/>
    <center>
- Berikut datanya :

- **Bank Churners**

In [1]:
# Import library
import pandas as pd

# Read Data
bankChurnersDF = pd.read_csv('BankChurners.csv')

# Get top 5 data
bankChurnersDF.head()

Unnamed: 0,CLIENTNUM,Attrition_Flag,Customer_Age,Gender,Dependent_count,Education_Level,Marital_Status,Income_Category,Card_Category,Months_on_book,...,Months_Inactive_12_mon,Contacts_Count_12_mon,Credit_Limit,Total_Revolving_Bal,Avg_Open_To_Buy,Total_Amt_Chng_Q4_Q1,Total_Trans_Amt,Total_Trans_Ct,Total_Ct_Chng_Q4_Q1,Avg_Utilization_Ratio
0,768805383.0,Existing Customer,45,M,3,High School,Married,$60K - $80K,Blue,39,...,1,3,12691.0,777,11914.0,1.335,1144,42,1.625,0.061
1,818770008.0,Existing Customer,49,F,5,Graduate,Single,Less than $40K,Blue,44,...,1,2,8256.0,864,7392.0,1.541,1291,33,3.714,0.105
2,713982108.0,Existing Customer,51,M,3,Graduate,Married,$80K - $120K,Blue,36,...,1,0,3418.0,0,3418.0,2.594,1887,20,2.333,0.0
3,769911858.0,Existing Customer,40,F,4,High School,Unknown,Less than $40K,Blue,34,...,4,1,3313.0,2517,796.0,1.405,1171,20,2.333,0.76
4,709106358.0,Existing Customer,40,M,3,Uneducated,Married,$60K - $80K,Blue,21,...,1,0,4716.0,0,4716.0,2.175,816,28,2.5,0.0


---
- Selain diberikan sebuah data, Anda juga diberikan sebuah requirements :
    - `column_requirements`
- Jadi :
    - Nama kolom dari data yang diberikan harus sesuai dengan `column_requirements`
    - Tipe data kolom dari data yang diberikan harus sesuai dengan `column_requirements`

- **Requirements**

In [2]:
def columns_requirements():
    columns = {'CLIENTNUM' : int,
               'Attrition_Flag' : object,
               'Customer_Age' : int,
               'Gender' : object,
               'Dependent_count' : int,
               'Education_Level' : object,
               'Marital_Status' : object,
               'Income_Category_Min' : int,
               'Income_Category_Max' : int,
               'Card_Category' : object,
               'Months_on_book' : int,
               'Total_Relationship_Count' : int,
               'Months_Inactive_12_mon' : int,
               'Contacts_Count_12_mon' : int,
               'Credit_Limit' : float,
               'Total_Revolving_Bal' : int,
               'Avg_Open_To_Buy' : float,
               'Total_Amt_Chng_Q4_Q1' : float,
               'Total_Trans_Amt' : int,
               'Total_Trans_Ct' : int,
               'Total_Ct_Chng_Q4_Q1' : float,
               'Avg_Utilization_Ratio' : float}
    return columns

In [3]:
def values_requirements():
    values = {
        'Attrition_Flag' : ['Existing Customer', 'Attrited Customer'],
        'Gender' : ['M', 'F'],
        'Education_Level' : ['High School', 'Graduate', 'Uneducated', 'Unknown', 'College', 'Post-Graduate', 'Doctorate'],
        'Marital_Status' : ['Married', 'Single', 'Divorced'],
        'Card_Category' : ['Blue', 'Gold', 'Silver', 'Platinum']
    }
    return values

- Anda diminta untuk **membuat pipeline data validation** untuk :
    - Check **Data Shape**
        - Menampilkan jumlah baris dan kolom.
    - Check **Columns**
        - Melakukan pengecekan kolom-kolom pada data yang diberikan, **apakah sesuai dengan requirements?**
    - Check **Data Types**
        - Melakukan pengecekan tipe data kolom dari data yang diberikan, **apakah sesuai dengan requirements?**

In [10]:
print("\033[1m>>>>> STEP 1 : CHECK DATA SHAPE \033[0m")
df = bankChurnersDF

# Mendapatkan jumlah baris dan kolom pada data aktual
rowCount = df.shape[0]
colCount = df.shape[1]

# Menampilkan jumlah baris dan kolom
print(f"=> Number of rows : {rowCount}")
print(f"=> Number of columns : {colCount}")

[1m>>>>> STEP 1 : CHECK DATA SHAPE [0m
=> Number of rows : 9776
=> Number of columns : 21


- **Cek apakah kolom pada data aktual match dengan requirements.**
- Beikut tahapan pengerjaannya :

1. Dapatkan requirements column dan actual column.

2. Periksa apakah kolom aktual sesuai dengan requirements.
    - **Jika sama :**
        - Print : "Columns match with requirements"
    - **Jika tidak sama :**
        - Print : "Columns not match with requirements"
        - Tampilkan kolom-kolom pada data aktual yang tidak ada di dalam requirements.

In [8]:
print("\033[1m>>>>> STEP 2 : CHECK COLUMNS \033[0m")
df = bankChurnersDF

# Mendapatkan set kolom requirements
reqCols = set(columns_requirements().keys())

# Mendapatkan set kolom pada data aktual
actCols = set(df.columns)

# Memeriksa apakah kolom aktual sesuai dengan requirements.
# Jika sesuai
if actCols == reqCols:
    # Print "=> Columns match with requirements."
    print("=> Columns match with requirements.")

# Jika tidak sesuai
else:
    # Print "=> Actual Column you should delete :"
    print("=> Actual Column you should delete :")

    # Iterasi pada list kolom data aktual untuk menampilkan kolom aktual yang seharusnya dihapus
    for col in actCols:
        # Cek apakah kolom pada data aktual TIDAK ADA di dalam requirements
        if col not in reqCols:
            # Tampilkan kolom yang TIDAK ADA di dalam requirements
            print(f"\t- {col}")

    # Print "=> Columns must exist in your data :"
    print("\n=> Columns must exist in your data :")

    # Iterasi ada list kolom requirements untuk menampilkan kolom yang seharusnya ada dalam data aktual
    for col in reqCols:
        # Cek Apakah requirement kolom TIDAK ADA di dalam data aktual
        if col not in actCols:
            # Tampilkan kolom yang TIDAK ADA di dalam requirements
            print(f"\t-{col}")

[1m>>>>> STEP 2 : CHECK COLUMNS [0m
=> Actual Column you should delete :
	- Income_Category

=> Columns must exist in your data :
	-Income_Category_Min
	-Income_Category_Max


- Cek `Data Type` pada actual columns.
- Berikut tahapan pengerjaannya :
1. Lakukan :
    - Dapatkan requirements column dan tipe datanya
    - Dapatkan list actual columns
    - Buat list kosong untuk menyimpan data yang tidak sesuai requirements
2. Lakukan iterasi dan pengecekan apakah requirements column ada di dalam actual columns?
    - Jika iya :
        - Cek apakah actual type *tidak sama dengan* expected type?
            - Jika iya :
                - Tambahkan ke dalam list
            - Jika tidak :
                - skip
    - Jika tidak :
        - Print skip check column
3. Lakukan pengecekan.
    - Jika sesuai requirements :
        - print : "All checked columns type are match with requirements."

    - Jika tidak sesuai requirements:
        - print : "There are some column that don't match"
        - print daftar kolom yang tipe datanya tidak sesuai dengan requirements.

In [28]:
print("\033[1m>>>>> STEP 3 : CHECK DATA TYPES \033[0m")
df = bankChurnersDF

# Mendapatkan kolom dan tipe data yang diperlukan untuk setiap kolom
reqColTypes = columns_requirements()

# Mendapatkan list kolom pada data aktual
actCols = list(actCols)

# Buat list kosong untuk menyimpan kolom yang tipe datanya tidak sesuai dengan rquirements
mismatchColTypes = []
# Lakukan iterasi untuk mendapatkan setiap kolom dan tipe data yang diperlukan
for col, colType in reqColTypes.items():
    # Cek apakah kolom requirements ada di dalam data aktual.
    # Jika iya
    if col in actCols:
        # Dapatkan tipe data aktual pada kolom tersebut
        actColType = df[col].dtype

        # Cek apakah tipe data aktual TIDAK sama dengan requirements
        if colType != actColType:
            # Jika tidak sesuai, tambahkan ke dalam list kosong yang telah dibuat sebelumnya
            mismatchColTypes.append(col)

    # Jika kolom requirements TIDAK ada di dalam data aktual.
    else:
        # Print "...Skip check column '{nama_kolom}' because this column doesn't exist in your data."
        print(f"...Skip check column '{col} because this column doesn't exist in your data.")
# Cek jika ada kolom yang tipe datanya tidak match dengan requirements
if len(mismatchColTypes) > 0:
    # Print "=> There are some columns that don't match :"
    print("=> There are some columns that don't match :")

    # Print "\t- Column type doesn't match the requirements :"
    print(f"\t- Column type doesn't match the requirements :")

    # Lakukan iterasi (untuk mendapatkan nama kolom) pada list kolom yang tipe datanya tidak match
    for col in mismatchColTypes:
        # Print : "{nama_kolom} must be {required_types}"
        print(f"\t\t- {col} must be {reqColTypes[col]}")

# Jika semua kolom tipe datanya match dengan requirements
else:
    # Print "=> All checked columns type are match with requirements."
    print("=> All checked columns type are match with requirements.")

[1m>>>>> STEP 3 : CHECK DATA TYPES [0m
...Skip check column 'Income_Category_Min because this column doesn't exist in your data.
...Skip check column 'Income_Category_Max because this column doesn't exist in your data.
=> There are some columns that don't match :
	- Column type doesn't match the requirements :
		- CLIENTNUM must be <class 'int'>
		- Customer_Age must be <class 'int'>
		- Dependent_count must be <class 'int'>
		- Months_on_book must be <class 'int'>
		- Total_Relationship_Count must be <class 'int'>
		- Months_Inactive_12_mon must be <class 'int'>
		- Contacts_Count_12_mon must be <class 'int'>
		- Total_Revolving_Bal must be <class 'int'>
		- Total_Trans_Amt must be <class 'int'>
		- Total_Trans_Ct must be <class 'int'>


- Setelah membuat bagian-bagian pengecekan (`Data Shape`, `Columns`, dan `Data types`), selanjutnya membuat pipeline.
- **Rangkum kode** yang telah dibuat sebelumnya kedalam **pipeline function** data validations.
- Parameters :
    - dataframe

In [31]:
#--------------------------------------------------------------------------------------
# Fungsi untuk melakukan validasi data
def data_validation(data):
    print("\033[1m>>>>> STEP 1 : CHECK DATA SHAPE \033[0m")
    df = data

    # Mendapatkan jumlah baris dan kolom pada data aktual
    rowCount = df.shape[0]
    colCount = df.shape[1]

    # Menampilkan jumlah baris dan kolom
    print(f"=> Number of rows : {rowCount}")
    print(f"=> Number of columns : {colCount}")

    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)

    #--------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 2 : CHECK COLUMNS \033[0m")
    
    # Mendapatkan set kolom requirements
    reqCols = set(columns_requirements().keys())

    # Mendapatkan set kolom pada data aktual
    actCols = set(df.columns)

    # Memeriksa apakah kolom aktual sesuai dengan requirements.
    # Jika sesuai
    if actCols == reqCols:
        # Print "=> Columns match with requirements."
        print("=> Columns match with requirements.")

    # Jika tidak sesuai
    else:
        # Print "=> Actual Column you should delete :"
        print("=> Actual Column you should delete :")

        # Iterasi pada list kolom data aktual untuk menampilkan kolom aktual yang seharusnya dihapus
        for col in actCols:
            # Cek apakah kolom pada data aktual TIDAK ADA di dalam requirements
            if col not in reqCols:
                # Tampilkan kolom yang TIDAK ADA di dalam requirements
                print(f"\t- {col}")

        # Print "=> Columns must exist in your data :"
        print("\n=> Columns must exist in your data :")

        # Iterasi ada list kolom requirements untuk menampilkan kolom yang seharusnya ada dalam data aktual
        for col in reqCols:
            # Cek Apakah requirement kolom TIDAK ADA di dalam data aktual
            if col not in actCols:
                # Tampilkan kolom yang TIDAK ADA di dalam requirements
                print(f"\t-{col}")

    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)

    #--------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 3 : CHECK DATA TYPES \033[0m")

    # Mendapatkan kolom dan tipe data yang diperlukan untuk setiap kolom
    reqColTypes = columns_requirements()

    # Mendapatkan list kolom pada data aktual
    actCols = list(actCols)

    # Buat list kosong untuk menyimpan kolom yang tipe datanya tidak sesuai dengan rquirements
    mismatchColTypes = []
    # Lakukan iterasi untuk mendapatkan setiap kolom dan tipe data yang diperlukan
    for col, colType in reqColTypes.items():
        # Cek apakah kolom requirements ada di dalam data aktual.
        # Jika iya
        if col in actCols:
            # Dapatkan tipe data aktual pada kolom tersebut
            actColType = df[col].dtype

            # Cek apakah tipe data aktual TIDAK sama dengan requirements
            if colType != actColType:
                # Jika tidak sesuai, tambahkan ke dalam list kosong yang telah dibuat sebelumnya
                mismatchColTypes.append(col)

        # Jika kolom requirements TIDAK ada di dalam data aktual.
        else:
            # Print "...Skip check column '{nama_kolom}' because this column doesn't exist in your data."
            print(f"...Skip check column '{col} because this column doesn't exist in your data.")
    # Cek jika ada kolom yang tipe datanya tidak match dengan requirements
    if len(mismatchColTypes) > 0:
        # Print "=> There are some columns that don't match :"
        print("=> There are some columns that don't match :")

        # Print "\t- Column type doesn't match the requirements :"
        print(f"\t- Column type doesn't match the requirements :")

        # Lakukan iterasi (untuk mendapatkan nama kolom) pada list kolom yang tipe datanya tidak match
        for col in mismatchColTypes:
            # Print : "{nama_kolom} must be {required_types}"
            print(f"\t\t- {col} must be {reqColTypes[col]}")

    # Jika semua kolom tipe datanya match dengan requirements
    else:
        # Print "=> All checked columns type are match with requirements."
        print("=> All checked columns type are match with requirements.")

    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)

In [33]:
data_validation(bankChurnersDF)

[1m>>>>> STEP 1 : CHECK DATA SHAPE [0m
=> Number of rows : 9776
=> Number of columns : 21



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 2 : CHECK COLUMNS [0m
=> Actual Column you should delete :
	- Income_Category

=> Columns must exist in your data :
	-Income_Category_Min
	-Income_Category_Max



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 3 : CHECK DATA TYPES [0m
...Skip check column 'Income_Category_Min because this column doesn't exist in your data.
...Skip check column 'Income_Category_Max because this column doesn't exist in your data.
=> There are some columns that don't match :
	- Column type doesn't match the requirements :
		- CLIENTNUM must be <class 'int'>
		- Customer_Age must be <class 'int'>
		- Dependent_count must be <class 'int'>
		- Months_on_book must be <class 'int'>
		- Total_Relationship_Count must be <class 'int'>
	

- Sebelumnya anda telah membuat pipeline data validations dan sudah melakukan pengecekan :
    - `Data Shape`
    - `Columns`
    - `Data Type`
- Sekarang anda diminta untuk melanjutkan pipeline data validaions yang telah dibuat sebelumnya:
    - Check **Missing Value**
    - Check **Duplicates Data**
    - Check **Inconsistent and missmatch data**
        - Dilakukan pada beberapa kolom yang ada dalam `values_requirements()`.
        - Cek apakah requirement unique value sudah sesuai dengan data aktual?

- Cek `Missing Value`
- Berikut langkah-langkah pengerjaannya :
1. Lakukan :
    - Dapatkan list kolom aktual.
    - Buat dictionary untuk menyimpan informasi persentase dan nama kolom yang mempunyai missing value.
2. Lakukan iterasi pada kolom aktual dan hitung persentase missing valuenya.
3. Cek :
    - Jika terdapat missing value pada suatu kolom:
        - print : "- There are some missing values :"
        - Tampilkan kolom-kolom tersebut beserta persentase missing valuenya.
    - Jika tidak terdapat missing value :
        - print : "- There is no missing value."

In [34]:
print("\033[1m>>>>> STEP 4 : CHECK MISSING VALUES \033[0m")
df = bankChurnersDF

# Mendapatkan list kolom aktual (bankchurners)
actCols = list(df.columns)
# Membuat dictionary kosong untuk menyimpan informasi nama kolom dan persentase nilai missing valuenya
missValPrctgDict = {}
# Iterasi pada list kolom aktual
for col in actCols:
    # Hitung persentase missing value pada kolom tersebut
    missValPrctg = len(df[df[col].isna()]) * 100 / len(df)

    # Cek jika persentase missing value pada kolom lebih dari 0 atau ada missing value
    if missValPrctg > 0:
        # Tambahkan nama kolom sebagai key dan persentase missing value sebagai values pada dictionary yang telah dibuat
        missValPrctgDict[col] = round(missValPrctg, 2)
# Cek pada dictionary yang menampung nama kolom dan persentase missing valuenya.
# Jika ada
if len(missValPrctgDict) > 0:
    # Print "=> There are some missing values :"
    print("=> There are some missing values :")

    # Iterasi pada dictionary tersebut untuk mendapatkan nama kolom dan persentase missing valuenya
    for col, val in missValPrctgDict.items():
        # Print "\t- {column_name} : {missing_values_pctg}%
        print(f"\t- {col} : {val}%")

# Jika tidak ada data missing value
else:
    # Print "=> There is no missing values"
    print("=> There is no missing values")

[1m>>>>> STEP 4 : CHECK MISSING VALUES [0m
=> There are some missing values :
	- CLIENTNUM : 1.97%
	- Education_Level : 1.11%
	- Income_Category : 0.38%


- Cek `Duplicates Data`
- Jika terdapat duplicates data:
    - print jumlah data yang duplikat.
- Jika tidak terdapat duplicates data:
    - print : "- There is no duplicates data"

In [39]:
print("\033[1m>>>>> STEP 5 : CHECK DUPLICATES DATA \033[0m")
# Menghitung jumlah data yang duplikat
duplicatedCount = len(df[df.duplicated(keep = False)])

# Cek apakah terdapat data yang duplikat
if duplicatedCount > 0:
    # Print "=> Threre are {num_duplicates_data} duplicates data."
    print(f"=> Threre are {duplicatedCount} duplicates data.")

# Jika tidak terdapat data yang duplikat
else:
    # Print "=> There is no duplicates data."
    print("=> There is no duplicates data.")

[1m>>>>> STEP 5 : CHECK DUPLICATES DATA [0m
=> Threre are 699 duplicates data.


- Cek `Inconsistent Data & Missmatch Data`
- Berikut langkah-langkah perngerjaannya :
1. Lakukan :
    - Dapatkan requirements value yang telah didefinisikan pada `values_requirements()`
    - Buat dictionary untuk menyimpan :
        - Required value NOT IN Actual value
        - Actual value NOT IN Required value
2. Lakukan :
    - Iterasi pada requirements value.
    - Cek apakah required value ada di actual value?
    - Cek apakah actual value ada di required value?
3. Lakukan :
    - Menghitung jumlah data required value yang tidak ada di dalam actual value
    - Menghitung jumlah data actual value yang tidak ada di dalam required value
4. Cek apakah terdapat required value yang tidak ada di dalam actual value?
5. Cek apakah terdapat actual value yang tidak ada di dalam required value?

In [43]:
print("\033[1m>>>>> STEP 6 : CHECK INCONSISTENT & MISSMATCH DATA \033[0m")
# Mendapatkan data required values
reqValsDict = values_requirements()
# Membuat dictionary untuk menyimpan required value yang tidak ada di dalam actual value
reqValsNotFoundDict = {}
# Membuat dictionary untuk menyimpan actual value yang tidak ada di dalam required value
actValsNotFoundDict = {}
# Iterasi pada data required values untuk mendapatkan nama kolom dan required valuesnya
for col, reqVals in reqValsDict.items():
    # Mendapatkan list actual value pada kolom tersebut
    actVals = list(df[col].unique())
    # Buat list kosong untuk menyimpan required value yang tidak ada di dalam actual value
    reqValsNotFound = []
    # Buat list kosong untuk menyimpan actual value yang tidak ada di dalam required value
    actValsNotFound = []

    # Iterasi setiap value pada required values
    for val in reqVals:
        # Cek apakah value tersebut ada di actual values?
        # Jika tidak
        if val not in actVals:
            # Tambahkan value tersebut pada list yang telah dibuat sebelumnya
            reqValsNotFound.append(val)

    # Tambahkan nama kolom dan list value yang telah didapatkan kedalam dictionary yang telah dibuat.
    reqValsNotFoundDict[col] = reqValsNotFound

    # Iterasi seiap value pada actual value
    for val in actVals:
        # Cek apakah value tersebut tidak ada di required values?
        if val not in reqVals:
            # Tambahkan value tersebut pada list yang telah dibuat sebelumnya
            actValsNotFound.append(val)

    # Tambahkan nama kolom dan list value yang telah didapatkan kedalam dictionary yang telah dibuat.
    actValsNotFoundDict[col] = actValsNotFound
# Hitung jumlah data required value yang tidak ada di dalam actual value
countReqValsNotFound = sum([len(val) for val in reqValsNotFoundDict.values()])

# Hitung jumlah data actual value yang tidak ada di dalam required value
countActValsNotFound = sum([len(val) for val in actValsNotFoundDict.values()])

# Cek apakah terdapat required value yang tidak ada di dalam actual value
# Jika iya
if countReqValsNotFound > 0:
    print(reqValsNotFoundDict)
    # Print : "=> All Required Values In Actual Values ? FALSE"
    print("=> All Required Values In Actual Values ? FALSE")
    # Print : "\t- There are some inconsistent or missmatch Data (\033[1mREQUIRED VALUES NOT IN ACTUAL VALUES\033[0m) :"
    print("\t- There are some inconsistent or missmatch Data (\033[1mREQUIRED VALUES NOT IN ACTUAL VALUES\033[0m) :")

    # Iterasi (untuk mendapatkan nama kolom dan value) pada dictionary yang menyimpan data required value yang tidak ada di dalam actual value
    for col, notFoundVals in reqValsNotFoundDict.items():
        if len(notFoundVals) > 0:
            print(f"\t\t- {col} : ")
            for val in notFoundVals:
                print(f"\t\t\t- {val}")
        else:
            pass
# Jika tidak terdapat required value yang tidak ada di dalam actual value
else:
    # Print : "=> All Required Values In Actual Values ? TRUE"
    print("=> All Required Values In Actual Values ? TRUE")

# Cek apakah terdapat actual value yang tidak ada di dalam required value
# Jika iya
if countActValsNotFound > 0:
    # Print : "=> All Actual Values In Required Values ? FALSE"
    print("=> All Actual Values In Required Values ? FALSE")
    # Print : "\t- There are some inconsistent or missmatch Data (\033[1mACTUAL VALUES NOT IN REQUIRED VALUES\033[0m) :"
    print("\t- There are some inconsistent or missmatch Data (\033[1mACTUAL VALUES NOT IN REQUIRED VALUES\033[0m) :")

    # Iterasi (untuk mendapatkan nama kolom dan value) pada dictionary yang menyimpan data actual value yang tidak ada di dalam required value
    for col, notFoundVals in actValsNotFoundDict.items():
        if len(notFoundVals) > 0:
            print(f"\t\t- {col} : ")
            for val in notFoundVals:
                print(f"\t\t\t- {val}")
        else:
            pass
# Jika tidak terdapat actual value yang tidak ada di dalam required value
else:
    # Print : "=> All Actual Values In Required Values ? TRUE"
    print("=> All Actual Values In Required Values ? TRUE")

[1m>>>>> STEP 6 : CHECK INCONSISTENT & MISSMATCH DATA [0m
=> All Required Values In Actual Values ? TRUE
=> All Actual Values In Required Values ? FALSE
	- There are some inconsistent or missmatch Data ([1mACTUAL VALUES NOT IN REQUIRED VALUES[0m) :
		- Attrition_Flag : 
			- Existing_Customer
			- Attrited_Customer
		- Gender : 
			- Male
			- Female
		- Education_Level : 
			- nan
			- High-School
		- Marital_Status : 
			- Unknown


- Rangkum semua code validasi yang telah dibuat sebelumnya kedalam **pipeline function** data validations.
    - `Check Data Shape`
    - `Check Columns`
    - `Check Data Types`
    - `Check Missing Values`
    - `Check Duplicates Data`
    - `Check Inconsistent & Missmatch Data`
- parameters :
    - dataframe

In [44]:
#--------------------------------------------------------------------------------------
# Fungsi untuk melakukan validasi data
def data_validation(data):
    print("\033[1m>>>>> STEP 1 : CHECK DATA SHAPE \033[0m")
    df = data

    # Mendapatkan jumlah baris dan kolom pada data aktual
    rowCount = df.shape[0]
    colCount = df.shape[1]

    # Menampilkan jumlah baris dan kolom
    print(f"=> Number of rows : {rowCount}")
    print(f"=> Number of columns : {colCount}")

    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)

    #--------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 2 : CHECK COLUMNS \033[0m")
    
    # Mendapatkan set kolom requirements
    reqCols = set(columns_requirements().keys())

    # Mendapatkan set kolom pada data aktual
    actCols = set(df.columns)

    # Memeriksa apakah kolom aktual sesuai dengan requirements.
    # Jika sesuai
    if actCols == reqCols:
        # Print "=> Columns match with requirements."
        print("=> Columns match with requirements.")

    # Jika tidak sesuai
    else:
        # Print "=> Actual Column you should delete :"
        print("=> Actual Column you should delete :")

        # Iterasi pada list kolom data aktual untuk menampilkan kolom aktual yang seharusnya dihapus
        for col in actCols:
            # Cek apakah kolom pada data aktual TIDAK ADA di dalam requirements
            if col not in reqCols:
                # Tampilkan kolom yang TIDAK ADA di dalam requirements
                print(f"\t- {col}")

        # Print "=> Columns must exist in your data :"
        print("\n=> Columns must exist in your data :")

        # Iterasi ada list kolom requirements untuk menampilkan kolom yang seharusnya ada dalam data aktual
        for col in reqCols:
            # Cek Apakah requirement kolom TIDAK ADA di dalam data aktual
            if col not in actCols:
                # Tampilkan kolom yang TIDAK ADA di dalam requirements
                print(f"\t-{col}")

    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)

    #--------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 3 : CHECK DATA TYPES \033[0m")

    # Mendapatkan kolom dan tipe data yang diperlukan untuk setiap kolom
    reqColTypes = columns_requirements()

    # Mendapatkan list kolom pada data aktual
    actCols = list(actCols)

    # Buat list kosong untuk menyimpan kolom yang tipe datanya tidak sesuai dengan rquirements
    mismatchColTypes = []
    # Lakukan iterasi untuk mendapatkan setiap kolom dan tipe data yang diperlukan
    for col, colType in reqColTypes.items():
        # Cek apakah kolom requirements ada di dalam data aktual.
        # Jika iya
        if col in actCols:
            # Dapatkan tipe data aktual pada kolom tersebut
            actColType = df[col].dtype

            # Cek apakah tipe data aktual TIDAK sama dengan requirements
            if colType != actColType:
                # Jika tidak sesuai, tambahkan ke dalam list kosong yang telah dibuat sebelumnya
                mismatchColTypes.append(col)

        # Jika kolom requirements TIDAK ada di dalam data aktual.
        else:
            # Print "...Skip check column '{nama_kolom}' because this column doesn't exist in your data."
            print(f"...Skip check column '{col} because this column doesn't exist in your data.")
    # Cek jika ada kolom yang tipe datanya tidak match dengan requirements
    if len(mismatchColTypes) > 0:
        # Print "=> There are some columns that don't match :"
        print("=> There are some columns that don't match :")

        # Print "\t- Column type doesn't match the requirements :"
        print(f"\t- Column type doesn't match the requirements :")

        # Lakukan iterasi (untuk mendapatkan nama kolom) pada list kolom yang tipe datanya tidak match
        for col in mismatchColTypes:
            # Print : "{nama_kolom} must be {required_types}"
            print(f"\t\t- {col} must be {reqColTypes[col]}")

    # Jika semua kolom tipe datanya match dengan requirements
    else:
        # Print "=> All checked columns type are match with requirements."
        print("=> All checked columns type are match with requirements.")

    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)
    
    #--------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 4 : CHECK MISSING VALUES \033[0m")

    # Mendapatkan list kolom aktual (bankchurners)
    actCols = list(df.columns)
    # Membuat dictionary kosong untuk menyimpan informasi nama kolom dan persentase nilai missing valuenya
    missValPrctgDict = {}
    # Iterasi pada list kolom aktual
    for col in actCols:
        # Hitung persentase missing value pada kolom tersebut
        missValPrctg = len(df[df[col].isna()]) * 100 / len(df)

        # Cek jika persentase missing value pada kolom lebih dari 0 atau ada missing value
        if missValPrctg > 0:
            # Tambahkan nama kolom sebagai key dan persentase missing value sebagai values pada dictionary yang telah dibuat
            missValPrctgDict[col] = round(missValPrctg, 2)
    # Cek pada dictionary yang menampung nama kolom dan persentase missing valuenya.
    # Jika ada
    if len(missValPrctgDict) > 0:
        # Print "=> There are some missing values :"
        print("=> There are some missing values :")

        # Iterasi pada dictionary tersebut untuk mendapatkan nama kolom dan persentase missing valuenya
        for col, val in missValPrctgDict.items():
            # Print "\t- {column_name} : {missing_values_pctg}%
            print(f"\t- {col} : {val}%")

    # Jika tidak ada data missing value
    else:
        # Print "=> There is no missing values"
        print("=> There is no missing values")

    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)

    #--------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 5 : CHECK DUPLICATES DATA \033[0m")
    # Menghitung jumlah data yang duplikat
    duplicatedCount = len(df[df.duplicated(keep = False)])

    # Cek apakah terdapat data yang duplikat
    if duplicatedCount > 0:
        # Print "=> Threre are {num_duplicates_data} duplicates data."
        print(f"=> Threre are {duplicatedCount} duplicates data.")

    # Jika tidak terdapat data yang duplikat
    else:
        # Print "=> There is no duplicates data."
        print("=> There is no duplicates data.")

    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)

    #--------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 6 : CHECK INCONSISTENT & MISSMATCH DATA \033[0m")
    # Mendapatkan data required values
    reqValsDict = values_requirements()
    # Membuat dictionary untuk menyimpan required value yang tidak ada di dalam actual value
    reqValsNotFoundDict = {}
    # Membuat dictionary untuk menyimpan actual value yang tidak ada di dalam required value
    actValsNotFoundDict = {}
    # Iterasi pada data required values untuk mendapatkan nama kolom dan required valuesnya
    for col, reqVals in reqValsDict.items():
        # Mendapatkan list actual value pada kolom tersebut
        actVals = list(df[col].unique())
        # Buat list kosong untuk menyimpan required value yang tidak ada di dalam actual value
        reqValsNotFound = []
        # Buat list kosong untuk menyimpan actual value yang tidak ada di dalam required value
        actValsNotFound = []

        # Iterasi setiap value pada required values
        for val in reqVals:
            # Cek apakah value tersebut ada di actual values?
            # Jika tidak
            if val not in actVals:
                # Tambahkan value tersebut pada list yang telah dibuat sebelumnya
                reqValsNotFound.append(val)

        # Tambahkan nama kolom dan list value yang telah didapatkan kedalam dictionary yang telah dibuat.
        reqValsNotFoundDict[col] = reqValsNotFound

        # Iterasi seiap value pada actual value
        for val in actVals:
            # Cek apakah value tersebut tidak ada di required values?
            if val not in reqVals:
                # Tambahkan value tersebut pada list yang telah dibuat sebelumnya
                actValsNotFound.append(val)

        # Tambahkan nama kolom dan list value yang telah didapatkan kedalam dictionary yang telah dibuat.
        actValsNotFoundDict[col] = actValsNotFound
    # Hitung jumlah data required value yang tidak ada di dalam actual value
    countReqValsNotFound = sum([len(val) for val in reqValsNotFoundDict.values()])

    # Hitung jumlah data actual value yang tidak ada di dalam required value
    countActValsNotFound = sum([len(val) for val in actValsNotFoundDict.values()])

    # Cek apakah terdapat required value yang tidak ada di dalam actual value
    # Jika iya
    if countReqValsNotFound > 0:
        print(reqValsNotFoundDict)
        # Print : "=> All Required Values In Actual Values ? FALSE"
        print("=> All Required Values In Actual Values ? FALSE")
        # Print : "\t- There are some inconsistent or missmatch Data (\033[1mREQUIRED VALUES NOT IN ACTUAL VALUES\033[0m) :"
        print("\t- There are some inconsistent or missmatch Data (\033[1mREQUIRED VALUES NOT IN ACTUAL VALUES\033[0m) :")

        # Iterasi (untuk mendapatkan nama kolom dan value) pada dictionary yang menyimpan data required value yang tidak ada di dalam actual value
        for col, notFoundVals in reqValsNotFoundDict.items():
            if len(notFoundVals) > 0:
                print(f"\t\t- {col} : ")
                for val in notFoundVals:
                    print(f"\t\t\t- {val}")
            else:
                pass
    # Jika tidak terdapat required value yang tidak ada di dalam actual value
    else:
        # Print : "=> All Required Values In Actual Values ? TRUE"
        print("=> All Required Values In Actual Values ? TRUE")

    # Cek apakah terdapat actual value yang tidak ada di dalam required value
    # Jika iya
    if countActValsNotFound > 0:
        # Print : "=> All Actual Values In Required Values ? FALSE"
        print("=> All Actual Values In Required Values ? FALSE")
        # Print : "\t- There are some inconsistent or missmatch Data (\033[1mACTUAL VALUES NOT IN REQUIRED VALUES\033[0m) :"
        print("\t- There are some inconsistent or missmatch Data (\033[1mACTUAL VALUES NOT IN REQUIRED VALUES\033[0m) :")

        # Iterasi (untuk mendapatkan nama kolom dan value) pada dictionary yang menyimpan data actual value yang tidak ada di dalam required value
        for col, notFoundVals in actValsNotFoundDict.items():
            if len(notFoundVals) > 0:
                print(f"\t\t- {col} : ")
                for val in notFoundVals:
                    print(f"\t\t\t- {val}")
            else:
                pass
    # Jika tidak terdapat actual value yang tidak ada di dalam required value
    else:
        # Print : "=> All Actual Values In Required Values ? TRUE"
        print("=> All Actual Values In Required Values ? TRUE")
    
    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)

In [45]:
data_validation(bankChurnersDF)

[1m>>>>> STEP 1 : CHECK DATA SHAPE [0m
=> Number of rows : 9776
=> Number of columns : 21



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 2 : CHECK COLUMNS [0m
=> Actual Column you should delete :
	- Income_Category

=> Columns must exist in your data :
	-Income_Category_Min
	-Income_Category_Max



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 3 : CHECK DATA TYPES [0m
...Skip check column 'Income_Category_Min because this column doesn't exist in your data.
...Skip check column 'Income_Category_Max because this column doesn't exist in your data.
=> There are some columns that don't match :
	- Column type doesn't match the requirements :
		- CLIENTNUM must be <class 'int'>
		- Customer_Age must be <class 'int'>
		- Dependent_count must be <class 'int'>
		- Months_on_book must be <class 'int'>
		- Total_Relationship_Count must be <class 'int'>
	