# Sales Data

In [1]:
# Import library
import pandas as pd

# Read Data
rawSalesDataDF = pd.read_csv('sales_data.csv')

# Get top 5 data
rawSalesDataDF.head()

Unnamed: 0,order_id,product,quantity_orderd,price_each,order_date,purchase_address
0,295665.0,Macbook Pro Laptop,1.0,1700.0,12/30/19 00:01,"136 Church St, New York City, NY 10001"
1,295666.0,LG Washing Machine,1.0,600.0,12/29/19 07:03,"562 2nd St, New York City, NY 10001"
2,295667.0,USB-C Charging Cable,1.0,11.95,12/12/19 18:21,"277 Main St, New York City, NY 10001"
3,295668.0,27in FHD Monitor,1.0,149.99,12/22/19 15:13,"410 6th St, San Francisco, CA 94016"
4,295669.0,USB-C Charging Cable,1.0,11.95,12/18/19 12:38,"43 Hill St, Atlanta, GA 30301"


---
- Selain diberikan sebuah data, Anda juga diberikan sebuah requirements :
    - `column_requirements`
- Jadi :
    - Nama kolom dari data yang diberikan harus sesuai dengan `column_requirements`
    - Tipe data kolom dari data yang diberikan harus sesuai dengan `column_requirements`

In [2]:
def columns_requirements():
    columns = {'order_id' : int,
               'product' : object,
               'quantity_orderd' : int,
               'price_each' : float,
               'order_date' : 'datetime64[ns]',
               'street' : object,
               'city' : object,
               'zip_code' : object
               }
    return columns

- Anda diminta untuk **membuat pipeline data validation** untuk :
    - Check **Data Shape**
        - Menampilkan jumlah baris dan kolom.
    - Check **Columns**
        - Melakukan pengecekan kolom-kolom pada data yang diberikan, **apakah sesuai dengan requirements?**
    - Check **Data Types**
        - Melakukan pengecekan tipe data kolom dari data yang diberikan, **apakah sesuai dengan requirements?**

In [3]:
print("\033[1m>>>>> STEP 1 : CHECK DATA SHAPE \033[0m")
rowNum = rawSalesDataDF.shape[0]
colNum = rawSalesDataDF.shape[1]
print(f"=> Number of rows : {rowNum}")
print(f"=> Number of columns : {colNum}")

[1m>>>>> STEP 1 : CHECK DATA SHAPE [0m
=> Number of rows : 25069
=> Number of columns : 6


- **Cek apakah kolom pada data aktual match dengan requirements.**
- Beikut tahapan pengerjaannya :
1. Dapatkan requirements column dan actual column.

In [4]:
reqCols = set(columns_requirements().keys())
actCols = set(rawSalesDataDF.columns)

2. Periksa apakah kolom aktual sesuai dengan requirements.
    - **Jika sama :**
        - Print : "Columns match with requirements"
    - **Jika tidak sama :**
        - Print : "Columns not match with requirements"
        - Tampilkan kolom-kolom pada data aktual yang tidak ada di dalam requirements.

In [5]:
# Memeriksa apakah kolom aktual sesuai dengan requirements.
# Jika sesuai
if actCols == reqCols:
    # Print "=> Columns match with requirements."
    print("=> Columns match with requirements")
# Jika tidak sesuai
else:
    # Print "=> Actual Column you should delete :"
    print("=> Actual Column you should delete :")
    # Iterasi pada list kolom data aktual untuk menampilkan kolom aktual yang seharusnya dihapus
    for col in actCols:
        # Cek apakah kolom pada data aktual TIDAK ADA di dalam requirements
        if col not in reqCols:
            # Tampilkan kolom yang TIDAK ADA di dalam requirements
            print(f"\t- {col}")
    # Print "=> Columns must exist in your data :"
    print("\n=> Columns must exist in your data :")
    # Iterasi ada list kolom requirements untuk menampilkan kolom yang seharusnya ada dalam data aktual
    for col in reqCols:
        # Cek Apakah requirement kolom TIDAK ADA di dalam data aktual
        if col not in actCols:
            # Tampilkan kolom yang TIDAK ADA di dalam requirements
            print(f"\t- {col}")

=> Actual Column you should delete :
	- purchase_address

=> Columns must exist in your data :
	- street
	- city
	- zip_code


3. Satukan code 1 dan 2 tersebut.

In [6]:
print("\033[1m>>>>> STEP 2 : CHECK COLUMNS \033[0m")

# Mendapatkan set kolom requirements
reqCols = set(columns_requirements().keys())

# Mendapatkan set kolom pada data aktual
actCols = set(rawSalesDataDF.columns)

# Memeriksa apakah kolom aktual sesuai dengan requirements.
# Memeriksa apakah kolom aktual sesuai dengan requirements.
# Jika sesuai
if actCols == reqCols:
    # Print "=> Columns match with requirements."
    print("=> Columns match with requirements")
# Jika tidak sesuai
else:
    # Print "=> Actual Column you should delete :"
    print("=> Actual Column you should delete :")
    # Iterasi pada list kolom data aktual untuk menampilkan kolom aktual yang seharusnya dihapus
    for col in actCols:
        # Cek apakah kolom pada data aktual TIDAK ADA di dalam requirements
        if col not in reqCols:
            # Tampilkan kolom yang TIDAK ADA di dalam requirements
            print(f"\t- {col}")
    # Print "=> Columns must exist in your data :"
    print("\n=> Columns must exist in your data :")
    # Iterasi ada list kolom requirements untuk menampilkan kolom yang seharusnya ada dalam data aktual
    for col in reqCols:
        # Cek Apakah requirement kolom TIDAK ADA di dalam data aktual
        if col not in actCols:
            # Tampilkan kolom yang TIDAK ADA di dalam requirements
            print(f"\t- {col}")

[1m>>>>> STEP 2 : CHECK COLUMNS [0m
=> Actual Column you should delete :
	- purchase_address

=> Columns must exist in your data :
	- street
	- city
	- zip_code


- Cek **Data Type** pada actual columns.
- Berikut tahapan pengerjaannya :

1. Lakukan :
    - Dapatkan requirements column dan tipe datanya
    - Dapatkan list actual columns
    - Buat list kosong untuk menyimpan data yang tidak sesuai requirements

In [7]:
print("\033[1m>>>>> STEP 3 : CHECK DATA TYPES \033[0m")
# Mendapatkan kolom dan tipe data yang diperlukan untuk setiap kolom
reqColTypeDict = columns_requirements()

# Mendapatkan list kolom pada data aktual
actCols = list(actCols)

# Buat list kosong untuk menyimpan kolom yang tipe datanya tidak sesuai dengan rquirements
mismatchColTypes = []

[1m>>>>> STEP 3 : CHECK DATA TYPES [0m


2. Lakukan iterasi dan pengecekan apakah requirements column ada di dalam actual columns?
    - Jika iya :
        - Cek apakah actual type *tidak sama dengan* expected type?
            - Jika iya :
                - Tambahkan ke dalam list
            - Jika tidak :
                - skip
    - Jika tidak :
        - Print skip check column

In [8]:
# Lakukan iterasi untuk mendapatkan setiap kolom dan tipe data yang diperlukan
for col, colType in reqColTypeDict.items():
    # Cek apakah kolom requirements ada di dalam data aktual.
    # Jika iya
    if col in actCols:
        # Dapatkan tipe data aktual pada kolom tersebut
        actColType = rawSalesDataDF[col].dtype
        # Cek apakah tipe data aktual TIDAK sama dengan requirements
        if (actColType != colType):
            # Jika tidak sesuai, tambahkan ke dalam list kosong yang telah dibuat sebelumnya
            mismatchColTypes.append(col)

    # Jika kolom requirements TIDAK ada di dalam data aktual.
    else:
        # Print "...Skip check column '{nama_kolom}' because this column doesn't exist in your data."
        print(f"...Skip check column '{col}' because this column doesn't exist in your data.")

...Skip check column 'street' because this column doesn't exist in your data.
...Skip check column 'city' because this column doesn't exist in your data.
...Skip check column 'zip_code' because this column doesn't exist in your data.


3. Lakukan pengecekan.
    - Jika sesuai requirements :
        - print : "All checked columns type are match with requirements."

    - Jika tidak sesuai requirements:
        - print : "There are some column that don't match"
        - print daftar kolom yang tipe datanya tidak sesuai dengan requirements.

In [9]:
# Cek jika ada kolom yang tipe datanya tidak match dengan requirements
if len(mismatchColTypes) > 0:
    # Print "=> There are some columns that don't match :"
    print("=> There are some columns that don't match :")

    # Print "\t- Column type doesn't match the requirements :"
    print("\t- Column type doesn't match the requirements :")

    # Lakukan iterasi (untuk mendapatkan nama kolom) pada list kolom yang tipe datanya tidak match
    for col in mismatchColTypes:
        # Print : "{nama_kolom} must be {required_types}"
        print(f"\t\t- {col} must be {reqColTypeDict[col]}")

# Jika semua kolom tipe datanya match dengan requirements
else:
    # Print "=> All checked columns type are match with requirements."
    print("\n=> All checked columns type are match with requirements.")

=> There are some columns that don't match :
	- Column type doesn't match the requirements :
		- order_id must be <class 'int'>
		- quantity_orderd must be <class 'int'>
		- order_date must be datetime64[ns]


4. Satukan code 1, 2, dan 3 yang telah dibuat sebelumnya

In [10]:
print("\033[1m>>>>> STEP 3 : CHECK DATA TYPES \033[0m")
# Mendapatkan kolom dan tipe data yang diperlukan untuk setiap kolom
reqColTypeDict = columns_requirements()

# Mendapatkan list kolom pada data aktual
actCols = list(actCols)

# Buat list kosong untuk menyimpan kolom yang tipe datanya tidak sesuai dengan rquirements
mismatchColTypes = []

# Lakukan iterasi untuk mendapatkan setiap kolom dan tipe data yang diperlukan
for col, colType in reqColTypeDict.items():
    # Cek apakah kolom requirements ada di dalam data aktual.
    # Jika iya
    if col in actCols:
        # Dapatkan tipe data aktual pada kolom tersebut
        actColType = rawSalesDataDF[col].dtype
        # Cek apakah tipe data aktual TIDAK sama dengan requirements
        if (actColType != colType):
            # Jika tidak sesuai, tambahkan ke dalam list kosong yang telah dibuat sebelumnya
            mismatchColTypes.append(col)

    # Jika kolom requirements TIDAK ada di dalam data aktual.
    else:
        # Print "...Skip check column '{nama_kolom}' because this column doesn't exist in your data."
        print(f"...Skip check column '{col}' because this column doesn't exist in your data.")

# Cek jika ada kolom yang tipe datanya tidak match dengan requirements
if len(mismatchColTypes) > 0:
    # Print "=> There are some columns that don't match :"
    print("=> There are some columns that don't match :")

    # Print "\t- Column type doesn't match the requirements :"
    print("\t- Column type doesn't match the requirements :")

    # Lakukan iterasi (untuk mendapatkan nama kolom) pada list kolom yang tipe datanya tidak match
    for col in mismatchColTypes:
        # Print : "{nama_kolom} must be {required_types}"
        print(f"\t\t- {col} must be {reqColTypeDict[col]}")

# Jika semua kolom tipe datanya match dengan requirements
else:
    # Print "=> All checked columns type are match with requirements."
    print("\n=> All checked columns type are match with requirements.")

[1m>>>>> STEP 3 : CHECK DATA TYPES [0m
...Skip check column 'street' because this column doesn't exist in your data.
...Skip check column 'city' because this column doesn't exist in your data.
...Skip check column 'zip_code' because this column doesn't exist in your data.
=> There are some columns that don't match :
	- Column type doesn't match the requirements :
		- order_id must be <class 'int'>
		- quantity_orderd must be <class 'int'>
		- order_date must be datetime64[ns]


- Setelah membuat bagian-bagian pengecekan (**Data Shape**, **Columns**, dan **Data types**), selanjutnya membuat pipeline.
- **Rangkum kode** yang telah dibuat sebelumnya kedalam **pipeline function** data validations.
- Parameters :
    - dataframe

In [11]:
#--------------------------------------------------------------------------------------
# Fungsi untuk melakukan validasi data
def data_validation(data):
    print("\033[1m>>>>> STEP 1 : CHECK DATA SHAPE \033[0m")

    # Mendapatkan jumlah baris dan kolom pada data aktual
    rowNum = data.shape[0]
    colNum = data.shape[1]

    # Menampilkan jumlah baris dan kolom
    print(f"=> Number of rows : {rowNum}")
    print(f"=> Number of columns : {colNum}")

    # Menampilkan garis pemisah
    print("-"*100)

    #--------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 2 : CHECK COLUMNS \033[0m")

    # Mendapatkan set kolom requirements
    reqCols = set(columns_requirements().keys())

    # Mendapatkan set kolom pada data aktual
    actCols = set(data.columns)

    # Memeriksa apakah kolom aktual sesuai dengan requirements.
    # Memeriksa apakah kolom aktual sesuai dengan requirements.
    # Jika sesuai
    if actCols == reqCols:
        # Print "=> Columns match with requirements."
        print("=> Columns match with requirements")
    # Jika tidak sesuai
    else:
        # Print "=> Actual Column you should delete :"
        print("=> Actual Column you should delete :")
        # Iterasi pada list kolom data aktual untuk menampilkan kolom aktual yang seharusnya dihapus
        for col in actCols:
            # Cek apakah kolom pada data aktual TIDAK ADA di dalam requirements
            if col not in reqCols:
                # Tampilkan kolom yang TIDAK ADA di dalam requirements
                print(f"\t- {col}")
        # Print "=> Columns must exist in your data :"
        print("\n=> Columns must exist in your data :")
        # Iterasi ada list kolom requirements untuk menampilkan kolom yang seharusnya ada dalam data aktual
        for col in reqCols:
            # Cek Apakah requirement kolom TIDAK ADA di dalam data aktual
            if col not in actCols:
                # Tampilkan kolom yang TIDAK ADA di dalam requirements
                print(f"\t- {col}")

    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)

    #--------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 3 : CHECK DATA TYPES \033[0m")
    # Mendapatkan kolom dan tipe data yang diperlukan untuk setiap kolom
    reqColTypeDict = columns_requirements()

    # Mendapatkan list kolom pada data aktual
    actCols = list(actCols)

    # Buat list kosong untuk menyimpan kolom yang tipe datanya tidak sesuai dengan rquirements
    mismatchColTypes = []

    # Lakukan iterasi untuk mendapatkan setiap kolom dan tipe data yang diperlukan
    for col, colType in reqColTypeDict.items():
        # Cek apakah kolom requirements ada di dalam data aktual.
        # Jika iya
        if col in actCols:
            # Dapatkan tipe data aktual pada kolom tersebut
            actColType = data[col].dtype
            # Cek apakah tipe data aktual TIDAK sama dengan requirements
            if (actColType != colType):
                # Jika tidak sesuai, tambahkan ke dalam list kosong yang telah dibuat sebelumnya
                mismatchColTypes.append(col)

        # Jika kolom requirements TIDAK ada di dalam data aktual.
        else:
            # Print "...Skip check column '{nama_kolom}' because this column doesn't exist in your data."
            print(f"...Skip check column '{col}' because this column doesn't exist in your data.")

    # Cek jika ada kolom yang tipe datanya tidak match dengan requirements
    if len(mismatchColTypes) > 0:
        # Print "=> There are some columns that don't match :"
        print("=> There are some columns that don't match :")

        # Print "\t- Column type doesn't match the requirements :"
        print("\t- Column type doesn't match the requirements :")

        # Lakukan iterasi (untuk mendapatkan nama kolom) pada list kolom yang tipe datanya tidak match
        for col in mismatchColTypes:
            # Print : "{nama_kolom} must be {required_types}"
            print(f"\t\t- {col} must be {reqColTypeDict[col]}")

    # Jika semua kolom tipe datanya match dengan requirements
    else:
        # Print "=> All checked columns type are match with requirements."
        print("\n=> All checked columns type are match with requirements.")

    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)

Checking

In [12]:
# Import library
import pandas as pd

# Read Data
rawSalesDataDF = pd.read_csv('sales_data.csv')

# Get top 5 data
rawSalesDataDF.head()

Unnamed: 0,order_id,product,quantity_orderd,price_each,order_date,purchase_address
0,295665.0,Macbook Pro Laptop,1.0,1700.0,12/30/19 00:01,"136 Church St, New York City, NY 10001"
1,295666.0,LG Washing Machine,1.0,600.0,12/29/19 07:03,"562 2nd St, New York City, NY 10001"
2,295667.0,USB-C Charging Cable,1.0,11.95,12/12/19 18:21,"277 Main St, New York City, NY 10001"
3,295668.0,27in FHD Monitor,1.0,149.99,12/22/19 15:13,"410 6th St, San Francisco, CA 94016"
4,295669.0,USB-C Charging Cable,1.0,11.95,12/18/19 12:38,"43 Hill St, Atlanta, GA 30301"


In [13]:
# Define columns_requrements
def columns_requirements():
    columns = {'order_id' : int,
               'product' : object,
               'quantity_orderd' : int,
               'price_each' : float,
               'order_date' : 'datetime64[ns]',
               'street' : object,
               'city' : object,
               'zip_code' : object
               }
    return columns

In [14]:
#--------------------------------------------------------------------------------------
# Fungsi untuk melakukan validasi data
def data_validation(data):
    print("\033[1m>>>>> STEP 1 : CHECK DATA SHAPE \033[0m")

    # Mendapatkan jumlah baris dan kolom pada data aktual
    rowNum = data.shape[0]
    colNum = data.shape[1]

    # Menampilkan jumlah baris dan kolom
    print(f"=> Number of rows : {rowNum}")
    print(f"=> Number of columns : {colNum}")

    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)

    #--------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 2 : CHECK COLUMNS \033[0m")

    # Mendapatkan set kolom requirements
    reqCols = set(columns_requirements().keys())

    # Mendapatkan set kolom pada data aktual
    actCols = set(data.columns)

    # Memeriksa apakah kolom aktual sesuai dengan requirements.
    # Memeriksa apakah kolom aktual sesuai dengan requirements.
    # Jika sesuai
    if actCols == reqCols:
        # Print "=> Columns match with requirements."
        print("=> Columns match with requirements")
    # Jika tidak sesuai
    else:
        # Print "=> Actual Column you should delete :"
        print("=> Actual Column you should delete :")
        # Iterasi pada list kolom data aktual untuk menampilkan kolom aktual yang seharusnya dihapus
        for col in actCols:
            # Cek apakah kolom pada data aktual TIDAK ADA di dalam requirements
            if col not in reqCols:
                # Tampilkan kolom yang TIDAK ADA di dalam requirements
                print(f"\t- {col}")
        # Print "=> Columns must exist in your data :"
        print("\n=> Columns must exist in your data :")
        # Iterasi ada list kolom requirements untuk menampilkan kolom yang seharusnya ada dalam data aktual
        for col in reqCols:
            # Cek Apakah requirement kolom TIDAK ADA di dalam data aktual
            if col not in actCols:
                # Tampilkan kolom yang TIDAK ADA di dalam requirements
                print(f"\t- {col}")

    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)

    #--------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 3 : CHECK DATA TYPES \033[0m")
    # Mendapatkan kolom dan tipe data yang diperlukan untuk setiap kolom
    reqColTypeDict = columns_requirements()

    # Mendapatkan list kolom pada data aktual
    actCols = list(actCols)

    # Buat list kosong untuk menyimpan kolom yang tipe datanya tidak sesuai dengan rquirements
    mismatchColTypes = []

    # Lakukan iterasi untuk mendapatkan setiap kolom dan tipe data yang diperlukan
    for col, colType in reqColTypeDict.items():
        # Cek apakah kolom requirements ada di dalam data aktual.
        # Jika iya
        if col in actCols:
            # Dapatkan tipe data aktual pada kolom tersebut
            actColType = data[col].dtype
            # Cek apakah tipe data aktual TIDAK sama dengan requirements
            if (actColType != colType):
                # Jika tidak sesuai, tambahkan ke dalam list kosong yang telah dibuat sebelumnya
                mismatchColTypes.append(col)

        # Jika kolom requirements TIDAK ada di dalam data aktual.
        else:
            # Print "...Skip check column '{nama_kolom}' because this column doesn't exist in your data."
            print(f"...Skip check column '{col}' because this column doesn't exist in your data.")

    # Cek jika ada kolom yang tipe datanya tidak match dengan requirements
    if len(mismatchColTypes) > 0:
        # Print "=> There are some columns that don't match :"
        print("=> There are some columns that don't match :")

        # Print "\t- Column type doesn't match the requirements :"
        print("\t- Column type doesn't match the requirements :")

        # Lakukan iterasi (untuk mendapatkan nama kolom) pada list kolom yang tipe datanya tidak match
        for col in mismatchColTypes:
            # Print : "{nama_kolom} must be {required_types}"
            print(f"\t\t- {col} must be {reqColTypeDict[col]}")

    # Jika semua kolom tipe datanya match dengan requirements
    else:
        # Print "=> All checked columns type are match with requirements."
        print("\n=> All checked columns type are match with requirements.")

    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)

In [15]:
# Run the pipeline
data_validation(rawSalesDataDF)

[1m>>>>> STEP 1 : CHECK DATA SHAPE [0m
=> Number of rows : 25069
=> Number of columns : 6



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 2 : CHECK COLUMNS [0m
=> Actual Column you should delete :
	- purchase_address

=> Columns must exist in your data :
	- street
	- city
	- zip_code



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 3 : CHECK DATA TYPES [0m
...Skip check column 'street' because this column doesn't exist in your data.
...Skip check column 'city' because this column doesn't exist in your data.
...Skip check column 'zip_code' because this column doesn't exist in your data.
=> There are some columns that don't match :
	- Column type doesn't match the requirements :
		- order_id must be <class 'int'>
		- quantity_orderd must be <class 'int'>
		- order_date must be datetime64[ns]



---------------------------------------------------

- Sebelumnya anda telah membuat pipeline data validations dan sudah melakukan pengecekan :
    - `Data Shape`
    - `Columns`
    - `Data Type`
- Sekarang anda diminta untuk melanjutkan pipeline data validaions yang telah dibuat sebelumnya:
    - Check **Missing Value**
    - Check **Duplicates Data**

- Cek **Missing Value**
- Berikut langkah-langkah pengerjaannya :

1. Lakukan :
    - Dapatkan list kolom aktual.
    - Buat dictionary untuk menyimpan informasi persentase dan nama kolom yang mempunyai missing value.

In [16]:
print("\033[1m>>>>> STEP 4 : CHECK MISSING VALUES \033[0m")
# Mendapatkan list kolom aktual (bankchurners)
actCols = list(rawSalesDataDF.columns)
# Membuat dictionary kosong untuk menyimpan informasi nama kolom dan persentase nilai missing valuenya
missValDict = {}

[1m>>>>> STEP 4 : CHECK MISSING VALUES [0m


2. Lakukan iterasi pada kolom aktual dan hitung persentase missing valuenya.

In [17]:
# Iterasi pada list kolom aktual
for col in actCols:
    # Hitung persentase missing value pada kolom tersebut
    missValPrctg = (
        100 *
        len(rawSalesDataDF[rawSalesDataDF[col].isna()]) / 
        len(rawSalesDataDF)
    )

    # Cek jika persentase missing value pada kolom lebih dari 0 atau ada missing value
    if missValPrctg > 0:
        # Tambahkan nama kolom sebagai key dan persentase missing value sebagai values pada dictionary yang telah dibuat
        missValDict[col] = round(missValPrctg, 2)

# Hasil dictionary kolom-kolom yang mempunyai missing value
print(missValDict)

{'order_id': 0.32, 'product': 0.32, 'quantity_orderd': 0.32, 'price_each': 0.32, 'order_date': 0.32, 'purchase_address': 0.32}


3. Cek :
    - Jika terdapat missing value pada suatu kolom:
        - print : "- There are some missing values :"
        - Tampilkan kolom-kolom tersebut beserta persentase missing valuenya.
    - Jika tidak terdapat missing value :
        - print : "- There is no missing value."

In [18]:
# Cek pada dictionary yang menampung nama kolom dan persentase missing valuenya.
# Jika ada
if len(missValDict) > 0:
    # Print "=> There are some missing values :"
    print("=> There are some missing values :")

    # Iterasi pada dictionary tersebut untuk mendapatkan nama kolom dan persentase missing valuenya
    for col, prctg in missValDict.items():
        # Print "\t- {column_name} : {missing_values_pctg}%
        print(f"\t- {col} : {prctg}%")

# Jika tidak ada data missing value
else:
    # Print "=> There is no missing values"
    print("=> There is no missing values")

=> There are some missing values :
	- order_id : 0.32%
	- product : 0.32%
	- quantity_orderd : 0.32%
	- price_each : 0.32%
	- order_date : 0.32%
	- purchase_address : 0.32%


4. Satukan code 1,2, dan 3 yang telah dibuat sebelumnya.

In [19]:
print("\033[1m>>>>> STEP 4 : CHECK MISSING VALUES \033[0m")
# Mendapatkan list kolom aktual (bankchurners)
actCols = list(rawSalesDataDF.columns)
# Membuat dictionary kosong untuk menyimpan informasi nama kolom dan persentase nilai missing valuenya
missValDict = {}

# Iterasi pada list kolom aktual
for col in actCols:
    # Hitung persentase missing value pada kolom tersebut
    missValPrctg = (
        100 *
        len(rawSalesDataDF[rawSalesDataDF[col].isna()]) / 
        len(rawSalesDataDF)
    )

    # Cek jika persentase missing value pada kolom lebih dari 0 atau ada missing value
    if missValPrctg > 0:
        # Tambahkan nama kolom sebagai key dan persentase missing value sebagai values pada dictionary yang telah dibuat
        missValDict[col] = round(missValPrctg, 2)

# Cek pada dictionary yang menampung nama kolom dan persentase missing valuenya.
# Jika ada
if len(missValDict) > 0:
    # Print "=> There are some missing values :"
    print("=> There are some missing values :")

    # Iterasi pada dictionary tersebut untuk mendapatkan nama kolom dan persentase missing valuenya
    for col, prctg in missValDict.items():
        # Print "\t- {column_name} : {missing_values_pctg}%
        print(f"\t- {col} : {prctg}%")

# Jika tidak ada data missing value
else:
    # Print "=> There is no missing values"
    print("=> There is no missing values")

[1m>>>>> STEP 4 : CHECK MISSING VALUES [0m
=> There are some missing values :
	- order_id : 0.32%
	- product : 0.32%
	- quantity_orderd : 0.32%
	- price_each : 0.32%
	- order_date : 0.32%
	- purchase_address : 0.32%


- Cek **Duplicates Data**
- Jika terdapat duplicates data:
    - print jumlah data yang duplikat.
- Jika tidak terdapat duplicates data:
    - print : "- There is no duplicates data"

In [20]:
print("\033[1m>>>>> STEP 5 : CHECK DUPLICATES DATA \033[0m")
# Menghitung jumlah data yang duplikat
dupDataCount = len(rawSalesDataDF[rawSalesDataDF.duplicated(keep=False)])

# Cek apakah terdapat data yang duplikat
if dupDataCount > 0:
    # Print "=> Threre are {num_duplicates_data} duplicates data."
    print(f"=> Threre are {dupDataCount} duplicates data.")

# Jika tidak terdapat data yang duplikat
else:
    # Print "=> There is no duplicates data."
    print("=> There is no duplicates data.")


[1m>>>>> STEP 5 : CHECK DUPLICATES DATA [0m
=> Threre are 160 duplicates data.


- Rangkum semua code validasi yang telah dibuat sebelumnya kedalam **pipeline function** data validations.
    - `Check Data Shape`
    - `Check Columns`
    - `Check Data Types`
    - `Check Missing Values`
    - `Check Duplicates Data`
- parameters :
    - dataframe

In [21]:
#--------------------------------------------------------------------------------------
# Fungsi untuk melakukan validasi data
def data_validation(data):
    print("\033[1m>>>>> STEP 1 : CHECK DATA SHAPE \033[0m")

    # Mendapatkan jumlah baris dan kolom pada data aktual
    rowNum = data.shape[0]
    colNum = data.shape[1]

    # Menampilkan jumlah baris dan kolom
    print(f"=> Number of rows : {rowNum}")
    print(f"=> Number of columns : {colNum}")

    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)

    #--------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 2 : CHECK COLUMNS \033[0m")

    # Mendapatkan set kolom requirements
    reqCols = set(columns_requirements().keys())

    # Mendapatkan set kolom pada data aktual
    actCols = set(data.columns)

    # Memeriksa apakah kolom aktual sesuai dengan requirements.
    # Memeriksa apakah kolom aktual sesuai dengan requirements.
    # Jika sesuai
    if actCols == reqCols:
        # Print "=> Columns match with requirements."
        print("=> Columns match with requirements")
    # Jika tidak sesuai
    else:
        # Print "=> Actual Column you should delete :"
        print("=> Actual Column you should delete :")
        # Iterasi pada list kolom data aktual untuk menampilkan kolom aktual yang seharusnya dihapus
        for col in actCols:
            # Cek apakah kolom pada data aktual TIDAK ADA di dalam requirements
            if col not in reqCols:
                # Tampilkan kolom yang TIDAK ADA di dalam requirements
                print(f"\t- {col}")
        # Print "=> Columns must exist in your data :"
        print("\n=> Columns must exist in your data :")
        # Iterasi ada list kolom requirements untuk menampilkan kolom yang seharusnya ada dalam data aktual
        for col in reqCols:
            # Cek Apakah requirement kolom TIDAK ADA di dalam data aktual
            if col not in actCols:
                # Tampilkan kolom yang TIDAK ADA di dalam requirements
                print(f"\t- {col}")

    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)

    #--------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 3 : CHECK DATA TYPES \033[0m")
    # Mendapatkan kolom dan tipe data yang diperlukan untuk setiap kolom
    reqColTypeDict = columns_requirements()

    # Mendapatkan list kolom pada data aktual
    actCols = list(actCols)

    # Buat list kosong untuk menyimpan kolom yang tipe datanya tidak sesuai dengan rquirements
    mismatchColTypes = []

    # Lakukan iterasi untuk mendapatkan setiap kolom dan tipe data yang diperlukan
    for col, colType in reqColTypeDict.items():
        # Cek apakah kolom requirements ada di dalam data aktual.
        # Jika iya
        if col in actCols:
            # Dapatkan tipe data aktual pada kolom tersebut
            actColType = data[col].dtype
            # Cek apakah tipe data aktual TIDAK sama dengan requirements
            if (actColType != colType):
                # Jika tidak sesuai, tambahkan ke dalam list kosong yang telah dibuat sebelumnya
                mismatchColTypes.append(col)

        # Jika kolom requirements TIDAK ada di dalam data aktual.
        else:
            # Print "...Skip check column '{nama_kolom}' because this column doesn't exist in your data."
            print(f"...Skip check column '{col}' because this column doesn't exist in your data.")

    # Cek jika ada kolom yang tipe datanya tidak match dengan requirements
    if len(mismatchColTypes) > 0:
        # Print "=> There are some columns that don't match :"
        print("=> There are some columns that don't match :")

        # Print "\t- Column type doesn't match the requirements :"
        print("\t- Column type doesn't match the requirements :")

        # Lakukan iterasi (untuk mendapatkan nama kolom) pada list kolom yang tipe datanya tidak match
        for col in mismatchColTypes:
            # Print : "{nama_kolom} must be {required_types}"
            print(f"\t\t- {col} must be {reqColTypeDict[col]}")

    # Jika semua kolom tipe datanya match dengan requirements
    else:
        # Print "=> All checked columns type are match with requirements."
        print("\n=> All checked columns type are match with requirements.")

    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)


    #--------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 4 : CHECK MISSING VALUES \033[0m")
    # Mendapatkan list kolom aktual (bankchurners)
    actCols = list(data.columns)
    # Membuat dictionary kosong untuk menyimpan informasi nama kolom dan persentase nilai missing valuenya
    missValDict = {}

    # Iterasi pada list kolom aktual
    for col in actCols:
        # Hitung persentase missing value pada kolom tersebut
        missValPrctg = (
            100 *
            len(data[data[col].isna()]) / 
            len(data)
        )

        # Cek jika persentase missing value pada kolom lebih dari 0 atau ada missing value
        if missValPrctg > 0:
            # Tambahkan nama kolom sebagai key dan persentase missing value sebagai values pada dictionary yang telah dibuat
            missValDict[col] = round(missValPrctg, 2)

    # Cek pada dictionary yang menampung nama kolom dan persentase missing valuenya.
    # Jika ada
    if len(missValDict) > 0:
        # Print "=> There are some missing values :"
        print("=> There are some missing values :")

        # Iterasi pada dictionary tersebut untuk mendapatkan nama kolom dan persentase missing valuenya
        for col, prctg in missValDict.items():
            # Print "\t- {column_name} : {missing_values_pctg}%
            print(f"\t- {col} : {prctg}%")

    # Jika tidak ada data missing value
    else:
        # Print "=> There is no missing values"
        print("=> There is no missing values")

    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)


    #--------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 5 : CHECK DUPLICATES DATA \033[0m")
    # Menghitung jumlah data yang duplikat
    dupDataCount = len(data[data.duplicated(keep=False)])

    # Cek apakah terdapat data yang duplikat
    if dupDataCount > 0:
        # Print "=> Threre are {num_duplicates_data} duplicates data."
        print(f"=> Threre are {dupDataCount} duplicates data.")

    # Jika tidak terdapat data yang duplikat
    else:
        # Print "=> There is no duplicates data."
        print("=> There is no duplicates data.")


In [23]:
data_validation(rawSalesDataDF)

[1m>>>>> STEP 1 : CHECK DATA SHAPE [0m
=> Number of rows : 25069
=> Number of columns : 6



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 2 : CHECK COLUMNS [0m
=> Actual Column you should delete :
	- purchase_address

=> Columns must exist in your data :
	- street
	- city
	- zip_code



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 3 : CHECK DATA TYPES [0m
...Skip check column 'street' because this column doesn't exist in your data.
...Skip check column 'city' because this column doesn't exist in your data.
...Skip check column 'zip_code' because this column doesn't exist in your data.
=> There are some columns that don't match :
	- Column type doesn't match the requirements :
		- order_id must be <class 'int'>
		- quantity_orderd must be <class 'int'>
		- order_date must be datetime64[ns]



---------------------------------------------------

- Setelah melakukan validasi data, diketahui bahwa :
    - Pada **data aktual belum memiliki kolom :**
        - `street`
        - `city`
        - `zip_code`
- Oleh karena itu, perlu dilakukan **extract data** dari kolom `purchase_addres`.
- *Contoh Ekstraksi data:*
    - *`purchase_address` : '136 Church St, New York City, NY 10001'*
    - Maka :
        - *`street` : '136 Church St'*
        - *`city` : 'New York City'*
        - *`zip_code` : 'NY 10001'*

In [43]:
# Make a new dataframe
salesDataDF = rawSalesDataDF

In [56]:
text = "136 Church St, New York City, NY 10001"
position = 2
text.split(",")[position].strip(" ")

'NY 10001'

In [57]:
# Define a helper function
def getSplitText(text, position, splitter=",", stripper=" "):
    try:
        return text.split(splitter)[position].strip(stripper)
    except:
        return None
# Buat kolom 'street' dengan data hasil ekstraksi dari kolom 'purchase_address'
salesDataDF["street"] = salesDataDF["purchase_address"].apply(lambda val: getSplitText(val, 0))
## alternative: ...str.extract(r'(\d+\s[A-Za-z0-9\s]+),')

# Buat kolom 'city' dengan data hasil ekstraksi dari kolom 'purchase_address'
salesDataDF["city"] = salesDataDF["purchase_address"].apply(lambda val: getSplitText(val, 1))

# Buat kolom 'zip_code' dengan data hasil ekstraksi dari kolom 'purchase_address'
salesDataDF["zip_code"] = salesDataDF["purchase_address"].apply(lambda val: getSplitText(val, 2))

# Drop kolom 'purchase_address'
salesDataDF = salesDataDF.drop(columns="purchase_address")

# Tampilikan 5 data teratas
salesDataDF.head()

Unnamed: 0,order_id,product,quantity_orderd,price_each,order_date,street,city,zip_code
0,295665.0,Macbook Pro Laptop,1.0,1700.0,12/30/19 00:01,136 Church St,New York City,NY 10001
1,295666.0,LG Washing Machine,1.0,600.0,12/29/19 07:03,562 2nd St,New York City,NY 10001
2,295667.0,USB-C Charging Cable,1.0,11.95,12/12/19 18:21,277 Main St,New York City,NY 10001
3,295668.0,27in FHD Monitor,1.0,149.99,12/22/19 15:13,410 6th St,San Francisco,CA 94016
4,295669.0,USB-C Charging Cable,1.0,11.95,12/18/19 12:38,43 Hill St,Atlanta,GA 30301


In [58]:
# Lakukan validasi data
data_validation(salesDataDF)

[1m>>>>> STEP 1 : CHECK DATA SHAPE [0m
=> Number of rows : 25069
=> Number of columns : 8



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 2 : CHECK COLUMNS [0m
=> Columns match with requirements



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 3 : CHECK DATA TYPES [0m
=> There are some columns that don't match :
	- Column type doesn't match the requirements :
		- order_id must be <class 'int'>
		- quantity_orderd must be <class 'int'>
		- order_date must be datetime64[ns]



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 4 : CHECK MISSING VALUES [0m
=> There are some missing values :
	- order_id : 0.32%
	- product : 0.32%
	- quantity_orderd : 0.32%
	- price_each : 0.32%
	- order_date : 0.32%
	- street : 0.32%
	- city : 0.32%
	- zip_code : 0.32%



---------------------------

- Dari hasil data validation **masih terdapat beberapa missing values pada semua kolom.**
- **Drop missing_values** tersebut.

In [59]:
# Drop missing values
salesDataDF = (
    salesDataDF.dropna()
)

# Lakukan validasi data
data_validation(salesDataDF)

[1m>>>>> STEP 1 : CHECK DATA SHAPE [0m
=> Number of rows : 24989
=> Number of columns : 8



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 2 : CHECK COLUMNS [0m
=> Columns match with requirements



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 3 : CHECK DATA TYPES [0m
=> There are some columns that don't match :
	- Column type doesn't match the requirements :
		- order_id must be <class 'int'>
		- quantity_orderd must be <class 'int'>
		- order_date must be datetime64[ns]



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 4 : CHECK MISSING VALUES [0m
=> There is no missing values



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 5 : CHECK DUPLICATES DATA [0m
=> Threre are 80 duplicates data.


- Dari hasil validasi data, **masih terdapat beberapa data yang duplikat.**
- **Drop data yang duplikat** tersebut (dengan **mempertahankan record data yang pertama**).

In [60]:
# Drop data duplikat
salesDataDF = (
    salesDataDF.drop_duplicates(keep="first")
)

# Lakukan validasi data
data_validation(salesDataDF)

[1m>>>>> STEP 1 : CHECK DATA SHAPE [0m
=> Number of rows : 24949
=> Number of columns : 8



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 2 : CHECK COLUMNS [0m
=> Columns match with requirements



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 3 : CHECK DATA TYPES [0m
=> There are some columns that don't match :
	- Column type doesn't match the requirements :
		- order_id must be <class 'int'>
		- quantity_orderd must be <class 'int'>
		- order_date must be datetime64[ns]



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 4 : CHECK MISSING VALUES [0m
=> There is no missing values



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 5 : CHECK DUPLICATES DATA [0m
=> There is no duplicates data.


- Dari hasil validasi data, **masih terdapat beberapa kolom yang tipe datanya tidak sesuai dengan requirements, yaitu :**
    - `order_id`
    - `quantity_orderd`
    - `order_date`
- **Lakukan casting data types untuk merubah tipe data pada kolom tersebut agar sesuai dengan requirements.**

In [62]:
# Convert 'order_id' to integer
salesDataDF["order_id"] = (
    salesDataDF["order_id"].astype("int")
)

# Convert 'quantity_orderd' to integer
salesDataDF["quantity_orderd"] = (
    salesDataDF["quantity_orderd"].astype("int")
)

# Convert 'order_date' to datetime
salesDataDF["order_date"] = (
    pd.to_datetime(salesDataDF["order_date"])
)

In [63]:
# Lakukan validasi data
data_validation(salesDataDF)

[1m>>>>> STEP 1 : CHECK DATA SHAPE [0m
=> Number of rows : 24949
=> Number of columns : 8



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 2 : CHECK COLUMNS [0m
=> Columns match with requirements



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 3 : CHECK DATA TYPES [0m

=> All checked columns type are match with requirements.



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 4 : CHECK MISSING VALUES [0m
=> There is no missing values



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 5 : CHECK DUPLICATES DATA [0m
=> There is no duplicates data.
