# **Week #8 - Data Cleansing**

Intro to Data Engineering Course - Sekolah Engineer - Pacmann Academy

**Outline**

1. Review: Data Cleansing
2. Case Study 1: Sales Data
3. Case Study 2: Bank Churners

# <font color='blue'>Review
---

## Data Cleansing
---

### 1. Data Validations

- Data Validation :
    - **Memastikan kualitas, keakuratan dan konsistensi data** sebelum digunakan atau disimpan. (Validasi)

- Melakukan validasi sangat penting karena :
    - **Mencegah terdapatnya kesalahan data** yang dapat mempengaruhi analisis dan pengambilan keputusan.
    - **Memastikan integritas dan kualitas data.**

### 2. Data Shape

- Untuk melakukan pengecekan jumlah kolom dan baris (Data Shape) dapat menggunakan function :
    - `.shape`

- **Contoh :**
  ```python
  # import library pandas
  import pandas as pd

  # read data property
  property_data = pd.read_csv('property_data.csv')

  # mencek jumlah baris dan kolom dari data
  property_data.shape
  ```

### 3. Data Types

- Untuk mengecek tipe data dari masing-masing kolom dapat digunakan beberapa fungsi :
    - `.dtypes`
    - `.info()`
- **Contoh :**
    ```python
    # import library pandas
    import pandas as pd

    # read data property
    property_data = pd.read_csv('property_data.csv')

    # mencek type data dengan menggunakan fungsi .dtypes
    property_data.dtypes
    ```
    Atau
    ```python
    # mencek type data dengan menggunakan fungsi .info()
    property_data.info()
    ```

### 4. Identify Missing Values

- **Missing Value :**
    - **Menandakan ketiadaan nilai.**
    - Berbeda dengan angka 0 dan string kosong ("")
- Missing Value dapat disebabkan oleh beberapa hal :
    - Kesalahan pengumpulan data
    - Courrpt / error pada database
    - Kesengajaan penghilangan data
    <center>
    <img src="https://sekolahdata-assets.s3.ap-southeast-1.amazonaws.com/notebook-images/mde-intro-to-data-eng/7-1.png" alt="Drawing" width= 500px;/>
    <center>

- Untuk mengecek missing value dapat dilakukan dengan method :
    - `isna()`
    - `isnull()`

- **Contoh :**
    ```python
    # import library pandas
    import pandas as pd

    # read data property
    property_data = pd.read_csv('property_data.csv')

    # mengecek missing value pada property data
    property_data.isna()
    ```

- Hasil fungsi `isna()` :
    - Nilai boolean, yang mana :
        - `False` berarti data **memeiliki nilai**
        - `True` berarti data **tidak memeiliki nilai atau kosong**

- Hasil ini **dapat di ringkas/agregasi** menggunakan fungsi aggregasi `.sum()` **untuk menghitung jumlah missing value di tiap kolom.**
- **Contoh :**
    ```python
    # Menghitung jumlah missing value pada tiap kolom
    property_data.isna().sum()
    ```

- Selain itu, hasil ringkasan **juga dapat direpresentasikan dalam bentuk persentase.**
- **Contoh :**
    ```python
    # Menghitung jumlah missing value pada tiap kolom
    property_data.isna().sum() / len(property_data) * 100
    ```

### 5. Handling Missing Values

- Untuk menangani missing value, dapat dilakukan dengan beberapa cara:
    - **Imputasi missing value**
    - **Drop kolom yang mengandung missing value**
- **Menginput nilai pada missing value bergantung pada jenis data dari kolom yang mengandung NaN.**
     
     - Jika **numeric**, dapat diinput dengan **nilai mean, median atau modus.**
     - Jika **categorical**, dapat diinput dengan **nilai modus, nilai tetangga terdekat atau diganti dengan nilai "Unknown"**

  Menginput missing value, **dilakukan dengan menggunakan fungsi `.fillna`**

- **Contoh :**
    ```python
    # import library pandas
    import pandas as pd

    # read data property
    property_data = pd.read_csv('property_data.csv')

    # meghitung nilai mean pada kolom SQ_FT
    med_SQ = property_data["SQ_FT"].median()

    # Menginput NaN pada kolom SQ_FT dengan nilai median
    property_data["SQ_FT"] = property_data["SQ_FT"].fillna(med_SQ)
    ```

### 6. Identify Duplicates Data

- **Data duplikat** :
    - Record data yang memiliki **nilai yang sama** dengan record lainnya.

<center>
<img src="https://sekolahdata-assets.s3.ap-southeast-1.amazonaws.com/notebook-images/mde-intro-to-data-eng/7-2.png" alt="Drawing" width= 500px;/>
<center>

- Apa yang terjadi **kalau kita keep data yang duplicate?**
    - **Informasi yang redundan.** Artinya, informasi yang dihasilkan dari data tersebut berulang.
    - **Membuat informasi menjadi bias.**
    - ***Notes :***
        - ***Tapi terkadang, dengan data yang duplicate dapat digunakan untuk perbandingan dan analisis lebih lanjut tentang tren atau pola data***
- Dan kalau misalnya kita **menghapus data yang duplicate :**
    - **Efisiensi penyimpanan**, terutama jika dataset sangat besar.
    - **Mengurangi kecenderungan bias.**
        - Jika duplikat mewakili kesalahan input atau kesalahan dalam pengumpulan data.

- Untuk mengidentifikasi data duplikat **dapat digunakan method :**
    - `duplicated()`
    - Parameter :
        - **keep = 'first'** : Menandai data duplikat sebagai `True` **pada record pertama.**
        - **keep = 'last'** : Menandai data duplikat sebagai `True` **pada record terakhir.**
        - **keep = False** : Menandai **semua data yang menagalami duplicate sebagai `True`.**

- **Contoh :**
    ```python
    # import library pandas
    import pandas as pd

    # read data property
    property_data = pd.read_csv('property_data_2.csv')

    # Mengecek data duplikat
    property_data.duplicated(keep = False)
    ```

- **Contoh menampilkan data yang mengalami duplikat :**
    ```python
    # Menyeleksi data yang dikategorikan sebagai data duplikat
    property_data[property_data.duplicated(keep=False)]
    ```

### 7. Handling Duplicates Data

- Menghilangkan record data yang duplikat dapat dilakukan dengan method `drop_duplicates()`. Pada method ini kita punya pilihan untuk:
  - Mempertahankan record yang pertama, `keep='first'` **default*
  - Mempertahankan record yang terakhir, `keep='last'`
  - Drop kedua data yang duplikat, `keep=False`

  <center>
  <img src="https://sekolahdata-assets.s3.ap-southeast-1.amazonaws.com/notebook-images/mde-intro-to-data-eng/7-3.png" alt="Drawing" width= 500px;/>
  <center>

  <a href="https://www.amazon.com/Effective-Pandas-Patterns-Manipulation-Treading/dp/B09MYXXSFM" target="https://www.amazon.com/Effective-Pandas-Patterns-Manipulation-Treading/dp/B09MYXXSFM">img source: Effective Pandas Books</a>

- **Contoh** untuk melakukan drop duplicates data dengan **mempertahankan record yang pertama.**
    ```python
    # import library pandas
    import pandas as pd

    # read data property
    property_data = pd.read_csv('property_data_2.csv')

    # Menghilangkan data duplikat
    property_data = property_data.drop_duplicates(keep = 'first')
    ```

### 8. Identify Inconsistent Data

- Biasanya dalam tahap data cleaning, kita juga harus **memastikan tidak ada nilai yang tidak konsisten didalam kolom.**
- **Inconsistent Data :**
    - **Data yang memiliki meaning atau arti yang sama namun penulisannya berbeda.**

    <center>
    <img src="https://sekolahdata-assets.s3.ap-southeast-1.amazonaws.com/notebook-images/mde-intro-to-data-eng/7-4.png" alt="Drawing" width= 500px;/>
    <center>

- Untuk mengidentifikasi lebih lanjut data yang tidak consistent dapat menggunakan :
    - `unique()`
    - `value_counts()`

### 9. Handling Inconsistent Data

- **Menangani data inkonsisten dapat dilakukan dengan penyeragaman.**
- Sehingga perlu **mengubah nilai yang memiliki meaning yang sama kedalam satu format.**

- Hal ini dapat dilakukan dengan **cara:**
    - **Melakukan mapping** inkonsiten format ke bentuk yang diinginkan
    - Menggunakan hasil mapping untuk mengganti nilai yang inkonsisten

- Contoh :
    ```python
    # import library pandas
    import pandas as pd

    # read data property
    property_data = pd.read_csv('property_data_2.csv')

    # mapping inkonsisten ke format yang benar
    map_inkonsistent = {
        "LXT" : "LEXINGTON",
        "berkeley" : "BERKELEY",
        "Berkeley" : "BERKELEY",
    }
    ```

- Untuk mengganti nilai inkonsisten ke nilai yang benar, akan digunakan method :
    - `replace()`.
- *Note: method replace digunakan karena data pada kolom ST_NAME bertipe string*
```python
# mengubah hasil mapping sehingga nilai menjadi seragam
property_data["ST_NAME"].replace(map_inkonsistent)
```

# <font color='blue'>Case Study 1: Sales Data
---

- Seorang Data Analyst ingin melakukan analisis pada data Sales tetapi datanya masih kotor.
- Oleh karena itu, sebagai seorang Data Engineer, anda diminta untuk **membersihkan data** tersebut.
- Jadi, tugas yang anda akan kerjakan adalah sebagai berikut :
    <center>
    <img src="https://sekolahdata-assets.s3.ap-southeast-1.amazonaws.com/notebook-images/mde-intro-to-data-eng/7-5.png" alt="Drawing" width= 500px;/>
    <center>

- Berikut gambaran pipeline data validations yang akan dibuat :
    <center>
    <img src="https://sekolahdata-assets.s3.ap-southeast-1.amazonaws.com/notebook-images/mde-intro-to-data-eng/7-6.png" alt="Drawing";/>
    <center>
- Berikut datanya :

- **Sales Data**

In [None]:
# Import library
import pandas as pd

# Read Data
sales_data = pd.read_csv('sales_data.csv')

# Get top 5 data
sales_data.head()

Unnamed: 0,order_id,product,quantity_orderd,price_each,order_date,purchase_address
0,295665.0,Macbook Pro Laptop,1.0,1700.0,12/30/19 00:01,"136 Church St, New York City, NY 10001"
1,295666.0,LG Washing Machine,1.0,600.0,12/29/19 07:03,"562 2nd St, New York City, NY 10001"
2,295667.0,USB-C Charging Cable,1.0,11.95,12/12/19 18:21,"277 Main St, New York City, NY 10001"
3,295668.0,27in FHD Monitor,1.0,149.99,12/22/19 15:13,"410 6th St, San Francisco, CA 94016"
4,295669.0,USB-C Charging Cable,1.0,11.95,12/18/19 12:38,"43 Hill St, Atlanta, GA 30301"


---
- Selain diberikan sebuah data, Anda juga diberikan sebuah requirements :
    - `column_requirements`
- Jadi :
    - Nama kolom dari data yang diberikan harus sesuai dengan `column_requirements`
    - Tipe data kolom dari data yang diberikan harus sesuai dengan `column_requirements`

- **Requirements**

In [None]:
def columns_requirements():
    columns = {'order_id' : int,
               'product' : object,
               'quantity_orderd' : int,
               'price_each' : float,
               'order_date' : 'datetime64[ns]',
               'street' : object,
               'city' : object,
               'zip_code' : object
               }
    return columns

## 1

- Anda diminta untuk **membuat pipeline data validation** untuk :
    - Check **Data Shape**
        - Menampilkan jumlah baris dan kolom.
    - Check **Columns**
        - Melakukan pengecekan kolom-kolom pada data yang diberikan, **apakah sesuai dengan requirements?**
    - Check **Data Types**
        - Melakukan pengecekan tipe data kolom dari data yang diberikan, **apakah sesuai dengan requirements?**

### 1a

- Menampilkan jumlah baris dan kolom.

In [None]:
print("\033[1m>>>>> STEP 1 : CHECK DATA SHAPE \033[0m")
# Mendapatkan jumlah baris dan kolom pada data aktual
...
...

# Menampilkan jumlah baris dan kolom
...
...

[1m>>>>> STEP 1 : CHECK DATA SHAPE [0m
=> Number of rows : 25069
=> Number of columns : 6


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
print("\033[1m>>>>> STEP 1 : CHECK DATA SHAPE \033[0m")
# Mendapatkan jumlah baris dan kolom pada data aktual
num_rows = sales_data.shape[0]
num_columns = sales_data.shape[1]

# Menampilkan jumlah baris dan kolom
print(f"=> Number of rows : {num_rows}")
print(f"=> Number of columns : {num_columns}")
```

</details>

---

### 1b

- **Cek apakah kolom pada data aktual match dengan requirements.**
- Beikut tahapan pengerjaannya :

1. Dapatkan requirements column dan actual column.

In [None]:
print("\033[1m>>>>> STEP 2 : CHECK COLUMNS \033[0m")

# Mendapatkan set kolom requirements
...

# Mendapatkan set kolom pada data aktual
...

[1m>>>>> STEP 2 : CHECK COLUMNS [0m


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
print("\033[1m>>>>> STEP 2 : CHECK COLUMNS \033[0m")

# Mendapatkan set kolom requirements
required_columns = set(columns_requirements().keys())

# Mendapatkan set kolom pada data aktual
actual_columns = set(sales_data.columns)
```

</details>

---

2. Periksa apakah kolom aktual sesuai dengan requirements.
    - **Jika sama :**
        - Print : "Columns match with requirements"
    - **Jika tidak sama :**
        - Print : "Columns not match with requirements"
        - Tampilkan kolom-kolom pada data aktual yang tidak ada di dalam requirements.

In [None]:
# Memeriksa apakah kolom aktual sesuai dengan requirements.
# Jika sesuai
...
    # Print "=> Columns match with requirements."
    ...

# Jika tidak sesuai
...
    # Print "=> Actual Column you should delete :"
    ...

    # Iterasi pada list kolom data aktual untuk menampilkan kolom aktual yang seharusnya dihapus
    ...
        # Cek apakah kolom pada data aktual TIDAK ADA di dalam requirements
        ...
            # Tampilkan kolom yang TIDAK ADA di dalam requirements
            ...

    # Print "=> Columns must exist in your data :"
    ...

    # Iterasi ada list kolom requirements untuk menampilkan kolom yang seharusnya ada dalam data aktual
    ...
        # Cek Apakah requirement kolom TIDAK ADA di dalam data aktual
        ...
            # Tampilkan kolom yang TIDAK ADA di dalam requirements
            ...

=> Actual Column you should delete :
	- purchase_address

=> Columns must exist in your data :
	- street
	- city
	- zip_code


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Memeriksa apakah kolom aktual sesuai dengan requirements.
# Jika sesuai
if actual_columns == required_columns:
    # Print "=> Columns match with requirements."
    print("=> Columns match with requirements.")
    
# Jika tidak sesuai
else:
    # Print "=> Actual Column you should delete :"
    print("=> Actual Column you should delete :")
    
    # Iterasi pada list kolom data aktual untuk menampilkan kolom aktual yang seharusnya dihapus
    for column in actual_columns:
        # Cek apakah kolom pada data aktual TIDAK ADA di dalam requirements
        if column not in required_columns:
            # Tampilkan kolom yang TIDAK ADA di dalam requirements
            print(f"\t- {column}")
    
    # Print "=> Columns must exist in your data :"    
    print("\n=> Columns must exist in your data :")
    
    # Iterasi ada list kolom requirements untuk menampilkan kolom yang seharusnya ada dalam data aktual
    for column in required_columns:
        # Cek Apakah requirement kolom TIDAK ADA di dalam data aktual
        if column not in actual_columns:
            # Tampilkan kolom yang TIDAK ADA di dalam requirements
            print(f"\t- {column}")
```

</details>

---

3. Satukan code 1 dan 2 tersebut.

In [None]:
print("\033[1m>>>>> STEP 2 : CHECK COLUMNS \033[0m")

# Mendapatkan set kolom requirements
...

# Mendapatkan set kolom pada data aktual
...

# Memeriksa apakah kolom aktual sesuai dengan requirements.
# Jika sesuai
...
    # Print "=> Columns match with requirements."
    ...

# Jika tidak sesuai
...
    # Print "=> Actual Column you should delete :"
    ...

    # Iterasi pada list kolom data aktual untuk menampilkan kolom aktual yang seharusnya dihapus
    ...
        # Cek apakah kolom pada data aktual TIDAK ADA di dalam requirements
        ...
            # Tampilkan kolom yang TIDAK ADA di dalam requirements
            ...

    # Print "=> Columns must exist in your data :"
    ...

    # Iterasi ada list kolom requirements untuk menampilkan kolom yang seharusnya ada dalam data aktual
    ...
        # Cek Apakah requirement kolom TIDAK ADA di dalam data aktual
        ...
            # Tampilkan kolom yang TIDAK ADA di dalam requirements
            ...

[1m>>>>> STEP 2 : CHECK COLUMNS [0m
=> Actual Column you should delete :
	- purchase_address

=> Columns must exist in your data :
	- street
	- city
	- zip_code


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
print("\033[1m>>>>> STEP 2 : CHECK COLUMNS \033[0m")

# Mendapatkan set kolom requirements
required_columns = set(columns_requirements().keys())

# Mendapatkan set kolom pada data aktual
actual_columns = set(sales_data.columns)

# Memeriksa apakah kolom aktual sesuai dengan requirements.
# Jika sesuai
if actual_columns == required_columns:
    # Print "=> Columns match with requirements."
    print("=> Columns match with requirements.")
    
# Jika tidak sesuai
else:
    # Print "=> Actual Column you should delete :"
    print("=> Actual Column you should delete :")
    
    # Iterasi pada list kolom data aktual untuk menampilkan kolom aktual yang seharusnya dihapus
    for column in actual_columns:
        # Cek apakah kolom pada data aktual TIDAK ADA di dalam requirements
        if column not in required_columns:
            # Tampilkan kolom yang TIDAK ADA di dalam requirements
            print(f"\t- {column}")
    
    # Print "=> Columns must exist in your data :"    
    print("\n=> Columns must exist in your data :")
    
    # Iterasi ada list kolom requirements untuk menampilkan kolom yang seharusnya ada dalam data aktual
    for column in required_columns:
        # Cek Apakah requirement kolom TIDAK ADA di dalam data aktual
        if column not in actual_columns:
            # Tampilkan kolom yang TIDAK ADA di dalam requirements
            print(f"\t- {column}")
```

</details>

---

### 1c

- Cek **Data Type** pada actual columns.
- Berikut tahapan pengerjaannya :

1. Lakukan :
    - Dapatkan requirements column dan tipe datanya
    - Dapatkan list actual columns
    - Buat list kosong untuk menyimpan data yang tidak sesuai requirements

In [None]:
print("\033[1m>>>>> STEP 3 : CHECK DATA TYPES \033[0m")
# Mendapatkan kolom dan tipe data yang diperlukan untuk setiap kolom
...

# Mendapatkan list kolom pada data aktual
...

# Buat list kosong untuk menyimpan kolom yang tipe datanya tidak sesuai dengan rquirements
...

[1m>>>>> STEP 3 : CHECK DATA TYPES [0m


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
print("\033[1m>>>>> STEP 3 : CHECK DATA TYPES \033[0m")    
# Mendapatkan kolom dan tipe data yang diperlukan untuk setiap kolom
required_columns = columns_requirements()

# Mendapatkan list kolom pada data aktual
actual_columns = list(sales_data.columns)

# Buat list kosong untuk menyimpan kolom yang tipe datanya tidak sesuai dengan rquirements
columns_not_match = []
```

</details>

---

2. Lakukan iterasi dan pengecekan apakah requirements column ada di dalam actual columns?
    - Jika iya :
        - Cek apakah actual type *tidak sama dengan* expected type?
            - Jika iya :
                - Tambahkan ke dalam list
            - Jika tidak :
                - skip
    - Jika tidak :
        - Print skip check column

In [None]:
# Lakukan iterasi untuk mendapatkan setiap kolom dan tipe data yang diperlukan
...
    # Cek apakah kolom requirements ada di dalam data aktual.
    # Jika iya
    ...
        # Dapatkan tipe data aktual pada kolom tersebut
        ...

        # Cek apakah tipe data aktual TIDAK sama dengan requirements
        ...
            # Jika tidak sesuai, tambahkan ke dalam list kosong yang telah dibuat sebelumnya
            ...

    # Jika kolom requirements TIDAK ada di dalam data aktual.
    ...
        # Print "...Skip check column '{nama_kolom}' because this column doesn't exist in your data."
        ...

...Skip check column 'street' because this column doesn't exist in your data.
...Skip check column 'city' because this column doesn't exist in your data.
...Skip check column 'zip_code' because this column doesn't exist in your data.


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Lakukan iterasi untuk mendapatkan setiap kolom dan tipe data yang diperlukan
for column, expected_type in required_columns.items():
    # Cek apakah kolom requirements ada di dalam data aktual.
    # Jika iya
    if column in actual_columns:
        # Dapatkan tipe data aktual pada kolom tersebut
        actual_type = sales_data[f"{column}"].dtype
            
        # Cek apakah tipe data aktual TIDAK sama dengan requirements
        if actual_type != expected_type:
            # Jika tidak sesuai, tambahkan ke dalam list kosong yang telah dibuat sebelumnya
            columns_not_match.append(f"{column}")
    
    # Jika kolom requirements TIDAK ada di dalam data aktual.
    else:
        # Print "...Skip check column '{nama_kolom}' because this column doesn't exist in your data."
        print(f"...Skip check column '{column}' because this column doesn't exist in your data.")
```

</details>

---

3. Lakukan pengecekan.
    - Jika sesuai requirements :
        - print : "All checked columns type are match with requirements."

    - Jika tidak sesuai requirements:
        - print : "There are some column that don't match"
        - print daftar kolom yang tipe datanya tidak sesuai dengan requirements.

In [None]:
# Cek jika ada kolom yang tipe datanya tidak match dengan requirements
...
    # Print "=> There are some columns that don't match :"
    ...

    # Print "\t- Column type doesn't match the requirements :"
    ...

    # Lakukan iterasi (untuk mendapatkan nama kolom) pada list kolom yang tipe datanya tidak match
    ...
        # Print : "{nama_kolom} must be {required_types}"
        ...

# Jika semua kolom tipe datanya match dengan requirements
...
    # Print "=> All checked columns type are match with requirements."
    ...

=> There are some columns that don't match :
	- Column type doesn't match the requirements :
		- order_id must be <class 'int'>
		- quantity_orderd must be <class 'int'>
		- order_date must be datetime64[ns]


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Cek jika ada kolom yang tipe datanya tidak match dengan requirements
if columns_not_match:
    # Print "=> There are some columns that don't match :"
    print("=> There are some columns that don't match :")
    
    # Print "\t- Column type doesn't match the requirements :"
    print("\t- Column type doesn't match the requirements :")

    # Lakukan iterasi (untuk mendapatkan nama kolom) pada list kolom yang tipe datanya tidak match
    for column in columns_not_match:
        
        # Print : "{nama_kolom} must be {required_types}"
        print(f"\t\t- {column} must be {required_columns[column]}")

# Jika semua kolom tipe datanya match dengan requirements
else:
    # Print "=> All checked columns type are match with requirements."
    print("=> All checked columns type are match with requirements.")
```

</details>

---

4. Satukan code 1, 2, dan 3 yang telah dibuat sebelumnya

In [None]:
print("\033[1m>>>>> STEP 3 : CHECK DATA TYPES \033[0m")
# Mendapatkan kolom dan tipe data yang diperlukan untuk setiap kolom
...

# Mendapatkan list kolom pada data aktual
...

# Buat list kosong untuk menyimpan kolom yang tipe datanya tidak sesuai dengan rquirements
...

# Lakukan iterasi untuk mendapatkan setiap kolom dan tipe data yang diperlukan
...
    # Cek apakah kolom requirements ada di dalam data aktual.
    # Jika iya
    ...
        # Dapatkan tipe data aktual pada kolom tersebut
        ...

        # Cek apakah tipe data aktual TIDAK sama dengan requirements
        ...
            # Jika tidak sesuai, tambahkan ke dalam list kosong yang telah dibuat sebelumnya
            ...

    # Jika kolom requirements TIDAK ada di dalam data aktual.
    ...
        # Print "...Skip check column '{nama_kolom}' because this column doesn't exist in your data."
        ...

# Cek jika ada kolom yang tipe datanya tidak match dengan requirements
...
    # Print "=> There are some columns that don't match :"
    ...

    # Print "\t- Column type doesn't match the requirements :"
    ...

    # Lakukan iterasi (untuk mendapatkan nama kolom) pada list kolom yang tipe datanya tidak match
    ...
        # Print : "{nama_kolom} must be {required_types}"
        ...

# Jika semua kolom tipe datanya match dengan requirements
...
    # Print "=> All checked columns type are match with requirements."
    ...

[1m>>>>> STEP 3 : CHECK DATA TYPES [0m
...Skip check column 'street' because this column doesn't exist in your data.
...Skip check column 'city' because this column doesn't exist in your data.
...Skip check column 'zip_code' because this column doesn't exist in your data.
=> There are some columns that don't match :
	- Column type doesn't match the requirements :
		- order_id must be <class 'int'>
		- quantity_orderd must be <class 'int'>
		- order_date must be datetime64[ns]


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
print("\033[1m>>>>> STEP 3 : CHECK DATA TYPES \033[0m")    
# Mendapatkan kolom dan tipe data yang diperlukan untuk setiap kolom
required_columns = columns_requirements()

# Mendapatkan list kolom pada data aktual
actual_columns = list(sales_data.columns)

# Buat list kosong untuk menyimpan kolom yang tipe datanya tidak sesuai dengan rquirements
columns_not_match = []

# Lakukan iterasi untuk mendapatkan setiap kolom dan tipe data yang diperlukan
for column, expected_type in required_columns.items():
    # Cek apakah kolom requirements ada di dalam data aktual.
    # Jika iya
    if column in actual_columns:
        # Dapatkan tipe data aktual pada kolom tersebut
        actual_type = sales_data[column].dtype
            
        # Cek apakah tipe data aktual TIDAK sama dengan requirements
        if actual_type != expected_type:
            # Jika tidak sesuai, tambahkan ke dalam list kosong yang telah dibuat sebelumnya
            columns_not_match.append(column)
    
    # Jika kolom requirements TIDAK ada di dalam data aktual.
    else:
        # Print "...Skip check column '{nama_kolom}' because this column doesn't exist in your data."
        print(f"...Skip check column '{column}' because this column doesn't exist in your data.")

# Cek jika ada kolom yang tipe datanya tidak match dengan requirements
if columns_not_match:
    # Print "=> There are some columns that don't match :"
    print("=> There are some columns that don't match :")
    
    # Print "\t- Column type doesn't match the requirements :"
    print("\t- Column type doesn't match the requirements :")

    # Lakukan iterasi (untuk mendapatkan nama kolom) pada list kolom yang tipe datanya tidak match
    for column in columns_not_match:
        
        # Print : "{nama_kolom} must be {required_types}"
        print(f"\t\t- {column} must be {required_columns[column]}")

# Jika semua kolom tipe datanya match dengan requirements
else:
    # Print "=> All checked columns type are match with requirements."
    print("=> All checked columns type are match with requirements.")
```

</details>

---

### 1d

- Setelah membuat bagian-bagian pengecekan (**Data Shape**, **Columns**, dan **Data types**), selanjutnya membuat pipeline.
- **Rangkum kode** yang telah dibuat sebelumnya kedalam **pipeline function** data validations.
- Parameters :
    - dataframe

In [None]:
#--------------------------------------------------------------------------------------
# Fungsi untuk melakukan validasi data
def data_validation(data):
    print("\033[1m>>>>> STEP 1 : CHECK DATA SHAPE \033[0m")

    # Mendapatkan jumlah baris dan kolom pada data aktual
    ...
    ...

    # Menampilkan jumlah baris dan kolom
    ...
    ...
    ...

    # Menampilkan garis pemisah
    print("-"*100)

    #--------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 2 : CHECK COLUMNS \033[0m")

    # Mendapatkan set kolom requirements
    ...

    # Mendapatkan set kolom pada data aktual
    ...

    # Memeriksa apakah kolom aktual sesuai dengan requirements.
    # Jika sesuai
    ...
        # Print "=> Columns match with requirements."
        ...

    # Jika tidak sesuai
    ...
        # Print "=> Actual Column you should delete :"
        ...

        # Iterasi pada list kolom data aktual untuk menampilkan kolom aktual yang seharusnya dihapus
        ...
            ...
                ...

        # Print "=> Columns must exist in your data :"
        ...

        # Iterasi ada list kolom requirements untuk menampilkan kolom yang seharusnya ada dalam data aktual
        ...
            ...
                ...

    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)

    #--------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 3 : CHECK DATA TYPES \033[0m")
    # Mendapatkan kolom dan tipe data yang diperlukan untuk setiap kolom
    ...

    # Mendapatkan list kolom pada data aktual
    ...

    # Buat list kosong untuk menyimpan kolom yang tipe datanya tidak sesuai dengan rquirements
    ...

    # Lakukan iterasi untuk mendapatkan setiap kolom dan tipe data yang diperlukan untuk setiap kolom
    ...
        # Cek apakah kolom requirements ada di dalam data aktual.
        # Jika iya
        ...
            # Dapatkan tipe data aktual pada kolom tersebut
            ...

            # Cek apakah tipe data aktual TIDAK sama dengan requirements
            ...
                # Jika tidak sesuai, tambahkan ke dalam list kosong yang telah dibuat sebelumnya
                ...

        # Jika kolom requirements TIDAK ada di dalam data aktual.
        ...
            # Print "...Skip check column '{nama_kolom}' because this column doesn't exist in your data."
            ...

    # Cek jika ada kolom yang tipe datanya tidak match dengan requirements
    ...
        # Print "=> There are some columns that don't match :"
        ...

        # Print "\t- Column type doesn't match the requirements :"
        ...

        # Lakukan iterasi (untuk mendapatkan nama kolom) pada list kolom yang tipe datanya tidak match
        ...

            # Print : "{nama_kolom} must be {required_types}"
            ...

    # Jika semua kolom tipe datanya match dengan requirements
    ...
        # Print "=> All checked columns type are match with requirements."
        ...

    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
#--------------------------------------------------------------------------------------
# Fungsi untuk melakukan validasi data
def data_validation(data):
    print("\033[1m>>>>> STEP 1 : CHECK DATA SHAPE \033[0m")
    
    # Mendapatkan jumlah baris dan kolom pada data aktual
    num_rows = data.shape[0]
    num_columns = data.shape[1]
    
    # Menampilkan jumlah baris dan kolom
    print(f"=> Number of rows : {num_rows}")
    print(f"=> Number of columns : {num_columns}")
    print("\n\n")
    
    # Menampilkan garis pemisah
    print("-"*100)
    
    #--------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 2 : CHECK COLUMNS \033[0m")
    
    # Mendapatkan set kolom requirements
    required_columns = set(columns_requirements().keys())
    
    # Mendapatkan set kolom pada data aktual
    actual_columns = set(data.columns)

    # Memeriksa apakah kolom aktual sesuai dengan requirements.
    # Jika sesuai
    if actual_columns == required_columns:
        # Print "=> Columns match with requirements."
        print("=> Columns match with requirements.")
        
    # Jika tidak sesuai
    else:
        # Print "=> Actual Column you should delete :"
        print("=> Actual Column you should delete :")
        
        # Iterasi pada list kolom data aktual untuk menampilkan kolom aktual yang seharusnya dihapus
        for column in actual_columns:
            if column not in required_columns:
                print(f"\t- {column}")
        
        # Print "=> Columns must exist in your data :"    
        print("\n=> Columns must exist in your data :")
        
        # Iterasi ada list kolom requirements untuk menampilkan kolom yang seharusnya ada dalam data aktual
        for column in required_columns:
            if column not in actual_columns:
                print(f"\t- {column}")
    
    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)     
     
    #--------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 3 : CHECK DATA TYPES \033[0m")    
    # Mendapatkan kolom dan tipe data yang diperlukan untuk setiap kolom
    required_columns = columns_requirements()
    
    # Mendapatkan list kolom pada data aktual
    actual_columns = list(data.columns)

    # Buat list kosong untuk menyimpan kolom yang tipe datanya tidak sesuai dengan rquirements
    columns_not_match = []

    # Lakukan iterasi untuk mendapatkan setiap kolom dan tipe data yang diperlukan untuk setiap kolom
    for column, expected_type in required_columns.items():
        # Cek apakah kolom requirements ada di dalam data aktual.
        # Jika iya
        if column in actual_columns:
            # Dapatkan tipe data aktual pada kolom tersebut
            actual_type = data[column].dtype
                
            # Cek apakah tipe data aktual TIDAK sama dengan requirements
            if actual_type != expected_type:
                # Jika tidak sesuai, tambahkan ke dalam list kosong yang telah dibuat sebelumnya
                columns_not_match.append(column)
        
        # Jika kolom requirements TIDAK ada di dalam data aktual.
        else:
            # Print "...Skip check column '{nama_kolom}' because this column doesn't exist in your data."
            print(f"...Skip check column '{column}' because this column doesn't exist in your data.")

    # Cek jika ada kolom yang tipe datanya tidak match dengan requirements
    if columns_not_match:
        # Print "=> There are some columns that don't match :"
        print("=> There are some columns that don't match :")
        
        # Print "\t- Column type doesn't match the requirements :"
        print("\t- Column type doesn't match the requirements :")

        # Lakukan iterasi (untuk mendapatkan nama kolom) pada list kolom yang tipe datanya tidak match
        for column in columns_not_match:
            
            # Print : "{nama_kolom} must be {required_types}"
            print(f"\t\t- {column} must be {required_columns[column]}")

    # Jika semua kolom tipe datanya match dengan requirements
    else:
        # Print "=> All checked columns type are match with requirements."
        print("=> All checked columns type are match with requirements.")
        
    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)
```

</details>

---

In [None]:
# Lakukan validasi data
...

[1m>>>>> STEP 1 : CHECK DATA SHAPE [0m
=> Number of rows : 25069
=> Number of columns : 6



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 2 : CHECK COLUMNS [0m
=> Actual Column you should delete :
	- purchase_address

=> Columns must exist in your data :
	- city
	- street
	- zip_code



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 3 : CHECK DATA TYPES [0m
...Skip check column 'street' because this column doesn't exist in your data.
...Skip check column 'city' because this column doesn't exist in your data.
...Skip check column 'zip_code' because this column doesn't exist in your data.
=> There are some columns that don't match :
	- Column type doesn't match the requirements :
		- order_id must be <class 'int'>
		- quantity_orderd must be <class 'int'>
		- order_date must be datetime64[ns]



---------------------------------------------------

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Lakukan validasi data
data_validation(sales_data)
```

</details>

---

## 2

- Sebelumnya anda telah membuat pipeline data validations dan sudah melakukan pengecekan :
    - `Data Shape`
    - `Columns`
    - `Data Type`
- Sekarang anda diminta untuk melanjutkan pipeline data validaions yang telah dibuat sebelumnya:
    - Check **Missing Value**
    - Check **Duplicates Data**

### 2a

- Cek **Missing Value**
- Berikut langkah-langkah pengerjaannya :

1. Lakukan :
    - Dapatkan list kolom aktual.
    - Buat dictionary untuk menyimpan informasi persentase dan nama kolom yang mempunyai missing value.

In [None]:
print("\033[1m>>>>> STEP 4 : CHECK MISSING VALUES \033[0m")
# Mendapatkan list kolom aktual (bankchurners)
...
# Membuat dictionary kosong untuk menyimpan informasi nama kolom dan persentase nilai missing valuenya
...

[1m>>>>> STEP 4 : CHECK MISSING VALUES [0m


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
print("\033[1m>>>>> STEP 4 : CHECK MISSING VALUES \033[0m")
# Mendapatkan list kolom aktual
actual_columns = list(sales_data.columns)
# Membuat dictionary kosong untuk menyimpan informasi nama kolom dan persentase nilai missing valuenya
missing_values_dict = {}
```

</details>

---

2. Lakukan iterasi pada kolom aktual dan hitung persentase missing valuenya.

In [None]:
# Iterasi pada list kolom aktual
...
    # Hitung persentase missing value pada kolom tersebut
    ...

    # Cek jika persentase missing value pada kolom lebih dari 0 atau ada missing value
    ...
        # Tambahkan nama kolom sebagai key dan persentase missing value sebagai values pada dictionary yang telah dibuat
        ...

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Iterasi pada list kolom aktual
for column in actual_columns:
    # Hitung persentase missing value pada kolom tersebut
    missing_values_pctg = (sales_data[column].isna().sum() / len(sales_data)) * 100
    
    # Cek jika persentase missing value pada kolom lebih dari 0 atau ada missing value
    if missing_values_pctg > 0 :
        # Tambahkan nama kolom sebagai key dan persentase missing value sebagai values pada dictionary yang telah dibuat
        missing_values_dict[column] = round(missing_values_pctg, 2)
```

</details>

---

In [None]:
# Hasil dictionary kolom-kolom yang mempunyai missing value
print(missing_values_dict)

{'order_id': 0.32, 'product': 0.32, 'quantity_orderd': 0.32, 'price_each': 0.32, 'order_date': 0.32, 'purchase_address': 0.32}


3. Cek :
    - Jika terdapat missing value pada suatu kolom:
        - print : "- There are some missing values :"
        - Tampilkan kolom-kolom tersebut beserta persentase missing valuenya.
    - Jika tidak terdapat missing value :
        - print : "- There is no missing value."

In [None]:
# Cek pada dictionary yang menampung nama kolom dan persentase missing valuenya.
# Jika ada
...
    # Print "=> There are some missing values :"
    ...

    # Iterasi pada dictionary tersebut untuk mendapatkan nama kolom dan persentase missing valuenya
    ...
        # Print "\t- {column_name} : {missing_values_pctg}%
        ...

# Jika tidak ada data missing value
...
    # Print "=> There is no missing values"
    ...

=> There are some missing values :
	- order_id : 0.32%
	- product : 0.32%
	- quantity_orderd : 0.32%
	- price_each : 0.32%
	- order_date : 0.32%
	- purchase_address : 0.32%


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Cek pada dictionary yang menampung nama kolom dan persentase missing valuenya.
# Jika ada
if missing_values_dict:
    # Print "=> There are some missing values :"
    print("=> There are some missing values :")
    
    # Iterasi pada dictionary tersebut untuk mendapatkan nama kolom dan persentase missing valuenya
    for column_name, missing_values_pctg in missing_values_dict.items():
        # Print "\t- {column_name} : {missing_values_pctg}%
        print(f"\t- {column_name} : {missing_values_pctg}%")

# Jika tidak ada data missing value
else:
    # Print "=> There is no missing values"
    print("=> There is no missing values")
```

</details>

---

4. Satukan code 1,2, dan 3 yang telah dibuat sebelumnya.

In [None]:
print("\033[1m>>>>> STEP 4 : CHECK MISSING VALUES \033[0m")
# Mendapatkan list kolom aktual
...
# Membuat dictionary kosong untuk menyimpan informasi nama kolom dan persentase nilai missing valuenya
...

# Iterasi pada list kolom aktual
...
    # Hitung persentase missing value pada kolom tersebut
    ...

    # Cek jika persentase missing value pada kolom lebih dari 0 atau ada missing value
    ...
        # Tambahkan nama kolom sebagai key dan persentase missing value sebagai values pada dictionary yang telah dibuat
        ...

# Cek pada dictionary yang menampung nama kolom dan persentase missing valuenya.
# Jika ada
...
    # Print "=> There are some missing values :"
    ...

    # Iterasi pada dictionary tersebut untuk mendapatkan nama kolom dan persentase missing valuenya
    ...
        # Print "\t- {column_name} : {missing_values_pctg}%
        ...

# Jika tidak ada data missing value
...
    # Print "=> There is no missing values"
    ...

[1m>>>>> STEP 4 : CHECK MISSING VALUES [0m
=> There are some missing values :
	- order_id : 0.32%
	- product : 0.32%
	- quantity_orderd : 0.32%
	- price_each : 0.32%
	- order_date : 0.32%
	- purchase_address : 0.32%


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Lakukan validasi data dengan menggunakan pipeline yang telah dibuat
print("\033[1m>>>>> STEP 4 : CHECK MISSING VALUES \033[0m")
# Mendapatkan list kolom aktual
actual_columns = list(sales_data.columns)
# Membuat dictionary kosong untuk menyimpan informasi nama kolom dan persentase nilai missing valuenya
missing_values_dict = {}

# Iterasi pada list kolom aktual
for column in actual_columns:
    # Hitung persentase missing value pada kolom tersebut
    missing_values_pctg = (sales_data[column].isna().sum() / len(sales_data)) * 100
    
    # Cek jika persentase missing value pada kolom lebih dari 0 atau ada missing value
    if missing_values_pctg > 0 :
        # Tambahkan nama kolom sebagai key dan persentase missing value sebagai values pada dictionary yang telah dibuat
        missing_values_dict[column] = round(missing_values_pctg, 2)

# Cek pada dictionary yang menampung nama kolom dan persentase missing valuenya.
# Jika ada
if missing_values_dict:
    # Print "=> There are some missing values :"
    print("=> There are some missing values :")
    
    # Iterasi pada dictionary tersebut untuk mendapatkan nama kolom dan persentase missing valuenya
    for column_name, missing_values_pctg in missing_values_dict.items():
        # Print "\t- {column_name} : {missing_values_pctg}%
        print(f"\t- {column_name} : {missing_values_pctg}%")

# Jika tidak ada data missing value
else:
    # Print "=> There is no missing values"
    print("=> There is no missing values")
```

</details>

---

### 2b

- Cek **Duplicates Data**
- Jika terdapat duplicates data:
    - print jumlah data yang duplikat.
- Jika tidak terdapat duplicates data:
    - print : "- There is no duplicates data"

In [None]:
print("\033[1m>>>>> STEP 5 : CHECK DUPLICATES DATA \033[0m")
# Menghitung jumlah data yang duplikat
...

# Cek apakah terdapat data yang duplikat
...
    # Print "=> Threre are {num_duplicates_data} duplicates data."
    ...

# Jika tidak terdapat data yang duplikat
...
    # Print "=> There is no duplicates data."
    ...

[1m>>>>> STEP 5 : CHECK DUPLICATES DATA [0m
=> Threre are 160 duplicates data.


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
print("\033[1m>>>>> STEP 5 : CHECK DUPLICATES DATA \033[0m")
# Menghitung jumlah data yang duplikat
num_duplicates_data = sales_data.duplicated(keep = False).sum()

# Cek apakah terdapat data yang duplikat
if num_duplicates_data:
    # Print "=> Threre are {num_duplicates_data} duplicates data."
    print(f"=> Threre are {num_duplicates_data} duplicates data.")

# Jika tidak terdapat data yang duplikat
else:
    # Print "=> There is no duplicates data."
    print("=> There is no duplicates data.")
```

</details>

---

### 2c

- Rangkum semua code validasi yang telah dibuat sebelumnya kedalam **pipeline function** data validations.
    - `Check Data Shape`
    - `Check Columns`
    - `Check Data Types`
    - `Check Missing Values`
    - `Check Duplicates Data`
- parameters :
    - dataframe

In [None]:
#---------------------------------------------------------------------------------------------------
# Fungsi untuk melakukan validasi data
def data_validation(data):
    display(data.head())
    print("\033[1m>>>>> STEP 1 : CHECK DATA SHAPE \033[0m")

    # Mendapatkan jumlah baris dan kolom pada data aktual
    ...
    ...

    # Menampilkan jumlah baris dan kolom
    ...
    ...
    ...

    # Menampilkan garis pemisah
    print("-"*100)

    #--------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 2 : CHECK COLUMNS \033[0m")

    # Mendapatkan set kolom requirements
    ...

    # Mendapatkan set kolom pada data aktual
    ...

    # Memeriksa apakah kolom aktual sesuai dengan requirements.
    # Jika sesuai
    ...
        # Print "=> Columns match with requirements."
        ...

    # Jika tidak sesuai
    ...
        # Print "=> Actual Column you should delete :"
        ...

        # Iterasi pada list kolom data aktual untuk menampilkan kolom aktual yang seharusnya dihapus
        ...
            ...
                ...

        # Print "=> Columns must exist in your data :"
        ...

        # Iterasi ada list kolom requirements untuk menampilkan kolom yang seharusnya ada dalam data aktual
        ...
            ...
                ...

    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)

    #--------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 3 : CHECK DATA TYPES \033[0m")
    # Mendapatkan kolom dan tipe data yang diperlukan untuk setiap kolom
    ...

    # Mendapatkan list kolom pada data aktual
    ...

    # Buat list kosong untuk menyimpan kolom yang tipe datanya tidak sesuai dengan rquirements
    ...

    # Lakukan iterasi untuk mendapatkan setiap kolom dan tipe data yang diperlukan untuk setiap kolom
    ...
        # Cek apakah kolom requirements ada di dalam data aktual.
        # Jika iya
        ...
            # Dapatkan tipe data aktual pada kolom tersebut
            ...

            # Cek apakah tipe data aktual TIDAK sama dengan requirements
            ...
                # Jika tidak sesuai, tambahkan ke dalam list kosong yang telah dibuat sebelumnya
                ...

        # Jika kolom requirements TIDAK ada di dalam data aktual.
        ...
            # Print "...Skip check column '{nama_kolom}' because this column doesn't exist in your data."
            ...

    # Cek jika ada kolom yang tipe datanya tidak match dengan requirements
    ...
        # Print "=> There are some columns that don't match :"
        ...

        # Print "\t- Column type doesn't match the requirements :"
        ...

        # Lakukan iterasi (untuk mendapatkan nama kolom) pada list kolom yang tipe datanya tidak match
        ...

            # Print : "{nama_kolom} must be {required_types}"
            ...

    # Jika semua kolom tipe datanya match dengan requirements
    ...
        # Print "=> All checked columns type are match with requirements."
        ...

    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)

    #---------------------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 4 : CHECK MISSING VALUES \033[0m")
    # Mendapatkan list kolom aktual
    ...
    # Membuat dictionary kosong untuk menyimpan informasi nama kolom dan persentase nilai missing valuenya
    ...

    # Iterasi pada list kolom aktual
    ...
        # Hitung persentase missing value pada kolom tersebut
        ...

        # Cek jika persentase missing value pada kolom lebih dari 0 atau ada missing value
        ...
            # Tambahkan nama kolom sebagai key dan persentase missing value sebagai values pada dictionary yang telah dibuat
            ...

    # Cek pada dictionary yang menampung nama kolom dan persentase missing valuenya.
    # Jika ada
    ...
        # Print "=> There are some missing values :"
        ...

        # Iterasi pada dictionary tersebut untuk mendapatkan nama kolom dan persentase missing valuenya
        ...
            # Print "\t- {column_name} : {missing_values_pctg}%
            ...

    # Jika tidak ada data missing value
    ...
        # Print "=> There is no missing values"
        ...

    #---------------------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 5 : CHECK DUPLICATES DATA \033[0m")
    # Menghitung jumlah data yang duplikat
    ...

    # Cek apakah terdapat data yang duplikat
    ...
        # Print "=> Threre are {num_duplicates_data} duplicates data."
        ...

    # Jika tidak terdapat data yang duplikat
    ...
        # Print "=> There is no duplicates data."
        ...


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
#---------------------------------------------------------------------------------------------------
# Fungsi untuk melakukan validasi data
def data_validation(data):
    display(data.head())
    print("\033[1m>>>>> STEP 1 : CHECK DATA SHAPE \033[0m")
    
    # Mendapatkan jumlah baris dan kolom pada data aktual
    num_rows = data.shape[0]
    num_columns = data.shape[1]
    
    # Menampilkan jumlah baris dan kolom
    print(f"=> Number of rows : {num_rows}")
    print(f"=> Number of columns : {num_columns}")
    print("\n\n")
    
    # Menampilkan garis pemisah
    print("-"*100)
    
    #---------------------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 2 : CHECK COLUMNS \033[0m")
    
    # Mendapatkan list kolom requirements
    required_columns = set(columns_requirements().keys())
    
    # Mendapatkan list kolom pada data aktual
    actual_columns = set(data.columns)

    # Memeriksa apakah kolom aktual sesuai dengan requirements.
    # Jika sesuai
    if actual_columns == required_columns:
        # Print "=> Columns match with requirements."
        print("=> Columns match with requirements.")
        
    # Jika tidak sesuai
    else:
        # Print "=> Actual Column you should delete :"
        print("=> Actual Column you should delete :")
        
        # Iterasi pada list kolom data aktual untuk menampilkan kolom aktual yang seharusnya dihapus
        for column in actual_columns:
            if column not in required_columns:
                print(f"\t- {column}")
        
        # Print "=> Columns must exist in your data :"    
        print("\n=> Columns must exist in your data :")
        
        # Iterasi ada list kolom requirements untuk menampilkan kolom yang seharusnya ada dalam data aktual
        for column in required_columns:
            if column not in actual_columns:
                print(f"\t- {column}")
    
    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)     
    
    #---------------------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 3 : CHECK DATA TYPES \033[0m")
             
    # Mendapatkan kolom dan tipe data yang diperlukan untuk setiap kolom
    required_columns = columns_requirements()
    
    # Mendapatkan list kolom pada data aktual
    actual_columns = list(data.columns)

    # Buat list kosong untuk menyimpan kolom yang tipe datanya tidak sesuai dengan rquirements
    columns_not_match = []

    # Lakukan iterasi untuk mendapatkan setiap kolom dan tipe data yang diperlukan untuk setiap kolom
    for column, expected_type in required_columns.items():
        # Cek apakah kolom requirements ada di dalam data aktual.
        # Jika iya
        if column in actual_columns:
            # Dapatkan tipe data aktual pada kolom tersebut
            actual_type = data[column].dtype
                
            # Cek apakah tipe data aktual TIDAK sama dengan requirements
            if actual_type != expected_type:
                # Jika tidak sesuai, tambahkan ke dalam list kosong yang telah dibuat sebelumnya
                columns_not_match.append(column)
        
        # Jika kolom requirements TIDAK ada di dalam data aktual.
        else:
            # Print "...Skip check column '{nama_kolom}' because this column doesn't exist in your data."
            print(f"...Skip check column '{column}' because this column doesn't exist in your data.")

    # Cek jika ada kolom yang tipe datanya tidak match dengan requirements
    if columns_not_match:
        # Print "=> There are some columns that don't match :"
        print("=> There are some columns that don't match :")
        
        # Print "\t- Column type doesn't match the requirements :"
        print("\t- Column type doesn't match the requirements :")

        # Lakukan iterasi (untuk mendapatkan nama kolom) pada list kolom yang tipe datanya tidak match
        for column in columns_not_match:
            
            # Print : "{nama_kolom} must be {required_types}"
            print(f"\t\t- {column} must be {required_columns[column]}")

    # Jika semua kolom tipe datanya match dengan requirements
    else:
        # Print "=> All checked columns type are match with requirements."
        print("=> All checked columns type are match with requirements.")
        
    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)
    
    #---------------------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 4 : CHECK MISSING VALUES \033[0m")
    
    # Mendapatkan list kolom aktual
    actual_columns = list(data.columns)
    # Membuat dictionary kosong untuk menyimpan informasi nama kolom dan persentase nilai missing valuenya
    missing_values_dict = {}

    # Iterasi pada list kolom aktual
    for column in actual_columns:
        # Hitung persentase missing value pada kolom tersebut
        missing_values_pctg = (data[column].isna().sum() / len(data)) * 100
        
        # Cek jika persentase missing value pada kolom lebih dari 0 atau ada missing value
        if missing_values_pctg > 0 :
            # Tambahkan nama kolom sebagai key dan persentase missing value sebagai values pada dictionary yang telah dibuat
            missing_values_dict[column] = round(missing_values_pctg, 2)

    # Cek pada dictionary yang menampung nama kolom dan persentase missing valuenya.
    # Jika ada
    if missing_values_dict:
        # Print "=> There are some missing values :"
        print("=> There are some missing values :")
        
        # Iterasi pada dictionary tersebut untuk mendapatkan nama kolom dan persentase missing valuenya
        for column_name, missing_values_pctg in missing_values_dict.items():
            # Print "\t- {column_name} : {missing_values_pctg}%
            print(f"\t- {column_name} : {missing_values_pctg}%")
    
    # Jika tidak ada data missing value
    else:
        # Print "=> There is no missing values"
        print("=> There is no missing values")
    
    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)
    
    #---------------------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 5 : CHECK DUPLICATES DATA \033[0m")
    # Menghitung jumlah data yang duplikat
    num_duplicates_data = data.duplicated(keep = False).sum()

    # Cek apakah terdapat data yang duplikat
    if num_duplicates_data:
        # Print "=> Threre are {num_duplicates_data} duplicates data."
        print(f"=> Threre are {num_duplicates_data} duplicates data.")
    
    # Jika tidak terdapat data yang duplikat
    else:
        # Print "=> There is no duplicates data."
        print("=> There is no duplicates data.")
        
    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)
```

</details>

---

In [None]:
# Lakukan validasi data
...

Unnamed: 0,order_id,product,quantity_orderd,price_each,order_date,purchase_address
0,295665.0,Macbook Pro Laptop,1.0,1700.0,12/30/19 00:01,"136 Church St, New York City, NY 10001"
1,295666.0,LG Washing Machine,1.0,600.0,12/29/19 07:03,"562 2nd St, New York City, NY 10001"
2,295667.0,USB-C Charging Cable,1.0,11.95,12/12/19 18:21,"277 Main St, New York City, NY 10001"
3,295668.0,27in FHD Monitor,1.0,149.99,12/22/19 15:13,"410 6th St, San Francisco, CA 94016"
4,295669.0,USB-C Charging Cable,1.0,11.95,12/18/19 12:38,"43 Hill St, Atlanta, GA 30301"


[1m>>>>> STEP 1 : CHECK DATA SHAPE [0m
=> Number of rows : 25069
=> Number of columns : 6



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 2 : CHECK COLUMNS [0m
=> Actual Column you should delete :
	- purchase_address

=> Columns must exist in your data :
	- city
	- street
	- zip_code



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 3 : CHECK DATA TYPES [0m
...Skip check column 'street' because this column doesn't exist in your data.
...Skip check column 'city' because this column doesn't exist in your data.
...Skip check column 'zip_code' because this column doesn't exist in your data.
=> There are some columns that don't match :
	- Column type doesn't match the requirements :
		- order_id must be <class 'int'>
		- quantity_orderd must be <class 'int'>
		- order_date must be datetime64[ns]



---------------------------------------------------

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
#---------------------------------------------------------------------------------------------------
# Lakukan validasi data
data_validation(sales_data)
```

</details>

---

## 3

- Setelah melakukan validasi data, diketahui bahwa :
    - Pada **data aktual belum memiliki kolom :**
        - `street`
        - `city`
        - `zip_code`
- Oleh karena itu, perlu dilakukan **extract data** dari kolom `purchase_addres`.
- *Contoh Ekstraksi data:*
    - *`purchase_address` : '136 Church St, New York City, NY 10001'*
    - Maka :
        - *`street` : '136 Church St'*
        - *`city` : 'New York City'*
        - *`zip_code` : 'NY 10001'*

In [None]:
# Buat kolom 'street' dengan data hasil ekstraksi dari kolom 'purchase_address'
...

# Buat kolom 'city' dengan data hasil ekstraksi dari kolom 'purchase_address'
...

# Buat kolom 'zip_code' dengan data hasil ekstraksi dari kolom 'purchase_address'
...

# Drop kolom 'purchase_address'
...

# Tampilikan 5 data teratas
...

Unnamed: 0,order_id,product,quantity_orderd,price_each,order_date,street,city,zip_code
0,295665.0,Macbook Pro Laptop,1.0,1700.0,12/30/19 00:01,136 Church St,New York City,NY 10001
1,295666.0,LG Washing Machine,1.0,600.0,12/29/19 07:03,562 2nd St,New York City,NY 10001
2,295667.0,USB-C Charging Cable,1.0,11.95,12/12/19 18:21,277 Main St,New York City,NY 10001
3,295668.0,27in FHD Monitor,1.0,149.99,12/22/19 15:13,410 6th St,San Francisco,CA 94016
4,295669.0,USB-C Charging Cable,1.0,11.95,12/18/19 12:38,43 Hill St,Atlanta,GA 30301


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Buat kolom 'street' dengan data hasil ekstraksi dari kolom 'purchase_address'
sales_data['street'] = sales_data['purchase_address'].str.extract(r'(\d+\s[A-Za-z0-9\s]+),')

# Buat kolom 'city' dengan data hasil ekstraksi dari kolom 'purchase_address'
sales_data['city'] = sales_data['purchase_address'].str.extract(r',\s([A-Za-z\s]+),')

# Buat kolom 'zip_code' dengan data hasil ekstraksi dari kolom 'purchase_address'
sales_data['zip_code'] = sales_data['purchase_address'].str.extract(r'([A-Z]{2}\s\d+)')

# Drop kolom 'purchase_address'
sales_data.drop(columns = 'purchase_address', inplace = True)

# Tampilikan 5 data teratas
sales_data.head()
```

</details>

---

In [None]:
# Lakukan validasi data
data_validation(sales_data)

Unnamed: 0,order_id,product,quantity_orderd,price_each,order_date,street,city,zip_code
0,295665.0,Macbook Pro Laptop,1.0,1700.0,12/30/19 00:01,136 Church St,New York City,NY 10001
1,295666.0,LG Washing Machine,1.0,600.0,12/29/19 07:03,562 2nd St,New York City,NY 10001
2,295667.0,USB-C Charging Cable,1.0,11.95,12/12/19 18:21,277 Main St,New York City,NY 10001
3,295668.0,27in FHD Monitor,1.0,149.99,12/22/19 15:13,410 6th St,San Francisco,CA 94016
4,295669.0,USB-C Charging Cable,1.0,11.95,12/18/19 12:38,43 Hill St,Atlanta,GA 30301


[1m>>>>> STEP 1 : CHECK DATA SHAPE [0m
=> Number of rows : 25069
=> Number of columns : 8



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 2 : CHECK COLUMNS [0m
=> Columns match with requirements.



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 3 : CHECK DATA TYPES [0m
=> There are some columns that don't match :
	- Column type doesn't match the requirements :
		- order_id must be <class 'int'>
		- quantity_orderd must be <class 'int'>
		- order_date must be datetime64[ns]



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 4 : CHECK MISSING VALUES [0m
=> There are some missing values :
	- order_id : 0.32%
	- product : 0.32%
	- quantity_orderd : 0.32%
	- price_each : 0.32%
	- order_date : 0.32%
	- street : 0.32%
	- city : 0.32%
	- zip_code : 0.32%



--------------------------

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Lakukan validasi data
data_validation(sales_data)
```

</details>

---

## 4

### 4a

- Dari hasil data validation **masih terdapat beberapa missing values pada semua kolom.**
- **Drop missing_values** tersebut.

In [None]:
# Drop missing values
...

# Lakukan validasi data
...

Unnamed: 0,order_id,product,quantity_orderd,price_each,order_date,street,city,zip_code
0,295665.0,Macbook Pro Laptop,1.0,1700.0,12/30/19 00:01,136 Church St,New York City,NY 10001
1,295666.0,LG Washing Machine,1.0,600.0,12/29/19 07:03,562 2nd St,New York City,NY 10001
2,295667.0,USB-C Charging Cable,1.0,11.95,12/12/19 18:21,277 Main St,New York City,NY 10001
3,295668.0,27in FHD Monitor,1.0,149.99,12/22/19 15:13,410 6th St,San Francisco,CA 94016
4,295669.0,USB-C Charging Cable,1.0,11.95,12/18/19 12:38,43 Hill St,Atlanta,GA 30301


[1m>>>>> STEP 1 : CHECK DATA SHAPE [0m
=> Number of rows : 24989
=> Number of columns : 8



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 2 : CHECK COLUMNS [0m
=> Columns match with requirements.



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 3 : CHECK DATA TYPES [0m
=> There are some columns that don't match :
	- Column type doesn't match the requirements :
		- order_id must be <class 'int'>
		- quantity_orderd must be <class 'int'>
		- order_date must be datetime64[ns]



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 4 : CHECK MISSING VALUES [0m
=> There is no missing values



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 5 : CHECK DUPLICATES DATA [0m
=> Threre are 80 duplicates data.



-----------

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Drop missing values
sales_data.dropna(inplace = True)

# Lakukan validasi data
data_validation(sales_data)
```

</details>

---

### 4b

- Dari hasil validasi data, **masih terdapat beberapa data yang duplikat.**
- **Drop data yang duplikat** tersebut (dengan **mempertahankan record data yang pertama**).

In [None]:
# Drop data duplikat
...

# Lakukan validasi data
...

Unnamed: 0,order_id,product,quantity_orderd,price_each,order_date,street,city,zip_code
0,295665.0,Macbook Pro Laptop,1.0,1700.0,12/30/19 00:01,136 Church St,New York City,NY 10001
1,295666.0,LG Washing Machine,1.0,600.0,12/29/19 07:03,562 2nd St,New York City,NY 10001
2,295667.0,USB-C Charging Cable,1.0,11.95,12/12/19 18:21,277 Main St,New York City,NY 10001
3,295668.0,27in FHD Monitor,1.0,149.99,12/22/19 15:13,410 6th St,San Francisco,CA 94016
4,295669.0,USB-C Charging Cable,1.0,11.95,12/18/19 12:38,43 Hill St,Atlanta,GA 30301


[1m>>>>> STEP 1 : CHECK DATA SHAPE [0m
=> Number of rows : 24949
=> Number of columns : 8



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 2 : CHECK COLUMNS [0m
=> Columns match with requirements.



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 3 : CHECK DATA TYPES [0m
=> There are some columns that don't match :
	- Column type doesn't match the requirements :
		- order_id must be <class 'int'>
		- quantity_orderd must be <class 'int'>
		- order_date must be datetime64[ns]



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 4 : CHECK MISSING VALUES [0m
=> There is no missing values



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 5 : CHECK DUPLICATES DATA [0m
=> There is no duplicates data.



-------------

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Drop data duplikat
sales_data.drop_duplicates(keep = 'first', inplace = True)

# Lakukan validasi data
data_validation(sales_data)
```

</details>

---

### 4c

- Dari hasil validasi data, **masih terdapat beberapa kolom yang tipe datanya tidak sesuai dengan requirements, yaitu :**
    - `order_id`
    - `quantity_orderd`
    - `order_date`
- **Lakukan casting data types untuk merubah tipe data pada kolom tersebut agar sesuai dengan requirements.**

In [None]:
# Convert 'order_id' to integer
...

# Convert 'quantity_orderd' to integer
...

# Convert 'order_date' to datetime
...

  sales_data['order_date'] = pd.to_datetime(sales_data['order_date'])


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Convert 'order_id' to integer
sales_data['order_id'] = sales_data['order_id'].astype(int)

# Convert 'quantity_orderd' to integer
sales_data['quantity_orderd'] = sales_data['quantity_orderd'].astype(int)

# Convert 'order_date' to datetime
sales_data['order_date'] = pd.to_datetime(sales_data['order_date'])
```

</details>

---

In [None]:
# Lakukan validasi data
...

Unnamed: 0,order_id,product,quantity_orderd,price_each,order_date,street,city,zip_code
0,295665,Macbook Pro Laptop,1,1700.0,2019-12-30 00:01:00,136 Church St,New York City,NY 10001
1,295666,LG Washing Machine,1,600.0,2019-12-29 07:03:00,562 2nd St,New York City,NY 10001
2,295667,USB-C Charging Cable,1,11.95,2019-12-12 18:21:00,277 Main St,New York City,NY 10001
3,295668,27in FHD Monitor,1,149.99,2019-12-22 15:13:00,410 6th St,San Francisco,CA 94016
4,295669,USB-C Charging Cable,1,11.95,2019-12-18 12:38:00,43 Hill St,Atlanta,GA 30301


[1m>>>>> STEP 1 : CHECK DATA SHAPE [0m
=> Number of rows : 24949
=> Number of columns : 8



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 2 : CHECK COLUMNS [0m
=> Columns match with requirements.



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 3 : CHECK DATA TYPES [0m
=> All checked columns type are match with requirements.



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 4 : CHECK MISSING VALUES [0m
=> There is no missing values



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 5 : CHECK DUPLICATES DATA [0m
=> There is no duplicates data.



----------------------------------------------------------------------------------------------------


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Lakukan validasi data
data_validation(sales_data)
```

</details>

---

# <font color='blue'>Case Study 2: Bank Churners
---

- Seorang Data Analyst ingin melakukan analisis pada data Sales tetapi datanya masih kotor.
- Oleh karena itu, sebagai seorang Data Engineer, anda diminta untuk **membersihkan data** tersebut.
- Jadi, tugas yang anda akan kerjakan adalah sebagai berikut :
    <center>
    <img src="https://sekolahdata-assets.s3.ap-southeast-1.amazonaws.com/notebook-images/mde-intro-to-data-eng/7-7.png" alt="Drawing" width= 500px;/>
    <center>

- Berikut gambaran pipeline data validations yang akan dibuat :
    <center>
    <img src="https://sekolahdata-assets.s3.ap-southeast-1.amazonaws.com/notebook-images/mde-intro-to-data-eng/7-8.png" alt="Drawing";/>
    <center>
- Berikut datanya :

- **Bank Churners**

In [None]:
# Import library
import pandas as pd

# Read Data
bank_churners = pd.read_csv('BankChurners.csv')

# Get top 5 data
bank_churners.head()

Unnamed: 0,CLIENTNUM,Attrition_Flag,Customer_Age,Gender,Dependent_count,Education_Level,Marital_Status,Income_Category,Card_Category,Months_on_book,...,Months_Inactive_12_mon,Contacts_Count_12_mon,Credit_Limit,Total_Revolving_Bal,Avg_Open_To_Buy,Total_Amt_Chng_Q4_Q1,Total_Trans_Amt,Total_Trans_Ct,Total_Ct_Chng_Q4_Q1,Avg_Utilization_Ratio
0,768805383.0,Existing Customer,45,M,3,High School,Married,$60K - $80K,Blue,39,...,1,3,12691.0,777,11914.0,1.335,1144,42,1.625,0.061
1,818770008.0,Existing Customer,49,F,5,Graduate,Single,Less than $40K,Blue,44,...,1,2,8256.0,864,7392.0,1.541,1291,33,3.714,0.105
2,713982108.0,Existing Customer,51,M,3,Graduate,Married,$80K - $120K,Blue,36,...,1,0,3418.0,0,3418.0,2.594,1887,20,2.333,0.0
3,769911858.0,Existing Customer,40,F,4,High School,Unknown,Less than $40K,Blue,34,...,4,1,3313.0,2517,796.0,1.405,1171,20,2.333,0.76
4,709106358.0,Existing Customer,40,M,3,Uneducated,Married,$60K - $80K,Blue,21,...,1,0,4716.0,0,4716.0,2.175,816,28,2.5,0.0


---
- Selain diberikan sebuah data, Anda juga diberikan beberapa requirements :
    - `column_requirements`
    - `values_requirements`
- Jadi :
    - **Nama kolom** dari data yang diberikan harus sesuai dengan `column_requirements`
    - **Tipe data** kolom dari data yang diberikan harus sesuai dengan `column_requirements`
    - **Unique Values** pada beberapa kolom dari data yang diberikan harus sesuai dengan `values_requirements`

- **Requirements**

In [None]:
def columns_requirements():
    columns = {'CLIENTNUM' : int,
               'Attrition_Flag' : object,
               'Customer_Age' : int,
               'Gender' : object,
               'Dependent_count' : int,
               'Education_Level' : object,
               'Marital_Status' : object,
               'Income_Category_Min' : int,
               'Income_Category_Max' : int,
               'Card_Category' : object,
               'Months_on_book' : int,
               'Total_Relationship_Count' : int,
               'Months_Inactive_12_mon' : int,
               'Contacts_Count_12_mon' : int,
               'Credit_Limit' : float,
               'Total_Revolving_Bal' : int,
               'Avg_Open_To_Buy' : float,
               'Total_Amt_Chng_Q4_Q1' : float,
               'Total_Trans_Amt' : int,
               'Total_Trans_Ct' : int,
               'Total_Ct_Chng_Q4_Q1' : float,
               'Avg_Utilization_Ratio' : float}
    return columns

In [None]:
def values_requirements():
    values = {
        'Attrition_Flag' : ['Existing Customer', 'Attrited Customer'],
        'Gender' : ['M', 'F'],
        'Education_Level' : ['High School', 'Graduate', 'Uneducated', 'Unknown', 'College', 'Post-Graduate', 'Doctorate'],
        'Marital_Status' : ['Married', 'Single', 'Divorced'],
        'Card_Category' : ['Blue', 'Gold', 'Silver', 'Platinum']
    }
    return values

## 1

- Anda diminta untuk **membuat pipeline data validation** untuk :
    - Check **Data Shape**
        - Menampilkan jumlah baris dan kolom.
    - Check **Columns**
        - Melakukan pengecekan kolom-kolom pada data yang diberikan, **apakah sesuai dengan requirements?**
    - Check **Data Types**
        - Melakukan pengecekan tipe data kolom dari data yang diberikan, **apakah sesuai dengan requirements?**

### 1a

- Menampilkan jumlah baris dan kolom.

In [None]:
print("\033[1m>>>>> STEP 1 : CHECK DATA SHAPE \033[0m")
# Mendapatkan jumlah baris dan kolom pada data aktual
...
...

# Menampilkan jumlah baris dan kolom
...
...

[1m>>>>> STEP 1 : CHECK DATA SHAPE [0m
=> Number of rows : 9776
=> Number of columns : 21


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
print("\033[1m>>>>> STEP 1 : CHECK DATA SHAPE \033[0m")
# Mendapatkan jumlah baris dan kolom pada data aktual
num_rows = bank_churners.shape[0]
num_columns = bank_churners.shape[1]

# Menampilkan jumlah baris dan kolom
print(f"=> Number of rows : {num_rows}")
print(f"=> Number of columns : {num_columns}")
```

</details>

---

### 1b

- **Cek apakah kolom pada data aktual match dengan requirements.**
- Beikut tahapan pengerjaannya :

1. Dapatkan requirements column dan actual column.

In [None]:
print("\033[1m>>>>> STEP 2 : CHECK COLUMNS \033[0m")

# Mendapatkan set kolom requirements
...

# Mendapatkan set kolom pada data aktual
...

[1m>>>>> STEP 2 : CHECK COLUMNS [0m


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
print("\033[1m>>>>> STEP 2 : CHECK COLUMNS \033[0m")

# Mendapatkan set kolom requirements
required_columns = set(columns_requirements().keys())

# Mendapatkan set kolom pada data aktual
actual_columns = set(bank_churners.columns)
```

</details>

---

2. Periksa apakah kolom aktual sesuai dengan requirements.
    - **Jika sama :**
        - Print : "Columns match with requirements"
    - **Jika tidak sama :**
        - Print : "Columns not match with requirements"
        - Tampilkan kolom-kolom pada data aktual yang tidak ada di dalam requirements.

In [None]:
# Memeriksa apakah kolom aktual sesuai dengan requirements.
# Jika sesuai
...
    # Print "=> Columns match with requirements."
    ...

# Jika tidak sesuai
...
    # Print "=> Actual Column you should delete :"
    ...

    # Iterasi pada list kolom data aktual untuk menampilkan kolom aktual yang seharusnya dihapus
    ...
        # Cek apakah kolom pada data aktual TIDAK ADA di dalam requirements
        ...
            # Tampilkan kolom yang TIDAK ADA di dalam requirements
            ...

    # Print "=> Columns must exist in your data :"
    ...

    # Iterasi ada list kolom requirements untuk menampilkan kolom yang seharusnya ada dalam data aktual
    ...
        # Cek Apakah requirement kolom TIDAK ADA di dalam data aktual
        ...
            # Tampilkan kolom yang TIDAK ADA di dalam requirements
            ...

=> Actual Column you should delete :
	- Income_Category

=> Columns must exist in your data :
	- Income_Category_Min
	- Income_Category_Max


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Memeriksa apakah kolom aktual sesuai dengan requirements.
# Jika sesuai
if actual_columns == required_columns:
    # Print "=> Columns match with requirements."
    print("=> Columns match with requirements.")
    
# Jika tidak sesuai
else:
    # Print "=> Actual Column you should delete :"
    print("=> Actual Column you should delete :")
    
    # Iterasi pada list kolom data aktual untuk menampilkan kolom aktual yang seharusnya dihapus
    for column in actual_columns:
        # Cek apakah kolom pada data aktual TIDAK ADA di dalam requirements
        if column not in required_columns:
            # Tampilkan kolom yang TIDAK ADA di dalam requirements
            print(f"\t- {column}")
    
    # Print "=> Columns must exist in your data :"    
    print("\n=> Columns must exist in your data :")
    
    # Iterasi ada list kolom requirements untuk menampilkan kolom yang seharusnya ada dalam data aktual
    for column in required_columns:
        # Cek Apakah requirement kolom TIDAK ADA di dalam data aktual
        if column not in actual_columns:
            # Tampilkan kolom yang TIDAK ADA di dalam requirements
            print(f"\t- {column}")
```

</details>

---

3. Satukan code 1 dan 2 tersebut.

In [None]:
print("\033[1m>>>>> STEP 2 : CHECK COLUMNS \033[0m")

# Mendapatkan set kolom requirements
...

# Mendapatkan set kolom pada data aktual
...

# Memeriksa apakah kolom aktual sesuai dengan requirements.
# Jika sesuai
...
    # Print "=> Columns match with requirements."
    ...

# Jika tidak sesuai
...
    # Print "=> Actual Column you should delete :"
    ...

    # Iterasi pada list kolom data aktual untuk menampilkan kolom aktual yang seharusnya dihapus
    ...
        # Cek apakah kolom pada data aktual TIDAK ADA di dalam requirements
        ...
            # Tampilkan kolom yang TIDAK ADA di dalam requirements
            ...

    # Print "=> Columns must exist in your data :"
    ...

    # Iterasi ada list kolom requirements untuk menampilkan kolom yang seharusnya ada dalam data aktual
    ...
        # Cek Apakah requirement kolom TIDAK ADA di dalam data aktual
        ...
            # Tampilkan kolom yang TIDAK ADA di dalam requirements
            ...

[1m>>>>> STEP 2 : CHECK COLUMNS [0m
=> Actual Column you should delete :
	- Income_Category

=> Columns must exist in your data :
	- Income_Category_Min
	- Income_Category_Max


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
print("\033[1m>>>>> STEP 2 : CHECK COLUMNS \033[0m")

# Mendapatkan set kolom requirements
required_columns = set(columns_requirements().keys())

# Mendapatkan set kolom pada data aktual
actual_columns = set(bank_churners.columns)

# Memeriksa apakah kolom aktual sesuai dengan requirements.
# Jika sesuai
if actual_columns == required_columns:
    # Print "=> Columns match with requirements."
    print("=> Columns match with requirements.")
    
# Jika tidak sesuai
else:
    # Print "=> Actual Column you should delete :"
    print("=> Actual Column you should delete :")
    
    # Iterasi pada list kolom data aktual untuk menampilkan kolom aktual yang seharusnya dihapus
    for column in actual_columns:
        # Cek apakah kolom pada data aktual TIDAK ADA di dalam requirements
        if column not in required_columns:
            # Tampilkan kolom yang TIDAK ADA di dalam requirements
            print(f"\t- {column}")
    
    # Print "=> Columns must exist in your data :"    
    print("\n=> Columns must exist in your data :")
    
    # Iterasi ada list kolom requirements untuk menampilkan kolom yang seharusnya ada dalam data aktual
    for column in required_columns:
        # Cek Apakah requirement kolom TIDAK ADA di dalam data aktual
        if column not in actual_columns:
            # Tampilkan kolom yang TIDAK ADA di dalam requirements
            print(f"\t- {column}")
```

</details>

---

### 1c

- Cek `Data Type` pada actual columns.
- Berikut tahapan pengerjaannya :

1. Lakukan :
    - Dapatkan requirements column dan tipe datanya
    - Dapatkan list actual columns
    - Buat list kosong untuk menyimpan data yang tidak sesuai requirements

In [None]:
print("\033[1m>>>>> STEP 3 : CHECK DATA TYPES \033[0m")
# Mendapatkan kolom dan tipe data yang diperlukan untuk setiap kolom
...

# Mendapatkan list kolom pada data aktual
...

# Buat list kosong untuk menyimpan kolom yang tipe datanya tidak sesuai dengan rquirements
...

[1m>>>>> STEP 3 : CHECK DATA TYPES [0m


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
print("\033[1m>>>>> STEP 3 : CHECK DATA TYPES \033[0m")    
# Mendapatkan kolom dan tipe data yang diperlukan untuk setiap kolom
required_columns = columns_requirements()

# Mendapatkan list kolom pada data aktual
actual_columns = list(bank_churners.columns)

# Buat list kosong untuk menyimpan kolom yang tipe datanya tidak sesuai dengan rquirements
columns_not_match = []
```

</details>

---

2. Lakukan iterasi dan pengecekan apakah requirements column ada di dalam actual columns?
    - Jika iya :
        - Cek apakah actual type *tidak sama dengan* expected type?
            - Jika iya :
                - Tambahkan ke dalam list
            - Jika tidak :
                - skip
    - Jika tidak :
        - Print skip check column

In [None]:
# Lakukan iterasi untuk mendapatkan setiap kolom dan tipe data yang diperlukan
...
    # Cek apakah kolom requirements ada di dalam data aktual.
    # Jika iya
    ...
        # Dapatkan tipe data aktual pada kolom tersebut
        ...

        # Cek apakah tipe data aktual TIDAK sama dengan requirements
        ...
            # Jika tidak sesuai, tambahkan ke dalam list kosong yang telah dibuat sebelumnya
            ...

    # Jika kolom requirements TIDAK ada di dalam data aktual.
    ...
        # Print "...Skip check column '{nama_kolom}' because this column doesn't exist in your data."
        ...

...Skip check column 'Income_Category_Min' because this column doesn't exist in your data.
...Skip check column 'Income_Category_Max' because this column doesn't exist in your data.


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Lakukan iterasi untuk mendapatkan setiap kolom dan tipe data yang diperlukan
for column, expected_type in required_columns.items():
    # Cek apakah kolom requirements ada di dalam data aktual.
    # Jika iya
    if column in actual_columns:
        # Dapatkan tipe data aktual pada kolom tersebut
        actual_type = bank_churners[column].dtype
            
        # Cek apakah tipe data aktual TIDAK sama dengan requirements
        if actual_type != expected_type:
            # Jika tidak sesuai, tambahkan ke dalam list kosong yang telah dibuat sebelumnya
            columns_not_match.append(column)
    
    # Jika kolom requirements TIDAK ada di dalam data aktual.
    else:
        # Print "...Skip check column '{nama_kolom}' because this column doesn't exist in your data."
        print(f"...Skip check column '{column}' because this column doesn't exist in your data.")
```

</details>

---

3. Lakukan pengecekan.
    - Jika sesuai requirements :
        - print : "All checked columns type are match with requirements."

    - Jika tidak sesuai requirements:
        - print : "There are some column that don't match"
        - print daftar kolom yang tipe datanya tidak sesuai dengan requirements.

In [None]:
# Cek jika ada kolom yang tipe datanya tidak match dengan requirements
...
    # Print "=> There are some columns that don't match :"
    ...

    # Print "\t- Column type doesn't match the requirements :"
    ...

    # Lakukan iterasi (untuk mendapatkan nama kolom) pada list kolom yang tipe datanya tidak match
    ...
        # Print : "{nama_kolom} must be {required_types}"
        ...

# Jika semua kolom tipe datanya match dengan requirements
...
    # Print "=> All checked columns type are match with requirements."
    ...

=> There are some columns that don't match :
	- Column type doesn't match the requirements :
		- CLIENTNUM must be <class 'int'>


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Cek jika ada kolom yang tipe datanya tidak match dengan requirements
if columns_not_match:
    # Print "=> There are some columns that don't match :"
    print("=> There are some columns that don't match :")
    
    # Print "\t- Column type doesn't match the requirements :"
    print("\t- Column type doesn't match the requirements :")

    # Lakukan iterasi (untuk mendapatkan nama kolom) pada list kolom yang tipe datanya tidak match
    for column in columns_not_match:
        
        # Print : "{nama_kolom} must be {required_types}"
        print(f"\t\t- {column} must be {required_columns[column]}")

# Jika semua kolom tipe datanya match dengan requirements
else:
    # Print "=> All checked columns type are match with requirements."
    print("=> All checked columns type are match with requirements.")
```

</details>

---

4. Satukan code 1, 2, dan 3 yang telah dibuat sebelumnya

In [None]:
print("\033[1m>>>>> STEP 3 : CHECK DATA TYPES \033[0m")
# Mendapatkan kolom dan tipe data yang diperlukan untuk setiap kolom
...

# Mendapatkan list kolom pada data aktual
...

# Buat list kosong untuk menyimpan kolom yang tipe datanya tidak sesuai dengan rquirements
...

# Lakukan iterasi untuk mendapatkan setiap kolom dan tipe data yang diperlukan
...
    # Cek apakah kolom requirements ada di dalam data aktual.
    # Jika iya
    ...
        # Dapatkan tipe data aktual pada kolom tersebut
        ...

        # Cek apakah tipe data aktual TIDAK sama dengan requirements
        ...
            # Jika tidak sesuai, tambahkan ke dalam list kosong yang telah dibuat sebelumnya
            ...

    # Jika kolom requirements TIDAK ada di dalam data aktual.
    ...
        # Print "...Skip check column '{nama_kolom}' because this column doesn't exist in your data."
        ...

# Cek jika ada kolom yang tipe datanya tidak match dengan requirements
...
    # Print "=> There are some columns that don't match :"
    ...

    # Print "\t- Column type doesn't match the requirements :"
    ...

    # Lakukan iterasi (untuk mendapatkan nama kolom) pada list kolom yang tipe datanya tidak match
    ...
        # Print : "{nama_kolom} must be {required_types}"
        ...

# Jika semua kolom tipe datanya match dengan requirements
...
    # Print "=> All checked columns type are match with requirements."
    ...

[1m>>>>> STEP 3 : CHECK DATA TYPES [0m
...Skip check column 'Income_Category_Min' because this column doesn't exist in your data.
...Skip check column 'Income_Category_Max' because this column doesn't exist in your data.
=> There are some columns that don't match :
	- Column type doesn't match the requirements :
		- CLIENTNUM must be <class 'int'>


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
print("\033[1m>>>>> STEP 3 : CHECK DATA TYPES \033[0m")    
# Mendapatkan kolom dan tipe data yang diperlukan untuk setiap kolom
required_columns = columns_requirements()

# Mendapatkan list kolom pada data aktual
actual_columns = list(bank_churners.columns)

# Buat list kosong untuk menyimpan kolom yang tipe datanya tidak sesuai dengan rquirements
columns_not_match = []

# Lakukan iterasi untuk mendapatkan setiap kolom dan tipe data yang diperlukan
for column, expected_type in required_columns.items():
    # Cek apakah kolom requirements ada di dalam data aktual.
    # Jika iya
    if column in actual_columns:
        # Dapatkan tipe data aktual pada kolom tersebut
        actual_type = bank_churners[column].dtype
            
        # Cek apakah tipe data aktual TIDAK sama dengan requirements
        if actual_type != expected_type:
            # Jika tidak sesuai, tambahkan ke dalam list kosong yang telah dibuat sebelumnya
            columns_not_match.append(column)
    
    # Jika kolom requirements TIDAK ada di dalam data aktual.
    else:
        # Print "...Skip check column '{nama_kolom}' because this column doesn't exist in your data."
        print(f"...Skip check column '{column}' because this column doesn't exist in your data.")

# Cek jika ada kolom yang tipe datanya tidak match dengan requirements
if columns_not_match:
    # Print "=> There are some columns that don't match :"
    print("=> There are some columns that don't match :")
    
    # Print "\t- Column type doesn't match the requirements :"
    print("\t- Column type doesn't match the requirements :")

    # Lakukan iterasi (untuk mendapatkan nama kolom) pada list kolom yang tipe datanya tidak match
    for column in columns_not_match:
        
        # Print : "{nama_kolom} must be {required_types}"
        print(f"\t\t- {column} must be {required_columns[column]}")

# Jika semua kolom tipe datanya match dengan requirements
else:
    # Print "=> All checked columns type are match with requirements."
    print("=> All checked columns type are match with requirements.")
```

</details>

---

### 1d

- Setelah membuat bagian-bagian pengecekan (`Data Shape`, `Columns`, dan `Data types`), selanjutnya membuat pipeline.
- **Rangkum kode** yang telah dibuat sebelumnya kedalam **pipeline function** data validations.
- Parameters :
    - dataframe

In [None]:
#--------------------------------------------------------------------------------------
# Fungsi untuk melakukan validasi data
def data_validation(data):
    print("\033[1m>>>>> STEP 1 : CHECK DATA SHAPE \033[0m")

    # Mendapatkan jumlah baris dan kolom pada data aktual
    ...
    ...

    # Menampilkan jumlah baris dan kolom
    ...
    ...
    ...

    # Menampilkan garis pemisah
    print("-"*100)

    #--------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 2 : CHECK COLUMNS \033[0m")

    # Mendapatkan set kolom requirements
    ...

    # Mendapatkan set kolom pada data aktual
    ...

    # Memeriksa apakah kolom aktual sesuai dengan requirements.
    # Jika sesuai
    ...
        # Print "=> Columns match with requirements."
        ...

    # Jika tidak sesuai
    ...
        # Print "=> Actual Column you should delete :"
        ...

        # Iterasi pada list kolom data aktual untuk menampilkan kolom aktual yang seharusnya dihapus
        ...
            ...
                ...

        # Print "=> Columns must exist in your data :"
        ...

        # Iterasi ada list kolom requirements untuk menampilkan kolom yang seharusnya ada dalam data aktual
        ...
            ...
                ...

    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)

    #--------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 3 : CHECK DATA TYPES \033[0m")
    # Mendapatkan kolom dan tipe data yang diperlukan untuk setiap kolom
    ...

    # Mendapatkan list kolom pada data aktual
    ...

    # Buat list kosong untuk menyimpan kolom yang tipe datanya tidak sesuai dengan rquirements
    ...

    # Lakukan iterasi untuk mendapatkan setiap kolom dan tipe data yang diperlukan untuk setiap kolom
    ...
        # Cek apakah kolom requirements ada di dalam data aktual.
        # Jika iya
        ...
            # Dapatkan tipe data aktual pada kolom tersebut
            ...

            # Cek apakah tipe data aktual TIDAK sama dengan requirements
            ...
                # Jika tidak sesuai, tambahkan ke dalam list kosong yang telah dibuat sebelumnya
                ...

        # Jika kolom requirements TIDAK ada di dalam data aktual.
        ...
            # Print "...Skip check column '{nama_kolom}' because this column doesn't exist in your data."
            ...

    # Cek jika ada kolom yang tipe datanya tidak match dengan requirements
    ...
        # Print "=> There are some columns that don't match :"
        ...

        # Print "\t- Column type doesn't match the requirements :"
        ...

        # Lakukan iterasi (untuk mendapatkan nama kolom) pada list kolom yang tipe datanya tidak match
        ...

            # Print : "{nama_kolom} must be {required_types}"
            ...

    # Jika semua kolom tipe datanya match dengan requirements
    ...
        # Print "=> All checked columns type are match with requirements."
        ...

    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
#--------------------------------------------------------------------------------------
# Fungsi untuk melakukan validasi data
def data_validation(data):
    print("\033[1m>>>>> STEP 1 : CHECK DATA SHAPE \033[0m")
    
    # Mendapatkan jumlah baris dan kolom pada data aktual
    num_rows = data.shape[0]
    num_columns = data.shape[1]
    
    # Menampilkan jumlah baris dan kolom
    print(f"=> Number of rows : {num_rows}")
    print(f"=> Number of columns : {num_columns}")
    print("\n\n")
    
    # Menampilkan garis pemisah
    print("-"*100)
    
    #--------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 2 : CHECK COLUMNS \033[0m")
    
    # Mendapatkan set kolom requirements
    required_columns = set(columns_requirements().keys())
    
    # Mendapatkan set kolom pada data aktual
    actual_columns = set(data.columns)

    # Memeriksa apakah kolom aktual sesuai dengan requirements.
    # Jika sesuai
    if actual_columns == required_columns:
        # Print "=> Columns match with requirements."
        print("=> Columns match with requirements.")
        
    # Jika tidak sesuai
    else:
        # Print "=> Actual Column you should delete :"
        print("=> Actual Column you should delete :")
        
        # Iterasi pada list kolom data aktual untuk menampilkan kolom aktual yang seharusnya dihapus
        for column in actual_columns:
            if column not in required_columns:
                print(f"\t- {column}")
        
        # Print "=> Columns must exist in your data :"    
        print("\n=> Columns must exist in your data :")
        
        # Iterasi ada list kolom requirements untuk menampilkan kolom yang seharusnya ada dalam data aktual
        for column in required_columns:
            if column not in actual_columns:
                print(f"\t- {column}")
    
    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)     
     
    #--------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 3 : CHECK DATA TYPES \033[0m")    
    # Mendapatkan kolom dan tipe data yang diperlukan untuk setiap kolom
    required_columns = columns_requirements()
    
    # Mendapatkan list kolom pada data aktual
    actual_columns = list(data.columns)

    # Buat list kosong untuk menyimpan kolom yang tipe datanya tidak sesuai dengan rquirements
    columns_not_match = []

    # Lakukan iterasi untuk mendapatkan setiap kolom dan tipe data yang diperlukan untuk setiap kolom
    for column, expected_type in required_columns.items():
        # Cek apakah kolom requirements ada di dalam data aktual.
        # Jika iya
        if column in actual_columns:
            # Dapatkan tipe data aktual pada kolom tersebut
            actual_type = data[column].dtype
                
            # Cek apakah tipe data aktual TIDAK sama dengan requirements
            if actual_type != expected_type:
                # Jika tidak sesuai, tambahkan ke dalam list kosong yang telah dibuat sebelumnya
                columns_not_match.append(column)
        
        # Jika kolom requirements TIDAK ada di dalam data aktual.
        else:
            # Print "...Skip check column '{nama_kolom}' because this column doesn't exist in your data."
            print(f"...Skip check column '{column}' because this column doesn't exist in your data.")

    # Cek jika ada kolom yang tipe datanya tidak match dengan requirements
    if columns_not_match:
        # Print "=> There are some columns that don't match :"
        print("=> There are some columns that don't match :")
        
        # Print "\t- Column type doesn't match the requirements :"
        print("\t- Column type doesn't match the requirements :")

        # Lakukan iterasi (untuk mendapatkan nama kolom) pada list kolom yang tipe datanya tidak match
        for column in columns_not_match:
            
            # Print : "{nama_kolom} must be {required_types}"
            print(f"\t\t- {column} must be {required_columns[column]}")

    # Jika semua kolom tipe datanya match dengan requirements
    else:
        # Print "=> All checked columns type are match with requirements."
        print("=> All checked columns type are match with requirements.")
        
    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)
```

</details>

---

In [None]:
# Lakukan validasi data dengan menggunakan pipeline yang telah dibuat
...

[1m>>>>> STEP 1 : CHECK DATA SHAPE [0m
=> Number of rows : 9776
=> Number of columns : 21



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 2 : CHECK COLUMNS [0m
=> Actual Column you should delete :
	- Income_Category

=> Columns must exist in your data :
	- Income_Category_Min
	- Income_Category_Max



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 3 : CHECK DATA TYPES [0m
...Skip check column 'Income_Category_Min' because this column doesn't exist in your data.
...Skip check column 'Income_Category_Max' because this column doesn't exist in your data.
=> There are some columns that don't match :
	- Column type doesn't match the requirements :
		- CLIENTNUM must be <class 'int'>



----------------------------------------------------------------------------------------------------


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Lakukan validasi data dengan menggunakan pipeline yang telah dibuat
data_validation(bank_churners)
```

</details>

---

## 2

- Sebelumnya anda telah membuat pipeline data validations dan sudah melakukan pengecekan :
    - `Data Shape`
    - `Columns`
    - `Data Type`
- Sekarang anda diminta untuk melanjutkan pipeline data validaions yang telah dibuat sebelumnya:
    - Check **Missing Value**
    - Check **Duplicates Data**
    - Check **Inconsistent and missmatch data**
        - Dilakukan pada beberapa kolom yang ada dalam `values_requirements()`.
        - Cek apakah requirement unique value sudah sesuai dengan data aktual?

### 2a

- Cek `Missing Value`
- Berikut langkah-langkah pengerjaannya :

1. Lakukan :
    - Dapatkan list kolom aktual.
    - Buat dictionary untuk menyimpan informasi persentase dan nama kolom yang mempunyai missing value.

In [None]:
print("\033[1m>>>>> STEP 4 : CHECK MISSING VALUES \033[0m")
# Mendapatkan list kolom aktual (bankchurners)
...
# Membuat dictionary kosong untuk menyimpan informasi nama kolom dan persentase nilai missing valuenya
...

[1m>>>>> STEP 4 : CHECK MISSING VALUES [0m


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
print("\033[1m>>>>> STEP 4 : CHECK MISSING VALUES \033[0m")
# Mendapatkan list kolom aktual
actual_columns = list(bank_churners.columns)
# Membuat dictionary kosong untuk menyimpan informasi nama kolom dan persentase nilai missing valuenya
missing_values_dict = {}
```

</details>

---

2. Lakukan iterasi pada kolom aktual dan hitung persentase missing valuenya.

In [None]:
# Iterasi pada list kolom aktual
...
    # Hitung persentase missing value pada kolom tersebut
    ...

    # Cek jika persentase missing value pada kolom lebih dari 0 atau ada missing value
    ...
        # Tambahkan nama kolom sebagai key dan persentase missing value sebagai values pada dictionary yang telah dibuat
        ...

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Iterasi pada list kolom aktual
for column in actual_columns:
    # Hitung persentase missing value pada kolom tersebut
    missing_values_pctg = (bank_churners[column].isna().sum() / len(bank_churners)) * 100
    
    # Cek jika persentase missing value pada kolom lebih dari 0 atau ada missing value
    if missing_values_pctg > 0 :
        # Tambahkan nama kolom sebagai key dan persentase missing value sebagai values pada dictionary yang telah dibuat
        missing_values_dict[column] = round(missing_values_pctg, 2)
```

</details>

---

In [None]:
# Hasil dictionary kolom-kolom yang mempunyai missing value
print(missing_values_dict)

{'CLIENTNUM': 1.97, 'Education_Level': 1.11, 'Income_Category': 0.38}


3. Cek :
    - Jika terdapat missing value pada suatu kolom:
        - print : "- There are some missing values :"
        - Tampilkan kolom-kolom tersebut beserta persentase missing valuenya.
    - Jika tidak terdapat missing value :
        - print : "- There is no missing value."

In [None]:
# Cek pada dictionary yang menampung nama kolom dan persentase missing valuenya.
# Jika ada
...
    # Print "=> There are some missing values :"
    ...

    # Iterasi pada dictionary tersebut untuk mendapatkan nama kolom dan persentase missing valuenya
    ...
        # Print "\t- {column_name} : {missing_values_pctg}%
        ...

# Jika tidak ada data missing value
...
    # Print "=> There is no missing values"
    ...

=> There are some missing values :
	- CLIENTNUM : 1.97%
	- Education_Level : 1.11%
	- Income_Category : 0.38%


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Cek pada dictionary yang menampung nama kolom dan persentase missing valuenya.
# Jika ada
if missing_values_dict:
    # Print "=> There are some missing values :"
    print("=> There are some missing values :")
    
    # Iterasi pada dictionary tersebut untuk mendapatkan nama kolom dan persentase missing valuenya
    for column_name, missing_values_pctg in missing_values_dict.items():
        # Print "\t- {column_name} : {missing_values_pctg}%
        print(f"\t- {column_name} : {missing_values_pctg}%")

# Jika tidak ada data missing value
else:
    # Print "=> There is no missing values"
    print("=> There is no missing values")
```

</details>

---

4. Satukan code 1,2, dan 3 yang telah dibuat sebelumnya.

In [None]:
print("\033[1m>>>>> STEP 4 : CHECK MISSING VALUES \033[0m")
# Mendapatkan list kolom aktual
...
# Membuat dictionary kosong untuk menyimpan informasi nama kolom dan persentase nilai missing valuenya
...

# Iterasi pada list kolom aktual
...
    # Hitung persentase missing value pada kolom tersebut
    ...

    # Cek jika persentase missing value pada kolom lebih dari 0 atau ada missing value
    ...
        # Tambahkan nama kolom sebagai key dan persentase missing value sebagai values pada dictionary yang telah dibuat
        ...

# Cek pada dictionary yang menampung nama kolom dan persentase missing valuenya.
# Jika ada
...
    # Print "=> There are some missing values :"
    ...

    # Iterasi pada dictionary tersebut untuk mendapatkan nama kolom dan persentase missing valuenya
    ...
        # Print "\t- {column_name} : {missing_values_pctg}%
        ...

# Jika tidak ada data missing value
...
    # Print "=> There is no missing values"
    ...

[1m>>>>> STEP 4 : CHECK MISSING VALUES [0m
=> There are some missing values :
	- CLIENTNUM : 1.97%
	- Education_Level : 1.11%
	- Income_Category : 0.38%


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Lakukan validasi data dengan menggunakan pipeline yang telah dibuat
print("\033[1m>>>>> STEP 4 : CHECK MISSING VALUES \033[0m")
# Mendapatkan list kolom aktual
actual_columns = list(bank_churners.columns)
# Membuat dictionary kosong untuk menyimpan informasi nama kolom dan persentase nilai missing valuenya
missing_values_dict = {}

# Iterasi pada list kolom aktual
for column in actual_columns:
    # Hitung persentase missing value pada kolom tersebut
    missing_values_pctg = (bank_churners[column].isna().sum() / len(bank_churners)) * 100
    
    # Cek jika persentase missing value pada kolom lebih dari 0 atau ada missing value
    if missing_values_pctg > 0 :
        # Tambahkan nama kolom sebagai key dan persentase missing value sebagai values pada dictionary yang telah dibuat
        missing_values_dict[column] = round(missing_values_pctg, 2)

# Cek pada dictionary yang menampung nama kolom dan persentase missing valuenya.
# Jika ada
if missing_values_dict:
    # Print "=> There are some missing values :"
    print("=> There are some missing values :")
    
    # Iterasi pada dictionary tersebut untuk mendapatkan nama kolom dan persentase missing valuenya
    for column_name, missing_values_pctg in missing_values_dict.items():
        # Print "\t- {column_name} : {missing_values_pctg}%
        print(f"\t- {column_name} : {missing_values_pctg}%")

# Jika tidak ada data missing value
else:
    # Print "=> There is no missing values"
    print("=> There is no missing values")
```

</details>

---

### 2b

- Cek `Duplicates Data`
- Jika terdapat duplicates data:
    - print jumlah data yang duplikat.
- Jika tidak terdapat duplicates data:
    - print : "- There is no duplicates data"

In [None]:
print("\033[1m>>>>> STEP 5 : CHECK DUPLICATES DATA \033[0m")
# Menghitung jumlah data yang duplikat
...

# Cek apakah terdapat data yang duplikat
...
    # Print "=> Threre are {num_duplicates_data} duplicates data."
    ...

# Jika tidak terdapat data yang duplikat
...
    # Print "=> There is no duplicates data."
    ...

[1m>>>>> STEP 5 : CHECK DUPLICATES DATA [0m
=> Threre are 699 duplicates data.


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
print("\033[1m>>>>> STEP 5 : CHECK DUPLICATES DATA \033[0m")
# Menghitung jumlah data yang duplikat
num_duplicates_data = bank_churners.duplicated(keep = False).sum()

# Cek apakah terdapat data yang duplikat
if num_duplicates_data:
    # Print "=> Threre are {num_duplicates_data} duplicates data."
    print(f"=> Threre are {num_duplicates_data} duplicates data.")

# Jika tidak terdapat data yang duplikat
else:
    # Print "=> There is no duplicates data."
    print("=> There is no duplicates data.")
```

</details>

---

### 2c

- Cek `Inconsistent Data & Missmatch Data`
- Berikut langkah-langkah perngerjaannya :
    

1. Lakukan :
    - Dapatkan requirements value yang telah didefinisikan pada `values_requirements()`
    - Buat dictionary untuk menyimpan :
        - Required value NOT IN Actual value
        - Actual value NOT IN Required value

In [None]:
print("\033[1m>>>>> STEP 6 : CHECK INCONSISTENT & MISSMATCH DATA \033[0m")
# Mendapatkan data required values
...
# Membuat dictionary untuk menyimpan required value yang tidak ada di dalam actual value
...
# Membuat dictionary untuk menyimpan actual value yang tidak ada di dalam required value
...

[1m>>>>> STEP 6 : CHECK INCONSISTENT & MISSMATCH DATA [0m


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
print("\033[1m>>>>> STEP 6 : CHECK INCONSISTENT & MISSMATCH DATA \033[0m")
# Mendapatkan data required values
requirements = values_requirements()
# Membuat dictionary untuk menyimpan required value yang tidak ada di dalam actual value
missmatch_values_dict_1 = {}
# Membuat dictionary untuk menyimpan actual value yang tidak ada di dalam required value
missmatch_values_dict_2 = {}
```

</details>

---

2. Lakukan :
    - Iterasi pada requirements value.
    - Cek apakah required value ada di actual value?
    - Cek apakah actual value ada di required value?

In [None]:
# Iterasi pada data required values untuk mendapatkan nama kolom dan required valuesnya
...
    # Mendapatkan list actual value pada kolom tersebut
    ...
    # Buat list kosong untuk menyimpan required value yang tidak ada di dalam actual value
    ...
    # Buat list kosong untuk menyimpan actual value yang tidak ada di dalam required value
    ...

    # Iterasi setiap value pada required values
    ...
        # Cek apakah value tersebut ada di actual values?
        # Jika iya
        ...
            # Tambahkan value tersebut pada list yang telah dibuat sebelumnya
            ...

    # Tambahkan nama kolom dan list value yang telah didapatkan kedalam dictionary yang telah dibuat.
    ...

    # Iterasi seiap value pada actual value
    ...
        # Cek apakah value tersebut ada di required values?
        ...
            # Tambahkan value tersebut pada list yang telah dibuat sebelumnya
            ...

    # Tambahkan nama kolom dan list value yang telah didapatkan kedalam dictionary yang telah dibuat.
    ...

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Iterasi pada data required values untuk mendapatkan nama kolom dan required valuesnya
for column, required_values in requirements.items():
    # Mendapatkan list actual value pada kolom tersebut
    actual_values = list(bank_churners[f"{column}"].unique())
    # Buat list kosong untuk menyimpan required value yang tidak ada di dalam actual value
    missmatch_values_1 = []
    # Buat list kosong untuk menyimpan actual value yang tidak ada di dalam required value
    missmatch_values_2 = []
    
    # Iterasi setiap value pada required values
    for values in required_values:
        # Cek apakah value tersebut ada di actual values?
        # Jika iya
        if values not in actual_values:
            # Tambahkan value tersebut pada list yang telah dibuat sebelumnya
            missmatch_values_1.append(values)
    
    # Tambahkan nama kolom dan list value yang telah didapatkan kedalam dictionary yang telah dibuat.
    missmatch_values_dict_1[column] = missmatch_values_1
    
    # Iterasi seiap value pada actual value
    for values in actual_values:
        # Cek apakah value tersebut ada di required values?
        if values not in required_values:
            # Tambahkan value tersebut pada list yang telah dibuat sebelumnya
            missmatch_values_2.append(values)
            
    # Tambahkan nama kolom dan list value yang telah didapatkan kedalam dictionary yang telah dibuat.
    missmatch_values_dict_2[column] = missmatch_values_2
```

</details>

---

3. Lakukan :
    - Menghitung jumlah data required value yang tidak ada di dalam actual value
    - Menghitung jumlah data actual value yang tidak ada di dalam required value

In [None]:
# Hitung jumlah data required value yang tidak ada di dalam actual value
...

# Hitung jumlah data actual value yang tidak ada di dalam required value
...

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Hitung jumlah data required value yang tidak ada di dalam actual value
len_missmatch_1 = 0
for column, values in missmatch_values_dict_1.items():
    len_missmatch_1 = len_missmatch_1 + len(values)

# Hitung jumlah data actual value yang tidak ada di dalam required value
len_missmatch_2 = 0
for column, values in missmatch_values_dict_2.items():
    len_missmatch_2 = len_missmatch_2 + len(values)
```

</details>

---

4. Cek apakah terdapat required value yang tidak ada di dalam actual value?

In [None]:
# Cek apakah terdapat required value yang tidak ada di dalam actual value
# Jika iya
...
    # Print : "=> All Required Values In Actual Values ? FALSE"
    ...
    # Print : "\t- There are some inconsistent or missmatch Data (\033[1mREQUIRED VALUES NOT IN ACTUAL VALUES\033[0m) :"
    ...

    # Iterasi (untuk mendapatkan nama kolom dan value) pada dictionary yang menyimpan data required value yang tidak ada di dalam actual value
    ...
        ...
            ...

            ...
                ...
        ...
            ...
# Jika tidak terdapat required value yang tidak ada di dalam actual value
...
    # Print : "=> All Required Values In Actual Values ? TRUE"
    ...

=> All Required Values In Actual Values ? TRUE


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Cek apakah terdapat required value yang tidak ada di dalam actual value
# Jika iya
if len_missmatch_1:
    # Print : "=> All Required Values In Actual Values ? FALSE"
    print("=> All Required Values In Actual Values ? FALSE")
    # Print : "\t- There are some inconsistent or missmatch Data (\033[1mREQUIRED VALUES NOT IN ACTUAL VALUES\033[0m) :"
    print("\t- There are some inconsistent or missmatch Data (\033[1mREQUIRED VALUES NOT IN ACTUAL VALUES\033[0m) :")
    
    # Iterasi (untuk mendapatkan nama kolom dan value) pada dictionary yang menyimpan data required value yang tidak ada di dalam actual value
    for column, values in missmatch_values_dict_1.items():
        if len(values) > 0:
            print(f"\t\t- {column} : ")
            
            for value in values:
                print(f"\t\t\t- {value}")
        else:
            pass
# Jika tidak terdapat required value yang tidak ada di dalam actual value
else:
    # Print : "=> All Required Values In Actual Values ? TRUE"
    print("=> All Required Values In Actual Values ? TRUE")
```

</details>

---

5. Cek apakah terdapat actual value yang tidak ada di dalam required value?

In [None]:
# Cek apakah terdapat actual value yang tidak ada di dalam required value
# Jika iya
...
    # Print "=> All Actual Values In Required Values ? FALSE"
    ...
    # Print "\t- There are some inconsistent or missmatch Data (Actual Values NOT IN Required Values) : "
    ...

    # Iterasi (untuk mendapatkan nama kolom dan value) pada dictionary yang menyimpan data actual value yang tidak ada di dalam required value
    ...

# Jika tidak terdapat actual value yang tidak ada di dalam required value
...
    # Print "=> All Actual Values In Required Values ? TRUE"
    ...

=> All Actual Values In Required Values ? FALSE
	- There are some inconsistent or missmatch Data (Actual Values NOT IN Required Values) : 
		- Attrition_Flag : 
			- Existing_Customer
			- Attrited_Customer
		- Gender : 
			- Male
			- Female
		- Education_Level : 
			- nan
			- High-School
		- Marital_Status : 
			- Unknown


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Cek apakah terdapat actual value yang tidak ada di dalam required value
# Jika iya   
if len_missmatch_2:
    # Print "=> All Actual Values In Required Values ? FALSE"
    print("=> All Actual Values In Required Values ? FALSE")
    # Print "\t- There are some inconsistent or missmatch Data (Actual Values NOT IN Required Values) : "
    print("\t- There are some inconsistent or missmatch Data (Actual Values NOT IN Required Values) : ")
    
    # Iterasi (untuk mendapatkan nama kolom dan value) pada dictionary yang menyimpan data actual value yang tidak ada di dalam required value
    for column, values in missmatch_values_dict_2.items():
        if len(values) > 0:
            print(f"\t\t- {column} : ")
            
            for value in values:
                print(f"\t\t\t- {value}")
        else:
            pass
# Jika tidak terdapat actual value yang tidak ada di dalam required value   
else:
    # Print "=> All Actual Values In Required Values ? TRUE"
    print("=> All Actual Values In Required Values ? TRUE")
```

</details>

---

- Satukan code pada langkah 1, 2, 3, 4, dan 5.

In [None]:
print("\033[1m>>>>> STEP 6 : CHECK INCONSISTENT & MISSMATCH DATA \033[0m")
# Mendapatkan data required values
...
# Membuat dictionary untuk menyimpan required value yang tidak ada di dalam actual value
...
# Membuat dictionary untuk menyimpan actual value yang tidak ada di dalam required value
...

# Iterasi pada data required values untuk mendapatkan nama kolom dan required valuesnya
...
    # Mendapatkan list actual value pada kolom tersebut
    ...
    # Buat list kosong untuk menyimpan required value yang tidak ada di dalam actual value
    ...
    # Buat list kosong untuk menyimpan actual value yang tidak ada di dalam required value
    ...

    # Iterasi setiap value pada required values
    ...
        # Cek apakah value tersebut ada di actual values?
        # Jika iya
        ...
            # Tambahkan value tersebut pada list yang telah dibuat sebelumnya
            ...

    # Tambahkan nama kolom dan list value yang telah didapatkan kedalam dictionary yang telah dibuat.
    ...

    # Iterasi seiap value pada actual value
    ...
        # Cek apakah value tersebut ada di required values?
        ...
            # Tambahkan value tersebut pada list yang telah dibuat sebelumnya
            ...

    # Tambahkan nama kolom dan list value yang telah didapatkan kedalam dictionary yang telah dibuat.
    ...

# Hitung jumlah data required value yang tidak ada di dalam actual value
...

# Hitung jumlah data actual value yang tidak ada di dalam required value
...

# Cek apakah terdapat required value yang tidak ada di dalam actual value
# Jika iya
...
    # Print : "=> All Required Values In Actual Values ? FALSE"
    ...
    # Print : "\t- There are some inconsistent or missmatch Data (\033[1mREQUIRED VALUES NOT IN ACTUAL VALUES\033[0m) :"
    ...

    # Iterasi (untuk mendapatkan nama kolom dan value) pada dictionary yang menyimpan data required value yang tidak ada di dalam actual value
    ...
        ...
            ...

            ...
                ...
        ...
            ...
# Jika tidak terdapat required value yang tidak ada di dalam actual value
...
    # Print : "=> All Required Values In Actual Values ? TRUE"
    ...

# Cek apakah terdapat actual value yang tidak ada di dalam required value
# Jika iya
...
    # Print "=> All Actual Values In Required Values ? FALSE"
    ...
    # Print "\t- There are some inconsistent or missmatch Data (Actual Values NOT IN Required Values) : "
    ...

    # Iterasi (untuk mendapatkan nama kolom dan value) pada dictionary yang menyimpan data actual value yang tidak ada di dalam required value
    ...

        ...
            ...
# Jika tidak terdapat actual value yang tidak ada di dalam required value
...
    # Print "=> All Actual Values In Required Values ? TRUE"
    ...

[1m>>>>> STEP 6 : CHECK INCONSISTENT & MISSMATCH DATA [0m
=> All Required Values In Actual Values ? TRUE
=> All Actual Values In Required Values ? FALSE
	- There are some inconsistent or missmatch Data (Actual Values NOT IN Required Values) : 
		- Attrition_Flag : 
			- Existing_Customer
			- Attrited_Customer
		- Gender : 
			- Male
			- Female
		- Education_Level : 
			- nan
			- High-School
		- Marital_Status : 
			- Unknown


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
print("\033[1m>>>>> STEP 6 : CHECK INCONSISTENT & MISSMATCH DATA \033[0m")
# Mendapatkan data required values
requirements = values_requirements()
# Membuat dictionary untuk menyimpan required value yang tidak ada di dalam actual value
missmatch_values_dict_1 = {}
# Membuat dictionary untuk menyimpan actual value yang tidak ada di dalam required value
missmatch_values_dict_2 = {}

# Iterasi pada data required values untuk mendapatkan nama kolom dan required valuesnya
for column, required_values in requirements.items():
    # Mendapatkan list actual value pada kolom tersebut
    actual_values = list(bank_churners[f"{column}"].unique())
    # Buat list kosong untuk menyimpan required value yang tidak ada di dalam actual value
    missmatch_values_1 = []
    # Buat list kosong untuk menyimpan actual value yang tidak ada di dalam required value
    missmatch_values_2 = []
    
    # Iterasi setiap value pada required values
    for values in required_values:
        # Cek apakah value tersebut ada di actual values?
        # Jika iya
        if values not in actual_values:
            # Tambahkan value tersebut pada list yang telah dibuat sebelumnya
            missmatch_values_1.append(values)
    
    # Tambahkan nama kolom dan list value yang telah didapatkan kedalam dictionary yang telah dibuat.
    missmatch_values_dict_1[column] = missmatch_values_1
    
    # Iterasi seiap value pada actual value
    for values in actual_values:
        # Cek apakah value tersebut ada di required values?
        if values not in required_values:
            # Tambahkan value tersebut pada list yang telah dibuat sebelumnya
            missmatch_values_2.append(values)
            
    # Tambahkan nama kolom dan list value yang telah didapatkan kedalam dictionary yang telah dibuat.
    missmatch_values_dict_2[column] = missmatch_values_2

# Hitung jumlah data required value yang tidak ada di dalam actual value
len_missmatch_1 = 0
for column, values in missmatch_values_dict_1.items():
    len_missmatch_1 = len_missmatch_1 + len(values)

# Hitung jumlah data actual value yang tidak ada di dalam required value
len_missmatch_2 = 0
for column, values in missmatch_values_dict_2.items():
    len_missmatch_2 = len_missmatch_2 + len(values)
    
# Cek apakah terdapat required value yang tidak ada di dalam actual value
# Jika iya
if len_missmatch_1:
    # Print : "=> All Required Values In Actual Values ? FALSE"
    print("=> All Required Values In Actual Values ? FALSE")
    # Print : "\t- There are some inconsistent or missmatch Data (\033[1mREQUIRED VALUES NOT IN ACTUAL VALUES\033[0m) :"
    print("\t- There are some inconsistent or missmatch Data (\033[1mREQUIRED VALUES NOT IN ACTUAL VALUES\033[0m) :")
    
    # Iterasi (untuk mendapatkan nama kolom dan value) pada dictionary yang menyimpan data required value yang tidak ada di dalam actual value
    for column, values in missmatch_values_dict_1.items():
        if len(values) > 0:
            print(f"\t\t- {column} : ")
            
            for value in values:
                print(f"\t\t\t- {value}")
        else:
            pass
# Jika tidak terdapat required value yang tidak ada di dalam actual value
else:
    # Print : "=> All Required Values In Actual Values ? TRUE"
    print("=> All Required Values In Actual Values ? TRUE")
    
# Cek apakah terdapat actual value yang tidak ada di dalam required value
# Jika iya   
if len_missmatch_2:
    # Print "=> All Actual Values In Required Values ? FALSE"
    print("=> All Actual Values In Required Values ? FALSE")
    # Print "\t- There are some inconsistent or missmatch Data (Actual Values NOT IN Required Values) : "
    print("\t- There are some inconsistent or missmatch Data (Actual Values NOT IN Required Values) : ")
    
    # Iterasi (untuk mendapatkan nama kolom dan value) pada dictionary yang menyimpan data actual value yang tidak ada di dalam required value
    for column, values in missmatch_values_dict_2.items():
        if len(values) > 0:
            print(f"\t\t- {column} : ")
            
            for value in values:
                print(f"\t\t\t- {value}")
        else:
            pass
# Jika tidak terdapat actual value yang tidak ada di dalam required value   
else:
    # Print "=> All Actual Values In Required Values ? TRUE"
    print("=> All Actual Values In Required Values ? TRUE")
```

</details>

---

### 2d

- Rangkum semua code validasi yang telah dibuat sebelumnya kedalam **pipeline function** data validations.
    - `Check Data Shape`
    - `Check Columns`
    - `Check Data Types`
    - `Check Missing Values`
    - `Check Duplicates Data`
    - `Check Inconsistent & Missmatch Data`
- parameters :
    - dataframe

In [None]:
#---------------------------------------------------------------------------------------------------
# Fungsi untuk melakukan validasi data
def data_validation(data):
    display(data.head())
    print("\033[1m>>>>> STEP 1 : CHECK DATA SHAPE \033[0m")

    # Mendapatkan jumlah baris dan kolom pada data aktual
    ...
    ...

    # Menampilkan jumlah baris dan kolom
    ...
    ...
    ...

    # Menampilkan garis pemisah
    print("-"*100)

    #--------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 2 : CHECK COLUMNS \033[0m")

    # Mendapatkan set kolom requirements
    ...

    # Mendapatkan set kolom pada data aktual
    ...

    # Memeriksa apakah kolom aktual sesuai dengan requirements.
    # Jika sesuai
    ...
        # Print "=> Columns match with requirements."
        ...

    # Jika tidak sesuai
    ...
        # Print "=> Actual Column you should delete :"
        ...

        # Iterasi pada list kolom data aktual untuk menampilkan kolom aktual yang seharusnya dihapus
        ...
            ...
                ...

        # Print "=> Columns must exist in your data :"
        ...

        # Iterasi ada list kolom requirements untuk menampilkan kolom yang seharusnya ada dalam data aktual
        ...
            ...
                ...

    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)

    #--------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 3 : CHECK DATA TYPES \033[0m")
    # Mendapatkan kolom dan tipe data yang diperlukan untuk setiap kolom
    ...

    # Mendapatkan list kolom pada data aktual
    ...

    # Buat list kosong untuk menyimpan kolom yang tipe datanya tidak sesuai dengan rquirements
    ...

    # Lakukan iterasi untuk mendapatkan setiap kolom dan tipe data yang diperlukan untuk setiap kolom
    ...
        # Cek apakah kolom requirements ada di dalam data aktual.
        # Jika iya
        ...
            # Dapatkan tipe data aktual pada kolom tersebut
            ...

            # Cek apakah tipe data aktual TIDAK sama dengan requirements
            ...
                # Jika tidak sesuai, tambahkan ke dalam list kosong yang telah dibuat sebelumnya
                ...

        # Jika kolom requirements TIDAK ada di dalam data aktual.
        ...
            # Print "...Skip check column '{nama_kolom}' because this column doesn't exist in your data."
            ...

    # Cek jika ada kolom yang tipe datanya tidak match dengan requirements
    ...
        # Print "=> There are some columns that don't match :"
        ...

        # Print "\t- Column type doesn't match the requirements :"
        ...

        # Lakukan iterasi (untuk mendapatkan nama kolom) pada list kolom yang tipe datanya tidak match
        ...

            # Print : "{nama_kolom} must be {required_types}"
            ...

    # Jika semua kolom tipe datanya match dengan requirements
    ...
        # Print "=> All checked columns type are match with requirements."
        ...

    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)

    #---------------------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 4 : CHECK MISSING VALUES \033[0m")
    # Mendapatkan list kolom aktual
    ...
    # Membuat dictionary kosong untuk menyimpan informasi nama kolom dan persentase nilai missing valuenya
    ...

    # Iterasi pada list kolom aktual
    ...
        # Hitung persentase missing value pada kolom tersebut
        ...

        # Cek jika persentase missing value pada kolom lebih dari 0 atau ada missing value
        ...
            # Tambahkan nama kolom sebagai key dan persentase missing value sebagai values pada dictionary yang telah dibuat
            ...

    # Cek pada dictionary yang menampung nama kolom dan persentase missing valuenya.
    # Jika ada
    ...
        # Print "=> There are some missing values :"
        ...

        # Iterasi pada dictionary tersebut untuk mendapatkan nama kolom dan persentase missing valuenya
        ...
            # Print "\t- {column_name} : {missing_values_pctg}%
            ...

    # Jika tidak ada data missing value
    ...
        # Print "=> There is no missing values"
        ...

    #---------------------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 5 : CHECK DUPLICATES DATA \033[0m")
    # Menghitung jumlah data yang duplikat
    ...

    # Cek apakah terdapat data yang duplikat
    ...
        # Print "=> Threre are {num_duplicates_data} duplicates data."
        ...

    # Jika tidak terdapat data yang duplikat
    ...
        # Print "=> There is no duplicates data."
        ...

    #---------------------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 6 : CHECK INCONSISTENT & MISSMATCH DATA \033[0m")
    # Mendapatkan data required values
    ...
    # Membuat dictionary untuk menyimpan required value yang tidak ada di dalam actual value
    ...
    # Membuat dictionary untuk menyimpan actual value yang tidak ada di dalam required value
    ...

    # Iterasi pada data required values untuk mendapatkan nama kolom dan required valuesnya
    ...
        # Mendapatkan list actual value pada kolom tersebut
        ...
        # Buat list kosong untuk menyimpan required value yang tidak ada di dalam actual value
        ...
        # Buat list kosong untuk menyimpan actual value yang tidak ada di dalam required value
        ...

        # Iterasi setiap value pada required values
        ...
            # Cek apakah value tersebut ada di actual values?
            # Jika iya
            ...
                # Tambahkan value tersebut pada list yang telah dibuat sebelumnya
                ...

        # Tambahkan nama kolom dan list value yang telah didapatkan kedalam dictionary yang telah dibuat.
        ...

        # Iterasi seiap value pada actual value
        ...
            # Cek apakah value tersebut ada di required values?
            ...
                # Tambahkan value tersebut pada list yang telah dibuat sebelumnya
                ...

        # Tambahkan nama kolom dan list value yang telah didapatkan kedalam dictionary yang telah dibuat.
        ...

    # Hitung jumlah data required value yang tidak ada di dalam actual value
    ...

    # Hitung jumlah data actual value yang tidak ada di dalam required value
    ...

    # Cek apakah terdapat required value yang tidak ada di dalam actual value
    # Jika iya
    ...
        # Print : "=> All Required Values In Actual Values ? FALSE"
        ...
        # Print : "\t- There are some inconsistent or missmatch Data (\033[1mREQUIRED VALUES NOT IN ACTUAL VALUES\033[0m) :"
        ...

        # Iterasi (untuk mendapatkan nama kolom dan value) pada dictionary yang menyimpan data required value yang tidak ada di dalam actual value
        ...
            ...
                ...

                ...
                    ...
            ...
                ...
    # Jika tidak terdapat required value yang tidak ada di dalam actual value
    ...
        # Print : "=> All Required Values In Actual Values ? TRUE"
        ...

    # Cek apakah terdapat actual value yang tidak ada di dalam required value
    # Jika iya
    ...
        # Print "=> All Actual Values In Required Values ? FALSE"
        ...
        # Print "\t- There are some inconsistent or missmatch Data (Actual Values NOT IN Required Values) : "
        ...

        # Iterasi (untuk mendapatkan nama kolom dan value) pada dictionary yang menyimpan data actual value yang tidak ada di dalam required value
        ...

            ...
                ...
    # Jika tidak terdapat actual value yang tidak ada di dalam required value
    ...
        # Print "=> All Actual Values In Required Values ? TRUE"
        ...
    # Menampilkan garis pemisah
    print("-"*100)

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
#---------------------------------------------------------------------------------------------------
# Fungsi untuk melakukan validasi data
def data_validation(data):
    display(data.head())
    print("\033[1m>>>>> STEP 1 : CHECK DATA SHAPE \033[0m")
    
    # Mendapatkan jumlah baris dan kolom pada data aktual
    num_rows = data.shape[0]
    num_columns = data.shape[1]
    
    # Menampilkan jumlah baris dan kolom
    print(f"=> Number of rows : {num_rows}")
    print(f"=> Number of columns : {num_columns}")
    print("\n\n")
    
    # Menampilkan garis pemisah
    print("-"*100)
    
    #---------------------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 2 : CHECK COLUMNS \033[0m")
    
    # Mendapatkan list kolom requirements
    required_columns = set(columns_requirements().keys())
    
    # Mendapatkan list kolom pada data aktual
    actual_columns = set(data.columns)

    # Memeriksa apakah kolom aktual sesuai dengan requirements.
    # Jika sesuai
    if actual_columns == required_columns:
        # Print "=> Columns match with requirements."
        print("=> Columns match with requirements.")
        
    # Jika tidak sesuai
    else:
        # Print "=> Actual Column you should delete :"
        print("=> Actual Column you should delete :")
        
        # Iterasi pada list kolom data aktual untuk menampilkan kolom aktual yang seharusnya dihapus
        for column in actual_columns:
            if column not in required_columns:
                print(f"\t- {column}")
        
        # Print "=> Columns must exist in your data :"    
        print("\n=> Columns must exist in your data :")
        
        # Iterasi ada list kolom requirements untuk menampilkan kolom yang seharusnya ada dalam data aktual
        for column in required_columns:
            if column not in actual_columns:
                print(f"\t- {column}")
    
    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)     
    
    #---------------------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 3 : CHECK DATA TYPES \033[0m")
             
    # Mendapatkan kolom dan tipe data yang diperlukan untuk setiap kolom
    required_columns = columns_requirements()
    
    # Mendapatkan list kolom pada data aktual
    actual_columns = list(data.columns)

    # Buat list kosong untuk menyimpan kolom yang tipe datanya tidak sesuai dengan rquirements
    columns_not_match = []

    # Lakukan iterasi untuk mendapatkan setiap kolom dan tipe data yang diperlukan untuk setiap kolom
    for column, expected_type in required_columns.items():
        # Cek apakah kolom requirements ada di dalam data aktual.
        # Jika iya
        if column in actual_columns:
            # Dapatkan tipe data aktual pada kolom tersebut
            actual_type = data[column].dtype
                
            # Cek apakah tipe data aktual TIDAK sama dengan requirements
            if actual_type != expected_type:
                # Jika tidak sesuai, tambahkan ke dalam list kosong yang telah dibuat sebelumnya
                columns_not_match.append(column)
        
        # Jika kolom requirements TIDAK ada di dalam data aktual.
        else:
            # Print "...Skip check column '{nama_kolom}' because this column doesn't exist in your data."
            print(f"...Skip check column '{column}' because this column doesn't exist in your data.")

    # Cek jika ada kolom yang tipe datanya tidak match dengan requirements
    if columns_not_match:
        # Print "=> There are some columns that don't match :"
        print("=> There are some columns that don't match :")
        
        # Print "\t- Column type doesn't match the requirements :"
        print("\t- Column type doesn't match the requirements :")

        # Lakukan iterasi (untuk mendapatkan nama kolom) pada list kolom yang tipe datanya tidak match
        for column in columns_not_match:
            
            # Print : "{nama_kolom} must be {required_types}"
            print(f"\t\t- {column} must be {required_columns[column]}")

    # Jika semua kolom tipe datanya match dengan requirements
    else:
        # Print "=> All checked columns type are match with requirements."
        print("=> All checked columns type are match with requirements.")
        
    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)
    
    #---------------------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 4 : CHECK MISSING VALUES \033[0m")
    
    # Mendapatkan list kolom aktual
    actual_columns = list(data.columns)
    # Membuat dictionary kosong untuk menyimpan informasi nama kolom dan persentase nilai missing valuenya
    missing_values_dict = {}

    # Iterasi pada list kolom aktual
    for column in actual_columns:
        # Hitung persentase missing value pada kolom tersebut
        missing_values_pctg = (data[column].isna().sum() / len(data)) * 100
        
        # Cek jika persentase missing value pada kolom lebih dari 0 atau ada missing value
        if missing_values_pctg > 0 :
            # Tambahkan nama kolom sebagai key dan persentase missing value sebagai values pada dictionary yang telah dibuat
            missing_values_dict[column] = round(missing_values_pctg, 2)

    # Cek pada dictionary yang menampung nama kolom dan persentase missing valuenya.
    # Jika ada
    if missing_values_dict:
        # Print "=> There are some missing values :"
        print("=> There are some missing values :")
        
        # Iterasi pada dictionary tersebut untuk mendapatkan nama kolom dan persentase missing valuenya
        for column_name, missing_values_pctg in missing_values_dict.items():
            # Print "\t- {column_name} : {missing_values_pctg}%
            print(f"\t- {column_name} : {missing_values_pctg}%")
    
    # Jika tidak ada data missing value
    else:
        # Print "=> There is no missing values"
        print("=> There is no missing values")
    
    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)
    
    #---------------------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 5 : CHECK DUPLICATES DATA \033[0m")
    # Menghitung jumlah data yang duplikat
    num_duplicates_data = data.duplicated(keep = False).sum()

    # Cek apakah terdapat data yang duplikat
    if num_duplicates_data:
        # Print "=> Threre are {num_duplicates_data} duplicates data."
        print(f"=> Threre are {num_duplicates_data} duplicates data.")
    
    # Jika tidak terdapat data yang duplikat
    else:
        # Print "=> There is no duplicates data."
        print("=> There is no duplicates data.")
        
    print("\n\n")
    # Menampilkan garis pemisah
    print("-"*100)
    
    #---------------------------------------------------------------------------------------------------
    print("\033[1m>>>>> STEP 6 : CHECK INCONSISTENT & MISSMATCH DATA \033[0m")
    # Mendapatkan data required values
    requirements = values_requirements()
    # Membuat dictionary untuk menyimpan required value yang tidak ada di dalam actual value
    missmatch_values_dict_1 = {}
    # Membuat dictionary untuk menyimpan actual value yang tidak ada di dalam required value
    missmatch_values_dict_2 = {}

    # Iterasi pada data required values untuk mendapatkan nama kolom dan required valuesnya
    for column, required_values in requirements.items():
        # Mendapatkan list actual value pada kolom tersebut
        actual_values = list(data[f"{column}"].unique())
        # Buat list kosong untuk menyimpan required value yang tidak ada di dalam actual value
        missmatch_values_1 = []
        # Buat list kosong untuk menyimpan actual value yang tidak ada di dalam required value
        missmatch_values_2 = []
        
        # Iterasi setiap value pada required values
        for values in required_values:
            # Cek apakah value tersebut ada di actual values?
            # Jika iya
            if values not in actual_values:
                # Tambahkan value tersebut pada list yang telah dibuat sebelumnya
                missmatch_values_1.append(values)
        
        # Tambahkan nama kolom dan list value yang telah didapatkan kedalam dictionary yang telah dibuat.
        missmatch_values_dict_1[column] = missmatch_values_1
        
        # Iterasi seiap value pada actual value
        for values in actual_values:
            # Cek apakah value tersebut ada di required values?
            if values not in required_values:
                # Tambahkan value tersebut pada list yang telah dibuat sebelumnya
                missmatch_values_2.append(values)
                
        # Tambahkan nama kolom dan list value yang telah didapatkan kedalam dictionary yang telah dibuat.
        missmatch_values_dict_2[column] = missmatch_values_2

    # Hitung jumlah data required value yang tidak ada di dalam actual value
    len_missmatch_1 = 0
    for column, values in missmatch_values_dict_1.items():
        len_missmatch_1 = len_missmatch_1 + len(values)
    
    # Hitung jumlah data actual value yang tidak ada di dalam required value
    len_missmatch_2 = 0
    for column, values in missmatch_values_dict_2.items():
        len_missmatch_2 = len_missmatch_2 + len(values)
        
    # Cek apakah terdapat required value yang tidak ada di dalam actual value
    # Jika iya
    if len_missmatch_1:
        # Print : "=> All Required Values In Actual Values ? FALSE"
        print("=> All Required Values In Actual Values ? FALSE")
        # Print : "\t- There are some inconsistent or missmatch Data (\033[1mREQUIRED VALUES NOT IN ACTUAL VALUES\033[0m) :"
        print("\t- There are some inconsistent or missmatch Data (\033[1mREQUIRED VALUES NOT IN ACTUAL VALUES\033[0m) :")
        
        # Iterasi (untuk mendapatkan nama kolom dan value) pada dictionary yang menyimpan data required value yang tidak ada di dalam actual value
        for column, values in missmatch_values_dict_1.items():
            if len(values) > 0:
                print(f"\t\t- {column} : ")
                
                for value in values:
                    print(f"\t\t\t- {value}")
            else:
                pass
    # Jika tidak terdapat required value yang tidak ada di dalam actual value
    else:
        # Print : "=> All Required Values In Actual Values ? TRUE"
        print("=> All Required Values In Actual Values ? TRUE")
        
    # Cek apakah terdapat actual value yang tidak ada di dalam required value
    # Jika iya   
    if len_missmatch_2:
        # Print "=> All Actual Values In Required Values ? FALSE"
        print("=> All Actual Values In Required Values ? FALSE")
        # Print "\t- There are some inconsistent or missmatch Data (Actual Values NOT IN Required Values) : "
        print("\t- There are some inconsistent or missmatch Data (Actual Values NOT IN Required Values) : ")
        
        # Iterasi (untuk mendapatkan nama kolom dan value) pada dictionary yang menyimpan data actual value yang tidak ada di dalam required value
        for column, values in missmatch_values_dict_2.items():
            if len(values) > 0:
                print(f"\t\t- {column} : ")
                
                for value in values:
                    print(f"\t\t\t- {value}")
            else:
                pass
    # Jika tidak terdapat actual value yang tidak ada di dalam required value   
    else:
        # Print "=> All Actual Values In Required Values ? TRUE"
        print("=> All Actual Values In Required Values ? TRUE")
    # Menampilkan garis pemisah
    print("-"*100)
```

</details>

---

In [None]:
# Lakukan validasi kembali
...

Unnamed: 0,CLIENTNUM,Attrition_Flag,Customer_Age,Gender,Dependent_count,Education_Level,Marital_Status,Income_Category,Card_Category,Months_on_book,...,Months_Inactive_12_mon,Contacts_Count_12_mon,Credit_Limit,Total_Revolving_Bal,Avg_Open_To_Buy,Total_Amt_Chng_Q4_Q1,Total_Trans_Amt,Total_Trans_Ct,Total_Ct_Chng_Q4_Q1,Avg_Utilization_Ratio
0,768805383.0,Existing Customer,45,M,3,High School,Married,$60K - $80K,Blue,39,...,1,3,12691.0,777,11914.0,1.335,1144,42,1.625,0.061
1,818770008.0,Existing Customer,49,F,5,Graduate,Single,Less than $40K,Blue,44,...,1,2,8256.0,864,7392.0,1.541,1291,33,3.714,0.105
2,713982108.0,Existing Customer,51,M,3,Graduate,Married,$80K - $120K,Blue,36,...,1,0,3418.0,0,3418.0,2.594,1887,20,2.333,0.0
3,769911858.0,Existing Customer,40,F,4,High School,Unknown,Less than $40K,Blue,34,...,4,1,3313.0,2517,796.0,1.405,1171,20,2.333,0.76
4,709106358.0,Existing Customer,40,M,3,Uneducated,Married,$60K - $80K,Blue,21,...,1,0,4716.0,0,4716.0,2.175,816,28,2.5,0.0


[1m>>>>> STEP 1 : CHECK DATA SHAPE [0m
=> Number of rows : 9776
=> Number of columns : 21



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 2 : CHECK COLUMNS [0m
=> Actual Column you should delete :
	- Income_Category

=> Columns must exist in your data :
	- Income_Category_Max
	- Income_Category_Min



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 3 : CHECK DATA TYPES [0m
...Skip check column 'Income_Category_Min' because this column doesn't exist in your data.
...Skip check column 'Income_Category_Max' because this column doesn't exist in your data.
=> There are some columns that don't match :
	- Column type doesn't match the requirements :
		- CLIENTNUM must be <class 'int'>



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 4 : CHECK MISSING VALUES [0m
=> There are some mis

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
#---------------------------------------------------------------------------------------------------
# Lakukan validasi kembali
data_validation(bank_churners)
```

</details>

---

## 3

- Setelah dilakukan data validations, dapat diketahui :
    - Pada `Check Columns`
        - Kolom yang **perlu dihapus** adalah `Income_Category`
        - Kolom yang **perlu ada di data** adalah :
            - `Income_Category_Min`
            - `Income_Category_Max`
        - *Solution :*
            - ***Ekstrak data*** *pada kolom `Income_Category` untuk menghasilkan data pada kolom `Income_Category_Min` dan `Income_Category_Max`.*
            - *Contoh 1 :*
                - *`Income_Category` : $60K - $80K*
                - *Maka :*
                    - *`Income_Category_Min` : 60000*
                    - *`Income_Category_Max` : 80000*
            - *Contoh 2 :*
                - *`Income_Category` : Less than $40K*
                - *Maka :*
                    - *`Income_Category_Min` : 0*
                    - *`Income_Category_Max` : 40000*

### 3a

- **Buat fungsi** untuk melakukan ekstraksi data pada kolom `Income_Category`.
- Ekstrak angka dengan menggunakan regular experession (RegEx)

In [None]:
import re

# Fungsi untuk ekstraksi data
def extract_income_category(row):
    # Menggunakan regular expression untuk mengekstrak angka
    ...

    # Jika ditemukan dua angka, pertama adalah min dan kedua adalah max
    ...
        ...

    # Jika hanya satu angka, pertama adalah None dan kedua adalah max
    ...
        ...

    # Jika tidak ada angka, min dan max dianggap None
    ...
        ...

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
#---------------------------------------------------------------------------------------------------
import re

# Fungsi untuk ekstraksi data
def extract_income_category(row):
    # Menggunakan regular expression untuk mengekstrak angka
    match = re.findall(r'\d+', str(row['Income_Category']))
    
    # Jika ditemukan dua angka, pertama adalah min dan kedua adalah max
    if len(match) == 2:
        return int(match[0]), int(match[1])
    
    # Jika hanya satu angka, pertama adalah None dan kedua adalah max
    elif len(match) == 1:
        return 0, int(match[0])
    
    # Jika tidak ada angka, min dan max dianggap None
    else:
        return None, None
```

</details>

---

### 3b

- **Menerapkan fungsi** yang telah dibuat sebelumnya untuk **membuat kolom baru :**
    - `Income_Category_Min`
    - `Income_Category_Max`
- *Notes :*
    - *Gunakan fungsi `.apply()`*

In [None]:
# Menerapkan fungsi pada DataFrame untuk membuat kolom baru
...

# Tampilkan 5 data teratas
...

Unnamed: 0,CLIENTNUM,Attrition_Flag,Customer_Age,Gender,Dependent_count,Education_Level,Marital_Status,Income_Category,Card_Category,Months_on_book,...,Credit_Limit,Total_Revolving_Bal,Avg_Open_To_Buy,Total_Amt_Chng_Q4_Q1,Total_Trans_Amt,Total_Trans_Ct,Total_Ct_Chng_Q4_Q1,Avg_Utilization_Ratio,Income_Category_Min,Income_Category_Max
0,768805383.0,Existing Customer,45,M,3,High School,Married,$60K - $80K,Blue,39,...,12691.0,777,11914.0,1.335,1144,42,1.625,0.061,60.0,80.0
1,818770008.0,Existing Customer,49,F,5,Graduate,Single,Less than $40K,Blue,44,...,8256.0,864,7392.0,1.541,1291,33,3.714,0.105,0.0,40.0
2,713982108.0,Existing Customer,51,M,3,Graduate,Married,$80K - $120K,Blue,36,...,3418.0,0,3418.0,2.594,1887,20,2.333,0.0,80.0,120.0
3,769911858.0,Existing Customer,40,F,4,High School,Unknown,Less than $40K,Blue,34,...,3313.0,2517,796.0,1.405,1171,20,2.333,0.76,0.0,40.0
4,709106358.0,Existing Customer,40,M,3,Uneducated,Married,$60K - $80K,Blue,21,...,4716.0,0,4716.0,2.175,816,28,2.5,0.0,60.0,80.0


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
#---------------------------------------------------------------------------------------------------
# Menerapkan fungsi pada DataFrame untuk membuat kolom baru
bank_churners[['Income_Category_Min', 'Income_Category_Max']] = bank_churners.apply(extract_income_category, axis=1, result_type='expand')

# Tampilkan 5 data teratas
bank_churners.head()
```

</details>

---

### 3c

- **Drop Kolom `Income_Category`**.

In [None]:
# Hapus kolom 'Income Category'
...

# Tampilkan 5 data terats
...

Unnamed: 0,CLIENTNUM,Attrition_Flag,Customer_Age,Gender,Dependent_count,Education_Level,Marital_Status,Card_Category,Months_on_book,Total_Relationship_Count,...,Credit_Limit,Total_Revolving_Bal,Avg_Open_To_Buy,Total_Amt_Chng_Q4_Q1,Total_Trans_Amt,Total_Trans_Ct,Total_Ct_Chng_Q4_Q1,Avg_Utilization_Ratio,Income_Category_Min,Income_Category_Max
0,768805383.0,Existing Customer,45,M,3,High School,Married,Blue,39,5,...,12691.0,777,11914.0,1.335,1144,42,1.625,0.061,60.0,80.0
1,818770008.0,Existing Customer,49,F,5,Graduate,Single,Blue,44,6,...,8256.0,864,7392.0,1.541,1291,33,3.714,0.105,0.0,40.0
2,713982108.0,Existing Customer,51,M,3,Graduate,Married,Blue,36,4,...,3418.0,0,3418.0,2.594,1887,20,2.333,0.0,80.0,120.0
3,769911858.0,Existing Customer,40,F,4,High School,Unknown,Blue,34,3,...,3313.0,2517,796.0,1.405,1171,20,2.333,0.76,0.0,40.0
4,709106358.0,Existing Customer,40,M,3,Uneducated,Married,Blue,21,5,...,4716.0,0,4716.0,2.175,816,28,2.5,0.0,60.0,80.0


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Hapus kolom 'Income Category'
bank_churners.drop(columns = 'Income_Category', inplace = True)

# Tampilkan 5 data terats
bank_churners.head()
```

</details>

---

In [None]:
# Lakukan validasi data
data_validation(bank_churners)

Unnamed: 0,CLIENTNUM,Attrition_Flag,Customer_Age,Gender,Dependent_count,Education_Level,Marital_Status,Card_Category,Months_on_book,Total_Relationship_Count,...,Credit_Limit,Total_Revolving_Bal,Avg_Open_To_Buy,Total_Amt_Chng_Q4_Q1,Total_Trans_Amt,Total_Trans_Ct,Total_Ct_Chng_Q4_Q1,Avg_Utilization_Ratio,Income_Category_Min,Income_Category_Max
0,768805383.0,Existing Customer,45,M,3,High School,Married,Blue,39,5,...,12691.0,777,11914.0,1.335,1144,42,1.625,0.061,60.0,80.0
1,818770008.0,Existing Customer,49,F,5,Graduate,Single,Blue,44,6,...,8256.0,864,7392.0,1.541,1291,33,3.714,0.105,0.0,40.0
2,713982108.0,Existing Customer,51,M,3,Graduate,Married,Blue,36,4,...,3418.0,0,3418.0,2.594,1887,20,2.333,0.0,80.0,120.0
3,769911858.0,Existing Customer,40,F,4,High School,Unknown,Blue,34,3,...,3313.0,2517,796.0,1.405,1171,20,2.333,0.76,0.0,40.0
4,709106358.0,Existing Customer,40,M,3,Uneducated,Married,Blue,21,5,...,4716.0,0,4716.0,2.175,816,28,2.5,0.0,60.0,80.0


[1m>>>>> STEP 1 : CHECK DATA SHAPE [0m
=> Number of rows : 9776
=> Number of columns : 22



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 2 : CHECK COLUMNS [0m
=> Columns match with requirements.



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 3 : CHECK DATA TYPES [0m
=> There are some columns that don't match :
	- Column type doesn't match the requirements :
		- CLIENTNUM must be <class 'int'>
		- Income_Category_Min must be <class 'int'>
		- Income_Category_Max must be <class 'int'>



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 4 : CHECK MISSING VALUES [0m
=> There are some missing values :
	- CLIENTNUM : 1.97%
	- Education_Level : 1.11%
	- Income_Category_Min : 12.25%
	- Income_Category_Max : 12.25%



-----------------------------------------------------------------

## 4

### 4a

- Dari hasil data validation **masih terdapat beberapa missing values pada kolom :**
    - `CLIENTNUM`
    - `Education_Level`
    - `Income_Category_Min`
    - `Income_Category_Max`
- **Drop missing_values** tersebut.

In [None]:
# Dropping missing values
...

# Lakukan validasi data
...

Unnamed: 0,CLIENTNUM,Attrition_Flag,Customer_Age,Gender,Dependent_count,Education_Level,Marital_Status,Card_Category,Months_on_book,Total_Relationship_Count,...,Credit_Limit,Total_Revolving_Bal,Avg_Open_To_Buy,Total_Amt_Chng_Q4_Q1,Total_Trans_Amt,Total_Trans_Ct,Total_Ct_Chng_Q4_Q1,Avg_Utilization_Ratio,Income_Category_Min,Income_Category_Max
0,768805383.0,Existing Customer,45,M,3,High School,Married,Blue,39,5,...,12691.0,777,11914.0,1.335,1144,42,1.625,0.061,60.0,80.0
1,818770008.0,Existing Customer,49,F,5,Graduate,Single,Blue,44,6,...,8256.0,864,7392.0,1.541,1291,33,3.714,0.105,0.0,40.0
2,713982108.0,Existing Customer,51,M,3,Graduate,Married,Blue,36,4,...,3418.0,0,3418.0,2.594,1887,20,2.333,0.0,80.0,120.0
3,769911858.0,Existing Customer,40,F,4,High School,Unknown,Blue,34,3,...,3313.0,2517,796.0,1.405,1171,20,2.333,0.76,0.0,40.0
4,709106358.0,Existing Customer,40,M,3,Uneducated,Married,Blue,21,5,...,4716.0,0,4716.0,2.175,816,28,2.5,0.0,60.0,80.0


[1m>>>>> STEP 1 : CHECK DATA SHAPE [0m
=> Number of rows : 8317
=> Number of columns : 22



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 2 : CHECK COLUMNS [0m
=> Columns match with requirements.



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 3 : CHECK DATA TYPES [0m
=> There are some columns that don't match :
	- Column type doesn't match the requirements :
		- CLIENTNUM must be <class 'int'>
		- Income_Category_Min must be <class 'int'>
		- Income_Category_Max must be <class 'int'>



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 4 : CHECK MISSING VALUES [0m
=> There is no missing values



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 5 : CHECK DUPLICATES DATA [0m
=> Threre are 607 duplicates data.


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Dropping missing values
bank_churners.dropna(inplace = True)

# Lakukan validasi data
data_validation(bank_churners)
```

</details>

---

### 4b

- Dari hasil validasi data,** masih terdapat beberapa data yang duplikat.**
- **Drop data yang duplikat** tersebut (dengan **mempertahankan record data yang pertama**).

In [None]:
# Drop data duplikat tersebut
...

# Lakukan validasi data
...

Unnamed: 0,CLIENTNUM,Attrition_Flag,Customer_Age,Gender,Dependent_count,Education_Level,Marital_Status,Card_Category,Months_on_book,Total_Relationship_Count,...,Credit_Limit,Total_Revolving_Bal,Avg_Open_To_Buy,Total_Amt_Chng_Q4_Q1,Total_Trans_Amt,Total_Trans_Ct,Total_Ct_Chng_Q4_Q1,Avg_Utilization_Ratio,Income_Category_Min,Income_Category_Max
0,768805383.0,Existing Customer,45,M,3,High School,Married,Blue,39,5,...,12691.0,777,11914.0,1.335,1144,42,1.625,0.061,60.0,80.0
1,818770008.0,Existing Customer,49,F,5,Graduate,Single,Blue,44,6,...,8256.0,864,7392.0,1.541,1291,33,3.714,0.105,0.0,40.0
2,713982108.0,Existing Customer,51,M,3,Graduate,Married,Blue,36,4,...,3418.0,0,3418.0,2.594,1887,20,2.333,0.0,80.0,120.0
3,769911858.0,Existing Customer,40,F,4,High School,Unknown,Blue,34,3,...,3313.0,2517,796.0,1.405,1171,20,2.333,0.76,0.0,40.0
4,709106358.0,Existing Customer,40,M,3,Uneducated,Married,Blue,21,5,...,4716.0,0,4716.0,2.175,816,28,2.5,0.0,60.0,80.0


[1m>>>>> STEP 1 : CHECK DATA SHAPE [0m
=> Number of rows : 8012
=> Number of columns : 22



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 2 : CHECK COLUMNS [0m
=> Columns match with requirements.



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 3 : CHECK DATA TYPES [0m
=> There are some columns that don't match :
	- Column type doesn't match the requirements :
		- CLIENTNUM must be <class 'int'>
		- Income_Category_Min must be <class 'int'>
		- Income_Category_Max must be <class 'int'>



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 4 : CHECK MISSING VALUES [0m
=> There is no missing values



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 5 : CHECK DUPLICATES DATA [0m
=> There is no duplicates data.





<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Drop data duplikat tersebut
bank_churners.drop_duplicates(keep = 'first', inplace = True)

# Lakukan validasi data
data_validation(bank_churners)
```

</details>

---

### 4c

- Dari hasil validasi data, **masih terdapat beberapa kolom yang tipe datanya tidak sesuai dengan requirements, yaitu :**
    - `CLIENTNUM`
    - `Income_Category_Min`
    - `Income_Category_Max`
- **Lakukan casting data types untuk merubah tipe data pada kolom tersebut agar sesuai dengan requirements.**

In [None]:
# Convert 'CLIENTNUM' to integer
...

# Convert 'Income_Category_Min' to integer
...

# Convert 'Income_Category_Max' to integer
...

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Convert 'CLIENTNUM' to integer
bank_churners['CLIENTNUM'] = bank_churners['CLIENTNUM'].astype(int)

# Convert 'Income_Category_Min' to integer
bank_churners['Income_Category_Min'] = bank_churners['Income_Category_Min'].astype(int)

# Convert 'Income_Category_Max' to integer
bank_churners['Income_Category_Max'] = bank_churners['Income_Category_Max'].astype(int)
```

</details>

---

In [None]:
# Lakukan validasi data
data_validation(bank_churners)

Unnamed: 0,CLIENTNUM,Attrition_Flag,Customer_Age,Gender,Dependent_count,Education_Level,Marital_Status,Card_Category,Months_on_book,Total_Relationship_Count,...,Credit_Limit,Total_Revolving_Bal,Avg_Open_To_Buy,Total_Amt_Chng_Q4_Q1,Total_Trans_Amt,Total_Trans_Ct,Total_Ct_Chng_Q4_Q1,Avg_Utilization_Ratio,Income_Category_Min,Income_Category_Max
0,768805383,Existing Customer,45,M,3,High School,Married,Blue,39,5,...,12691.0,777,11914.0,1.335,1144,42,1.625,0.061,60,80
1,818770008,Existing Customer,49,F,5,Graduate,Single,Blue,44,6,...,8256.0,864,7392.0,1.541,1291,33,3.714,0.105,0,40
2,713982108,Existing Customer,51,M,3,Graduate,Married,Blue,36,4,...,3418.0,0,3418.0,2.594,1887,20,2.333,0.0,80,120
3,769911858,Existing Customer,40,F,4,High School,Unknown,Blue,34,3,...,3313.0,2517,796.0,1.405,1171,20,2.333,0.76,0,40
4,709106358,Existing Customer,40,M,3,Uneducated,Married,Blue,21,5,...,4716.0,0,4716.0,2.175,816,28,2.5,0.0,60,80


[1m>>>>> STEP 1 : CHECK DATA SHAPE [0m
=> Number of rows : 8012
=> Number of columns : 22



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 2 : CHECK COLUMNS [0m
=> Columns match with requirements.



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 3 : CHECK DATA TYPES [0m
=> All checked columns type are match with requirements.



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 4 : CHECK MISSING VALUES [0m
=> There is no missing values



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 5 : CHECK DUPLICATES DATA [0m
=> There is no duplicates data.



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 6 : CHECK INCONSISTENT & MISSMATCH DATA [0m
=> 

### 4d

- Dari hasil validasi data, **masih terdapat beberapa data yang tidak konsisten.**
- **Lakukan mapping untuk memperbaiki data** pada kolom `Attrition_Flag`, `Gender`, dan `Education_Level`.
- **Hapus baris dengan `Marital_Status` = 'Unknown'** karena tidak terdapat required values.

- Membuat mapping values

In [None]:
# Membuat mapping values
...

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Membuat mapping values
map_values = {
    'Attrition_Flag' : {
        "Existing_Customer" : "Existing Customer",
        "Attrited_Customer" : "Attrited Customer"
    },
    
    'Gender' : {
        "Male" : "M",
        "Female" : "F"
    },
    
    'Education_Level': {
        "High-School" : "High School"
    }
}
```

</details>

---

- Mengganti data yang tidak konsisten

In [None]:
# Iterasi pada mapping valus untuk mengambil nama kolom
...
    # Melakukan perubahan data berdasarkan variable mapping values yang telah dibuat
    ...

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Iterasi pada mapping valus untuk mengambil nama kolom
for column in list(map_values.keys()):
    # Melakukan perubahan data berdasarkan variable mapping values yang telah dibuat
    bank_churners[column] = bank_churners[column].replace(map_values[column])
```

</details>

---

In [None]:
# Drop baris dengan data 'Unknown' pada kolom 'Marital_Status'
...

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Drop baris dengan data 'Unknown' pada kolom 'Marital_Status'
bank_churners = bank_churners[bank_churners['Marital_Status'] != 'Unknown']
```

</details>

---

In [None]:
# Lakukan validasi data
...

Unnamed: 0,CLIENTNUM,Attrition_Flag,Customer_Age,Gender,Dependent_count,Education_Level,Marital_Status,Card_Category,Months_on_book,Total_Relationship_Count,...,Credit_Limit,Total_Revolving_Bal,Avg_Open_To_Buy,Total_Amt_Chng_Q4_Q1,Total_Trans_Amt,Total_Trans_Ct,Total_Ct_Chng_Q4_Q1,Avg_Utilization_Ratio,Income_Category_Min,Income_Category_Max
0,768805383,Existing Customer,45,M,3,High School,Married,Blue,39,5,...,12691.0,777,11914.0,1.335,1144,42,1.625,0.061,60,80
1,818770008,Existing Customer,49,F,5,Graduate,Single,Blue,44,6,...,8256.0,864,7392.0,1.541,1291,33,3.714,0.105,0,40
2,713982108,Existing Customer,51,M,3,Graduate,Married,Blue,36,4,...,3418.0,0,3418.0,2.594,1887,20,2.333,0.0,80,120
4,709106358,Existing Customer,40,M,3,Uneducated,Married,Blue,21,5,...,4716.0,0,4716.0,2.175,816,28,2.5,0.0,60,80
5,713061558,Existing Customer,44,M,2,Graduate,Married,Blue,36,3,...,4010.0,1247,2763.0,1.376,1088,24,0.846,0.311,40,60


[1m>>>>> STEP 1 : CHECK DATA SHAPE [0m
=> Number of rows : 7412
=> Number of columns : 22



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 2 : CHECK COLUMNS [0m
=> Columns match with requirements.



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 3 : CHECK DATA TYPES [0m
=> All checked columns type are match with requirements.



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 4 : CHECK MISSING VALUES [0m
=> There is no missing values



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 5 : CHECK DUPLICATES DATA [0m
=> There is no duplicates data.



----------------------------------------------------------------------------------------------------
[1m>>>>> STEP 6 : CHECK INCONSISTENT & MISSMATCH DATA [0m
=> 

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
data_validation(bank_churners)
```

</details>

---

## 5

- Pada tahap sebelumnya (data validations), dapat dilihat bahwa **semua telah memenuhi requirements.**
- Selanjutnya **terdapat beberapa requirement tambahan :**
    - Merubah **semua nama kolom menjadi lowercase.**
    - **Save final output ke dalam database.**

### 5a

- Merubah semua nama kolom menjadi lowercase

In [None]:
# Mengubah semua nama kolom menjadi lowercase
...

# Tampilkan 5 data teratas
...

Unnamed: 0,clientnum,attrition_flag,customer_age,gender,dependent_count,education_level,marital_status,card_category,months_on_book,total_relationship_count,...,credit_limit,total_revolving_bal,avg_open_to_buy,total_amt_chng_q4_q1,total_trans_amt,total_trans_ct,total_ct_chng_q4_q1,avg_utilization_ratio,income_category_min,income_category_max
0,768805383,Existing Customer,45,M,3,High School,Married,Blue,39,5,...,12691.0,777,11914.0,1.335,1144,42,1.625,0.061,60,80
1,818770008,Existing Customer,49,F,5,Graduate,Single,Blue,44,6,...,8256.0,864,7392.0,1.541,1291,33,3.714,0.105,0,40
2,713982108,Existing Customer,51,M,3,Graduate,Married,Blue,36,4,...,3418.0,0,3418.0,2.594,1887,20,2.333,0.0,80,120
4,709106358,Existing Customer,40,M,3,Uneducated,Married,Blue,21,5,...,4716.0,0,4716.0,2.175,816,28,2.5,0.0,60,80
5,713061558,Existing Customer,44,M,2,Graduate,Married,Blue,36,3,...,4010.0,1247,2763.0,1.376,1088,24,0.846,0.311,40,60


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Mengubah semua nama kolom menjadi lowercase
bank_churners.columns = bank_churners.columns.str.lower()

# Tampilkan 5 data teratas
bank_churners.head()
```

</details>

---

### 5b

- Buatlah table PostgreSQL baru dengan nama `bankchurners` dengan schema berikut

```sql
CREATE TABLE public.bankchurners(
    clientnum INT NULL,
    attrition_flag VARCHAR(255) NULL,
    customer_age INT NULL,
    gender VARCHAR(255) NULL,
    dependent_count INT NULL,
    education_level VARCHAR(255) NULL,
    marital_status VARCHAR(255) NULL,
    card_category VARCHAR(255) NULL,
    months_on_book INT NULL,
    total_relationship_count INT NULL,
    months_inactive_12_mon INT NULL,
    contacts_count_12_mon INT NULL,
    credit_limit DOUBLE PRECISION NULL,
    total_revolving_bal INT NULL,
    avg_open_to_buy DOUBLE PRECISION NULL,
    total_amt_chng_q4_q1 DOUBLE PRECISION NULL,
    total_trans_amt INT NULL,
    total_trans_ct INT NULL,
    total_ct_chng_q4_q1 DOUBLE PRECISION NULL,
    avg_utilization_ratio DOUBLE PRECISION NULL,
    income_category_min INT NULL,
    income_category_max INT NULL
);
```

- Buatlah koneksi untuk menyambungkan database dengan pandas

In [None]:
from sqlalchemy import create_engine

In [None]:
# Membuat koneksi ke postgres
...

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Membuat koneksi ke postgres
conn = create_engine("postgresql://postgres:qwerty123@localhost/data-wrangling")
```

</details>

---

- Insert dataframe ke database

In [None]:
# Insert data ke tabel bankchurners
...

412

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Insert data ke tabel bankchurners
bank_churners.to_sql('bankchurners', conn,
          if_exists = 'append',
          index=False)
```

</details>

---

In [None]:
# Buat query untuk select semua data pada tabel bankchurners
...

# Mendapatkan data pada tabel bankchurners menjadi dataframe
...

# Menampilkan data
...


Unnamed: 0,clientnum,attrition_flag,customer_age,gender,dependent_count,education_level,marital_status,card_category,months_on_book,total_relationship_count,...,credit_limit,total_revolving_bal,avg_open_to_buy,total_amt_chng_q4_q1,total_trans_amt,total_trans_ct,total_ct_chng_q4_q1,avg_utilization_ratio,income_category_min,income_category_max
0,768805383,Existing Customer,45,M,3,High School,Married,Blue,39,5,...,12691.0,777,11914.0,1.335,1144,42,1.625,0.061,60,80
1,818770008,Existing Customer,49,F,5,Graduate,Single,Blue,44,6,...,8256.0,864,7392.0,1.541,1291,33,3.714,0.105,0,40
2,713982108,Existing Customer,51,M,3,Graduate,Married,Blue,36,4,...,3418.0,0,3418.0,2.594,1887,20,2.333,0.000,80,120
3,709106358,Existing Customer,40,M,3,Uneducated,Married,Blue,21,5,...,4716.0,0,4716.0,2.175,816,28,2.500,0.000,60,80
4,713061558,Existing Customer,44,M,2,Graduate,Married,Blue,36,3,...,4010.0,1247,2763.0,1.376,1088,24,0.846,0.311,40,60
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7407,755943033,Existing Customer,34,F,2,Graduate,Single,Blue,27,4,...,1901.0,1176,725.0,0.612,2450,52,0.857,0.619,0,40
7408,710014683,Existing Customer,31,F,0,Graduate,Single,Blue,20,3,...,3480.0,724,2756.0,0.722,2807,65,0.806,0.208,0,40
7409,711605208,Attrited Customer,61,M,0,Uneducated,Married,Blue,43,3,...,1438.3,0,1438.3,0.700,1958,47,0.424,0.000,80,120
7410,708712833,Existing Customer,45,F,5,Graduate,Married,Blue,36,4,...,2289.0,1037,1252.0,0.504,4483,72,0.500,0.453,0,40


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# Buat query untuk select semua data pada tabel bankchurners
query = "SELECT * FROM bankchurners"

# Mendapatkan data pada tabel bankchurners menjadi dataframe
new_data = pd.read_sql(sql = query, con = conn)

# Menampilkan data
new_data
```

</details>

---