# Great Expectation

===========================================================================================================

Milestone 3

Name  : Farras Annisa

Batch : HCK-027

This program is designed to automate stock monitoring for a grocery store. The dataset contains inventory data of items in the grocery store.


===========================================================================================================

## i. Import Libraries

In [1]:
# import libraries
import pandas as pd
import great_expectations as gx

Library yang akan dipakai adalah Pandas, Numpy, dan Great Expectations. Berikut ini penjelasan dari masing-masing library:

- Pandas dan Numpy digunakan untuk mengolah data dan filter tabel.

- Great Expectations digunakan untuk melakukan validasi pada data.

# ii. Process

## Membuat data context, data source, dan data asset

In [2]:
# load data
df = pd.read_csv('P2M3_Farras_Annisa_data_clean.csv')

In [3]:
# create context
context = gx.get_context()

# add data source to the data context
source_name = "source-stock"
data_source = context.data_sources.add_pandas(name=source_name)

# add data asset to the data source
asset_name = "asset-stock"
data_asset = data_source.add_dataframe_asset(name=asset_name)

# add batch to the data asset
batch_definition_name = "batch-stock"
batch_definition = data_asset.add_batch_definition_whole_dataframe(
    batch_definition_name
)

# create batch parameter
batch_parameters = {"dataframe": df}

In [4]:
# retrieve dataframe batch definition
source_name = "source-stock"
asset_name = "asset-stock"
batch_definition_name = "batch-stock"
batch_definition = (
    context.data_sources.get(source_name)
    .get_asset(asset_name)
    .get_batch_definition(batch_definition_name)
)

Penjelasan:


[Data Context adalah titik masuk utama ke API Great Expectations, yang menyediakan konfigurasi, akses ke objek-objek umum, serta mendukung pengelolaan semua komponen GX dengan opsi penyimpanan yang fleksibel, ](https://docs.greatexpectations.io/docs/0.18/reference/learn/terms/data_context/)[data source menghubungkan Great Expectations dengan data, sementara data asset mewakili subset (bagian tertentu) dari data tersebut.](https://www.datacamp.com/tutorial/great-expectations-tutorial)

## Expectations

### Unique

In [5]:
# create expectation for column to be exist
expectation = gx.expectations.ExpectColumnValuesToBeUnique(
    column = "product_id"
)

# get dataframe as batch
batch = batch_definition.get_batch(batch_parameters=batch_parameters)

# test expectation
validation_results = batch.validate(expectation)
print('')
print(f"Kolom product_id dalam data: {validation_results.success}")

Calculating Metrics:   0%|          | 0/10 [00:00<?, ?it/s]


Kolom product_id dalam data: True


Berdasarkan keterangan di atas kolom 'product_id' adalah kolom dengan value yang unique, karena kolom yang berisikan 'id' berarti adalah identitas yang artinya tidak boleh ada value yang duplikat.

### Min & Max Value

In [6]:
# create expectation for column values to be in between min and max value
expectation = gx.expectations.ExpectColumnValuesToBeBetween(
    column="inventory_turnover_rate", min_value = 1, max_value = 100
)

# get dataframe as batch
batch = batch_definition.get_batch(batch_parameters=batch_parameters)

# test expectation
validation_results = batch.validate(expectation)
print('')
print(f"Value kolom inventory turnover rate antara 1 dan 100: {validation_results.success}")


Calculating Metrics:   0%|          | 0/10 [00:00<?, ?it/s]


Value kolom inventory turnover rate antara 1 dan 100: True


Berdasarkan keterangan di atas value kolom 'inventory_turnover_rate' ada diantara 1 dan 100, hal tersebut menunjukkan efisien toko dalam mengelola stok produk. Nilai rendah (mendekati 1) menunjukkan bahwa produk terjual dengan lambat dan cenderung menumpuk. Nilai tinggi (mendekati 100) menunjukkan bahwa produk terjual dengan sangat cepat dan toko sering mengisi kembali stok.

### Set

In [7]:
# create expectation for column to be in set
expectation = gx.expectations.ExpectColumnValuesToBeInSet(
    column = "status", value_set = ['Active', 'Discontinued', 'Backordered'], mostly = 1
)

# get dataframe as batch
batch = batch_definition.get_batch(batch_parameters=batch_parameters)

# test expectation
validation_results = batch.validate(expectation)
print('')
print(f"Kolom status berisikan value Active, Discontinued, Backordered : {validation_results.success}")

Calculating Metrics:   0%|          | 0/10 [00:00<?, ?it/s]


Kolom status berisikan value Active, Discontinued, Backordered : True


See https://numpy.org/devdocs/release/1.25.0-notes.html and the docs for more information.  (Deprecated NumPy 1.25)
  common = np.find_common_type([values.dtype, comps_array.dtype], [])


Berdasarkan keterangan di atas kolom 'status' hanya berisikan 3 value yaitu active (penyediaan barang secara berulang masih dilakukan), discontinued (penyediaan barang secara berulang sudah tidak dilakukan), dan backordered (produk tersebut telah dipesan oleh toko, tetapi saat ini stoknya tidak tersedia di gudang)

### Type List

In [8]:
# create expectation for column values to be in type list
expectation = gx.expectations.ExpectColumnValuesToBeInTypeList(
    column = "stock_quantity", type_list = ['int64','float']
)

# get dataframe as batch
batch = batch_definition.get_batch(batch_parameters=batch_parameters)

# test expectation
validation_results = batch.validate(expectation)
print('')
print(f"Tipe data kolom stock_quantity dapat diubah menjadi tipe data integer dan float: {validation_results.success}")

Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]


Tipe data kolom stock_quantity dapat diubah menjadi tipe data integer dan float: True


Berdasarkan keterangan di atas bahwa benar tipe data value pada kolom 'stock_quantity' dapat diubah menjadi integer dan float karena data berisi numerik.

### Jumlah Kolom

In [9]:
# create expectation for column count equal to 16
expectation = gx.expectations.ExpectTableColumnCountToEqual(
    value = 16
)

# get dataframe as batch
batch = batch_definition.get_batch(batch_parameters=batch_parameters)

# test expectation
validation_results = batch.validate(expectation)
print('')
print(f"Jumlah kolom tabel = 16: {validation_results.success}")

Calculating Metrics:   0%|          | 0/3 [00:00<?, ?it/s]


Jumlah kolom tabel = 16: True


Berdasarkan keterangan di atas bahwa benar jumlah kolom pada dataset adalah 16.

### Tidak ada Missing Value

In [10]:
# create expectation for column values to be not null
expectation = gx.expectations.ExpectColumnValuesToNotBeNull(
    column = "category"
)

# get dataframe as batch
batch = batch_definition.get_batch(batch_parameters=batch_parameters)

# test expectation
validation_results = batch.validate(expectation)
print('')
print(f"Kolom category tidak ada missing value: {validation_results.success}")

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]


Kolom category tidak ada missing value: True


Berdasarkan keterangan di atas bahwa benar tidak ada missing value pada kolom 'category' karena pada dataset asli dari https://www.kaggle.com/datasets/salahuddinahmedshuvo/grocery-inventory-and-sales-dataset terdapat missing value dari kolom 'catagory' yang sudah dilakukan cleaning pada dataset tersebut.

### Eksistensi Kolom 'product_name'

In [11]:
# create expectation for column to be exist
expectation = gx.expectations.ExpectColumnToExist(
    column = "product_name"
)

# get dataframe as batch
batch = batch_definition.get_batch(batch_parameters=batch_parameters)

# test expectation
validation_results = batch.validate(expectation)
print('')
print(f"Kolom 'product_name' ada pada data: {validation_results.success}")

Calculating Metrics:   0%|          | 0/2 [00:00<?, ?it/s]


Kolom 'product_name' ada pada data: True


Berdasarkan keterangan di atas bahwa benar kolom 'product_name' ada pada data.

### Memastikan tipe data

In [12]:
# create expectation for column values to be in type list
expectation = gx.expectations.ExpectColumnValuesToBeOfType(
    column="unit_price", type_="float"
)

# get dataframe as batch
batch = batch_definition.get_batch(batch_parameters=batch_parameters)

# test expectation
validation_results = batch.validate(expectation)
print('')
print(f"Tipe data kolom unit_price adalah float: {validation_results.success}")

Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]


Tipe data kolom unit_price adalah float: True


Berdasarkan keterangan di atas bahwa benar tipe data kolom unit_price adalah float.