In [41]:
import warnings
warnings.filterwarnings("ignore")

import pkg_resources
import importlib
importlib.reload(pkg_resources)

import tensorflow as tf
import tensorflow_data_validation as tfdv
print('TF version:', tf.__version__)
print('TFDV version:', tfdv.version.__version__)
from tensorflow_data_validation.utils.display_util import get_statistics_html

TF version: 2.6.2
TFDV version: 1.3.0


In [19]:
import pandas as pd
from sklearn.model_selection import train_test_split

In [20]:
from components.data_extraction import fetch_data
df = fetch_data()

In [21]:
df.drop(['_id', 'title', 'url', 'post_date'], axis=1, inplace=True)

In [22]:
# remove unexpected values
df = df.loc[df['external_color'] != '-']
df = df.loc[df['internal_color'] != '-']
df = df.loc[df['fuels'] != '-']
df = df.loc[df['gearbox'] != '-']
df = df.loc[df['wheel_drive'] != '']
df = df.loc[df['wheel_drive'] != '4WD hoặc AWD']

In [23]:
train_df, test_df = train_test_split(df, train_size=0.9, shuffle=True, random_state=43, stratify=df['branch'])

In [24]:
train_df, val_df = train_test_split(train_df, train_size=0.85, shuffle=True, random_state=43, stratify=train_df['branch'])

In [25]:
print("Train size: {}".format(len(train_df)))
print("Val size: {}".format(len(val_df)))
print("Test size: {}".format(len(test_df)))

Train size: 22972
Val size: 4055
Test size: 3004


In [26]:
train_df.head()

Unnamed: 0,year,price,location,branch,model,origin,km_driven,external_color,internal_color,num_seats,fuels,engine_capacity,gearbox,wheel_drive,car_type
8711,2014,2850,Hà Nội,Mercedes Benz,S class,imported,38000,Đen,Kem,5,gasoline,4.7,automatic,RWD,sedan
5260,2015,548,Bà Rịa Vũng Tàu,Ford,Everest,domestic,0,Đỏ,Nhiều màu,8,diesel,2.5,automatic,RWD,suv
30922,2015,445,Hà Nội,Kia,K3,domestic,82000,Đen,Đen,5,gasoline,2.0,automatic,FWD,sedan
7862,2016,1169,Hà Nội,Mercedes Benz,C class,domestic,66000,Đen,Kem,5,gasoline,2.0,automatic,RWD,sedan
20306,2008,278,Đồng Nai,Honda,Civic,domestic,0,Đen,Kem,5,gasoline,1.8,automatic,FWD,sedan


In [27]:
train_stats = tfdv.generate_statistics_from_dataframe(dataframe=train_df)

In [28]:
tfdv.visualize_statistics(train_stats)

In [29]:
schema = tfdv.infer_schema(statistics=train_stats)
tfdv.display_schema(schema=schema)

Unnamed: 0_level_0,Type,Presence,Valency,Domain
Feature name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
'year',INT,required,,-
'price',INT,required,,-
'location',STRING,required,,'location'
'branch',STRING,required,,'branch'
'model',BYTES,required,,-
'origin',STRING,required,,'origin'
'km_driven',INT,required,,-
'external_color',STRING,required,,'external_color'
'internal_color',STRING,required,,'internal_color'
'num_seats',INT,required,,-


Unnamed: 0_level_0,Values
Domain,Unnamed: 1_level_1
'location',"'An Giang', 'Bà Rịa Vũng Tàu', 'Bình Dương', 'Bình Phước', 'Bình Thuận', 'Bình Định', 'Bạc Liêu', 'Bắc Giang', 'Bắc Kạn', 'Bắc Ninh', 'Bến Tre', 'Cao Bằng', 'Cà Mau', 'Cần Thơ', 'Gia Lai', 'Hà Giang', 'Hà Nam', 'Hà Nội', 'Hà Tĩnh', 'Hòa Bình', 'Hưng Yên', 'Hải Dương', 'Hải Phòng', 'Hậu Giang', 'Khánh Hòa', 'Kiên Giang', 'Kon Tum', 'Lai Châu', 'Long An', 'Lào Cai', 'Lâm Đồng', 'Lạng Sơn', 'Nam Định', 'Nghệ An', 'Ninh Bình', 'Ninh Thuận', 'Phú Thọ', 'Phú Yên', 'Quảng Bình', 'Quảng Nam', 'Quảng Ngãi', 'Quảng Ninh', 'Quảng Trị', 'Sóc Trăng', 'Sơn La', 'TP HCM', 'Thanh Hóa', 'Thái Bình', 'Thái Nguyên', 'Thừa Thiên Huế', 'Tiền Giang', 'Trà Vinh', 'Tuyên Quang', 'Tây Ninh', 'Vĩnh Long', 'Vĩnh Phúc', 'Yên Bái', 'Điện Biên', 'Đà Nẵng', 'Đăk Lăk', 'Đăk Nông', 'Đồng Nai', 'Đồng Tháp'"
'branch',"'Acura', 'Audi', 'BMW', 'Chevrolet', 'Daewoo', 'Ford', 'Honda', 'Hyundai', 'Isuzu', 'Kia', 'LandRover', 'Lexus', 'MG', 'Mazda', 'Mercedes Benz', 'Mini', 'Mitsubishi', 'Nissan', 'Peugeot', 'Porsche', 'Subaru', 'Suzuki', 'Toyota', 'VinFast', 'Volkswagen', 'Volvo'"
'origin',"'domestic', 'imported'"
'external_color',"'Bạc', 'Cam', 'Cát', 'Ghi', 'Hồng', 'Kem', 'Màu khác', 'Nhiều màu', 'Nâu', 'Trắng', 'Tím', 'Vàng', 'Xanh', 'Xám', 'Đen', 'Đỏ', 'Đồng'"
'internal_color',"'Bạc', 'Cam', 'Cát', 'Ghi', 'Hồng', 'Kem', 'Màu khác', 'Nhiều màu', 'Nâu', 'Trắng', 'Tím', 'Vàng', 'Xanh', 'Xám', 'Đen', 'Đỏ', 'Đồng'"
'fuels',"'diesel', 'electric', 'gasoline', 'hybrid'"
'gearbox',"'Số hỗn hợp', 'automatic', 'manual'"
'wheel_drive',"'4WD', 'AWD', 'FWD', 'RWD'"
'car_type',"'convertible', 'coupe', 'crossover', 'hatchback', 'pickup', 'sedan', 'suv', 'truck', 'van', 'wagon'"


In [30]:
schema_result = tfdv.utils.display_util.get_schema_dataframe(schema=schema)

In [31]:
schema_result[0]

Unnamed: 0_level_0,Type,Presence,Valency,Domain
Feature name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
'year',INT,required,,-
'price',INT,required,,-
'location',STRING,required,,'location'
'branch',STRING,required,,'branch'
'model',BYTES,required,,-
'origin',STRING,required,,'origin'
'km_driven',INT,required,,-
'external_color',STRING,required,,'external_color'
'internal_color',STRING,required,,'internal_color'
'num_seats',INT,required,,-


In [32]:
schema_result[1]

Unnamed: 0_level_0,Values
Domain,Unnamed: 1_level_1
'location',"'An Giang', 'Bà Rịa Vũng Tàu', 'Bình Dương', 'Bình Phước', 'Bình Thuận', 'Bình Định', 'Bạc Liêu', 'Bắc Giang', 'Bắc Kạn', 'Bắc Ninh', 'Bến Tre', 'Cao Bằng', 'Cà Mau', 'Cần Thơ', 'Gia Lai', 'Hà Giang', 'Hà Nam', 'Hà Nội', 'Hà Tĩnh', 'Hòa Bình', 'Hưng Yên', 'Hải Dương', 'Hải Phòng', 'Hậu Giang', 'Khánh Hòa', 'Kiên Giang', 'Kon Tum', 'Lai Châu', 'Long An', 'Lào Cai', 'Lâm Đồng', 'Lạng Sơn', 'Nam Định', 'Nghệ An', 'Ninh Bình', 'Ninh Thuận', 'Phú Thọ', 'Phú Yên', 'Quảng Bình', 'Quảng Nam', 'Quảng Ngãi', 'Quảng Ninh', 'Quảng Trị', 'Sóc Trăng', 'Sơn La', 'TP HCM', 'Thanh Hóa', 'Thái Bình', 'Thái Nguyên', 'Thừa Thiên Huế', 'Tiền Giang', 'Trà Vinh', 'Tuyên Quang', 'Tây Ninh', 'Vĩnh Long', 'Vĩnh Phúc', 'Yên Bái', 'Điện Biên', 'Đà Nẵng', 'Đăk Lăk', 'Đăk Nông', 'Đồng Nai', 'Đồng Tháp'"
'branch',"'Acura', 'Audi', 'BMW', 'Chevrolet', 'Daewoo', 'Ford', 'Honda', 'Hyundai', 'Isuzu', 'Kia', 'LandRover', 'Lexus', 'MG', 'Mazda', 'Mercedes Benz', 'Mini', 'Mitsubishi', 'Nissan', 'Peugeot', 'Porsche', 'Subaru', 'Suzuki', 'Toyota', 'VinFast', 'Volkswagen', 'Volvo'"
'origin',"'domestic', 'imported'"
'external_color',"'Bạc', 'Cam', 'Cát', 'Ghi', 'Hồng', 'Kem', 'Màu khác', 'Nhiều màu', 'Nâu', 'Trắng', 'Tím', 'Vàng', 'Xanh', 'Xám', 'Đen', 'Đỏ', 'Đồng'"
'internal_color',"'Bạc', 'Cam', 'Cát', 'Ghi', 'Hồng', 'Kem', 'Màu khác', 'Nhiều màu', 'Nâu', 'Trắng', 'Tím', 'Vàng', 'Xanh', 'Xám', 'Đen', 'Đỏ', 'Đồng'"
'fuels',"'diesel', 'electric', 'gasoline', 'hybrid'"
'gearbox',"'Số hỗn hợp', 'automatic', 'manual'"
'wheel_drive',"'4WD', 'AWD', 'FWD', 'RWD'"
'car_type',"'convertible', 'coupe', 'crossover', 'hatchback', 'pickup', 'sedan', 'suv', 'truck', 'van', 'wagon'"


In [37]:
result2 = schema_result[1]

In [40]:
result2.reset_index()

Unnamed: 0,Domain,Values
0,'location',"'An Giang', 'Bà Rịa Vũng Tàu', 'Bình Dương', 'Bình Phước', 'Bình Thuận', 'Bình Định', 'Bạc Liêu', 'Bắc Giang', 'Bắc Kạn', 'Bắc Ninh', 'Bến Tre', 'Cao Bằng', 'Cà Mau', 'Cần Thơ', 'Gia Lai', 'Hà Giang', 'Hà Nam', 'Hà Nội', 'Hà Tĩnh', 'Hòa Bình', 'Hưng Yên', 'Hải Dương', 'Hải Phòng', 'Hậu Giang', 'Khánh Hòa', 'Kiên Giang', 'Kon Tum', 'Lai Châu', 'Long An', 'Lào Cai', 'Lâm Đồng', 'Lạng Sơn', 'Nam Định', 'Nghệ An', 'Ninh Bình', 'Ninh Thuận', 'Phú Thọ', 'Phú Yên', 'Quảng Bình', 'Quảng Nam', 'Quảng Ngãi', 'Quảng Ninh', 'Quảng Trị', 'Sóc Trăng', 'Sơn La', 'TP HCM', 'Thanh Hóa', 'Thái Bình', 'Thái Nguyên', 'Thừa Thiên Huế', 'Tiền Giang', 'Trà Vinh', 'Tuyên Quang', 'Tây Ninh', 'Vĩnh Long', 'Vĩnh Phúc', 'Yên Bái', 'Điện Biên', 'Đà Nẵng', 'Đăk Lăk', 'Đăk Nông', 'Đồng Nai', 'Đồng Tháp'"
1,'branch',"'Acura', 'Audi', 'BMW', 'Chevrolet', 'Daewoo', 'Ford', 'Honda', 'Hyundai', 'Isuzu', 'Kia', 'LandRover', 'Lexus', 'MG', 'Mazda', 'Mercedes Benz', 'Mini', 'Mitsubishi', 'Nissan', 'Peugeot', 'Porsche', 'Subaru', 'Suzuki', 'Toyota', 'VinFast', 'Volkswagen', 'Volvo'"
2,'origin',"'domestic', 'imported'"
3,'external_color',"'Bạc', 'Cam', 'Cát', 'Ghi', 'Hồng', 'Kem', 'Màu khác', 'Nhiều màu', 'Nâu', 'Trắng', 'Tím', 'Vàng', 'Xanh', 'Xám', 'Đen', 'Đỏ', 'Đồng'"
4,'internal_color',"'Bạc', 'Cam', 'Cát', 'Ghi', 'Hồng', 'Kem', 'Màu khác', 'Nhiều màu', 'Nâu', 'Trắng', 'Tím', 'Vàng', 'Xanh', 'Xám', 'Đen', 'Đỏ', 'Đồng'"
5,'fuels',"'diesel', 'electric', 'gasoline', 'hybrid'"
6,'gearbox',"'Số hỗn hợp', 'automatic', 'manual'"
7,'wheel_drive',"'4WD', 'AWD', 'FWD', 'RWD'"
8,'car_type',"'convertible', 'coupe', 'crossover', 'hatchback', 'pickup', 'sedan', 'suv', 'truck', 'van', 'wagon'"


In [36]:
import wandb
run = wandb.init(project="mlops-test", job_type="infer-skema")


# Log to the same named artifact, but with updated data
artifact = wandb.Artifact('categorical-schema', type='Schema')
schema = wandb.Table(data=schema_result[1])
artifact.add(schema, 'categorical-schema-table')

run.log_artifact(artifact)

# Now you have a new artifact version logged!

wandb.finish()

VBox(children=(Label(value='0.003 MB of 0.003 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

In [43]:
eva_stats = tfdv.generate_statistics_from_dataframe(dataframe=val_df)

tfdv.visualize_statistics(lhs_statistics=eva_stats,
                          rhs_statistics=train_stats,
                          lhs_name='VAL_DATASET',
                          rhs_name='TRAIN_DATASET')

In [44]:
file = get_statistics_html(lhs_statistics=eva_stats,
                          rhs_statistics=train_stats,
                          lhs_name='VAL_DATASET',
                          rhs_name='TRAIN_DATASET')

In [45]:
import wandb
run = wandb.init(project="mlops-test", job_type="statistic")

# Log to the same named artifact, but with updated data
artifact = wandb.Artifact('statistic', type='Statistic')
html = wandb.Html(data=file)
artifact.add(html, 'Statistic')
run.log_artifact(artifact)
# Now you have a new artifact version logged!

wandb.finish()

VBox(children=(Label(value='0.056 MB of 0.056 MB uploaded (0.000 MB deduped)\r'), FloatProgress(value=1.0, max…

In [12]:
anomalies = tfdv.validate_statistics(
    statistics=eva_stats,
    schema=schema
)

In [13]:
tfdv.display_anomalies(anomalies=anomalies)

In [14]:
serving_stats = tfdv.generate_statistics_from_dataframe(test_df)

serving_anomalies = tfdv.validate_statistics(serving_stats, schema)

tfdv.display_anomalies(serving_anomalies)

In [22]:
result = tfdv.utils.display_util.get_anomalies_dataframe(anomalies)

In [15]:
tfdv.write_anomalies_text(anomalies, 'test.txt')

In [65]:
tfdv.get_feature(schema, 'car_type').skew_comparator.infinity_norm.threshold = 0.03

skew_anomalies = tfdv.validate_statistics(
    statistics=train_stats,
    schema=schema,
    serving_statistics=serving_stats
)

In [66]:
tfdv.display_anomalies(skew_anomalies)