In [1]:
import pandas as pd
from utils import check_nas, unique_values, values_only_in_set

### 1. Load dataset

In [2]:
train = pd.read_csv('data/train.csv', index_col=0, low_memory=False)
test = pd.read_csv('data/test.csv', index_col=0, low_memory=False)

### 2. Check for NAs

Check no. missing values for Train

In [3]:
check_nas(train,'maCv')

(9679, 0.3226333333333333)

Check no. missing value for Test

In [4]:
check_nas(test,'maCv')

(6504, 0.2168)

### 3. Check for Unique Values

#### Similar Unique values in Train & Test

In [5]:
set(train.maCv.unique()).intersection(set(test.maCv.unique()))

{'Bác sĩ',
 'Bác sỹ',
 'Bán hàng',
 'Bí thư đoàn thanh niên',
 'Bảo Vệ',
 'Bảo vệ',
 'Bếp chính',
 'Bốc xếp',
 'C.n',
 'C.nhân kiểm hàng',
 'C.nhân may',
 'CN',
 'CN KT Mủ',
 'CN Kỹ thuật',
 'CN MAY',
 'CN May',
 'CN May công nghiệp',
 'CN Sản xuất',
 'CN SắT',
 'CN Thủ Công',
 'CN kiểm hàng',
 'CN may',
 'CN may CN',
 'CN may công nghiệp',
 'CN may trực tiếp CN',
 'CN mộc máy',
 'CN sửa chữa cơ điện trong hầm lò',
 'CN vận hành máy may',
 'CN vận hành máy may CN',
 'CN vận hành máy may công nghiệp',
 'CNV',
 'Cao đẳng điều dưỡng',
 'Chuyên viên',
 'Chăm sóc',
 'Chỉ huy trưởng quân sự',
 'Cn Kiểm Tra Chất Lượng',
 'Coõng nhaõn boọ phaọn Nos E',
 'Coõng nhaõn trửùc tieỏp maựy may coõng nghieọp',
 'CÔNG NHÂN',
 'CÔNG NHÂN LẮP RÁP',
 'CÔNG NHÂN MAY',
 'CÔNG NHÂN MAY CÔNG NGHIệP',
 'CÔNG NHÂN PHụ MAY CÔNG NGHIệP',
 'CÔNG NHÂN SảN XUấT ĐIệN Tử',
 'Cán bộ',
 'Cán bộ cấp 2',
 'Cán bộ không chuyên trách',
 'Cán bộ kỹ thuật',
 'Cán bộ nhân viên',
 'Cán bộ tín dụng',
 'Cán bộ tư pháp',
 'Cán sự'

#### Unique values in Train

In [6]:
unique_values(train,'maCv')

(None                            13203
 Công nhân                         766
 công nhân                         465
 Nhân viên                         304
 Giáo viên                         215
                                 ...  
 Nhân viên bộ phận  Khuôn mẫu        1
 Nhân viên Injection                 1
 Công nhân chuyền dán-AD             1
 Công Nhân Dán Bù                    1
 Giám sát viên                       1
 Name: maCv, Length: 3066, dtype: int64,
 None                            0.649722
 Công nhân                       0.037695
 công nhân                       0.022883
 Nhân viên                       0.014960
 Giáo viên                       0.010580
                                   ...   
 Nhân viên bộ phận  Khuôn mẫu    0.000049
 Nhân viên Injection             0.000049
 Công nhân chuyền dán-AD         0.000049
 Công Nhân Dán Bù                0.000049
 Giám sát viên                   0.000049
 Name: maCv, Length: 3066, dtype: float64)

#### Unique values in Test

In [7]:
unique_values(test,'maCv')

(None                    8795
 Công nhân                490
 công nhân                330
 Nhân viên                180
 Giáo viên                155
                         ... 
 cnsx                       1
 Phụ máy Cắt                1
 Nữ hộ sinh Trung học       1
 Công nhân cát bavia        1
 NV kho                     1
 Name: maCv, Length: 2124, dtype: int64, None                    0.651675
 Công nhân               0.036307
 công nhân               0.024452
 Nhân viên               0.013337
 Giáo viên               0.011485
                           ...   
 cnsx                    0.000074
 Phụ máy Cắt             0.000074
 Nữ hộ sinh Trung học    0.000074
 Công nhân cát bavia     0.000074
 NV kho                  0.000074
 Name: maCv, Length: 2124, dtype: float64)

### 4. Compare Train and Test

Compare Unique values only in Train

In [8]:
values_only_in_set(train, test, 'maCv')

({'thủ kho',
  'Lao động phụ',
  'Công nhân sửa chữa lại',
  'Giao dịch viên Khối Khách hàng cá nhân\tPVcomBank Đồng Nai',
  'Công nhân dán bóng',
  'Giám sát Bán hàng',
  'Bảo vệ tuần tra canh gác',
  'Công Nhân Pha Cắt Lầu B',
  'Giáo viên (Khối trưởng)',
  'Lái xe cơ quan',
  'Trưởng phòng chăm sóc khách hàng',
  'CN. Đóng nút',
  'Dược tá',
  'Công nhân hoàn chỉnh giầy',
  'Nhân viên-Cấp bậc 1',
  'Nhân viên Sản Xuất',
  'Chuyên viên  Phó Trưởng ban',
  'Giáo viên trường mầm non bán công xã Liêm Thuận',
  'Công nhân đồng bộ bán thành phẩm',
  'chuyên viên',
  'Phó Giám đốc xí nghiệp giặt',
  'Bảo mẫu  C.ty TNHH GD Song Ngữ',
  'Nhân viên phòng kỹ thuật Chất lượng',
  'NV Phòng Kế toán',
  'Điều dưỡng viên TYT TT Tân Dân',
  'NV Bán hàng/CocaCola/Vùng 2',
  'Nhân viên bàn',
  'TP may 1',
  'Công nhân gắn rập nhám',
  'Công Nhân Đứng Máy (B)',
  'Công nhân May Công Nghiệp',
  'Giáo viên tổ phó tổ sinh hóa',
  'Công Nhân CL1-L1',
  'Đứng máy cán',
  'Công Nhân Hàn',
  'Công nhân Mài S

Compare Unique values only in Test

In [9]:
values_only_in_set(test, train, 'maCv')

({'Nhân viên phòng Lab',
  'Trưởng phòng điều dưỡng bệnh viện đa khoa Tân Thạnh',
  'Giáo viên trường  mẫu giáo Tân Bình 2',
  'Gia công thủy tinh',
  'Công nhân sản xuất máy giặt',
  'CN CUỐN DA',
  'K.ĐịNH VIÊN X5',
  'Kế toán tổng hợp',
  'Công nhân cắt PVC',
  'A1.9III-3/7',
  'công nhân sơn',
  'KTV Sơn',
  'CN Mở nắp-Lấy đế - Xưởng Đế PU',
  'Nhân viên giao hàng - Chi nhánh Đồng Văn',
  'Công nhân kho thành phẩm',
  'ĐTV',
  'Kỹ thuật viên trung tâm cấp 1',
  'Cán bộ KD kiểm tra KHSDĐ',
  'Công nhân Vận Hành máy Công ty Thanh Sơn Hóa Nông',
  'Nhân viên - V03 - Tỉnh Bắc Giang',
  'công nhân mực',
  'công nhan quét dọn',
  'Tổ trưởng chuyên môn',
  'giáo viên THCS quyết tiến',
  'Dược sỹ trung học cơ sở cấp phát thuốc Methadone Xã Ma Thì Hồ',
  'KTV bảo trì',
  'Tuyên truyền viên',
  'CÔNG NHÂN-Tổ cào sớ - Xưởng 3',
  'Nhân viên làm phòng',
  'Công nhân lò hấp cá',
  'Công nhân làm việc theo chế độ 03 ca',
  'Công nhân Sắp xếp hàng lên container',
  'Chuyên viên phiên dịch tiếng N