In [1]:
import pandas as pd
from utils import check_nas, unique_values, values_only_in_set

### 1. Load dataset

In [2]:
train = pd.read_csv('data/train.csv', index_col=0, low_memory=False)
test = pd.read_csv('data/test.csv', index_col=0, low_memory=False)

### 2. Check for NAs

Check no. missing values for Train

In [3]:
check_nas(train,'district')

(12849, 0.4283)

Check no. missing value for Test

In [4]:
check_nas(test,'district')

(8733, 0.2911)

### 3. Check for Unique Values

#### Similar Unique values in Train & Test

In [5]:
set(train.district.unique()).intersection(set(test.district.unique()))

{'Huyện A Lưới',
 'Huyện An Biên',
 'Huyện An Dương',
 'Huyện An Lão',
 'Huyện An Minh',
 'Huyện An Phú',
 'Huyện Anh Sơn',
 'Huyện Ba Bể',
 'Huyện Ba Chẽ',
 'Huyện Ba Tri',
 'Huyện Ba Tơ',
 'Huyện Ba Vì',
 'Huyện Buôn Đôn',
 'Huyện Bàu Bàng',
 'Huyện Bá Thước',
 'Huyện Bát Xát',
 'Huyện Bình Chánh',
 'Huyện Bình Gia',
 'Huyện Bình Giang',
 'Huyện Bình Lục',
 'Huyện Bình Sơn',
 'Huyện Bình Tân',
 'Huyện Bình Xuyên',
 'Huyện Bình Đại',
 'Huyện Bù Gia Mập',
 'Huyện Bù Đăng',
 'Huyện Bù Đốp',
 'Huyện Bạch Thông',
 'Huyện Bảo Lâm',
 'Huyện Bảo Lạc',
 'Huyện Bảo Thắng',
 'Huyện Bảo Yên',
 'Huyện Bắc Bình',
 'Huyện Bắc Hà',
 'Huyện Bắc Mê',
 'Huyện Bắc Quang',
 'Huyện Bắc Sơn',
 'Huyện Bắc Trà My',
 'Huyện Bắc Tân Uyên',
 'Huyện Bắc Yên',
 'Huyện Bến Cầu',
 'Huyện Bến Lức',
 'Huyện Bố Trạch',
 'Huyện Cai Lậy',
 'Huyện Cam Lâm',
 'Huyện Cam Lộ',
 'Huyện Can Lộc',
 'Huyện Cao Lãnh',
 'Huyện Cao Lộc',
 'Huyện Cao Phong',
 'Huyện Chi Lăng',
 'Huyện Chiêm Hóa',
 'Huyện Châu Phú',
 'Huyện Châu Thà

#### Unique values in Train

In [6]:
unique_values(train,'district')

(Huyện Châu Thành      405
 Thành phố Biên Hòa    322
 Thị xã Thuận An       244
 Quận Bình Tân         194
 Quận Thủ Đức          176
                      ... 
 xóm 1                   1
 Đại Thiện 2             1
 Huyện Đồng Văn          1
 Đầu Cầu                 1
 ấp Bình Thới            1
 Name: district, Length: 718, dtype: int64, Huyện Châu Thành      0.023614
 Thành phố Biên Hòa    0.018774
 Thị xã Thuận An       0.014227
 Quận Bình Tân         0.011311
 Quận Thủ Đức          0.010262
                         ...   
 xóm 1                 0.000058
 Đại Thiện 2           0.000058
 Huyện Đồng Văn        0.000058
 Đầu Cầu               0.000058
 ấp Bình Thới          0.000058
 Name: district, Length: 718, dtype: float64)

#### Unique values in Test

In [7]:
unique_values(test,'district')

(Huyện Châu Thành      254
 Thành phố Biên Hòa    208
 Thị xã Thuận An       172
 Quận Gò Vấp           130
 Quận 12               130
                      ... 
 Huyện Ia Pa             1
 Huyện Vân Đồn           1
 Huyện Thuận Bắc         1
 Đại Thuận               1
 Huyện Kiên Hải          1
 Name: district, Length: 689, dtype: int64, Huyện Châu Thành      0.022544
 Thành phố Biên Hòa    0.018461
 Thị xã Thuận An       0.015266
 Quận Gò Vấp           0.011538
 Quận 12               0.011538
                         ...   
 Huyện Ia Pa           0.000089
 Huyện Vân Đồn         0.000089
 Huyện Thuận Bắc       0.000089
 Đại Thuận             0.000089
 Huyện Kiên Hải        0.000089
 Name: district, Length: 689, dtype: float64)

### 4. Compare Train and Test

Compare Unique values only in Train

In [12]:
values_only_in_set(train, test, 'district')

({'Bờ Sao',
  'Cây trôi',
  'Huyện Bác Ái',
  'Huyện Chư Sê',
  'Huyện Kon Rẫy',
  'Huyện Krông Pa',
  'Huyện Lý Sơn',
  'Huyện Lắk',
  'Huyện Minh Long',
  'Huyện Mèo Vạc',
  'Huyện Mường Nhé',
  'Huyện Nguyên Bình',
  'Huyện Phước Sơn',
  'Huyện Phục Hòa',
  'Huyện Quan Sơn',
  'Huyện Quảng Uyên',
  'Huyện Sốp Cộp',
  'Huyện Than Uyên',
  'Huyện Tu Mơ Rông',
  'Huyện Tuy Đức',
  'Huyện Đình Lập',
  'Huyện Đông Giang',
  'Huyện Đăk Glong',
  'Huyện Đầm Hà',
  'Huyện Đắk Tô',
  'Huyện Đồng Văn',
  'Khu vực 5',
  'PHÚ HƯNG',
  'Phường 04',
  'Thành Phố Đồng Xoài',
  'Thôn 1',
  'Thôn Bắc Châu',
  'Thị Xã Mường Lay',
  'Thị xã Nghĩa Lộ',
  'Thị xã Phú Mỹ',
  'Tổ 07',
  'XÓM 1',
  'Xã Hoàn Sơn',
  'Xóm Yên Hòa',
  'tổ 3 ấp tây',
  'vĩnh thuận',
  'xóm 1',
  'Đông Hải',
  'Đại Thiện 2',
  'Đầu Cầu',
  'Ấp 3',
  'Ấp 3A',
  'Ấp 6',
  'Ấp Khúc Tréo B',
  'Ấp Ninh Thuận',
  'Ấp Phong Thuận',
  'Ấp Rạch Hàm',
  'ấp Bình Thới',
  'ấp Phú Hòa',
  'ấp bình thuận',
  'ấp bờ láng'},
 56)

Compare Unique values only in Test

In [13]:
values_only_in_set(test, train, 'district')

({'Huyện Bình Liêu',
  'Huyện Bến Cát',
  'Huyện Nam Đông',
  'Huyện Ngân Sơn',
  'Huyện Pác Nặm',
  'Huyện Tiên Yên',
  'Huyện Trà Bồng',
  'Huyện Vân Canh',
  'KP Lê Duẩn',
  'Khu Vực Bình Chánh',
  'Khu vực 1',
  'Phước Hậu',
  'Phường Cam Phúc Nam',
  'Phường Phú Thạnh',
  'Thôn 8',
  'Tân Lập 1',
  'Xã Hòa Hiệp',
  'Xã Thuận Hưng',
  'cáp hạ',
  'khu 7',
  'Đại Thuận',
  'Ấp Hòa Trung',
  'Ấp Thanh Hoá',
  'ấp 9',
  'ấp Bình Danh B',
  'ấp Vĩnh Thành',
  'ấp trại cá'},
 27)