# How to Handle Inconsistent Data in Python

Data Cleansing - Hamizan Hibatullah

---

Pengertian inskonsisten format yang dimaksud adalah data yang memiliki meaning yang sama namum penulisannya berbeda.

Ini merupakan tahapan yang ada ketika kita dalam proses data cleansing yaitu mengatasi adanya redundansi data, situasi dimana terdapat beberapa tabel dalam database yang menangani data yang sama namun mungkin menerimanya dari input yang berbeda.

# Case Study

Untuk memastikan kualitas data saat dianalisis, pada tahapan terakhir kita sebagai data analyst diminta untuk memastikan tidak ada nilai yang inskonsisten didalam kolom.

Contoh pada kolom `ST_NAME` nilai `berkeley`, `Berkeley` dan `BERKELEY` merujuk ke hal yang sama. Untuk memudahkan analisa, penulisan tersebut akan diseragamkan. Misal membuat semua nilai `berkeley`, `Berkeley` menjadi `BERKELEY`.

In [1]:
# import library pandas
import pandas as pd

# read data property
property_data = pd.read_csv('https://raw.githubusercontent.com/ham407/Data-Cleansing-Using-Python/main/Datasets/property_without_duplicates.csv')

# menampilkan semua data property
property_data

Unnamed: 0,lai,ST_NUM,ST_NAME,OWN_OCCUPIED,NUM_BEDROOMS,NUM_BATH,SQ_FT
0,100001000,104,PUTNAM,Y,3.0,1.0,900.0
1,100002000,197,LXT,N,1.0,1.0,900.0
2,100003000,199,LEXINGTON,N,1.0,1.0,850.0
3,100004000,201,berkeley,Y,1.0,1.0,700.0
4,100005000,203,BERKELEY,Y,3.0,2.0,975.0
5,100006000,207,Berkeley,Y,1.0,1.0,800.0
6,100007000,209,WASHINGTON,Y,2.0,1.0,950.0
7,100008000,213,TREMONT,Y,1.0,1.0,900.0
8,100009000,215,TREMONT,Y,1.0,2.0,900.0


Pada data diatas dapat diidentifikasi terdapat format yang inkonsisten pada kolom `ST_NAME`. Kita akan identifikasi lebih lanjut dengan menggunakan beberapa cara.

## **Identifikasi inkonsistensi**

Mengecek inkonsistensi dapat dilakukan dengan mengecek nilai unik pada kolom tersebut. Untuk mengecek nilai unik dapat digunakan method `unique()` pada kolom yang ingin dicek.

In [2]:
property_data['ST_NAME'].unique()

array(['PUTNAM', 'LXT', 'LEXINGTON', 'berkeley', 'BERKELEY', 'Berkeley',
       'WASHINGTON', 'TREMONT'], dtype=object)

Alternatif lain dapat digunakan method `value_counts()`. Namun pada value counts selain menampilkan data unik, juga akan ditampilkan frekuensi kemunculan dari tiap data unik didalam kolom tersebut.

In [3]:
# Mengecek data uniq dan frekuensinya
property_data['ST_NAME'].value_counts()

TREMONT       2
PUTNAM        1
LXT           1
LEXINGTON     1
berkeley      1
BERKELEY      1
Berkeley      1
WASHINGTON    1
Name: ST_NAME, dtype: int64

## **Handling inkonsistensi**

Menangani data inkonsisten dapat dilakukan dengan penyeragaman. Sehingga perlu mengubah nilai yang memiliki meaning yang sama kedalam satu format.

Hal ini dapat dilakukan dengan cara:
1. Melakukan mapping inkonsiten format ke bentuk yang diinginkan
2. Menggunakan hasil mapping untuk mengganti nilai yang inkonsisten

In [4]:
# mapping inkonsisten ke format yang benar
map_inkonsistent = {
    "LXT" : "LEXINGTON",
    "berkeley" : "BERKELEY",
    "Berkeley" : "BERKELEY",
}

Untuk mengganti nilai inkonsisten ke nilai yang benar, akan digunakan method `replace()`.

Note: method replace digunakan karena data pada kolom ST_NAME bertipe string

In [5]:
# mengubah hasil mapping sehingga nilai menjadi seragam
property_data["ST_NAME"].replace(map_inkonsistent)

0        PUTNAM
1     LEXINGTON
2     LEXINGTON
3      BERKELEY
4      BERKELEY
5      BERKELEY
6    WASHINGTON
7       TREMONT
8       TREMONT
Name: ST_NAME, dtype: object

In [6]:
# menyimpan hasil perubahan ke data awal
property_data["ST_NAME"] = property_data["ST_NAME"].replace(map_inkonsistent)
property_data

Unnamed: 0,lai,ST_NUM,ST_NAME,OWN_OCCUPIED,NUM_BEDROOMS,NUM_BATH,SQ_FT
0,100001000,104,PUTNAM,Y,3.0,1.0,900.0
1,100002000,197,LEXINGTON,N,1.0,1.0,900.0
2,100003000,199,LEXINGTON,N,1.0,1.0,850.0
3,100004000,201,BERKELEY,Y,1.0,1.0,700.0
4,100005000,203,BERKELEY,Y,3.0,2.0,975.0
5,100006000,207,BERKELEY,Y,1.0,1.0,800.0
6,100007000,209,WASHINGTON,Y,2.0,1.0,950.0
7,100008000,213,TREMONT,Y,1.0,1.0,900.0
8,100009000,215,TREMONT,Y,1.0,2.0,900.0


Terlihat, setelah dirubah, data pada kolom ST_NAME menjadi seragam.