# **Pertemuan #11 - Data Cleansing**

Data Wrangling - Sekolah Data - Pacmann Academy

Data yang diperoleh dalam bentuk mentahan (raw), belum dapat di analisa / modelkan secara langsung karena memiliki beberapa permasalahan.

1. Terdapat missing value \
   Missing value menandakan ketiadaan nilai. Hal ini berbeda dengan angka 0 atau string kosong (""). Missing value dapat disebabkan oleh beberapa hal:
      - Kesalahan pengumpulan data
      - Corrupt / error pada database
      - Kesengajaan penghilangan data
 
<img src="https://drive.google.com/uc?export=view&id=1GkOf6jiUQJOpNR2R5fd0yEFER4dSLW0R" alt="Drawing" width= 500px;/>

 2. Terdapat Outlier \
 Outlier merupakan nilai yang menyimpang dari rata-rata kebanyakan data. 

<img src="https://drive.google.com/uc?export=view&id=1aAyaBbnQ2Ywjcia-_NBW4k4lnkIWWSKO" alt="Drawing" width= 500px;/>

 3. Terdapat data duplikat
 Data duplikat terjadi karena adanya entry/record data yang sama 

<img src="https://drive.google.com/uc?export=view&id=1a6bAp_nOncXpgZdrHH0tHg-n_l4dyI9g" alt="Drawing" width= 500px;/>

 4. Terdapat Inkonsistensi pada data \
  Inkonsistensi direpresentasikan dengan data yang memiliki meaning yang sama namun ditulis secara berbeda.

<img src="https://drive.google.com/uc?export=view&id=1q9EqPtG2yGRiPtFIMzVTOvS2QJNtLLa7" alt="Drawing" width= 500px;/>

Permasalahan diatas, perlu di tangani terlebih dahulu sebelum masuk ke tahapan analisa / pemodelan data karena dapat berpengaruh ke hasil analisa dan interpretasi model. Pada materi kali ini, akan dipelajari cara menangani masalah pada data yang telah dijabarkan diatas

**Outline**

- Handling NaN 
- Handling Outlier
- Handling Duplicate
- Handling Inkonsistent Format

## **Topik**
---



### **Subtopik 1 : Handling Missing Value**`

Rudi bekerja sebagai analis di sebuah agen properti. Dia diminta untuk menganalisis data properti yang dimiliki oleh perusahaan. Namun sebelum melakukan analisis, dia diminta untuk membersihkan datanya terlebih dahulu agar hasil analisis bisa akurat.

In [2]:
# import library pandas
import pandas as pd

In [3]:
# read data property
property_data = pd.read_csv('property_data.csv')

# menampilkan semua data property
property_data

Unnamed: 0,lai,ST_NUM,ST_NAME,OWN_OCCUPIED,NUM_BEDROOMS,NUM_BATH,SQ_FT
0,100001000,104,PUTNAM,Y,3.0,1.0,900.0
1,100002000,197,LXT,N,1.0,1.0,
2,100003000,199,LEXINGTON,N,,1.0,850.0
3,100004000,201,berkeley,Y,1.0,,700.0
4,100004000,201,berkeley,Y,1.0,,700.0
5,100005000,203,BERKELEY,Y,3.0,2.0,975.0
6,100006000,207,Berkeley,Y,,1.0,800.0
7,100007000,209,WASHINGTON,,2.0,1.0,950.0
8,100008000,213,TREMONT,Y,1.0,1.0,
9,100009000,215,TREMONT,Y,,2.0,88000.0


Terlihat pada beberapa kolom berisi terdapat missing value (NaN). Sebelum menangani missing value, akan dilakukan pengecekan terlebih dahulu, untuk melihat persentase missing value di tiap kolom


### Identified Missing Value

Untuk mengecek missing value dapat dilakukan dengan method menggunakan `isna()` atau `isnull()`

In [4]:
property_data.isna().head()

Unnamed: 0,lai,ST_NUM,ST_NAME,OWN_OCCUPIED,NUM_BEDROOMS,NUM_BATH,SQ_FT
0,False,False,False,False,False,False,False
1,False,False,False,False,False,False,True
2,False,False,False,False,True,False,False
3,False,False,False,False,False,True,False
4,False,False,False,False,False,True,False


In [5]:
property_data.isnull().head()

Unnamed: 0,lai,ST_NUM,ST_NAME,OWN_OCCUPIED,NUM_BEDROOMS,NUM_BATH,SQ_FT
0,False,False,False,False,False,False,False
1,False,False,False,False,False,False,True
2,False,False,False,False,True,False,False
3,False,False,False,False,False,True,False
4,False,False,False,False,False,True,False


hasil fungsi `isna()` berupa nilai boolean yang merepresentasikan data yang memiliki nilai (False) dan missing value (True).

Hasil ini dapat di ringkas/agregasi menggunakan fungsi aggregasi `.sum()` untuk menghitung jumlah missing value di tiap kolom. 

In [6]:
# Menghitung jumlah missing value pada tiap kolom
property_data.isna().sum()

lai             0
ST_NUM          0
ST_NAME         0
OWN_OCCUPIED    2
NUM_BEDROOMS    3
NUM_BATH        2
SQ_FT           2
dtype: int64

hasil ringkasan juga dapat direpresentasikan dalam bentuk persentase

In [7]:
property_data.isna().sum() / len(property_data)*100

lai              0.000000
ST_NUM           0.000000
ST_NAME          0.000000
OWN_OCCUPIED    18.181818
NUM_BEDROOMS    27.272727
NUM_BATH        18.181818
SQ_FT           18.181818
dtype: float64

### Handle missing value

Untuk menangani missing value, dapat dilakukan dengan beberapa cara:
1. Imputasi missing value
2. Drop kolom yang mengandung missing value

1. Imputasi missing value \
Menginput nilai pada missing value bergantung pada jenis data dari kolom yang mengandung NaN. 
     
     - Jika numeric dapat diinput dengan nilai mean, median atau modus.
     - Jika kategorik dapat diinput dengan nilai modus, nilai tetangga terdekat atau diganti dengan nilai "Unknown"

  Menginput missing value, dilakukan dengan menggunakan fungsi `.fillna`

In [8]:
# menampilkan data property
property_data.head()

Unnamed: 0,lai,ST_NUM,ST_NAME,OWN_OCCUPIED,NUM_BEDROOMS,NUM_BATH,SQ_FT
0,100001000,104,PUTNAM,Y,3.0,1.0,900.0
1,100002000,197,LXT,N,1.0,1.0,
2,100003000,199,LEXINGTON,N,,1.0,850.0
3,100004000,201,berkeley,Y,1.0,,700.0
4,100004000,201,berkeley,Y,1.0,,700.0


In [9]:
# mengecek tipe data tiap kolom
property_data.dtypes

lai               int64
ST_NUM            int64
ST_NAME          object
OWN_OCCUPIED     object
NUM_BEDROOMS    float64
NUM_BATH        float64
SQ_FT           float64
dtype: object

- Kolom `ST_NAME` dan `OWN_OCCUPIED` merupakan variable categorical
- Kolom `NUM_BEDROOMS` dan 	`NUM_BATH` merupakan variable numerical discrite
- dan kolom	`SQ_FT` merupakan kolom numerical continues

Dari hasil pengecekan sebelumnya kita akan menginput kolom `SQ_FT` dengan nilai median. Hal ini dilakukan karena pada kolom tersebut kemungkinan terdapat outlier.

In [10]:
# meghitung nilai mean pada kolom SQ_FT
med_SEQ = property_data['SQ_FT'].median()
med_SEQ


900.0

In [11]:
property_data['SQ_FT'] = property_data['SQ_FT'].fillna(med_SEQ)
property_data

Unnamed: 0,lai,ST_NUM,ST_NAME,OWN_OCCUPIED,NUM_BEDROOMS,NUM_BATH,SQ_FT
0,100001000,104,PUTNAM,Y,3.0,1.0,900.0
1,100002000,197,LXT,N,1.0,1.0,900.0
2,100003000,199,LEXINGTON,N,,1.0,850.0
3,100004000,201,berkeley,Y,1.0,,700.0
4,100004000,201,berkeley,Y,1.0,,700.0
5,100005000,203,BERKELEY,Y,3.0,2.0,975.0
6,100006000,207,Berkeley,Y,,1.0,800.0
7,100007000,209,WASHINGTON,,2.0,1.0,950.0
8,100008000,213,TREMONT,Y,1.0,1.0,900.0
9,100009000,215,TREMONT,Y,,2.0,88000.0


In [12]:
property_data.isna().sum()

lai             0
ST_NUM          0
ST_NAME         0
OWN_OCCUPIED    2
NUM_BEDROOMS    3
NUM_BATH        2
SQ_FT           0
dtype: int64

In [16]:
property_data.dtypes

lai               int64
ST_NUM            int64
ST_NAME          object
OWN_OCCUPIED     object
NUM_BEDROOMS    float64
NUM_BATH        float64
SQ_FT           float64
dtype: object

Untuk kolom `OWN_OCCUPIED, NUM_BEDROOMS dan NUM_BATH`, karena datanya numerical discrite dan kategori akan diganti dengan nilai modus.

In [17]:
# Mencari nilai modus dari kolom OWN_OCCUPIED, NUM_BEDROOMS dan NUM_BATH

mode_OWN_OCCUPIED = property_data['OWN_OCCUPIED'].mode()[0]
mode_NUM_BEDROOMS = property_data['NUM_BEDROOMS'].mode()[0]
mode_NUM_BATH = property_data['NUM_BATH'].mode()[0]

In [19]:
property_data.isnull().sum()

lai             0
ST_NUM          0
ST_NAME         0
OWN_OCCUPIED    2
NUM_BEDROOMS    3
NUM_BATH        2
SQ_FT           0
dtype: int64

In [20]:
property_data['OWN_OCCUPIED'] = property_data['OWN_OCCUPIED'].fillna(mode_OWN_OCCUPIED)
property_data['NUM_BEDROOMS'] = property_data['NUM_BEDROOMS'].fillna(mode_NUM_BEDROOMS)
property_data['NUM_BATH'] = property_data['NUM_BATH'].fillna(mode_NUM_BATH)
property_data

Unnamed: 0,lai,ST_NUM,ST_NAME,OWN_OCCUPIED,NUM_BEDROOMS,NUM_BATH,SQ_FT
0,100001000,104,PUTNAM,Y,3.0,1.0,900.0
1,100002000,197,LXT,N,1.0,1.0,900.0
2,100003000,199,LEXINGTON,N,1.0,1.0,850.0
3,100004000,201,berkeley,Y,1.0,1.0,700.0
4,100004000,201,berkeley,Y,1.0,1.0,700.0
5,100005000,203,BERKELEY,Y,3.0,2.0,975.0
6,100006000,207,Berkeley,Y,1.0,1.0,800.0
7,100007000,209,WASHINGTON,Y,2.0,1.0,950.0
8,100008000,213,TREMONT,Y,1.0,1.0,900.0
9,100009000,215,TREMONT,Y,1.0,2.0,88000.0


In [21]:
property_data.isna().sum()

lai             0
ST_NUM          0
ST_NAME         0
OWN_OCCUPIED    0
NUM_BEDROOMS    0
NUM_BATH        0
SQ_FT           0
dtype: int64

### **Subtopik 2 : Handling Outlier**

Selain menangani missing value, Rudi juga diminta untuk melakukan pengecekan outlier pada kolom data yang bertipe numerik

In [3]:
# import library pandas
import pandas as pd

# read data property
property_data = pd.read_csv('property_without_nan.csv')

# menampilkan semua data property
property_data

Unnamed: 0,lai,ST_NUM,ST_NAME,OWN_OCCUPIED,NUM_BEDROOMS,NUM_BATH,SQ_FT
0,100001000,104,PUTNAM,Y,3.0,1.0,900.0
1,100002000,197,LXT,N,1.0,1.0,900.0
2,100003000,199,LEXINGTON,N,1.0,1.0,850.0
3,100004000,201,berkeley,Y,1.0,1.0,700.0
4,100004000,201,berkeley,Y,1.0,1.0,700.0
5,100005000,203,BERKELEY,Y,3.0,2.0,975.0
6,100006000,207,Berkeley,Y,1.0,1.0,800.0
7,100007000,209,WASHINGTON,Y,2.0,1.0,950.0
8,100008000,213,TREMONT,Y,1.0,1.0,900.0
9,100009000,215,TREMONT,Y,1.0,2.0,88000.0


In [4]:
# menampilkan statistik deskriptif dari data
property_data.describe()

Unnamed: 0,lai,ST_NUM,NUM_BEDROOMS,NUM_BATH,SQ_FT
count,11.0,11.0,11.0,11.0,11.0
mean,100005100.0,196.181818,1.545455,1.181818,8784.090909
std,2547.726,31.115328,0.8202,0.40452,26273.114282
min,100001000.0,104.0,1.0,1.0,700.0
25%,100003500.0,200.0,1.0,1.0,825.0
50%,100005000.0,203.0,1.0,1.0,900.0
75%,100007000.0,209.0,2.0,1.0,950.0
max,100009000.0,215.0,3.0,2.0,88000.0


Sekilas terlihat dari data diatas, pada kolom SQ_FT terdapat data yang nilainya jauh dari nilai kebanyakan data. Hal ini dapat diidentifikasi pada perbedaan nilai Q3 dan nilai maximum yang cukup jauh. Untuk melakukan pengecekan lebih lanjut, akan dilakukan visualisasi untuk melihat kemungkinan adanya outlier pada kolom SQ_FT

In [5]:
property_data

Unnamed: 0,lai,ST_NUM,ST_NAME,OWN_OCCUPIED,NUM_BEDROOMS,NUM_BATH,SQ_FT
0,100001000,104,PUTNAM,Y,3.0,1.0,900.0
1,100002000,197,LXT,N,1.0,1.0,900.0
2,100003000,199,LEXINGTON,N,1.0,1.0,850.0
3,100004000,201,berkeley,Y,1.0,1.0,700.0
4,100004000,201,berkeley,Y,1.0,1.0,700.0
5,100005000,203,BERKELEY,Y,3.0,2.0,975.0
6,100006000,207,Berkeley,Y,1.0,1.0,800.0
7,100007000,209,WASHINGTON,Y,2.0,1.0,950.0
8,100008000,213,TREMONT,Y,1.0,1.0,900.0
9,100009000,215,TREMONT,Y,1.0,2.0,88000.0


### Identifikasi outlier

Untuk melakukan visualisasi di python, dapat digunakan library seaborn. Visualisasi menggunakan seaborn dilakukan dengan memanggil fungsi-fungsi visualisasi yang sudah tersedia. Berikut contoh struktur untuk visualisasi menggunakan seaborn:

<img src="https://drive.google.com/uc?export=view&id=12qGVWZqO2gaOJ_uLiIbc5XBovwV_Czmy" alt="Drawing" width= 300;/> 

In [11]:
# Memanggil library seaborn
!pip install seaborn




[notice] A new release of pip is available: 23.2.1 -> 24.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [12]:
import seaborn as sns

ImportError: DLL load failed: The specified procedure could not be found.

In [10]:
flights_wide = flights.pivot(index="year", columns="month", values="passengers")
sns.barplot(flights_wide)

NameError: name 'flights' is not defined