**DATA CLEANING**

---


Data cleaning merupakan tahap penting dalam proses analisis data yang bertujuan untuk meningkatkan kualitas data. Kualitas data yang baik sangat penting karena berpengaruh terhadap produktivitas kerja secara keseluruhan. Proses data cleaning melibatkan identifikasi, koreksi, dan/atau penghapusan data yang tidak akurat, tidak lengkap, atau tidak relevan dari kumpulan data. Tujuannya adalah untuk menghasilkan dataset yang bersih, konsisten, dan berkualitas.

Data yang tidak akurat atau tidak berkualitas dapat memiliki dampak negatif pada performa model analisis data, seperti model machine learning. Konsep "Garbage In - Garbage Out" menyoroti bahwa jika input data yang dimasukkan ke dalam proses analisis buruk, maka hasil analisisnya juga akan buruk. Oleh karena itu, memastikan data yang digunakan dalam analisis adalah akurat, lengkap, dan relevan sangat penting untuk mendapatkan hasil yang dapat diandalkan dan akurat dalam pengambilan keputusan.

Dengan melakukan proses data cleaning dengan baik, organisasi atau individu dapat meningkatkan kepercayaan dalam hasil analisis data mereka, mengurangi risiko kesalahan interpretasi, dan meningkatkan efisiensi dalam pengambilan keputusan. Sebagai hasilnya, data yang berkualitas dapat menjadi aset berharga dalam mendukung pengembangan strategi bisnis, pengidentifikasi tren, dan pengambilan keputusan yang c

**Berikut hal umum yang harus diperhatikan dalam data cleaning**
- **Konsistensi format**: Contohnya dalam penulisan tanggal 10-Okt-2020 versus 10/10/20. Format jam yang berbeda seperti 17.10 versus 5.10 pm.
- **Skala data**: Jika skala data 1 sampai 100 maka pastikan data tidak lebih dari 100 dan untuk data numerik bertipe positif pastikan tidak ada data yang negatif
- **Missing value**: Missing value terjadi ketika data dari sebuah record tidak lengkap. Missing value sangat mempengaruhi performa model machine learning. Ada 2 (dua) opsi untuk mengatasi missing value, yaitu menghilangkan data missing value atau mengganti nilai yang hilang dengan nilai lain, seperti rata-rata dari kolom tersebut (mean) atau nilai yang paling sering muncul (modus), atau nilai tengah (median).
- **Skewness distribution**: Kondisi skewness muncul ketika ada data yang tidak seimbang, misal data positive dan negative memiliki perbedaan data yang tidak seimbang (0 (positive) banding 100 (negative)).

**DATA PROCESSING**

---

Setelah data diambil dari sumbernya, langkah selanjutnya dalam proses machine learning adalah memasukkannya ke dalam suatu lingkungan atau environment yang sesuai untuk pengolahan. Data tersebut kemudian diproses agar dapat diolah oleh model machine learning. Proses ini mirip dengan mengajari seorang anak kecil, di mana kita memberikan contoh dan informasi yang diperlukan untuk memahami konsep tertentu.

Namun, komputer tidak seintuitif manusia sehingga perlu dilakukan persiapan data dengan melakukan data processing agar dapat dimengerti oleh komputer. Salah satu library yang sangat populer dan wajib dikuasai dalam pengolahan data untuk machine learning adalah Pandas Library.

Pandas Library merupakan salah satu library Python yang kuat dan fleksibel untuk manipulasi dan analisis data. Dengan Pandas, Anda dapat dengan mudah membaca data dari berbagai sumber, melakukan operasi pengolahan data seperti penghapusan data yang tidak relevan, penggabungan data, pemfilteran data, dan transformasi data. Selain itu, Pandas juga menyediakan struktur data yang kuat seperti DataFrame yang memungkinkan Anda untuk menyimpan dan mengelola data dalam bentuk yang mudah diakses dan dimanipulngua
e
rdas.


# Latihan Konversi Pandas Dataframe
Goals: Learning menggunakan pandas libraryt.

In [1]:
import os
os.listdir("sample")

['anscombe.json',
 'california_housing_test.csv',
 'california_housing_train.csv',
 'mnist_test.csv',
 'mnist_train_small.csv']

In [2]:
import pandas as pd

In [3]:
df = pd.read_csv("sample/mnist_test.csv")
df.head()

Unnamed: 0,7,0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,...,0.658,0.659,0.660,0.661,0.662,0.663,0.664,0.665,0.666,0.667
0,2,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,4,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


## Data Preparation dengan Teknik One-Hot-Encoding

Setelah membersihkan dataset, terdapat beberapa tahap tambahan yang perlu dilakukan agar dataset benar-benar siap untuk diproses oleh model machine learning. Dataset umumnya terdiri dari dua jenis data: kategorik dan numerik.

Data numerik terdiri dari bilangan integer atau float yang memiliki ukuran jelas dan dapat dibandingkan satu sama lain. Contohnya adalah ukuran panjang, suhu, nilai uang, dll. Data numerik dapat dioperasikan dengan metode statistik dan mudah dipahami oleh komputer.

Sementara itu, data kategorik berupa kategori dan berjenis string, tidak dapat diukur atau didefinisikan dengan angka. Contoh data kategorik adalah jenis cuaca (cerah, berawan, hujan) atau jenis buah (apel, pisang, semangka). Model machine learning umumnya tidak dapat mengolah data kategorik, sehingga perlu dilakukan konversi data kategorik menjadi data numerik.

Salah satu teknik yang umum digunakan untuk mengubah data kategorik menjadi data numerik adalah dengan menggunakan One Hot Encoding atau dummy variables. Teknik ini melibatkan pembuatan kolom baru untuk setiap kategori dalam data kategorik, di mana nilai setiap kolom baru adalah 1 jika observasi memiliki kategori tersebut, dan 0 jika tidak.

One Hot Encoding memungkinkan model machine learning untuk memahami dan memproses data kategorik dengan efektif, sehingga memungkinkan penggunaan fitur-fitur kategorik dalam pembuatan model. Dengan melakukan konversi ini, dataset menjadi lebih siap untuk digunakan dalam proses pelatihan model machine learning.

![image.png](attachment:aab37fdb-5282-4a1d-9a82-de6350d8f812.png)![image.png](attachment:a964c649-9017-480a-a353-6da86821c5a2.png)

## Data Preparation dengan Normalization dan Standardization

Selain konversi data kategorik menjadi numerik, ada beberapa teknik lain dalam data preparation. Antara lain membuang outlier, normalization, dan standardization.

### Outlier removal

Dalam statistika, outlier adalah nilai yang jauh berbeda dibandingkan dengan data lainnya dan dapat mengacaukan hasil analisa statistika. 
**Contoh:**
![image.png](attachment:1e40f1d5-e47a-4670-a60e-bde063f809ef.png)
Dapat dilihat dari contoh gambar ada satu sampel data yang jauh dibandingkan data lainnya, untuk mengatasi case ini dapat dilakukan mencari data yang jauh dan menghapusnya dari dataset.

### Normalization

Normalization adalah salah satu teknik yang digunakan dalam persiapan data untuk model machine learning. Tujuan utama dari normalisasi adalah untuk mengubah nilai-nilai dari suatu fitur ke dalam skala yang sama, sehingga memungkinkan model machine learning untuk bekerja dengan lebih baik.

Normalisasi penting karena ketika fitur-fitur dalam dataset memiliki skala yang sangat berbeda, seperti contoh umur dan gaji, hal ini dapat menyebabkan bias pada model. Misalnya, jika fitur gaji memiliki nilai yang jauh lebih besar dari fitur umur, model cenderung memberikan lebih banyak bobot pada fitur gaji, bahkan jika fitur umur sebenarnya memiliki kontribusi yang lebih penting dalam memprediksi hasil.

Salah satu contoh dari teknik normalisasi adalah min-max scaling, di mana nilai-nilai dipetakan ke dalam skala antara 0 dan 1. Teknik ini menjaga rentang nilai asli dari fitur tetapi mengubahnya menjadi skala yang seragam. SKLearn (scikit-learn) adalah salah satu library Python yang menyediakan berbagai metode normalisasi, termasuk min-max scaling, sehingga memudahkan untuk menerapkan normalisasi pada dataset Anda sebelum menggunakan model machine learning.

Dengan menerapkan normalisasi, performa dan stabilitas model machine learning dapat ditingkatkan karena fitur-fitur dalam dataset diperlakukan secara seragam, meminimalkan bias yang disebabkan oleh perbedaan skala fitur. Ini memungkinkan model untuk membuat prediksi yang lebih akurat dan dapat diandalkan.


In [7]:
#  contoh dari normalization adalah min-max scaling di mana nilai-nilai dipetakan ke dalam skala 0 sampai 1. SKLearn menyediakan library untuk normalization
from sklearn.preprocessing import MinMaxScaler
data = [[12000000, 33], [35000000, 45], [4000000, 23], [6500000, 26], [9000000, 29]]

In [9]:
# Membuat sebuah objek MinMaxScaler()
scaler = MinMaxScaler()
# Memanggil fungsi fit() dan mengisi argumen data seperti potongan kode di bawah
# Pada fungsi fit() ini komputer baru menghitung saja, kita masih harus mengeluarkan outputnya seperti next line.
scaler.fit(data)

In [10]:
print(scaler.transform(data))

[[0.25806452 0.45454545]
 [1.         1.        ]
 [0.         0.        ]
 [0.08064516 0.13636364]
 [0.16129032 0.27272727]]


### Standardization

Standardization adalah proses konversi nilai-nilai dari suatu fitur sehingga nilai-nilai tersebut memiliki skala yang sama. Z score adalah metode paling populer untuk standardisasi di mana setiap nilai pada sebuah atribut numerik akan dikurangi dengan rata-rata dan dibagi dengan standar deviasi dari seluruh nilai pada sebuah kolom atribut.
![image.png](attachment:1e46159f-dfac-4f5d-98aa-400effbf332b.png)![image.png](attachment:708ae788-ae86-44a7-9daf-ad281e510220.png)ng

Fungsi standardisasi itu serupa dengan normalization. Keduanya berfungsi menyamakan skala nilai dari tiap atribut pada data. SKLearn menyediakan library untuk mengaplikasikan standard scaler pada data.

In [11]:
from sklearn import preprocessing

In [12]:
data = [[12000000, 33], [35000000, 45], [4000000, 23], [6500000, 26], [9000000, 29]]

In [13]:
# buat object scaler dan panggil fungsi fit dari scaler pada data. 
# Fungsi fit memiliki fungsi untuk menghitung rata-rata dan deviasi standar dari setiap kolom atribut untuk kemudian dipakai pada fungsi transform.
scaler = preprocessing.StandardScaler().fit(data)

In [16]:
# Terakhir panggil fungsi transform untuk mengaplikasikan standard scaler pada data. 
# Untuk melihat hasil dari standard scaler kita tinggal memanggil objek scaler yang telah kita buat sebelumnya. 
data = scaler.transform(data)
data

array([[-0.11638732,  0.23521877],
       [ 1.94277296,  1.80334389],
       [-0.83261698, -1.07155217],
       [-0.60879521, -0.67952089],
       [-0.38497344, -0.28748961]])