README.md β Siap untuk GitHub Mata Kuliah: Basis Data Pengampu: Khamarudin Syarif
Pada Basis Data Part 8, pembahasan berfokus pada proses Data Cleansing (Pembersihan Data) menggunakan tools OpenRefine. Data cleansing merupakan tahap penting sebelum data dianalisis karena data mentah sering mengandung kesalahan seperti duplikasi, inkonsistensi penulisan, dan nilai kosong.
Dokumentasi ini disusun dalam format Markdown sehingga dapat langsung digunakan sebagai README di GitHub, serta telah dilengkapi dengan quiz dan jawaban lengkap sesuai materi Part 8.
Data Cleansing adalah proses memperbaiki atau menghapus data yang:
- Duplikat
- Tidak konsisten (huruf besar/kecil, salah ejaan)
- Tidak lengkap (NULL / kosong)
- Tidak sesuai format
Tujuan utama data cleansing adalah memastikan data akurat, konsisten, dan siap dianalisis.
OpenRefine adalah aplikasi open-source yang digunakan untuk:
- Membersihkan data
- Menyeragamkan format data
- Mendeteksi duplikasi
- Melakukan transformasi data
- Jalankan OpenRefine
- Klik Create Project
- Pilih file (CSV / Excel / TSV)
- Klik Next
- Klik Create Project
Digunakan untuk melihat variasi nilai dalam satu kolom.
Contoh penggunaan:
- Mendeteksi perbedaan penulisan:
Jakarta,jakarta,JKT
Digunakan untuk memfilter data numerik berdasarkan rentang nilai.
Beberapa transformasi umum di OpenRefine:
- To Uppercase β mengubah teks ke huruf besar
- To Lowercase β mengubah teks ke huruf kecil
- Trim leading and trailing whitespace β menghapus spasi berlebih
Fitur Cluster & Edit digunakan untuk:
- Mendeteksi data yang mirip
- Menggabungkan data dengan makna sama
Contoh:
Bandung,Bandung,BANDUNG
Setelah proses cleansing selesai, data dapat diekspor kembali.
- Klik Export
- Pilih format (CSV / Excel)
- Data siap digunakan
Apa tujuan utama data cleansing sebelum analisis data?
β Jawaban: Untuk memastikan data bersih, konsisten, dan akurat sehingga hasil analisis lebih valid.
Tools apa yang digunakan pada Part 8 untuk data cleansing?
β Jawaban: OpenRefine
Fitur apa yang digunakan untuk melihat variasi data dalam satu kolom?
β Jawaban: Text Facet
Bagaimana cara mengubah seluruh teks menjadi huruf kecil di OpenRefine?
β Jawaban: Edit cells β Common transforms β To lowercase
Apa fungsi fitur Cluster & Edit?
β Jawaban: Untuk mendeteksi dan menggabungkan data yang memiliki makna sama tetapi penulisan berbeda.
Sebutkan dua manfaat utama data cleansing.
β Jawaban:
- Meningkatkan kualitas dan akurasi data
- Mengurangi kesalahan dalam analisis dan pengambilan keputusan
Bagaimana cara mengekspor data hasil cleansing dari OpenRefine?
β Jawaban: Klik Export β pilih format file β data siap digunakan
Dengan memahami proses data cleansing menggunakan OpenRefine, pengguna dapat memastikan bahwa data yang digunakan untuk analisis sudah bersih, konsisten, dan siap digunakan. Materi ini melengkapi rangkaian pembelajaran Basis Data dari Part 1 hingga Part 8.