# Data Wrangling
adalah proses mengubah dan memetakan data mentah menjadi format yang lebih berguna dan dapat diakses untuk analisis. Proses ini melibatkan beberapa langkah penting, termasuk:
1. **Pengumpulan Data**: Mengumpulkan data dari berbagai sumber, seperti database, file CSV, API, atau web scraping.
2. **Pembersihan Data**: Mengidentifikasi dan memperbaiki kesalahan dalam data, seperti nilai yang hilang, duplikasi, atau inkonsistensi.
3. **Transformasi Data**: Mengubah data ke dalam format yang sesuai untuk analisis, seperti mengubah tipe data, menggabungkan kolom, atau membuat fitur baru.
4. **Penggabungan Data**: Menggabungkan data dari berbagai sumber atau tabel untuk mendapatkan informasi yang lebih lengkap.
5. **Validasi Data**: Memastikan bahwa data yang telah diolah sesuai dengan standar kualitas yang ditetapkan.
6. **Penyimpanan Data**: Menyimpan data yang telah diolah dalam format yang mudah diakses untuk analisis lebih lanjut.
Data wrangling sangat penting dalam proses analisis data karena kualitas data yang baik akan menghasilkan analisis yang lebih akurat dan dapat diandalkan. Alat dan teknik yang umum digunakan dalam data wrangling termasuk bahasa pemrograman seperti Python dan R, serta pustaka seperti Pandas, NumPy, dan dplyr.

Kenapa penting?
Data wrangling penting karena data mentah sering kali tidak terstruktur, tidak lengkap, atau mengandung kesalahan yang dapat mempengaruhi hasil analisis. Dengan melakukan data wrangling, kita dapat memastikan bahwa data yang digunakan untuk analisis adalah berkualitas tinggi, relevan, dan siap untuk digunakan. Hal ini membantu dalam pengambilan keputusan yang lebih baik dan mendukung proses bisnis yang lebih efisien.

## Data Quality
adalah ukuran sejauh mana data memenuhi kebutuhan pengguna dan tujuan analisis. Kualitas data yang baik sangat penting untuk memastikan bahwa hasil analisis akurat, dapat diandalkan, dan relevan. Beberapa dimensi utama dari kualitas data meliputi:
1. **Akurasi**: Sejauh mana data mencerminkan kenyataan atau nilai sebenarnya. Data yang akurat bebas dari kesalahan dan bias.
2. **Kelengkapan**: Sejauh mana semua data yang diperlukan tersedia. Data yang lengkap tidak memiliki nilai yang hilang atau kosong.
3. **Konsistensi**: Sejauh mana data seragam dan tidak bertentangan satu sama lain. Data yang konsisten memiliki format dan struktur yang sama di seluruh dataset.
4. **Ketepatan Waktu**: Sejauh mana data tersedia pada waktu yang tepat untuk analisis. Data yang tepat waktu relevan dengan konteks saat ini dan tidak usang.
5. **Keandalan**: Sejauh mana data dapat dipercaya dan dapat diandalkan untuk analisis. Data yang andal berasal dari sumber yang terpercaya dan telah melalui proses validasi.
6. **Relevansi**: Sejauh mana data sesuai dengan kebutuhan analisis dan tujuan bisnis. Data yang relevan memberikan informasi yang berguna untuk pengambilan keputusan.
7. **Aksesibilitas**: Sejauh mana data mudah diakses dan digunakan oleh pengguna yang membutuhkan. Data yang mudah diakses memiliki format yang dapat dibaca dan alat yang memadai untuk mengolahnya.
Memastikan kualitas data yang baik adalah langkah penting dalam proses analisis data, karena data yang buruk dapat menghasilkan kesimpulan yang salah dan keputusan yang tidak tepat. Oleh karena itu, organisasi perlu menerapkan praktik terbaik dalam pengelolaan data untuk menjaga kualitas data mereka.

## Flow Data Wrangling
1. Data Acquisition adalah proses mengumpulkan data dari berbagai sumber, seperti database, file CSV, API, atau web scraping. Tujuannya adalah untuk mendapatkan data mentah yang akan diolah lebih lanjut.
2. Data Loading and extracting adalah proses memuat data yang telah dikumpulkan ke dalam lingkungan analisis, seperti DataFrame di Python atau R. Proses ini juga melibatkan ekstraksi data dari format aslinya, seperti mengonversi file CSV menjadi DataFrame.
3. Data profiling adalah proses menganalisis data untuk memahami struktur, kualitas, dan karakteristiknya. Ini melibatkan pemeriksaan statistik dasar, identifikasi nilai yang hilang, duplikasi, dan inkonsistensi dalam data.
4. Data Cleaning adalah proses mengidentifikasi dan memperbaiki kesalahan dalam data, seperti nilai yang hilang, duplikasi, atau inkonsistensi. Tujuannya adalah untuk memastikan bahwa data yang digunakan untuk analisis adalah berkualitas tinggi.
5. Data Integration adalah proses menggabungkan data dari berbagai sumber atau tabel untuk mendapatkan informasi yang lebih lengkap. Ini melibatkan penyatuan data berdasarkan kunci yang sama atau penggabungan kolom yang relevan.
6. Data enrichment adalah proses menambahkan informasi tambahan ke dalam dataset untuk meningkatkan nilainya. Ini bisa melibatkan penggabungan data eksternal, pembuatan fitur baru, atau transformasi data yang ada.
7. Data storing adalah proses menyimpan data yang telah diolah dalam format yang mudah diakses untuk analisis lebih lanjut. Ini bisa melibatkan penyimpanan dalam database, file CSV, atau format lain yang sesuai dengan kebutuhan analisis.