# Data Cleaning 

## **Pengertian Data Cleaning**

**Data Cleaning (Pembersihan Data)** adalah proses mengidentifikasi dan memperbaiki atau menghapus data yang kotor, tidak akurat, atau tidak lengkap dalam dataset sebelum data tersebut digunakan untuk analisis lebih lanjut atau untuk melatih model machine learning. Data yang kotor dapat menyebabkan analisis yang salah, model yang tidak akurat, dan pengambilan keputusan yang keliru.

Dalam proses ini, kita memastikan bahwa data:
- **Konsisten** (tidak ada nilai yang bertentangan),
- **Akurat** (nilai sesuai dengan realitas),
- **Lengkap** (tidak ada data yang hilang atau kosong),
- **Relevan** (hanya data yang diperlukan yang digunakan).

---

## **Tahapan Utama dalam Data Cleaning**

### 1. Mengatasi Missing Values
- Menghapus data yang kosong (drop rows/columns).
- Mengisi nilai yang hilang (imputation) dengan mean, median, mode, atau menggunakan algoritma tertentu.

### 2. Menghapus Data Duplikat
- Mengidentifikasi dan menghapus data yang sama yang muncul lebih dari satu kali dalam dataset.

### 3. Menangani Data yang Tidak Konsisten
- Menyelaraskan format data (misalnya tanggal, huruf kapital, dll).
- Mengatasi inkonsistensi dalam penulisan (misalnya "USA" dan "United States").

### 4. Menangani Outlier
- Mengidentifikasi nilai ekstrem yang tidak normal dan memutuskan apakah harus dihapus atau disesuaikan.

### 5. Memvalidasi Data
- Memastikan bahwa semua data berada dalam rentang nilai yang masuk akal dan tidak melanggar aturan bisnis.

### 6. Mengubah Format Data
- Mengubah tipe data sesuai kebutuhan analisis atau model machine learning (misalnya konversi string menjadi angka).

---

## **Kenapa Data Cleaning Sangat Penting?**

### 1. Menghindari Kesalahan Analisis
Data yang tidak lengkap atau salah dapat menyebabkan kesimpulan yang salah, yang berpotensi merugikan bisnis.

### 2. Mengurangi Waktu dan Biaya
Meskipun data cleaning memerlukan waktu di awal, namun ini menghemat waktu di tahap analisis dan modeling. Data yang bersih meminimalisir perbaikan di tahap selanjutnya.

### 3. Meningkatkan Kredibilitas Hasil Analisis
Hasil analisis yang didasarkan pada data yang bersih akan lebih dipercaya oleh stakeholder.


## **Kesimpulan**
Data cleaning adalah langkah krusial dalam setiap proyek data analyst, data science, atau machine learning. Proses ini memastikan bahwa data yang digunakan adalah berkualitas tinggi, yang pada akhirnya menghasilkan analisis yang lebih baik, keputusan yang lebih tepat, dan model machine learning yang lebih akurat.


### 1. Missing Value

**Missing Value** adalah data yang kosong atau tidak tersedia dalam dataset. Nilai ini sering ditandai dengan `NaN` (Not a Number) atau `null` di dalam dataset.


In [1]:
import pandas as pd
# Contoh dataset survei
df = pd.read_csv(r"./kumpulan-data/responden_data.csv")

#### Identifikasi Missing Value
Langkah pertama dalam menangani missing value adalah melihat apakah ada data yang hilang. Biasanya missing value ditandai dengan NaN (Not a Number) atau None.

In [2]:
df.head()

Unnamed: 0,Responden,Usia,Pekerjaan,Pendapatan
0,A,25.0,Pegawai,5000000.0
1,B,30.0,Wirausaha,7000000.0
2,C,22.0,,3000000.0
3,D,,Mahasiswa,0.0
4,E,28.0,,


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Responden   30 non-null     object 
 1   Usia        23 non-null     float64
 2   Pekerjaan   23 non-null     object 
 3   Pendapatan  25 non-null     float64
dtypes: float64(2), object(2)
memory usage: 1.1+ KB


#### 1.1 Menghitung Missing Value per Kolom dan Baris

In [4]:
df.isnull().sum()

Responden     0
Usia          7
Pekerjaan     7
Pendapatan    5
dtype: int64

In [5]:
df.isnull().any(axis=1).sum()

np.int64(15)

In [6]:
df.notna().sum()

Responden     30
Usia          23
Pekerjaan     23
Pendapatan    25
dtype: int64

In [7]:
df.notna().any(axis=1).sum()

np.int64(30)

#### 1.2 Menghitung Persentase Missing Value

In [8]:
missing_value = df.isna().sum()
missing_percentage = (missing_value / len(df)) * 100

df_missing_value = pd.DataFrame({"Missing Value":missing_value, "Missing Percentage":missing_percentage})
df_missing_value

Unnamed: 0,Missing Value,Missing Percentage
Responden,0,0.0
Usia,7,23.333333
Pekerjaan,7,23.333333
Pendapatan,5,16.666667


#### Penyebab Missing Value
1. **Kesalahan Input Data:** Data tidak direkam dengan benar karena human error atau sistem.
2. **Data Tidak Relevan:** Nilai tidak tersedia karena kolom tersebut tidak berlaku untuk kasus tertentu.
3. **Kerusakan Data:** File rusak atau sebagian data tidak terbaca.
4. **Penggabungan Dataset:** Data yang diambil dari beberapa sumber dapat menghasilkan kolom kosong jika informasi tidak tersedia di salah satu sumber.

#### 1. Menghapus Missing Value (dropna)

Situasi:
- Jumlah data yang hilang dari kolom itu lebih dari 50 % data maka kolom bisa di drop, 
- Jumlah data yang hilang dari baris sangat kecil (<5%) maka baris bisa di drop.

Note : Sebelum melakukan handle missing value. sangat perlu untuk mengetahui data yang di olah terlebih dahulu

---
**Pendapat Ahli:**
1. Para ahli statistik seperti Little and Rubin (1987) menyarankan bahwa ketika jumlah data hilang sangat kecil (misalnya, <5%), penghapusan baris tidak akan berdampak signifikan pada hasil analisis secara keseluruhan.

2. Andrew Ng dalam kursus Machine Learning menyarankan untuk mempertimbangkan relevansi dan kelengkapan data sebelum menyertakannya dalam model. Jika lebih dari 50% data kosong, kemungkinan besar kolom tersebut tidak memiliki cukup informasi untuk memberikan kontribusi berarti dalam analisis.

3. Hadley Wickham, seorang ahli data science dan penulis buku "R for Data Science", menyarankan bahwa jika nilai kosong dalam sebuah kolom terlalu besar (biasanya >50%), kolom tersebut cenderung lebih baik dihapus karena mengisi nilai kosong sebanyak itu berisiko memperkenalkan bias yang signifikan.

4. Sebastian Raschka, seorang ahli machine learning, dalam bukunya "Python Machine Learning", juga menekankan bahwa kolom dengan lebih dari 50% nilai kosong sering kali dihapus karena akan terlalu sulit untuk memperkirakan nilai kosong tanpa bias.


In [9]:
#menghapus baris yang ada missing value
df.dropna(inplace =True)

In [10]:
df

Unnamed: 0,Responden,Usia,Pekerjaan,Pendapatan
0,A,25.0,Pegawai,5000000.0
1,B,30.0,Wirausaha,7000000.0
6,G,22.0,Pegawai,7000000.0
8,I,30.0,Wirausaha,7000000.0
9,J,22.0,Mahasiswa,0.0
11,L,28.0,Pegawai,0.0
13,N,28.0,Pegawai,0.0
17,R,25.0,Mahasiswa,7000000.0
20,U,22.0,Wirausaha,5000000.0
21,V,22.0,Wirausaha,5000000.0


In [45]:
df = pd.read_csv(r"./kumpulan-data/responden_data.csv")

In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Responden   30 non-null     object 
 1   Usia        23 non-null     float64
 2   Pekerjaan   23 non-null     object 
 3   Pendapatan  25 non-null     float64
dtypes: float64(2), object(2)
memory usage: 1.1+ KB


In [13]:
df_clean_missing_thresh_3 = df.dropna(thresh=3)

In [14]:
df.dropna(subset=['Pendapatan'])

Unnamed: 0,Responden,Usia,Pekerjaan,Pendapatan
0,A,25.0,Pegawai,5000000.0
1,B,30.0,Wirausaha,7000000.0
2,C,22.0,,3000000.0
3,D,,Mahasiswa,0.0
5,F,,Pegawai,3000000.0
6,G,22.0,Pegawai,7000000.0
7,H,25.0,,3000000.0
8,I,30.0,Wirausaha,7000000.0
9,J,22.0,Mahasiswa,0.0
11,L,28.0,Pegawai,0.0


In [15]:
df.drop(columns=['Pendapatan'], inplace=True)

In [16]:
df

Unnamed: 0,Responden,Usia,Pekerjaan
0,A,25.0,Pegawai
1,B,30.0,Wirausaha
2,C,22.0,
3,D,,Mahasiswa
4,E,28.0,
5,F,,Pegawai
6,G,22.0,Pegawai
7,H,25.0,
8,I,30.0,Wirausaha
9,J,22.0,Mahasiswa


### 2. Mengisi Missing Value

Menggunakan `fillna()` untuk mengganti nilai kosong dengan nilai tertentu.

#### 2.1 Dengan Nilai Tertentu (Seperti 0)

**Kapan Digunakan:**

- **Data Numerik:**  
  Kolom mewakili jumlah atau hitungan.
- **Nilai Kosong Bermakna "Tidak Ada Aktivitas":**  
  Contoh: Jumlah transaksi pelanggan, di mana `NaN` berarti tidak ada transaksi.
- **Dataset Tidak Berisi Korelasi Kompleks:**  
  Tidak ada hubungan mendalam yang bisa terganggu dengan mengisi nilai kosong.

**Situasi:**

- **Dataset e-commerce:**  
  Kolom jumlah pembelian pelanggan yang kosong.
- **Data survei:**  
  Kolom frekuensi aktivitas di mana kosong berarti "tidak pernah dilakukan."


In [17]:
df = pd.read_csv(r"./kumpulan-data/responden_data.csv")
df

Unnamed: 0,Responden,Usia,Pekerjaan,Pendapatan
0,A,25.0,Pegawai,5000000.0
1,B,30.0,Wirausaha,7000000.0
2,C,22.0,,3000000.0
3,D,,Mahasiswa,0.0
4,E,28.0,,
5,F,,Pegawai,3000000.0
6,G,22.0,Pegawai,7000000.0
7,H,25.0,,3000000.0
8,I,30.0,Wirausaha,7000000.0
9,J,22.0,Mahasiswa,0.0


In [18]:
df.fillna(0)

Unnamed: 0,Responden,Usia,Pekerjaan,Pendapatan
0,A,25.0,Pegawai,5000000.0
1,B,30.0,Wirausaha,7000000.0
2,C,22.0,0,3000000.0
3,D,0.0,Mahasiswa,0.0
4,E,28.0,0,0.0
5,F,0.0,Pegawai,3000000.0
6,G,22.0,Pegawai,7000000.0
7,H,25.0,0,3000000.0
8,I,30.0,Wirausaha,7000000.0
9,J,22.0,Mahasiswa,0.0


In [19]:
df['Pendapatan'] = df['Pendapatan'].fillna(0)

In [20]:
df

Unnamed: 0,Responden,Usia,Pekerjaan,Pendapatan
0,A,25.0,Pegawai,5000000.0
1,B,30.0,Wirausaha,7000000.0
2,C,22.0,,3000000.0
3,D,,Mahasiswa,0.0
4,E,28.0,,0.0
5,F,,Pegawai,3000000.0
6,G,22.0,Pegawai,7000000.0
7,H,25.0,,3000000.0
8,I,30.0,Wirausaha,7000000.0
9,J,22.0,Mahasiswa,0.0


### 2. Mengisi Missing Value

#### 2.1 Forward Fill (ffill) dan Backward Fill (bfill)

**Kapan Digunakan:**

- **Data Time Series atau Berurutan:**
  - Data memiliki urutan logis, seperti data waktu atau lokasi geografis.
  - Nilai sebelumnya atau selanjutnya relevan untuk mengisi celah.
- **Data Tidak Fluktuatif:**
  - Nilai antar waktu cenderung konsisten.
---
**Situasi:**

- **Time Series Data:**
  - Dataset penjualan harian dengan beberapa hari kosong karena sistem gagal merekam data.
  - Data cuaca harian di mana sensor gagal pada beberapa waktu tertentu.
- **Data Lokasi:**
  - Dataset lokasi kendaraan yang hilang pada beberapa titik waktu, diisi dengan posisi sebelumnya.
---
**Pendapat Ahli:**
- Wes McKinney, pencipta Pandas, menyebutkan dalam bukunya "Python for Data Analysis" bahwa forward fill cocok untuk data deret waktu di mana pola nilai sebelumnya relevan untuk mengisi celah.
- TensorFlow Time Series Guide: Dalam pengolahan data untuk model time series, sering kali digunakan pengisian data dengan nilai sebelumnya jika data bersifat terus menerus.
- Sebastian Raschka: Dalam bukunya "Python Machine Learning", ia menyebutkan bahwa forward fill atau backward fill dapat digunakan untuk mengisi data missing pada dataset berurutan jika nilai yang berdekatan memiliki hubungan kuat.


In [46]:
df = pd.read_csv(r"./kumpulan-data/responden_data.csv")
df

Unnamed: 0,Responden,Usia,Pekerjaan,Pendapatan
0,A,25.0,Pegawai,5000000.0
1,B,30.0,Wirausaha,7000000.0
2,C,22.0,,3000000.0
3,D,,Mahasiswa,0.0
4,E,28.0,,
5,F,,Pegawai,3000000.0
6,G,22.0,Pegawai,7000000.0
7,H,25.0,,3000000.0
8,I,30.0,Wirausaha,7000000.0
9,J,22.0,Mahasiswa,0.0


In [22]:
df['Pendapatan'] = df['Pendapatan'].bfill()
df

Unnamed: 0,Responden,Usia,Pekerjaan,Pendapatan
0,A,25.0,Pegawai,5000000.0
1,B,30.0,Wirausaha,7000000.0
2,C,22.0,,3000000.0
3,D,,Mahasiswa,0.0
4,E,28.0,,3000000.0
5,F,,Pegawai,3000000.0
6,G,22.0,Pegawai,7000000.0
7,H,25.0,,3000000.0
8,I,30.0,Wirausaha,7000000.0
9,J,22.0,Mahasiswa,0.0


## 2. Mengisi Missing Value

### 2.3 Mengisi Missing Values dengan Mean, Median, atau Modus

Mengisi nilai yang hilang (missing values) dengan **mean** (rata-rata), **median**, atau **modus** adalah teknik sederhana yang umum digunakan dalam proses data cleaning. Pemilihan teknik yang tepat tergantung pada jenis data, distribusi, dan konteksnya. Berikut adalah penjelasan masing-masing metode, situasi relevan, dan pendapat ahli:

---

#### 1. Mengisi dengan Mean (Rata-Rata)

**Kapan Digunakan:**
- Data bersifat numerik.
- Data terdistribusi secara normal (tidak banyak outlier).
- Rata-rata merepresentasikan pusat data dengan baik.

**Contoh Situasi:**
- Data nilai ujian siswa, di mana beberapa nilai hilang.
- Data penjualan produk dengan sedikit nilai yang hilang.

---

#### 2. Mengisi dengan Median

**Kapan Digunakan:**
- Data bersifat numerik tetapi tidak terdistribusi secara normal (skewed).
- Terdapat banyak outlier yang memengaruhi rata-rata.

**Contoh Situasi:**
- Data pendapatan masyarakat, di mana sebagian besar pendapatan berada di kategori menengah, tetapi ada beberapa nilai ekstrem.
- Data durasi kunjungan pelanggan ke situs web.

---

#### 3. Mengisi dengan Modus

**Kapan Digunakan:**
- Data bersifat kategorikal atau nominal.
- Kategori dengan frekuensi tertinggi dianggap paling mewakili data yang hilang.

**Contoh Situasi:**
- Data preferensi pelanggan (misalnya, warna favorit atau produk favorit).
- Data demografis seperti gender atau wilayah geografis.

---

Setiap metode memiliki kelebihan dan kekurangannya, sehingga penting untuk memahami karakteristik data sebelum memilih teknik pengisian missing values.


In [47]:
df = pd.read_csv(r"./kumpulan-data/responden_data.csv")
df

Unnamed: 0,Responden,Usia,Pekerjaan,Pendapatan
0,A,25.0,Pegawai,5000000.0
1,B,30.0,Wirausaha,7000000.0
2,C,22.0,,3000000.0
3,D,,Mahasiswa,0.0
4,E,28.0,,
5,F,,Pegawai,3000000.0
6,G,22.0,Pegawai,7000000.0
7,H,25.0,,3000000.0
8,I,30.0,Wirausaha,7000000.0
9,J,22.0,Mahasiswa,0.0


In [24]:
df['Pendapatan'] = df['Pendapatan'].fillna(df['Pendapatan'].median())

In [25]:
df['Usia'] = df['Usia'].fillna(df['Usia'].mean())

In [26]:
df

Unnamed: 0,Responden,Usia,Pekerjaan,Pendapatan
0,A,25.0,Pegawai,5000000.0
1,B,30.0,Wirausaha,7000000.0
2,C,22.0,,3000000.0
3,D,26.347826,Mahasiswa,0.0
4,E,28.0,,3000000.0
5,F,26.347826,Pegawai,3000000.0
6,G,22.0,Pegawai,7000000.0
7,H,25.0,,3000000.0
8,I,30.0,Wirausaha,7000000.0
9,J,22.0,Mahasiswa,0.0


In [27]:
df['Pekerjaan'] = df['Pekerjaan'].fillna(df['Pekerjaan'].mode()[0])

In [28]:
df

Unnamed: 0,Responden,Usia,Pekerjaan,Pendapatan
0,A,25.0,Pegawai,5000000.0
1,B,30.0,Wirausaha,7000000.0
2,C,22.0,Pegawai,3000000.0
3,D,26.347826,Mahasiswa,0.0
4,E,28.0,Pegawai,3000000.0
5,F,26.347826,Pegawai,3000000.0
6,G,22.0,Pegawai,7000000.0
7,H,25.0,Pegawai,3000000.0
8,I,30.0,Wirausaha,7000000.0
9,J,22.0,Mahasiswa,0.0


### 2. Mengisi Missing Value

#### 2.4 Interpolasi Missing Values (Interpolate)

Interpolasi digunakan untuk mengisi nilai kosong berdasarkan pola atau tren dalam data. Pendekatan ini cocok untuk data numerik atau data yang berurutan. Berikut adalah penjelasan kapan dan bagaimana interpolasi diterapkan, situasi yang relevan.

---

### Kapan Digunakan

1. **Data Numerik Berurutan atau Kontinu**:
   - Data numerik yang menunjukkan pola linier atau kontinu.
   - Contoh: Data suhu, data penjualan, atau data keuangan.

2. **Data Time Series**:
   - Data berurutan di mana tren atau pola dapat diasumsikan konsisten di antara titik-titik waktu tertentu.

3. **Memperkirakan Nilai yang Hilang Berdasarkan Tren**:
   - Nilai kosong dapat diisi dengan estimasi yang mempertimbangkan distribusi atau tren data di sekitarnya.

---

### Situasi

- **Dataset Cuaca**:
  - Kolom suhu harian, kelembaban, atau tekanan udara, di mana beberapa hari tidak terekam karena kesalahan teknis.

- **Data Keuangan**:
  - Dataset harga saham atau nilai tukar mata uang yang memiliki data hilang pada beberapa waktu. Tren harga sebelumnya dan sesudahnya bisa digunakan untuk mengisi nilai.

- **Data Sensor**:
  - Data yang berasal dari perangkat sensor yang terkadang gagal merekam data. Nilai interpolasi membantu menjaga kesinambungan analisis.

---



In [29]:
data = {
    'Tanggal': [
        '2025-01-01', '2025-01-02', '2025-01-03', '2025-01-04',
        '2025-01-05', '2025-01-06', '2025-01-07', '2025-01-08',
        '2025-01-09', '2025-01-10'
    ],
    'Harga_Saham': [
        100.0, 102.0, None, 108.0,
        None, None, 115.0, 117.0,
        None, 120.0
    ]
}
df = pd.DataFrame(data)

In [30]:
df

Unnamed: 0,Tanggal,Harga_Saham
0,2025-01-01,100.0
1,2025-01-02,102.0
2,2025-01-03,
3,2025-01-04,108.0
4,2025-01-05,
5,2025-01-06,
6,2025-01-07,115.0
7,2025-01-08,117.0
8,2025-01-09,
9,2025-01-10,120.0


In [31]:
df.interpolate(method='linear',inplace=True)

  df.interpolate(method='linear',inplace=True)


In [32]:
df

Unnamed: 0,Tanggal,Harga_Saham
0,2025-01-01,100.0
1,2025-01-02,102.0
2,2025-01-03,105.0
3,2025-01-04,108.0
4,2025-01-05,110.333333
5,2025-01-06,112.666667
6,2025-01-07,115.0
7,2025-01-08,117.0
8,2025-01-09,118.5
9,2025-01-10,120.0


### 2. Mengisi Missing Value
#### 2.5 **Mengganti Missing Value dengan `replace()`**

Metode `replace()` digunakan untuk mengganti nilai tertentu, termasuk *missing values* (seperti `NaN` atau `None`), dengan nilai lain yang lebih bermakna. Ini adalah cara fleksibel untuk menangani data hilang ketika pengisian atau interpolasi tidak relevan.

---

##### **Kapan Digunakan**

1. **Mengganti Nilai Kosong dengan Label Deskriptif:**
   - Cocok jika Anda ingin menandai atau memberi label pada data kosong untuk mempertahankan informasi bahwa data tersebut hilang, tanpa kehilangan entri asli.
   - Contoh: Mengganti nilai kosong dengan string seperti `"Data Hilang"` atau `"Tidak Tersedia"`.

2. **Saat Pengisian Nilai Tidak Memungkinkan:**
   - Ketika tidak ada dasar atau konteks untuk mengisi nilai yang hilang, tetapi ingin tetap mempertahankan catatan.
   - Contoh: Data kategoris seperti nama pelanggan atau preferensi yang sulit diisi dengan estimasi.

3. **Dalam Analisis yang Tidak Membutuhkan Nilai Numerik:**
   - Jika data hilang tidak berdampak pada perhitungan statistik, tetapi harus tetap ada untuk interpretasi atau pelaporan.

---

##### **Situasi yang Relevan**

- **Dataset Pelanggan:**
  - Kolom seperti alamat email atau nomor telepon, di mana data hilang sulit diisi secara logis.
  - Solusi: Mengganti dengan `"Data Tidak Tersedia"` untuk menunjukkan kekosongan.

- **Survey atau Kuesioner:**
  - Responden tidak mengisi beberapa kolom, dan data tersebut tidak dapat diasumsikan.
  - Solusi: Menggunakan label seperti `"Tidak Dijawab"`.

- **Dataset yang Akan Digunakan untuk Laporan:**
  - Dalam laporan visual atau tabel, mengganti nilai kosong dengan string yang ramah pembaca membantu interpretasi.

---



In [33]:
# Dataset contoh
data = {'Nama': ['Alice', None, 'Charlie'],
        'Umur': [25, 30, None],
        'Kota': ['Jakarta', None, 'Bandung']}

df = pd.DataFrame(data)
df

Unnamed: 0,Nama,Umur,Kota
0,Alice,25.0,Jakarta
1,,30.0,
2,Charlie,,Bandung


In [34]:
df.replace({None:'Data Hilang'})

Unnamed: 0,Nama,Umur,Kota
0,Alice,25.0,Jakarta
1,Data Hilang,30.0,Data Hilang
2,Charlie,,Bandung


### Fungsi Manipulasi dan Pemeriksaan Data Missing dalam Pandas

<table style="text-align: left; width: 100%;">
  <thead>
    <tr>
      <th>Fungsi</th>
      <th>Deskripsi</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>`isna()`</td>
      <td>Mengecek nilai `NaN`.</td>
    </tr>
    <tr>
      <td>`notna()`</td>
      <td>Mengecek nilai bukan `NaN`.</td>
    </tr>
    <tr>
      <td>`dropna()`</td>
      <td>Menghapus baris/kolom dengan `NaN`.</td>
    </tr>
    <tr>
      <td>`fillna()`</td>
      <td>Mengisi nilai `NaN` dengan nilai tertentu.</td>
    </tr>
    <tr>
      <td>`replace()`</td>
      <td>Mengganti nilai tertentu, termasuk `NaN`.</td>
    </tr>
    <tr>
      <td>`interpolate()`</td>
      <td>Mengisi `NaN` dengan interpolasi.</td>
    </tr>
    <tr>
      <td>`count()`</td>
      <td>Menghitung jumlah elemen bukan `NaN`.</td>
    </tr>
    <tr>
      <td>`nunique()`</td>
      <td>Menghitung jumlah nilai unik, mengabaikan `NaN`.</td>
    </tr>
    <tr>
      <td>`any()`</td>
      <td>Mengecek apakah ada `True` atau `NaN`.</td>
    </tr>
    <tr>
      <td>`all()`</td>
      <td>Mengecek apakah semua nilai `True` atau `NaN`.</td>
    </tr>
  </tbody>
</table>


### **Mengatasi Data Duplikat dengan Pandas**

Data duplikat adalah masalah umum dalam analisis data yang dapat menyebabkan hasil analisis tidak akurat. Data duplikat sering kali muncul karena kesalahan input data, penggabungan data dari berbagai sumber, atau proses otomatis yang tidak terkendali. Dalam Python, pustaka Pandas menyediakan cara efektif untuk mendeteksi dan menghapus data duplikat.

---

### **Cara Mengatasi Data Duplikat**

#### 1. **Mendeteksi Data Duplikat**
Pandas memiliki fungsi `duplicated()` yang digunakan untuk mendeteksi data duplikat. Fungsi ini mengembalikan nilai `True` untuk baris yang dianggap duplikat.

Sintax:
```python
# Mendeteksi data duplikat
df.duplicated()
```

Hasil:
```
0    False
1    False
2    False
3    False
4     True
dtype: bool
```

#### 2. **Menghapus Data Duplikat**
Untuk menghapus data duplikat, kita dapat menggunakan fungsi `drop_duplicates()`. Fungsi ini menghapus baris duplikat dan mempertahankan baris pertama secara default.

Sintax:
```python
# Menghapus data duplikat
df_cleaned = df.drop_duplicates()
```

#### 3. **Mengatasi Duplikasi dengan Kriteria**
Kadang, kita ingin mendeteksi duplikat berdasarkan kolom tertentu. Parameter `subset` memungkinkan kita mendefinisikan kolom mana yang digunakan untuk mendeteksi duplikat.

Sintax:
```python
# Mendeteksi duplikat berdasarkan kolom 'Name'
df.duplicated(subset=['Name'])
```


### **Contoh Kasus Data Duplikat**

1. **Penggabungan Dataset**
   Saat menggabungkan dua dataset yang memiliki kolom yang sama, duplikasi dapat muncul jika ada data yang identik.

   **Solusi:** Gunakan `drop_duplicates()` setelah penggabungan dataset.

2. **Data Sensor**
   Dalam sistem IoT atau data log, perangkat mungkin mengirim data yang sama secara berulang.

   **Solusi:** Identifikasi duplikasi berdasarkan waktu atau ID perangkat.

3. **Pengisian Data Manual**
   Saat data dimasukkan secara manual oleh pengguna, duplikasi mungkin muncul karena kesalahan manusia.

   **Solusi:** Terapkan validasi data sebelum memasukkan ke database.

---

### **Pendapat Ahli tentang Membersihkan Data Duplikat**

1. **Jeffrey Heer** (Ahli Visualisasi Data):  
   *"Membersihkan data adalah langkah pertama yang penting dalam proses analisis. Menghapus duplikat bukan hanya tentang menghilangkan data berlebih, tetapi juga menjaga kualitas dan integritas analisis."*

2. **Cathy O'Neil** (Data Scientist):  
   *"Data yang kotor, termasuk duplikat, dapat menghasilkan keputusan yang salah. Proses pembersihan data, termasuk identifikasi dan penghapusan duplikasi, adalah inti dari analisis data yang bertanggung jawab."*

3. **Hadley Wickham** (Pakar Data dan Penulis `tidyverse`):  
   *"Sebuah dataset yang bersih lebih mudah dieksplorasi dan dianalisis. Deteksi duplikat harus menjadi bagian dari setiap proses pembersihan data untuk memastikan hasil yang dapat dipercaya."*

---

Dengan pendekatan yang sistematis, mengatasi data duplikat menjadi langkah yang mudah dan memberikan fondasi yang kuat untuk analisis data selanjutnya.


In [35]:
# Contoh dataset
data = {
    'ID': [1, 2, 3, 4, 2],
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Bob']
}
df = pd.DataFrame(data)
df

Unnamed: 0,ID,Name
0,1,Alice
1,2,Bob
2,3,Charlie
3,4,David
4,2,Bob


In [36]:
df.duplicated().sum()

np.int64(1)

In [37]:
df_clean_duplicate = df.drop_duplicates()

In [38]:
df_clean_duplicate

Unnamed: 0,ID,Name
0,1,Alice
1,2,Bob
2,3,Charlie
3,4,David


### Menstandarkan Format Data

Data yang tidak konsisten dapat menyebabkan analisis menjadi tidak akurat dan menyulitkan pengolahan data lebih lanjut. Salah satu bentuk inkonsistensi yang umum adalah perbedaan format, seperti penggunaan huruf besar/kecil atau adanya spasi tambahan. Oleh karena itu, penting untuk menstandarkan format data sebelum analisis.

#### **Kasus Umum Inkonsistensi Format Data**

1. **Perbedaan Huruf Besar/Kecil**
   - Data dalam kolom yang sama memiliki variasi huruf besar/kecil, misalnya "Jakarta" vs "jakarta".

2. **Spasi Tambahan**
   - Spasi di awal, akhir, atau di antara kata yang tidak diperlukan, seperti " Surabaya " atau "Bandung  Barat".

3. **Format Tanggal yang Berbeda**
   - Format tanggal yang tidak konsisten, seperti "DD/MM/YYYY" dan "YYYY-MM-DD" dalam dataset yang sama.

4. **Karakter Khusus**
   - Penggunaan simbol atau karakter yang tidak seragam, misalnya "ID-123" dan "ID123".

5. **Data yang Tidak Terstruktur**
   - Variasi penulisan untuk data yang sama, seperti "Jl. Sudirman" vs "Jalan Sudirman".

#### **Cara Mengatasi Inkonsistensi Format Data**

1. **Menggunakan Fungsi Standarisasi pada Software/Tools**
   - Gunakan fungsi bawaan dari perangkat lunak seperti Excel (TRIM, UPPER, LOWER) atau pustaka Python seperti Pandas untuk membersihkan data:
     - Mengubah huruf menjadi huruf kecil atau besar: `data['column'].str.lower()`
     - Menghapus spasi tambahan: `data['column'].str.strip()`
     - Menstandarkan format tanggal: `pd.to_datetime(data['date_column'])`

2. **Penerapan Regex (Regular Expressions)**
   - Gunakan regex untuk membersihkan karakter tertentu atau menyesuaikan pola data, misalnya:
     - Menghapus karakter selain angka: `data['column'].str.replace(r'[^0-9]', '')`

3. **Membuat Mapping Table**
   - Buat tabel referensi untuk standarisasi nilai tertentu, seperti "Jalan" menjadi "Jl.".

4. **Automasi dengan Script**
   - Tulis skrip untuk membersihkan data secara otomatis, terutama untuk dataset besar yang membutuhkan konsistensi tinggi.

5. **Validasi dan Verifikasi**
   - Selalu lakukan pengecekan terhadap data hasil standarisasi untuk memastikan akurasi.


In [39]:
df = pd.read_csv(r"./kumpulan-data/data_awal_sebelum_format.csv")
display(df)

Unnamed: 0,ID,Nama,Kota,Tanggal Bergabung,Alamat
0,ID-001,Ahmad Hakim,jakarta,12/08/2023,Jl. Sudirman No. 12
1,ID-002,Budi Santoso,Surabaya,2023-08-15,Jalan Sudirman No 15
2,ID-003,Ratna Aulia,BANDUNG,15-08-2023,Jln. Gatot Subroto
3,id-004,Lisa Anggraini,bandung,16.08.2023,Jl. Gatot Subroto
4,ID 005,Rendi Pratama,Surabaya,12/08/2023,jl gatot subroto
5,ID-006,Dwi Supriyadi,Surabaya,15/08/2023,Jln Gatot Subroto


In [40]:
# Memperbesihkan format id pada data
df['ID'] =df['ID'].str.replace('[- ]','', regex=True).str.upper()
display(df)

Unnamed: 0,ID,Nama,Kota,Tanggal Bergabung,Alamat
0,ID001,Ahmad Hakim,jakarta,12/08/2023,Jl. Sudirman No. 12
1,ID002,Budi Santoso,Surabaya,2023-08-15,Jalan Sudirman No 15
2,ID003,Ratna Aulia,BANDUNG,15-08-2023,Jln. Gatot Subroto
3,ID004,Lisa Anggraini,bandung,16.08.2023,Jl. Gatot Subroto
4,ID005,Rendi Pratama,Surabaya,12/08/2023,jl gatot subroto
5,ID006,Dwi Supriyadi,Surabaya,15/08/2023,Jln Gatot Subroto


In [41]:
df['Nama'] = df['Nama'].str.strip()
df

Unnamed: 0,ID,Nama,Kota,Tanggal Bergabung,Alamat
0,ID001,Ahmad Hakim,jakarta,12/08/2023,Jl. Sudirman No. 12
1,ID002,Budi Santoso,Surabaya,2023-08-15,Jalan Sudirman No 15
2,ID003,Ratna Aulia,BANDUNG,15-08-2023,Jln. Gatot Subroto
3,ID004,Lisa Anggraini,bandung,16.08.2023,Jl. Gatot Subroto
4,ID005,Rendi Pratama,Surabaya,12/08/2023,jl gatot subroto
5,ID006,Dwi Supriyadi,Surabaya,15/08/2023,Jln Gatot Subroto


In [42]:
df['Kota'] = df['Kota'].str.strip()
df['Kota'] = df['Kota'].str.title()
df

Unnamed: 0,ID,Nama,Kota,Tanggal Bergabung,Alamat
0,ID001,Ahmad Hakim,Jakarta,12/08/2023,Jl. Sudirman No. 12
1,ID002,Budi Santoso,Surabaya,2023-08-15,Jalan Sudirman No 15
2,ID003,Ratna Aulia,Bandung,15-08-2023,Jln. Gatot Subroto
3,ID004,Lisa Anggraini,Bandung,16.08.2023,Jl. Gatot Subroto
4,ID005,Rendi Pratama,Surabaya,12/08/2023,jl gatot subroto
5,ID006,Dwi Supriyadi,Surabaya,15/08/2023,Jln Gatot Subroto


In [43]:
df['Tanggal Bergabung'] = pd.to_datetime(df['Tanggal Bergabung'], format='mixed').dt.strftime('%d-%m-%Y')
df

Unnamed: 0,ID,Nama,Kota,Tanggal Bergabung,Alamat
0,ID001,Ahmad Hakim,Jakarta,08-12-2023,Jl. Sudirman No. 12
1,ID002,Budi Santoso,Surabaya,15-08-2023,Jalan Sudirman No 15
2,ID003,Ratna Aulia,Bandung,15-08-2023,Jln. Gatot Subroto
3,ID004,Lisa Anggraini,Bandung,16-08-2023,Jl. Gatot Subroto
4,ID005,Rendi Pratama,Surabaya,08-12-2023,jl gatot subroto
5,ID006,Dwi Supriyadi,Surabaya,15-08-2023,Jln Gatot Subroto


In [44]:
df['Alamat'] = df['Alamat'].replace('\\.','', regex=True).str.title()
df['Alamat'] = df['Alamat'].replace('Jln|Jl','Jalan', regex=True)
df

Unnamed: 0,ID,Nama,Kota,Tanggal Bergabung,Alamat
0,ID001,Ahmad Hakim,Jakarta,08-12-2023,Jalan Sudirman No 12
1,ID002,Budi Santoso,Surabaya,15-08-2023,Jalan Sudirman No 15
2,ID003,Ratna Aulia,Bandung,15-08-2023,Jalan Gatot Subroto
3,ID004,Lisa Anggraini,Bandung,16-08-2023,Jalan Gatot Subroto
4,ID005,Rendi Pratama,Surabaya,08-12-2023,Jalan Gatot Subroto
5,ID006,Dwi Supriyadi,Surabaya,15-08-2023,Jalan Gatot Subroto
