# Persiapan Data

[Sumber Notebook asli dari *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio oleh Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Mengeksplorasi informasi `DataFrame`

> **Tujuan pembelajaran:** Pada akhir subbagian ini, Anda diharapkan nyaman dalam menemukan informasi umum tentang data yang disimpan dalam pandas DataFrames.

Setelah Anda memuat data ke dalam pandas, kemungkinan besar data tersebut akan berada dalam bentuk `DataFrame`. Namun, jika data dalam `DataFrame` Anda memiliki 60.000 baris dan 400 kolom, bagaimana Anda mulai memahami apa yang sedang Anda kerjakan? Untungnya, pandas menyediakan beberapa alat yang praktis untuk dengan cepat melihat informasi umum tentang sebuah `DataFrame` selain beberapa baris pertama dan terakhir.

Untuk mengeksplorasi fungsi ini, kita akan mengimpor pustaka Python scikit-learn dan menggunakan dataset ikonik yang telah dilihat oleh setiap ilmuwan data ratusan kali: dataset *Iris* milik ahli biologi Inggris Ronald Fisher yang digunakan dalam makalahnya tahun 1936 "The use of multiple measurements in taxonomic problems":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Kami telah memuat Dataset Iris ke dalam variabel `iris_df`. Sebelum mendalami data, akan sangat berguna untuk mengetahui jumlah data yang kita miliki dan ukuran keseluruhan dataset. Penting untuk melihat volume data yang sedang kita hadapi.


In [2]:
iris_df.shape

(150, 4)

Jadi, kita sedang menangani 150 baris dan 4 kolom data. Setiap baris mewakili satu titik data dan setiap kolom mewakili satu fitur yang terkait dengan kerangka data. Jadi pada dasarnya, ada 150 titik data yang masing-masing memiliki 4 fitur.

`shape` di sini adalah atribut dari kerangka data dan bukan sebuah fungsi, itulah sebabnya tidak diakhiri dengan sepasang tanda kurung.


### `DataFrame.columns`
Sekarang mari kita bahas 4 kolom data. Apa sebenarnya yang masing-masing kolom wakili? Atribut `columns` akan memberikan kita nama-nama kolom dalam dataframe.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Seperti yang dapat kita lihat, ada empat(4) kolom. Atribut `columns` memberi tahu kita nama kolom dan pada dasarnya tidak ada yang lain. Atribut ini menjadi penting ketika kita ingin mengidentifikasi fitur yang dimiliki oleh sebuah dataset.


### `DataFrame.info`
Jumlah data (diberikan oleh atribut `shape`) dan nama fitur atau kolom (diberikan oleh atribut `columns`) memberikan informasi tentang dataset. Sekarang, kita ingin menggali lebih dalam ke dalam dataset. Fungsi `DataFrame.info()` sangat berguna untuk ini.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Dari sini, kita dapat membuat beberapa pengamatan:
1. Tipe Data dari setiap kolom: Dalam dataset ini, semua data disimpan sebagai angka floating-point 64-bit.
2. Jumlah nilai Non-Null: Menangani nilai null adalah langkah penting dalam persiapan data. Hal ini akan ditangani nanti di notebook.


### DataFrame.describe()
Misalkan kita memiliki banyak data numerik dalam dataset kita. Perhitungan statistik univariat seperti rata-rata, median, kuartil, dll. dapat dilakukan pada masing-masing kolom secara individual. Fungsi `DataFrame.describe()` memberikan ringkasan statistik dari kolom-kolom numerik dalam sebuah dataset.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Output di atas menunjukkan jumlah total titik data, rata-rata, standar deviasi, nilai minimum, kuartil bawah (25%), median (50%), kuartil atas (75%), dan nilai maksimum dari setiap kolom.


### `DataFrame.head`
Dengan semua fungsi dan atribut di atas, kita telah mendapatkan gambaran umum tentang dataset. Kita tahu berapa banyak data yang ada, berapa banyak fitur yang ada, tipe data dari setiap fitur, dan jumlah nilai non-null untuk setiap fitur.

Sekarang saatnya melihat datanya sendiri. Mari kita lihat seperti apa beberapa baris pertama (beberapa data pertama) dari `DataFrame` kita:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Sebagai output di sini, kita dapat melihat lima (5) entri dari dataset. Jika kita melihat indeks di sebelah kiri, kita menemukan bahwa ini adalah lima baris pertama.


### Latihan:

Dari contoh yang diberikan di atas, jelas bahwa secara default, `DataFrame.head` mengembalikan lima baris pertama dari sebuah `DataFrame`. Pada sel kode di bawah ini, bisakah Anda menemukan cara untuk menampilkan lebih dari lima baris?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Cara lain untuk melihat data adalah dari akhir (bukan dari awal). Kebalikan dari `DataFrame.head` adalah `DataFrame.tail`, yang mengembalikan lima baris terakhir dari sebuah `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


Dalam praktiknya, sangat berguna untuk dapat dengan mudah memeriksa beberapa baris pertama atau beberapa baris terakhir dari sebuah `DataFrame`, terutama ketika Anda mencari nilai outlier dalam dataset yang terurut.

Semua fungsi dan atribut yang ditunjukkan di atas dengan bantuan contoh kode membantu kita mendapatkan gambaran dan pemahaman tentang data.

> **Kesimpulan:** Bahkan hanya dengan melihat metadata tentang informasi dalam sebuah DataFrame atau beberapa nilai pertama dan terakhir di dalamnya, Anda dapat langsung mendapatkan gambaran tentang ukuran, bentuk, dan isi data yang sedang Anda tangani.


### Data yang Hilang
Mari kita bahas tentang data yang hilang. Data yang hilang terjadi ketika tidak ada nilai yang disimpan di beberapa kolom.

Mari kita ambil contoh: misalnya seseorang sangat memperhatikan berat badannya dan tidak mengisi kolom berat badan dalam sebuah survei. Maka, nilai berat badan untuk orang tersebut akan hilang.

Sebagian besar waktu, dalam dataset dunia nyata, nilai yang hilang sering terjadi.

**Bagaimana Pandas Menangani Data yang Hilang**

Pandas menangani nilai yang hilang dengan dua cara. Cara pertama yang sudah pernah Anda lihat di bagian sebelumnya adalah `NaN`, atau Not a Number. Ini sebenarnya adalah nilai khusus yang merupakan bagian dari spesifikasi floating-point IEEE dan hanya digunakan untuk menunjukkan nilai floating-point yang hilang.

Untuk nilai yang hilang selain tipe float, pandas menggunakan objek Python `None`. Meskipun mungkin terlihat membingungkan bahwa Anda akan menemukan dua jenis nilai yang pada dasarnya menyampaikan hal yang sama, ada alasan programatik yang kuat untuk pilihan desain ini, dan dalam praktiknya, pendekatan ini memungkinkan pandas memberikan kompromi yang baik untuk sebagian besar kasus. Meskipun demikian, baik `None` maupun `NaN` memiliki batasan yang perlu Anda perhatikan terkait bagaimana mereka dapat digunakan.


### `None`: data hilang non-float
Karena `None` berasal dari Python, ia tidak dapat digunakan dalam array NumPy dan pandas yang bukan bertipe data `'object'`. Ingat, array NumPy (dan struktur data dalam pandas) hanya dapat berisi satu jenis data. Inilah yang memberikan kekuatan besar untuk pekerjaan data dan komputasi skala besar, tetapi juga membatasi fleksibilitasnya. Array semacam itu harus diubah ke "penyebut umum terendah," yaitu tipe data yang dapat mencakup semua elemen dalam array. Ketika `None` ada dalam array, itu berarti Anda sedang bekerja dengan objek Python.

Untuk melihat ini dalam praktik, perhatikan contoh array berikut (perhatikan `dtype` untuk array tersebut):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Realitas tipe data yang di-upcast membawa dua efek samping bersamanya. Pertama, operasi akan dilakukan pada tingkat kode Python yang diinterpretasikan daripada kode NumPy yang dikompilasi. Pada dasarnya, ini berarti bahwa setiap operasi yang melibatkan `Series` atau `DataFrames` dengan `None` di dalamnya akan lebih lambat. Meskipun Anda mungkin tidak menyadari penurunan kinerja ini, untuk dataset yang besar, hal ini bisa menjadi masalah.

Efek samping kedua berasal dari yang pertama. Karena `None` pada dasarnya membawa `Series` atau `DataFrame` kembali ke dunia Python biasa, menggunakan agregasi NumPy/pandas seperti `sum()` atau `min()` pada array yang mengandung nilai ``None`` umumnya akan menghasilkan error:


In [10]:
example1.sum()

TypeError: ignored

**Inti utama**: Penjumlahan (dan operasi lainnya) antara bilangan bulat dan nilai `None` tidak terdefinisi, yang dapat membatasi apa yang dapat Anda lakukan dengan kumpulan data yang mengandungnya.


### `NaN`: nilai float yang hilang

Berbeda dengan `None`, NumPy (dan oleh karena itu pandas) mendukung `NaN` untuk operasi vektorisasi yang cepat dan ufuncs. Berita buruknya adalah bahwa setiap operasi aritmatika yang dilakukan pada `NaN` selalu menghasilkan `NaN`. Sebagai contoh:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

Berita baiknya: agregasi yang dijalankan pada array dengan `NaN` di dalamnya tidak menghasilkan error. Berita buruknya: hasilnya tidak selalu berguna:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Latihan:


In [11]:
# What happens if you add np.nan and None together?


Ingat: `NaN` hanya untuk nilai floating-point yang hilang; tidak ada padanan `NaN` untuk bilangan bulat, string, atau Boolean.


### `NaN` dan `None`: nilai null dalam pandas

Meskipun `NaN` dan `None` dapat berperilaku sedikit berbeda, pandas tetap dirancang untuk menangani keduanya secara bergantian. Untuk memahami maksudnya, perhatikan sebuah `Series` dari bilangan bulat:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Latihan:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


Dalam proses menaikkan tipe data untuk memastikan keseragaman data dalam `Series` dan `DataFrame`, pandas dengan mudah mengganti nilai yang hilang antara `None` dan `NaN`. Karena fitur desain ini, akan membantu jika kita memandang `None` dan `NaN` sebagai dua jenis "null" yang berbeda dalam pandas. Bahkan, beberapa metode inti yang akan Anda gunakan untuk menangani nilai yang hilang dalam pandas mencerminkan ide ini dalam nama mereka:

- `isnull()`: Menghasilkan masker Boolean yang menunjukkan nilai yang hilang
- `notnull()`: Kebalikan dari `isnull()`
- `dropna()`: Mengembalikan versi data yang telah difilter
- `fillna()`: Mengembalikan salinan data dengan nilai yang hilang diisi atau diimputasi

Metode-metode ini sangat penting untuk dikuasai dan dipahami dengan baik, jadi mari kita bahas masing-masing secara mendalam.


### Mendeteksi nilai null

Setelah kita memahami pentingnya nilai yang hilang, kita perlu mendeteksinya dalam dataset kita sebelum mengatasinya. 
Baik `isnull()` maupun `notnull()` adalah metode utama untuk mendeteksi data null. Keduanya mengembalikan masker Boolean pada data Anda.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Perhatikan dengan seksama hasilnya. Apakah ada yang mengejutkan Anda? Meskipun `0` adalah nol aritmatika, itu tetap merupakan bilangan bulat yang valid dan pandas memperlakukannya seperti itu. `''` sedikit lebih rumit. Meskipun kita menggunakannya di Bagian 1 untuk mewakili nilai string kosong, itu tetap merupakan objek string dan bukan representasi null sejauh yang pandas ketahui.

Sekarang, mari kita balikkan ini dan gunakan metode-metode ini dengan cara yang lebih mirip dengan bagaimana Anda akan menggunakannya dalam praktik. Anda dapat menggunakan masker Boolean langsung sebagai indeks ``Series`` atau ``DataFrame``, yang bisa berguna saat mencoba bekerja dengan nilai yang hilang (atau ada) secara terpisah.

Jika kita ingin jumlah total nilai yang hilang, kita cukup melakukan penjumlahan pada masker yang dihasilkan oleh metode `isnull()`.


In [19]:
example3.isnull().sum()

2

### Latihan:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Kesimpulan utama**: Baik metode `isnull()` maupun `notnull()` menghasilkan hasil yang serupa ketika Anda menggunakannya dalam DataFrame: mereka menunjukkan hasil dan indeks dari hasil tersebut, yang akan sangat membantu Anda saat Anda mengolah data Anda.


### Menangani data yang hilang

> **Tujuan pembelajaran:** Pada akhir bagian ini, Anda harus mengetahui cara dan kapan mengganti atau menghapus nilai null dari DataFrames.

Model Machine Learning tidak dapat menangani data yang hilang secara langsung. Oleh karena itu, sebelum memberikan data ke model, kita perlu menangani nilai-nilai yang hilang ini.

Cara menangani data yang hilang memiliki pertimbangan yang cukup rumit, dapat memengaruhi analisis akhir Anda dan hasil di dunia nyata.

Ada dua cara utama untuk menangani data yang hilang:

1.   Menghapus baris yang mengandung nilai yang hilang
2.   Mengganti nilai yang hilang dengan nilai lain

Kita akan membahas kedua metode ini beserta kelebihan dan kekurangannya secara rinci.


### Menghapus nilai null

Jumlah data yang kita berikan kepada model memiliki pengaruh langsung terhadap kinerjanya. Menghapus nilai null berarti kita mengurangi jumlah data, sehingga mengurangi ukuran dataset. Oleh karena itu, disarankan untuk menghapus baris dengan nilai null ketika dataset cukup besar.

Contoh lainnya adalah ketika sebuah baris atau kolom memiliki banyak nilai yang hilang. Dalam kasus ini, baris atau kolom tersebut mungkin dihapus karena tidak akan memberikan banyak nilai pada analisis kita, mengingat sebagian besar datanya hilang.

Selain mengidentifikasi nilai yang hilang, pandas menyediakan cara yang praktis untuk menghapus nilai null dari `Series` dan `DataFrame`. Untuk melihat cara kerjanya, mari kita kembali ke `example3`. Fungsi `DataFrame.dropna()` membantu dalam menghapus baris dengan nilai null.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Perhatikan bahwa ini seharusnya terlihat seperti output dari `example3[example3.notnull()]`. Perbedaannya di sini adalah, alih-alih hanya melakukan pengindeksan pada nilai yang dimask, `dropna` telah menghapus nilai-nilai yang hilang dari `Series` `example3`.

Karena DataFrame memiliki dua dimensi, mereka memberikan lebih banyak opsi untuk menghapus data.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Apakah Anda menyadari bahwa pandas mengubah tipe dua kolom menjadi float untuk menyesuaikan dengan `NaN`?)

Anda tidak dapat menghapus satu nilai dari sebuah `DataFrame`, jadi Anda harus menghapus seluruh baris atau kolom. Bergantung pada apa yang Anda lakukan, Anda mungkin ingin memilih salah satu dari keduanya, dan pandas memberikan opsi untuk keduanya. Karena dalam ilmu data, kolom umumnya mewakili variabel dan baris mewakili observasi, Anda lebih mungkin untuk menghapus baris data; pengaturan default untuk `dropna()` adalah menghapus semua baris yang mengandung nilai null:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Jika perlu, Anda dapat menghapus nilai NA dari kolom. Gunakan `axis=1` untuk melakukannya:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Perhatikan bahwa ini dapat menghapus banyak data yang mungkin ingin Anda simpan, terutama dalam dataset yang lebih kecil. Bagaimana jika Anda hanya ingin menghapus baris atau kolom yang mengandung beberapa atau bahkan semua nilai null? Anda dapat menentukan pengaturan tersebut dalam `dropna` dengan parameter `how` dan `thresh`.

Secara default, `how='any'` (jika Anda ingin memeriksa sendiri atau melihat parameter lain yang dimiliki metode ini, jalankan `example4.dropna?` dalam sel kode). Sebagai alternatif, Anda dapat menentukan `how='all'` untuk hanya menghapus baris atau kolom yang mengandung semua nilai null. Mari kita perluas contoh `DataFrame` kita untuk melihat ini dalam aksi pada latihan berikutnya.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Poin-poin penting:  
1. Menghapus nilai null adalah ide yang baik hanya jika dataset cukup besar.  
2. Baris atau kolom penuh dapat dihapus jika sebagian besar datanya hilang.  
3. Metode `DataFrame.dropna(axis=)` membantu dalam menghapus nilai null. Argumen `axis` menunjukkan apakah baris atau kolom yang akan dihapus.  
4. Argumen `how` juga dapat digunakan. Secara default, nilainya diatur ke `any`. Jadi, hanya baris/kolom yang mengandung nilai null yang akan dihapus. Nilainya dapat diatur ke `all` untuk menentukan bahwa kita hanya akan menghapus baris/kolom di mana semua nilainya null.  


### Latihan:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


Parameter `thresh` memberikan kontrol yang lebih rinci: Anda menetapkan jumlah nilai *non-null* yang harus dimiliki oleh sebuah baris atau kolom agar tetap dipertahankan:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Di sini, baris pertama dan terakhir telah dihapus, karena hanya berisi dua nilai non-null.


### Mengisi Nilai Null

Kadang-kadang masuk akal untuk mengisi nilai yang hilang dengan nilai yang mungkin valid. Ada beberapa teknik untuk mengisi nilai null. Yang pertama adalah menggunakan Pengetahuan Domain (pengetahuan tentang subjek yang menjadi dasar dataset) untuk memperkirakan nilai yang hilang.

Anda bisa menggunakan `isnull` untuk melakukan ini secara langsung, tetapi itu bisa melelahkan, terutama jika Anda memiliki banyak nilai yang harus diisi. Karena ini adalah tugas yang sangat umum dalam ilmu data, pandas menyediakan `fillna`, yang mengembalikan salinan dari `Series` atau `DataFrame` dengan nilai yang hilang diganti dengan nilai pilihan Anda. Mari kita buat contoh `Series` lain untuk melihat bagaimana ini bekerja dalam praktik.


### Data Kategorikal (Non-numerik)
Pertama, mari kita bahas data non-numerik. Dalam dataset, kita memiliki kolom dengan data kategorikal. Contohnya: Jenis Kelamin, Benar atau Salah, dll.

Dalam sebagian besar kasus ini, kita mengganti nilai yang hilang dengan `modus` dari kolom tersebut. Misalnya, kita memiliki 100 data, di mana 90 mengatakan Benar, 8 mengatakan Salah, dan 2 tidak mengisi. Maka, kita dapat mengisi 2 data yang kosong dengan Benar, dengan mempertimbangkan seluruh kolom.

Sekali lagi, di sini kita dapat menggunakan pengetahuan domain. Mari kita lihat contoh pengisian dengan modus.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


Sekarang, mari kita cari modus terlebih dahulu sebelum mengisi nilai `None` dengan modus.


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

Jadi, kita akan mengganti None dengan True


In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Seperti yang dapat kita lihat, nilai null telah digantikan. Tidak perlu dikatakan, kita bisa saja menulis apa pun sebagai pengganti atau `'True'` dan itu akan tersubstitusi.


### Data Numerik
Sekarang, kita beralih ke data numerik. Di sini, ada dua cara umum untuk mengganti nilai yang hilang:

1. Mengganti dengan Median dari baris
2. Mengganti dengan Mean dari baris

Kita mengganti dengan Median jika data memiliki distribusi yang miring dengan outlier. Hal ini karena median lebih tahan terhadap outlier.

Ketika data sudah dinormalisasi, kita bisa menggunakan mean, karena dalam kasus tersebut, mean dan median akan cukup dekat.

Pertama, mari kita ambil sebuah kolom yang terdistribusi normal dan isi nilai yang hilang dengan mean dari kolom tersebut.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Rata-rata dari kolom adalah


In [33]:
np.mean(fill_with_mean[0])

0.0

Mengisi dengan rata-rata


In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Seperti yang dapat kita lihat, nilai yang hilang telah digantikan dengan rata-ratanya.


Sekarang mari kita coba dataframe lain, dan kali ini kita akan mengganti nilai None dengan median dari kolom tersebut.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


Median dari kolom kedua adalah


In [36]:
fill_with_median[1].median()

4.0

Mengisi dengan median


In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Seperti yang kita lihat, nilai NaN telah digantikan oleh median dari kolom.


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Anda dapat mengisi semua entri null dengan satu nilai, seperti `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Poin-poin penting:
1. Mengisi nilai yang hilang sebaiknya dilakukan ketika data yang tersedia sedikit atau ada strategi untuk mengisi data yang hilang.
2. Pengetahuan domain dapat digunakan untuk mengisi nilai yang hilang dengan cara memperkirakannya.
3. Untuk data kategorikal, biasanya nilai yang hilang diganti dengan modus dari kolom tersebut.
4. Untuk data numerik, nilai yang hilang biasanya diisi dengan rata-rata (untuk dataset yang sudah dinormalisasi) atau median dari kolom tersebut.


### Latihan:


In [40]:
# What happens if you try to fill null values with a string, like ''?


Anda dapat **mengisi ke depan** nilai null, yaitu menggunakan nilai valid terakhir untuk mengisi null:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Anda juga dapat **mengisi kembali** untuk menyebarkan nilai valid berikutnya ke belakang guna mengisi null:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Seperti yang mungkin Anda duga, ini bekerja sama dengan DataFrame, tetapi Anda juga dapat menentukan `axis` sepanjang mana untuk mengisi nilai null:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Perhatikan bahwa ketika nilai sebelumnya tidak tersedia untuk pengisian ke depan, nilai null tetap ada.


### Latihan:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Anda dapat menjadi kreatif dalam menggunakan `fillna`. Sebagai contoh, mari kita lihat kembali `example4`, tetapi kali ini kita isi nilai yang hilang dengan rata-rata dari semua nilai dalam `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Perhatikan bahwa kolom 3 masih tidak memiliki nilai: arah default adalah mengisi nilai secara baris demi baris.

> **Kesimpulan:** Ada berbagai cara untuk menangani nilai yang hilang dalam dataset Anda. Strategi spesifik yang Anda gunakan (menghapusnya, menggantinya, atau bahkan bagaimana Anda menggantinya) harus ditentukan oleh karakteristik data tersebut. Anda akan semakin memahami cara menangani nilai yang hilang seiring dengan semakin seringnya Anda bekerja dan berinteraksi dengan dataset.


### Mengkodekan Data Kategorikal

Model pembelajaran mesin hanya dapat bekerja dengan angka dan segala bentuk data numerik. Model tidak akan bisa membedakan antara Ya dan Tidak, tetapi akan mampu membedakan antara 0 dan 1. Jadi, setelah mengisi nilai yang hilang, kita perlu mengkodekan data kategorikal ke dalam bentuk numerik agar model dapat memahaminya.

Pengkodean dapat dilakukan dengan dua cara. Kita akan membahasnya selanjutnya.


**PENGKODEAN LABEL**

Pengkodean label pada dasarnya adalah mengubah setiap kategori menjadi angka. Sebagai contoh, misalkan kita memiliki dataset penumpang pesawat dan terdapat kolom yang berisi kelas mereka di antara ['kelas bisnis', 'kelas ekonomi', 'kelas pertama']. Jika pengkodean label dilakukan pada data ini, maka akan diubah menjadi [0,1,2]. Mari kita lihat contohnya melalui kode. Karena kita akan mempelajari `scikit-learn` di notebook berikutnya, kita tidak akan menggunakannya di sini.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Untuk melakukan label encoding pada kolom pertama, kita harus terlebih dahulu mendeskripsikan pemetaan dari setiap kelas ke angka, sebelum menggantinya.


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Seperti yang kita lihat, hasilnya sesuai dengan apa yang kita pikirkan akan terjadi. Jadi, kapan kita menggunakan label encoding? Label encoding digunakan dalam salah satu atau kedua kasus berikut:
1. Ketika jumlah kategori sangat banyak
2. Ketika kategori memiliki urutan tertentu.


**ONE HOT ENCODING**

Jenis encoding lainnya adalah One Hot Encoding. Dalam jenis encoding ini, setiap kategori dari kolom akan ditambahkan sebagai kolom terpisah, dan setiap data akan mendapatkan nilai 0 atau 1 berdasarkan apakah data tersebut mengandung kategori tersebut. Jadi, jika ada n kategori yang berbeda, maka n kolom akan ditambahkan ke dataframe.

Sebagai contoh, mari kita ambil contoh kelas pesawat yang sama. Kategorinya adalah: ['business class', 'economy class', 'first class']. Jadi, jika kita melakukan one hot encoding, tiga kolom berikut akan ditambahkan ke dataset: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Mari kita lakukan one hot encoding pada kolom pertama


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Setiap kolom yang di-encode one hot berisi 0 atau 1, yang menunjukkan apakah kategori tersebut ada untuk titik data tersebut.


Kapan kita menggunakan one hot encoding? One hot encoding digunakan dalam salah satu atau kedua kasus berikut:

1. Ketika jumlah kategori dan ukuran dataset lebih kecil.
2. Ketika kategori tidak mengikuti urutan tertentu.


> Poin-Poin Penting:
1. Encoding dilakukan untuk mengubah data non-numerik menjadi data numerik.
2. Ada dua jenis encoding: Label encoding dan One Hot encoding, yang keduanya dapat dilakukan sesuai kebutuhan dataset.


## Menghapus Data Duplikat

> **Tujuan pembelajaran:** Di akhir subbagian ini, Anda seharusnya merasa nyaman dalam mengidentifikasi dan menghapus nilai duplikat dari DataFrame.

Selain data yang hilang, Anda sering kali akan menemukan data duplikat dalam dataset dunia nyata. Untungnya, pandas menyediakan cara yang mudah untuk mendeteksi dan menghapus entri duplikat.


### Mengidentifikasi duplikat: `duplicated`

Anda dapat dengan mudah menemukan nilai duplikat menggunakan metode `duplicated` di pandas, yang mengembalikan masker Boolean yang menunjukkan apakah suatu entri dalam `DataFrame` adalah duplikat dari entri sebelumnya. Mari kita buat contoh `DataFrame` lain untuk melihat cara kerjanya.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Menghapus duplikat: `drop_duplicates`
`drop_duplicates` hanya mengembalikan salinan data di mana semua nilai `duplicated` adalah `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Baik `duplicated` maupun `drop_duplicates` secara default mempertimbangkan semua kolom tetapi Anda dapat menentukan agar mereka hanya memeriksa sebagian kolom dalam `DataFrame` Anda:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


> **Kesimpulan:** Menghapus data duplikat adalah bagian penting dari hampir setiap proyek ilmu data. Data duplikat dapat mengubah hasil analisis Anda dan memberikan hasil yang tidak akurat!


## Pemeriksaan Kualitas Data di Dunia Nyata

> **Tujuan pembelajaran:** Pada akhir bagian ini, Anda diharapkan mampu mendeteksi dan memperbaiki masalah kualitas data umum di dunia nyata, termasuk nilai kategori yang tidak konsisten, nilai numerik yang tidak wajar (outlier), dan entitas duplikat dengan variasi.

Meskipun nilai yang hilang dan duplikat yang persis sama adalah masalah yang umum, dataset di dunia nyata sering kali mengandung masalah yang lebih halus:

1. **Nilai kategori yang tidak konsisten**: Kategori yang sama ditulis dengan cara berbeda (misalnya, "USA", "U.S.A", "United States")
2. **Nilai numerik yang tidak wajar**: Outlier ekstrem yang menunjukkan kesalahan entri data (misalnya, usia = 999)
3. **Baris yang hampir duplikat**: Rekaman yang mewakili entitas yang sama dengan sedikit variasi

Mari kita jelajahi teknik untuk mendeteksi dan menangani masalah-masalah ini.


### Membuat Dataset "Kotor" Contoh

Pertama, mari kita buat dataset contoh yang berisi jenis masalah yang sering kita temui dalam data dunia nyata:


In [None]:
import pandas as pd
import numpy as np

# Create a sample dataset with quality issues
dirty_data = pd.DataFrame({
    'customer_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
    'name': ['John Smith', 'Jane Doe', 'John Smith', 'Bob Johnson', 
             'Alice Williams', 'Charlie Brown', 'John  Smith', 'Eva Martinez',
             'Bob Johnson', 'Diana Prince', 'Frank Castle', 'Alice Williams'],
    'age': [25, 32, 25, 45, 28, 199, 25, 31, 45, 27, -5, 28],
    'country': ['USA', 'UK', 'U.S.A', 'Canada', 'USA', 'United Kingdom',
                'United States', 'Mexico', 'canada', 'USA', 'UK', 'usa'],
    'purchase_amount': [100.50, 250.00, 105.00, 320.00, 180.00, 90.00,
                       102.00, 275.00, 325.00, 195.00, 410.00, 185.00]
})

print("Sample 'Dirty' Dataset:")
print(dirty_data)

### 1. Mendeteksi Nilai Kategorikal yang Tidak Konsisten

Perhatikan kolom `country` memiliki beberapa representasi untuk negara yang sama. Mari kita identifikasi ketidakkonsistenan ini:


In [None]:
# Check unique values in the country column
print("Unique country values:")
print(dirty_data['country'].unique())
print(f"\nTotal unique values: {dirty_data['country'].nunique()}")

# Count occurrences of each variation
print("\nValue counts:")
print(dirty_data['country'].value_counts())

#### Standarisasi Nilai Kategorikal

Kita dapat membuat pemetaan untuk menstandarisasi nilai-nilai ini. Pendekatan sederhana adalah dengan mengubah ke huruf kecil dan membuat kamus pemetaan:


In [None]:
# Create a standardization mapping
country_mapping = {
    'usa': 'USA',
    'u.s.a': 'USA',
    'united states': 'USA',
    'uk': 'UK',
    'united kingdom': 'UK',
    'canada': 'Canada',
    'mexico': 'Mexico'
}

# Standardize the country column
dirty_data['country_clean'] = dirty_data['country'].str.lower().map(country_mapping)

print("Before standardization:")
print(dirty_data['country'].value_counts())
print("\nAfter standardization:")
print(dirty_data[['country_clean']].value_counts())

**Alternatif: Menggunakan Pencocokan Fuzzy**

Untuk kasus yang lebih kompleks, kita dapat menggunakan pencocokan string fuzzy dengan pustaka `rapidfuzz` untuk mendeteksi string yang mirip secara otomatis:


In [None]:
try:
    from rapidfuzz import process, fuzz
except ImportError:
    print("rapidfuzz is not installed. Please install it with 'pip install rapidfuzz' to use fuzzy matching.")
    process = None
    fuzz = None

# Get unique countries
unique_countries = dirty_data['country'].unique()

# For each country, find similar matches
if process is not None and fuzz is not None:
    print("Finding similar country names (similarity > 70%):")
    for country in unique_countries:
        matches = process.extract(country, unique_countries, scorer=fuzz.ratio, limit=3)
        # Filter matches with similarity > 70 and not identical
        similar = [m for m in matches if m[1] > 70 and m[0] != country]
        if similar:
            print(f"\n'{country}' is similar to:")
            for match, score, _ in similar:
                print(f"  - '{match}' (similarity: {score}%)")
else:
    print("Skipping fuzzy matching because rapidfuzz is not available.")

### 2. Mendeteksi Nilai Numerik yang Tidak Normal (Outlier)

Melihat kolom `age`, terdapat beberapa nilai mencurigakan seperti 199 dan -5. Mari gunakan metode statistik untuk mendeteksi outlier ini.


In [None]:
# Display basic statistics
print("Age column statistics:")
print(dirty_data['age'].describe())

# Identify impossible values using domain knowledge
print("\nRows with impossible age values (< 0 or > 120):")
impossible_ages = dirty_data[(dirty_data['age'] < 0) | (dirty_data['age'] > 120)]
print(impossible_ages[['customer_id', 'name', 'age']])

#### Menggunakan Metode IQR (Interquartile Range)

Metode IQR adalah teknik statistik yang tangguh untuk mendeteksi pencilan yang kurang sensitif terhadap nilai ekstrem:


In [None]:
# Calculate IQR for age (excluding impossible values)
valid_ages = dirty_data[(dirty_data['age'] >= 0) & (dirty_data['age'] <= 120)]['age']

Q1 = valid_ages.quantile(0.25)
Q3 = valid_ages.quantile(0.75)
IQR = Q3 - Q1

# Define outlier bounds
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"IQR-based outlier bounds for age: [{lower_bound:.2f}, {upper_bound:.2f}]")

# Identify outliers
age_outliers = dirty_data[(dirty_data['age'] < lower_bound) | (dirty_data['age'] > upper_bound)]
print(f"\nRows with age outliers:")
print(age_outliers[['customer_id', 'name', 'age']])

#### Menggunakan Metode Z-Score

Metode Z-score mengidentifikasi nilai pencilan berdasarkan deviasi standar dari rata-rata:


In [None]:
try:
    from scipy import stats
except ImportError:
    print("scipy is required for Z-score calculation. Please install it with 'pip install scipy' and rerun this cell.")
else:
    # Calculate Z-scores for age, handling NaN values
    age_nonan = dirty_data['age'].dropna()
    zscores = np.abs(stats.zscore(age_nonan))
    dirty_data['age_zscore'] = np.nan
    dirty_data.loc[age_nonan.index, 'age_zscore'] = zscores

    # Typically, Z-score > 3 indicates an outlier
    print("Rows with age Z-score > 3:")
    zscore_outliers = dirty_data[dirty_data['age_zscore'] > 3]
    print(zscore_outliers[['customer_id', 'name', 'age', 'age_zscore']])

    # Clean up the temporary column
    dirty_data = dirty_data.drop('age_zscore', axis=1)

#### Menangani Outlier

Setelah terdeteksi, outlier dapat ditangani dengan beberapa cara:
1. **Hapus**: Buang baris yang mengandung outlier (jika itu adalah kesalahan)
2. **Batasi**: Ganti dengan nilai batas
3. **Ganti dengan NaN**: Perlakukan sebagai data yang hilang dan gunakan teknik imputasi
4. **Pertahankan**: Jika itu adalah nilai ekstrem yang sah


In [None]:
# Create a cleaned version by replacing impossible ages with NaN
dirty_data['age_clean'] = dirty_data['age'].apply(
    lambda x: np.nan if (x < 0 or x > 120) else x
)

print("Age column before and after cleaning:")
print(dirty_data[['customer_id', 'name', 'age', 'age_clean']])

### 3. Mendeteksi Baris yang Hampir Duplikat

Perhatikan bahwa dataset kita memiliki beberapa entri untuk "John Smith" dengan nilai yang sedikit berbeda. Mari kita identifikasi kemungkinan duplikat berdasarkan kesamaan nama.


In [None]:
# First, let's look at exact name matches (ignoring extra whitespace)
dirty_data['name_normalized'] = dirty_data['name'].str.strip().str.lower()

print("Checking for duplicate names:")
duplicate_names = dirty_data[dirty_data.duplicated(['name_normalized'], keep=False)]
print(duplicate_names.sort_values('name_normalized')[['customer_id', 'name', 'age', 'country']])

#### Menemukan Duplikat yang Mirip dengan Pencocokan Fuzzy

Untuk deteksi duplikat yang lebih canggih, kita dapat menggunakan pencocokan fuzzy untuk menemukan nama yang serupa:


In [None]:
try:
    from rapidfuzz import process, fuzz

    # Function to find potential duplicates
    def find_near_duplicates(df, column, threshold=90):
        """
        Find near-duplicate entries in a column using fuzzy matching.
        
        Parameters:
        - df: DataFrame
        - column: Column name to check for duplicates
        - threshold: Similarity threshold (0-100)
        
        Returns: List of potential duplicate groups
        """
        values = df[column].unique()
        duplicate_groups = []
        checked = set()
        
        for value in values:
            if value in checked:
                continue
                
            # Find similar values
            matches = process.extract(value, values, scorer=fuzz.ratio, limit=len(values))
            similar = [m[0] for m in matches if m[1] >= threshold]
            
            if len(similar) > 1:
                duplicate_groups.append(similar)
                checked.update(similar)
        
        return duplicate_groups

    # Find near-duplicate names
    duplicate_groups = find_near_duplicates(dirty_data, 'name', threshold=90)

    print("Potential duplicate groups:")
    for i, group in enumerate(duplicate_groups, 1):
        print(f"\nGroup {i}:")
        for name in group:
            matching_rows = dirty_data[dirty_data['name'] == name]
            print(f"  '{name}': {len(matching_rows)} occurrence(s)")
            for _, row in matching_rows.iterrows():
                print(f"    - Customer {row['customer_id']}: age={row['age']}, country={row['country']}")
except ImportError:
    print("rapidfuzz is not installed. Skipping fuzzy matching for near-duplicates.")

#### Menangani Duplikasi

Setelah diidentifikasi, Anda perlu memutuskan bagaimana menangani duplikasi:
1. **Simpan kemunculan pertama**: Gunakan `drop_duplicates(keep='first')`
2. **Simpan kemunculan terakhir**: Gunakan `drop_duplicates(keep='last')`
3. **Gabungkan informasi**: Kombinasikan informasi dari baris yang duplikat
4. **Tinjauan manual**: Tandai untuk ditinjau oleh manusia


In [None]:
# Example: Remove duplicates based on normalized name, keeping first occurrence
cleaned_data = dirty_data.drop_duplicates(subset=['name_normalized'], keep='first')

print(f"Original dataset: {len(dirty_data)} rows")
print(f"After removing name duplicates: {len(cleaned_data)} rows")
print(f"Removed: {len(dirty_data) - len(cleaned_data)} duplicate rows")

print("\nCleaned dataset:")
print(cleaned_data[['customer_id', 'name', 'age', 'country_clean']])

### Ringkasan: Pipeline Pembersihan Data Lengkap

Mari kita gabungkan semuanya ke dalam pipeline pembersihan yang komprehensif:


In [None]:
def clean_dataset(df):
    """
    Comprehensive data cleaning function.
    """
    # Create a copy to avoid modifying the original
    cleaned = df.copy()
    
    # 1. Standardize categorical values (country)
    country_mapping = {
        'usa': 'USA', 'u.s.a': 'USA', 'united states': 'USA',
        'uk': 'UK', 'united kingdom': 'UK',
        'canada': 'Canada', 'mexico': 'Mexico'
    }
    cleaned['country'] = cleaned['country'].str.lower().map(country_mapping)
    
    # 2. Clean abnormal age values
    cleaned['age'] = cleaned['age'].apply(
        lambda x: np.nan if (x < 0 or x > 120) else x
    )
    
    # 3. Remove near-duplicate names (normalize whitespace)
    cleaned['name'] = cleaned['name'].str.strip()
    cleaned = cleaned.drop_duplicates(subset=['name'], keep='first')
    
    return cleaned

# Apply the cleaning pipeline
final_cleaned_data = clean_dataset(dirty_data)

print("Before cleaning:")
print(f"  Rows: {len(dirty_data)}")
print(f"  Unique countries: {dirty_data['country'].nunique()}")
print(f"  Invalid ages: {((dirty_data['age'] < 0) | (dirty_data['age'] > 120)).sum()}")

print("\nAfter cleaning:")
print(f"  Rows: {len(final_cleaned_data)}")
print(f"  Unique countries: {final_cleaned_data['country'].nunique()}")
print(f"  Invalid ages: {((final_cleaned_data['age'] < 0) | (final_cleaned_data['age'] > 120)).sum()}")

print("\nCleaned dataset:")
print(final_cleaned_data[['customer_id', 'name', 'age', 'country', 'purchase_amount']])

### 🎯 Latihan Tantangan

Sekarang giliran Anda! Di bawah ini terdapat baris data baru dengan beberapa masalah kualitas. Bisakah Anda:

1. Mengidentifikasi semua masalah dalam baris ini
2. Menulis kode untuk membersihkan setiap masalah
3. Menambahkan baris yang telah dibersihkan ke dalam dataset

Berikut adalah data yang bermasalah:


In [None]:
# New problematic row
new_row = pd.DataFrame({
    'customer_id': [13],
    'name': ['  Diana  Prince  '],  # Extra whitespace
    'age': [250],  # Impossible age
    'country': ['U.S.A.'],  # Inconsistent format
    'purchase_amount': [150.00]
})

print("New row to clean:")
print(new_row)

# TODO: Your code here to clean this row
# Hints:
# 1. Strip whitespace from the name
# 2. Check if the name is a duplicate (Diana Prince already exists)
# 3. Handle the impossible age value
# 4. Standardize the country name

# Example solution (uncomment and modify as needed):
# new_row_cleaned = new_row.copy()
# new_row_cleaned['name'] = new_row_cleaned['name'].str.strip()
# new_row_cleaned['age'] = np.nan  # Invalid age
# new_row_cleaned['country'] = 'USA'  # Standardized
# print("\nCleaned row:")
# print(new_row_cleaned)

### Poin Penting

1. **Kategori yang tidak konsisten** sering ditemukan dalam data dunia nyata. Selalu periksa nilai unik dan standarisasi menggunakan pemetaan atau pencocokan fuzzy.

2. **Outlier** dapat secara signifikan memengaruhi analisis Anda. Gunakan pengetahuan domain yang dikombinasikan dengan metode statistik (IQR, Z-score) untuk mendeteksinya.

3. **Hampir duplikat** lebih sulit dideteksi dibandingkan duplikat yang persis sama. Pertimbangkan menggunakan pencocokan fuzzy dan normalisasi data (huruf kecil, menghapus spasi) untuk mengidentifikasinya.

4. **Pembersihan data bersifat iteratif**. Anda mungkin perlu menerapkan beberapa teknik dan meninjau hasilnya sebelum menyelesaikan dataset yang telah dibersihkan.

5. **Dokumentasikan keputusan Anda**. Catat langkah-langkah pembersihan yang Anda terapkan dan alasannya, karena ini penting untuk reproduktibilitas dan transparansi.

> **Praktik Terbaik:** Selalu simpan salinan data "kotor" asli Anda. Jangan pernah menimpa file data sumber Anda - buat versi yang telah dibersihkan dengan konvensi penamaan yang jelas seperti `data_cleaned.csv`.



---

**Penafian**:  
Dokumen ini telah diterjemahkan menggunakan layanan penerjemahan AI [Co-op Translator](https://github.com/Azure/co-op-translator). Meskipun kami berusaha untuk memberikan hasil yang akurat, harap diketahui bahwa terjemahan otomatis mungkin mengandung kesalahan atau ketidakakuratan. Dokumen asli dalam bahasa aslinya harus dianggap sebagai sumber yang otoritatif. Untuk informasi yang bersifat kritis, disarankan menggunakan jasa penerjemahan manusia profesional. Kami tidak bertanggung jawab atas kesalahpahaman atau interpretasi yang keliru yang timbul dari penggunaan terjemahan ini.
