# Penyediaan Data

[Sumber Notebook asal daripada *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio oleh Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Meneroka maklumat `DataFrame`

> **Matlamat pembelajaran:** Pada akhir subseksyen ini, anda seharusnya selesa mencari maklumat umum tentang data yang disimpan dalam pandas DataFrames.

Setelah anda memuatkan data ke dalam pandas, kemungkinan besar data tersebut akan berada dalam bentuk `DataFrame`. Namun, jika set data dalam `DataFrame` anda mempunyai 60,000 baris dan 400 lajur, bagaimana anda mula memahami apa yang sedang anda kerjakan? Nasib baik, pandas menyediakan beberapa alat yang mudah untuk melihat maklumat keseluruhan tentang `DataFrame` dengan cepat, selain daripada beberapa baris pertama dan terakhir.

Untuk meneroka fungsi ini, kita akan mengimport pustaka Python scikit-learn dan menggunakan satu set data ikonik yang telah dilihat oleh setiap saintis data beratus-ratus kali: set data *Iris* oleh ahli biologi British Ronald Fisher yang digunakan dalam kertas kerjanya pada tahun 1936 "The use of multiple measurements in taxonomic problems":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Kami telah memuatkan Dataset Iris ke dalam pemboleh ubah `iris_df`. Sebelum mendalami data, adalah berguna untuk mengetahui bilangan titik data yang kita ada dan saiz keseluruhan dataset. Ia berguna untuk melihat jumlah data yang kita sedang uruskan.


In [2]:
iris_df.shape

(150, 4)

Jadi, kita sedang menguruskan 150 baris dan 4 lajur data. Setiap baris mewakili satu titik data dan setiap lajur mewakili satu ciri yang berkaitan dengan rangka data. Jadi secara asasnya, terdapat 150 titik data yang mengandungi 4 ciri setiap satu.

`shape` di sini adalah atribut rangka data dan bukan fungsi, sebab itulah ia tidak diakhiri dengan sepasang kurungan.


### `DataFrame.columns`
Sekarang mari kita lihat 4 lajur data. Apakah yang sebenarnya diwakili oleh setiap lajur ini? Atribut `columns` akan memberikan kita nama-nama lajur dalam dataframe.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Seperti yang kita dapat lihat, terdapat empat(4) lajur. Atribut `columns` memberitahu kita nama lajur dan pada dasarnya tiada apa-apa lagi. Atribut ini menjadi penting apabila kita ingin mengenal pasti ciri-ciri yang terdapat dalam set data.


### `DataFrame.info`
Jumlah data (diberikan oleh atribut `shape`) dan nama ciri atau lajur (diberikan oleh atribut `columns`) memberikan kita sedikit maklumat tentang dataset. Sekarang, kita ingin menyelami dataset dengan lebih mendalam. Fungsi `DataFrame.info()` sangat berguna untuk tujuan ini.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Dari sini, kita boleh membuat beberapa pemerhatian:
1. Jenis Data bagi setiap lajur: Dalam set data ini, semua data disimpan sebagai nombor titik terapung 64-bit.
2. Bilangan nilai bukan null: Menangani nilai null adalah langkah penting dalam penyediaan data. Ia akan ditangani kemudian dalam buku nota.


### DataFrame.describe()
Katakan kita mempunyai banyak data berangka dalam set data kita. Pengiraan statistik univariat seperti purata, median, kuartil dan sebagainya boleh dilakukan pada setiap lajur secara individu. Fungsi `DataFrame.describe()` memberikan kita ringkasan statistik bagi lajur berangka dalam set data.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Output di atas menunjukkan jumlah keseluruhan titik data, min, sisihan piawai, nilai minimum, kuartil bawah (25%), median (50%), kuartil atas (75%) dan nilai maksimum bagi setiap lajur.


### `DataFrame.head`
Dengan semua fungsi dan atribut di atas, kita telah mendapat gambaran keseluruhan tentang dataset. Kita tahu berapa banyak titik data yang ada, berapa banyak ciri yang ada, jenis data bagi setiap ciri, dan bilangan nilai bukan null bagi setiap ciri.

Sekarang tiba masanya untuk melihat data itu sendiri. Mari kita lihat beberapa baris pertama (beberapa titik data pertama) dalam `DataFrame` kita:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Sebagai output di sini, kita dapat melihat lima(5) entri dataset. Jika kita melihat indeks di sebelah kiri, kita mendapati bahawa ini adalah lima baris pertama.


### Latihan:

Daripada contoh yang diberikan di atas, jelas bahawa secara lalai, `DataFrame.head` mengembalikan lima baris pertama daripada `DataFrame`. Dalam sel kod di bawah, bolehkah anda mencari cara untuk memaparkan lebih daripada lima baris?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Satu lagi cara untuk melihat data adalah dari hujung (bukannya dari permulaan). Lawan kepada `DataFrame.head` ialah `DataFrame.tail`, yang mengembalikan lima baris terakhir dari `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


Dalam amalan, adalah berguna untuk dapat memeriksa beberapa baris pertama atau beberapa baris terakhir `DataFrame` dengan mudah, terutamanya apabila anda mencari nilai luar dalam dataset yang diatur.

Semua fungsi dan atribut yang ditunjukkan di atas dengan bantuan contoh kod membantu kita mendapatkan gambaran dan rasa tentang data.

> **Kesimpulan:** Walaupun hanya dengan melihat metadata tentang maklumat dalam DataFrame atau beberapa nilai pertama dan terakhir, anda boleh mendapatkan idea segera tentang saiz, bentuk, dan kandungan data yang sedang anda hadapi.


### Data Hilang
Mari kita selami data yang hilang. Data hilang berlaku apabila tiada nilai yang disimpan dalam beberapa lajur.

Mari kita ambil satu contoh: katakan seseorang sangat mementingkan berat badannya dan tidak mengisi ruangan berat dalam satu tinjauan. Maka, nilai berat untuk orang tersebut akan hilang.

Kebanyakan masa, dalam set data dunia sebenar, nilai yang hilang memang berlaku.

**Bagaimana Pandas Mengendalikan Data Hilang**

Pandas mengendalikan nilai yang hilang dengan dua cara. Cara pertama yang telah anda lihat sebelum ini dalam bahagian sebelumnya ialah `NaN`, atau Not a Number. Ini sebenarnya adalah nilai khas yang merupakan sebahagian daripada spesifikasi titik terapung IEEE dan ia hanya digunakan untuk menunjukkan nilai titik terapung yang hilang.

Untuk nilai yang hilang selain daripada jenis float, pandas menggunakan objek Python `None`. Walaupun mungkin kelihatan mengelirukan bahawa anda akan menemui dua jenis nilai yang pada dasarnya menyatakan perkara yang sama, terdapat sebab programatik yang kukuh untuk pilihan reka bentuk ini dan, dalam praktiknya, pendekatan ini membolehkan pandas memberikan kompromi yang baik untuk kebanyakan kes. Walau bagaimanapun, kedua-dua `None` dan `NaN` mempunyai batasan yang perlu anda ambil perhatian berkaitan dengan cara ia boleh digunakan.


### `None`: data hilang bukan jenis float
Oleh kerana `None` berasal dari Python, ia tidak boleh digunakan dalam array NumPy dan pandas yang bukan daripada jenis data `'object'`. Ingat, array NumPy (dan struktur data dalam pandas) hanya boleh mengandungi satu jenis data sahaja. Inilah yang memberikan mereka kuasa besar untuk kerja data berskala besar dan pengiraan, tetapi ia juga menghadkan fleksibiliti mereka. Array seperti ini perlu dinaikkan kepada “penyebut bersama terendah,” iaitu jenis data yang dapat merangkumi semua elemen dalam array. Apabila `None` berada dalam array, ini bermakna anda sedang bekerja dengan objek Python.

Untuk melihat ini dalam tindakan, pertimbangkan contoh array berikut (perhatikan `dtype` untuknya):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Realiti jenis data yang dinaikkan membawa dua kesan sampingan bersamanya. Pertama, operasi akan dijalankan pada tahap kod Python yang ditafsirkan dan bukannya kod NumPy yang telah disusun. Secara asasnya, ini bermakna sebarang operasi yang melibatkan `Series` atau `DataFrames` dengan `None` di dalamnya akan menjadi lebih perlahan. Walaupun anda mungkin tidak menyedari kesan prestasi ini, untuk set data yang besar ia mungkin menjadi isu.

Kesan sampingan kedua berpunca daripada yang pertama. Oleh kerana `None` pada dasarnya membawa `Series` atau `DataFrame` kembali ke dunia Python biasa, menggunakan pengagregatan NumPy/pandas seperti `sum()` atau `min()` pada array yang mengandungi nilai ``None`` secara amnya akan menghasilkan ralat:


In [10]:
example1.sum()

TypeError: ignored

**Kesimpulan utama**: Penambahan (dan operasi lain) antara integer dan nilai `None` adalah tidak ditakrifkan, yang boleh mengehadkan apa yang boleh dilakukan dengan set data yang mengandungi nilai tersebut.


### `NaN`: nilai terapung yang hilang

Berbeza dengan `None`, NumPy (dan oleh itu pandas) menyokong `NaN` untuk operasi vektorisasi yang pantas dan ufuncs. Berita buruknya ialah sebarang operasi aritmetik yang dilakukan pada `NaN` sentiasa menghasilkan `NaN`. Sebagai contoh:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

Berita baik: pengagregatan yang dijalankan pada array dengan `NaN` di dalamnya tidak menghasilkan ralat. Berita buruk: hasilnya tidak sentiasa berguna:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Latihan:


In [11]:
# What happens if you add np.nan and None together?


Ingat: `NaN` hanya untuk nilai titik terapung yang hilang; tiada `NaN` yang setara untuk integer, string, atau Boolean.


### `NaN` dan `None`: nilai null dalam pandas

Walaupun `NaN` dan `None` boleh berkelakuan sedikit berbeza, pandas tetap dibina untuk mengendalikannya secara bergantian. Untuk memahami maksudnya, pertimbangkan `Series` integer:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Latihan:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


Dalam proses menaikkan jenis data untuk mewujudkan keseragaman data dalam `Series` dan `DataFrame`, pandas dengan mudah menukar nilai yang hilang antara `None` dan `NaN`. Disebabkan ciri reka bentuk ini, adalah berguna untuk menganggap `None` dan `NaN` sebagai dua jenis "null" yang berbeza dalam pandas. Malah, beberapa kaedah teras yang anda akan gunakan untuk menangani nilai yang hilang dalam pandas mencerminkan idea ini dalam nama mereka:

- `isnull()`: Menjana topeng Boolean yang menunjukkan nilai yang hilang
- `notnull()`: Bertentangan dengan `isnull()`
- `dropna()`: Mengembalikan versi data yang telah ditapis
- `fillna()`: Mengembalikan salinan data dengan nilai yang hilang diisi atau dianggarkan

Kaedah-kaedah ini adalah penting untuk dikuasai dan dibiasakan, jadi mari kita teliti setiap satu dengan lebih mendalam.


### Mengesan nilai null

Setelah kita memahami kepentingan nilai yang hilang, kita perlu mengesannya dalam dataset kita sebelum menanganinya. 
Kedua-dua `isnull()` dan `notnull()` adalah kaedah utama anda untuk mengesan data null. Kedua-duanya mengembalikan topeng Boolean ke atas data anda.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Perhatikan dengan teliti pada output. Adakah terdapat sesuatu yang mengejutkan anda? Walaupun `0` adalah null aritmetik, ia tetap merupakan integer yang sah dan pandas menganggapnya sedemikian. `''` pula sedikit lebih halus. Walaupun kita menggunakannya dalam Seksyen 1 untuk mewakili nilai string kosong, ia tetap merupakan objek string dan bukan representasi null menurut pandas.

Sekarang, mari kita ubah pendekatan ini dan gunakan kaedah-kaedah ini dengan cara yang lebih menyerupai penggunaan sebenar. Anda boleh menggunakan topeng Boolean secara langsung sebagai indeks ``Series`` atau ``DataFrame``, yang boleh berguna apabila cuba bekerja dengan nilai yang hilang (atau ada) secara terasing.

Jika kita mahu jumlah keseluruhan nilai yang hilang, kita hanya perlu melakukan jumlah ke atas topeng yang dihasilkan oleh kaedah `isnull()`.


In [19]:
example3.isnull().sum()

2

### Latihan:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Pengajaran utama**: Kedua-dua kaedah `isnull()` dan `notnull()` menghasilkan keputusan yang serupa apabila anda menggunakannya dalam DataFrame: mereka menunjukkan keputusan dan indeks keputusan tersebut, yang akan sangat membantu anda semasa anda menguruskan data anda.


### Menangani Data yang Hilang

> **Matlamat pembelajaran:** Pada akhir subseksyen ini, anda sepatutnya tahu bagaimana dan bila untuk menggantikan atau membuang nilai null daripada DataFrames.

Model Pembelajaran Mesin tidak dapat menangani data yang hilang secara langsung. Oleh itu, sebelum data dimasukkan ke dalam model, kita perlu menangani nilai-nilai yang hilang ini.

Cara menangani data yang hilang mempunyai kompromi yang halus, boleh mempengaruhi analisis akhir anda dan hasil dunia sebenar.

Terdapat dua cara utama untuk menangani data yang hilang:

1.   Buang baris yang mengandungi nilai yang hilang
2.   Gantikan nilai yang hilang dengan nilai lain

Kita akan membincangkan kedua-dua kaedah ini serta kebaikan dan keburukannya secara terperinci.


### Menyingkirkan nilai null

Jumlah data yang kita berikan kepada model kita mempunyai kesan langsung terhadap prestasinya. Menyingkirkan nilai null bermaksud kita mengurangkan bilangan titik data, dan seterusnya mengurangkan saiz dataset. Oleh itu, adalah disarankan untuk menyingkirkan baris dengan nilai null apabila dataset cukup besar.

Contoh lain mungkin berlaku apabila baris atau lajur tertentu mempunyai banyak nilai yang hilang. Dalam kes ini, ia mungkin disingkirkan kerana tidak akan memberikan banyak nilai kepada analisis kita memandangkan kebanyakan data untuk baris/lajur tersebut hilang.

Selain mengenal pasti nilai yang hilang, pandas menyediakan cara yang mudah untuk menyingkirkan nilai null daripada `Series` dan `DataFrame`. Untuk melihat ini dalam tindakan, mari kita kembali kepada `example3`. Fungsi `DataFrame.dropna()` membantu dalam menyingkirkan baris dengan nilai null.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Perhatikan bahawa ini sepatutnya kelihatan seperti output anda daripada `example3[example3.notnull()]`. Perbezaannya di sini ialah, bukannya hanya mengindeks pada nilai yang bertopeng, `dropna` telah membuang nilai-nilai yang hilang daripada `Series` `example3`.

Oleh kerana DataFrame mempunyai dua dimensi, ia memberikan lebih banyak pilihan untuk membuang data.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Adakah anda perasan bahawa pandas menaikkan dua daripada lajur kepada jenis float untuk menyesuaikan `NaN`?)

Anda tidak boleh membuang satu nilai sahaja daripada `DataFrame`, jadi anda perlu membuang keseluruhan baris atau lajur. Bergantung pada apa yang anda lakukan, anda mungkin ingin memilih salah satu, dan oleh itu pandas memberikan anda pilihan untuk kedua-duanya. Oleh kerana dalam sains data, lajur biasanya mewakili pemboleh ubah dan baris mewakili pemerhatian, anda lebih cenderung untuk membuang baris data; tetapan lalai untuk `dropna()` adalah untuk membuang semua baris yang mengandungi sebarang nilai null:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Jika perlu, anda boleh membuang nilai NA dari lajur. Gunakan `axis=1` untuk melakukannya:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Perhatikan bahawa ini boleh menyebabkan kehilangan banyak data yang mungkin anda ingin simpan, terutamanya dalam dataset yang lebih kecil. Bagaimana jika anda hanya ingin membuang baris atau lajur yang mengandungi beberapa atau bahkan semua nilai null? Anda boleh menetapkan pilihan tersebut dalam `dropna` dengan parameter `how` dan `thresh`.

Secara lalai, `how='any'` (jika anda ingin memeriksa sendiri atau melihat parameter lain yang dimiliki oleh kaedah ini, jalankan `example4.dropna?` dalam sel kod). Sebagai alternatif, anda boleh menetapkan `how='all'` untuk hanya membuang baris atau lajur yang mengandungi semua nilai null. Mari kita kembangkan contoh `DataFrame` kita untuk melihat ini berfungsi dalam latihan seterusnya.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Perkara penting:  
1. Menghapuskan nilai null adalah idea yang baik hanya jika dataset cukup besar.  
2. Baris atau lajur penuh boleh dihapuskan jika kebanyakan datanya hilang.  
3. Kaedah `DataFrame.dropna(axis=)` membantu dalam menghapuskan nilai null. Argumen `axis` menunjukkan sama ada baris atau lajur yang akan dihapuskan.  
4. Argumen `how` juga boleh digunakan. Secara lalai ia ditetapkan kepada `any`. Jadi, ia hanya menghapuskan baris/lajur yang mengandungi sebarang nilai null. Ia boleh ditetapkan kepada `all` untuk menentukan bahawa kita hanya akan menghapuskan baris/lajur di mana semua nilainya adalah null.  


### Latihan:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


Parameter `thresh` memberikan kawalan yang lebih terperinci: anda menetapkan bilangan nilai *bukan null* yang diperlukan oleh baris atau lajur untuk dikekalkan:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Di sini, baris pertama dan terakhir telah dibuang, kerana ia hanya mengandungi dua nilai bukan null.


### Mengisi Nilai Null

Kadang-kadang masuk akal untuk mengisi nilai yang hilang dengan nilai yang mungkin sah. Terdapat beberapa teknik untuk mengisi nilai null. Yang pertama adalah menggunakan Pengetahuan Domain (pengetahuan tentang subjek yang menjadi asas dataset) untuk menganggarkan nilai yang hilang.

Anda boleh menggunakan `isnull` untuk melakukan ini secara langsung, tetapi ia boleh menjadi memakan masa, terutamanya jika anda mempunyai banyak nilai untuk diisi. Oleh kerana ini adalah tugas yang biasa dalam sains data, pandas menyediakan `fillna`, yang mengembalikan salinan `Series` atau `DataFrame` dengan nilai yang hilang digantikan dengan pilihan anda. Mari kita buat satu lagi contoh `Series` untuk melihat bagaimana ini berfungsi dalam praktik.


### Data Kategori (Bukan Numerik)
Pertama sekali, mari kita pertimbangkan data bukan numerik. Dalam set data, kita mempunyai lajur dengan data kategori. Contohnya, Jantina, Benar atau Salah, dan sebagainya.

Dalam kebanyakan kes ini, kita menggantikan nilai yang hilang dengan `mod` bagi lajur tersebut. Sebagai contoh, katakan kita mempunyai 100 titik data, di mana 90 mengatakan Benar, 8 mengatakan Salah, dan 2 tidak diisi. Maka, kita boleh mengisi 2 yang kosong dengan Benar, dengan mengambil kira keseluruhan lajur.

Sekali lagi, di sini kita boleh menggunakan pengetahuan domain. Mari kita pertimbangkan contoh pengisian menggunakan mod.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


Sekarang, mari kita cari mod terlebih dahulu sebelum mengisi nilai `None` dengan mod.


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

Jadi, kita akan menggantikan None dengan True


In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Seperti yang kita lihat, nilai null telah digantikan. Tidak perlu dikatakan, kita boleh menulis apa sahaja sebagai ganti atau `'True'` dan ia akan digantikan.


### Data Nombor
Sekarang, beralih kepada data nombor. Di sini, terdapat dua cara biasa untuk menggantikan nilai yang hilang:

1. Gantikan dengan Median baris
2. Gantikan dengan Purata baris

Kita menggantikan dengan Median apabila data mempunyai pencilan yang menyebabkan data menjadi tidak seimbang. Ini kerana median adalah lebih tahan terhadap pencilan.

Apabila data telah dinormalisasi, kita boleh menggunakan purata, kerana dalam kes ini, purata dan median akan hampir sama.

Pertama, mari kita ambil satu lajur yang mempunyai taburan normal dan isi nilai yang hilang dengan purata lajur tersebut.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Purata lajur ialah


In [33]:
np.mean(fill_with_mean[0])

0.0

Mengisi dengan purata


In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Seperti yang kita dapat lihat, nilai yang hilang telah digantikan dengan minnya.


Sekarang mari kita cuba dataframe yang lain, dan kali ini kita akan menggantikan nilai None dengan median lajur tersebut.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


Median lajur kedua ialah


In [36]:
fill_with_median[1].median()

4.0

Mengisi dengan median


In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Seperti yang kita lihat, nilai NaN telah digantikan dengan median bagi lajur tersebut


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Anda boleh mengisi semua entri null dengan satu nilai, seperti `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Perkara penting yang perlu diambil perhatian:
1. Pengisian nilai yang hilang perlu dilakukan sama ada apabila terdapat sedikit data atau terdapat strategi untuk mengisi data yang hilang.
2. Pengetahuan domain boleh digunakan untuk mengisi nilai yang hilang dengan menganggarkannya.
3. Untuk data Kategori, kebiasaannya, nilai yang hilang digantikan dengan mod bagi lajur tersebut.
4. Untuk data numerik, nilai yang hilang biasanya diisi dengan purata (untuk set data yang dinormalisasi) atau median bagi lajur tersebut.


### Latihan:


In [40]:
# What happens if you try to fill null values with a string, like ''?


Anda boleh **isi ke depan** nilai null, iaitu menggunakan nilai sah terakhir untuk mengisi null:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Anda juga boleh **isi semula** untuk menyebarkan nilai sah seterusnya ke belakang bagi mengisi null:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Seperti yang anda mungkin teka, ini berfungsi sama dengan DataFrames, tetapi anda juga boleh menentukan `axis` untuk mengisi nilai null:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Perhatikan bahawa apabila nilai sebelumnya tidak tersedia untuk pengisian ke hadapan, nilai null tetap ada.


### Latihan:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Anda boleh menjadi kreatif tentang cara anda menggunakan `fillna`. Sebagai contoh, mari kita lihat `example4` sekali lagi, tetapi kali ini mari kita isi nilai yang hilang dengan purata semua nilai dalam `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Perhatikan bahawa lajur 3 masih tidak mempunyai nilai: arah lalai adalah untuk mengisi nilai secara baris demi baris.

> **Kesimpulan:** Terdapat pelbagai cara untuk menangani nilai yang hilang dalam set data anda. Strategi khusus yang anda gunakan (menghapusnya, menggantikannya, atau bahkan cara anda menggantikannya) harus ditentukan oleh keunikan data tersebut. Anda akan mengembangkan pemahaman yang lebih baik tentang cara menangani nilai yang hilang semakin banyak anda mengurus dan berinteraksi dengan set data.


### Pengekodan Data Kategori

Model pembelajaran mesin hanya berurusan dengan nombor dan sebarang bentuk data berangka. Ia tidak dapat membezakan antara Ya dan Tidak, tetapi ia boleh membezakan antara 0 dan 1. Jadi, selepas mengisi nilai yang hilang, kita perlu mengekod data kategori kepada bentuk berangka supaya model dapat memahaminya.

Pengekodan boleh dilakukan dengan dua cara. Kita akan membincangkannya seterusnya.


**PENKODAN LABEL**

Penkodan label pada dasarnya adalah menukar setiap kategori kepada nombor. Sebagai contoh, katakan kita mempunyai dataset penumpang penerbangan dan terdapat satu lajur yang mengandungi kelas mereka di antara ['kelas perniagaan', 'kelas ekonomi', 'kelas pertama']. Jika penkodan label dilakukan pada ini, ia akan ditukar kepada [0,1,2]. Mari kita lihat contoh melalui kod. Oleh kerana kita akan mempelajari `scikit-learn` dalam notebook yang akan datang, kita tidak akan menggunakannya di sini.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Untuk melaksanakan pengekodan label pada lajur pertama, kita perlu terlebih dahulu menerangkan pemetaan dari setiap kelas kepada nombor, sebelum menggantikan


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Seperti yang kita lihat, outputnya sepadan dengan apa yang kita jangkakan akan berlaku. Jadi, bila kita menggunakan pengekodan label? Pengekodan label digunakan dalam salah satu atau kedua-dua kes berikut:
1. Apabila bilangan kategori adalah besar
2. Apabila kategori mempunyai susunan.


**PENKODAN SATU PANAS**

Satu lagi jenis penkodan ialah Penkodan Satu Panas (One Hot Encoding). Dalam jenis penkodan ini, setiap kategori dalam lajur akan ditambah sebagai lajur berasingan, dan setiap titik data akan mendapat nilai 0 atau 1 berdasarkan sama ada ia mengandungi kategori tersebut. Jadi, jika terdapat n kategori yang berbeza, n lajur akan ditambahkan ke dalam dataframe.

Sebagai contoh, mari kita ambil contoh kelas kapal terbang yang sama. Kategorinya adalah: ['kelas perniagaan', 'kelas ekonomi', 'kelas pertama']. Jadi, jika kita melakukan penkodan satu panas, tiga lajur berikut akan ditambahkan ke dataset: ['class_kelas perniagaan', 'class_kelas ekonomi', 'class_kelas pertama'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Mari kita lakukan pengekodan satu panas pada lajur pertama


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Setiap satu lajur yang dikodkan secara one-hot mengandungi 0 atau 1, yang menentukan sama ada kategori tersebut wujud untuk titik data itu.


Bilakah kita menggunakan pengekodan satu panas? Pengekodan satu panas digunakan dalam salah satu atau kedua-dua kes berikut:

1. Apabila bilangan kategori dan saiz dataset adalah kecil.
2. Apabila kategori tidak mengikut sebarang susunan tertentu.


> Perkara Utama:
1. Pengekodan dilakukan untuk menukar data bukan numerik kepada data numerik.
2. Terdapat dua jenis pengekodan: Label encoding dan One Hot encoding, kedua-duanya boleh dilakukan berdasarkan keperluan dataset.


## Menghapuskan data pendua

> **Matlamat pembelajaran:** Pada akhir subseksyen ini, anda seharusnya berasa selesa mengenal pasti dan menghapuskan nilai pendua daripada DataFrames.

Selain daripada data yang hilang, anda sering akan menemui data pendua dalam set data dunia sebenar. Nasib baik, pandas menyediakan cara yang mudah untuk mengesan dan menghapuskan entri pendua.


### Mengenal pasti pendua: `duplicated`

Anda boleh dengan mudah mengenal pasti nilai pendua menggunakan kaedah `duplicated` dalam pandas, yang mengembalikan topeng Boolean yang menunjukkan sama ada entri dalam `DataFrame` adalah pendua daripada entri sebelumnya. Mari kita cipta satu lagi contoh `DataFrame` untuk melihat ini berfungsi.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Menyingkirkan pendua: `drop_duplicates`
`drop_duplicates` hanya mengembalikan salinan data di mana semua nilai `duplicated` adalah `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Kedua-dua `duplicated` dan `drop_duplicates` secara lalai mempertimbangkan semua lajur tetapi anda boleh menentukan bahawa mereka hanya memeriksa subset lajur dalam `DataFrame` anda:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


> **Pengajaran:** Menghapuskan data pendua adalah bahagian penting dalam hampir setiap projek sains data. Data pendua boleh mengubah hasil analisis anda dan memberikan keputusan yang tidak tepat!


## Pemeriksaan Kualiti Data Dunia Sebenar

> **Matlamat pembelajaran:** Pada akhir bahagian ini, anda seharusnya berasa yakin untuk mengesan dan membetulkan isu kualiti data dunia sebenar yang biasa termasuk nilai kategori yang tidak konsisten, nilai numerik yang tidak normal (outlier), dan entiti pendua dengan variasi.

Walaupun nilai yang hilang dan pendua yang tepat adalah masalah biasa, set data dunia sebenar sering mengandungi masalah yang lebih halus:

1. **Nilai kategori yang tidak konsisten**: Kategori yang sama dieja dengan cara berbeza (contohnya, "USA", "U.S.A", "United States")
2. **Nilai numerik yang tidak normal**: Outlier ekstrem yang menunjukkan kesilapan kemasukan data (contohnya, umur = 999)
3. **Baris hampir pendua**: Rekod yang mewakili entiti yang sama dengan sedikit variasi

Mari kita terokai teknik untuk mengesan dan menangani isu-isu ini.


### Membuat Dataset "Kotor" Contoh

Pertama, mari kita buat dataset contoh yang mengandungi jenis masalah yang sering kita temui dalam data dunia sebenar:


In [None]:
import pandas as pd
import numpy as np

# Create a sample dataset with quality issues
dirty_data = pd.DataFrame({
    'customer_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
    'name': ['John Smith', 'Jane Doe', 'John Smith', 'Bob Johnson', 
             'Alice Williams', 'Charlie Brown', 'John  Smith', 'Eva Martinez',
             'Bob Johnson', 'Diana Prince', 'Frank Castle', 'Alice Williams'],
    'age': [25, 32, 25, 45, 28, 199, 25, 31, 45, 27, -5, 28],
    'country': ['USA', 'UK', 'U.S.A', 'Canada', 'USA', 'United Kingdom',
                'United States', 'Mexico', 'canada', 'USA', 'UK', 'usa'],
    'purchase_amount': [100.50, 250.00, 105.00, 320.00, 180.00, 90.00,
                       102.00, 275.00, 325.00, 195.00, 410.00, 185.00]
})

print("Sample 'Dirty' Dataset:")
print(dirty_data)

### 1. Mengesan Nilai Kategori yang Tidak Konsisten

Perhatikan bahawa lajur `country` mempunyai pelbagai representasi untuk negara yang sama. Mari kita kenal pasti ketidakkonsistenan ini:


In [None]:
# Check unique values in the country column
print("Unique country values:")
print(dirty_data['country'].unique())
print(f"\nTotal unique values: {dirty_data['country'].nunique()}")

# Count occurrences of each variation
print("\nValue counts:")
print(dirty_data['country'].value_counts())

#### Menyeragamkan Nilai Kategori

Kita boleh membuat pemetaan untuk menyeragamkan nilai-nilai ini. Pendekatan mudah adalah dengan menukar kepada huruf kecil dan membuat kamus pemetaan:


In [None]:
# Create a standardization mapping
country_mapping = {
    'usa': 'USA',
    'u.s.a': 'USA',
    'united states': 'USA',
    'uk': 'UK',
    'united kingdom': 'UK',
    'canada': 'Canada',
    'mexico': 'Mexico'
}

# Standardize the country column
dirty_data['country_clean'] = dirty_data['country'].str.lower().map(country_mapping)

print("Before standardization:")
print(dirty_data['country'].value_counts())
print("\nAfter standardization:")
print(dirty_data[['country_clean']].value_counts())

**Alternatif: Menggunakan Pencocokan Kabur**

Untuk kes-kes yang lebih kompleks, kita boleh menggunakan pencocokan rentetan kabur dengan pustaka `rapidfuzz` untuk mengesan rentetan yang serupa secara automatik:


In [None]:
try:
    from rapidfuzz import process, fuzz
except ImportError:
    print("rapidfuzz is not installed. Please install it with 'pip install rapidfuzz' to use fuzzy matching.")
    process = None
    fuzz = None

# Get unique countries
unique_countries = dirty_data['country'].unique()

# For each country, find similar matches
if process is not None and fuzz is not None:
    print("Finding similar country names (similarity > 70%):")
    for country in unique_countries:
        matches = process.extract(country, unique_countries, scorer=fuzz.ratio, limit=3)
        # Filter matches with similarity > 70 and not identical
        similar = [m for m in matches if m[1] > 70 and m[0] != country]
        if similar:
            print(f"\n'{country}' is similar to:")
            for match, score, _ in similar:
                print(f"  - '{match}' (similarity: {score}%)")
else:
    print("Skipping fuzzy matching because rapidfuzz is not available.")

### 2. Mengesan Nilai Berangka Tidak Normal (Outliers)

Melihat pada lajur `age`, terdapat beberapa nilai yang mencurigakan seperti 199 dan -5. Mari gunakan kaedah statistik untuk mengesan outlier ini.


In [None]:
# Display basic statistics
print("Age column statistics:")
print(dirty_data['age'].describe())

# Identify impossible values using domain knowledge
print("\nRows with impossible age values (< 0 or > 120):")
impossible_ages = dirty_data[(dirty_data['age'] < 0) | (dirty_data['age'] > 120)]
print(impossible_ages[['customer_id', 'name', 'age']])

#### Menggunakan Kaedah IQR (Interquartile Range)

Kaedah IQR adalah teknik statistik yang kukuh untuk pengesanan nilai luar yang kurang sensitif terhadap nilai ekstrem:


In [None]:
# Calculate IQR for age (excluding impossible values)
valid_ages = dirty_data[(dirty_data['age'] >= 0) & (dirty_data['age'] <= 120)]['age']

Q1 = valid_ages.quantile(0.25)
Q3 = valid_ages.quantile(0.75)
IQR = Q3 - Q1

# Define outlier bounds
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"IQR-based outlier bounds for age: [{lower_bound:.2f}, {upper_bound:.2f}]")

# Identify outliers
age_outliers = dirty_data[(dirty_data['age'] < lower_bound) | (dirty_data['age'] > upper_bound)]
print(f"\nRows with age outliers:")
print(age_outliers[['customer_id', 'name', 'age']])

#### Menggunakan Kaedah Z-Score

Kaedah Z-score mengenal pasti nilai luar biasa berdasarkan sisihan piawai dari purata:


In [None]:
try:
    from scipy import stats
except ImportError:
    print("scipy is required for Z-score calculation. Please install it with 'pip install scipy' and rerun this cell.")
else:
    # Calculate Z-scores for age, handling NaN values
    age_nonan = dirty_data['age'].dropna()
    zscores = np.abs(stats.zscore(age_nonan))
    dirty_data['age_zscore'] = np.nan
    dirty_data.loc[age_nonan.index, 'age_zscore'] = zscores

    # Typically, Z-score > 3 indicates an outlier
    print("Rows with age Z-score > 3:")
    zscore_outliers = dirty_data[dirty_data['age_zscore'] > 3]
    print(zscore_outliers[['customer_id', 'name', 'age', 'age_zscore']])

    # Clean up the temporary column
    dirty_data = dirty_data.drop('age_zscore', axis=1)

#### Mengendalikan Nilai Luar Biasa

Setelah dikesan, nilai luar biasa boleh dikendalikan dengan beberapa cara:
1. **Buang**: Hapuskan baris dengan nilai luar biasa (jika ia adalah kesilapan)
2. **Hadkan**: Gantikan dengan nilai sempadan
3. **Gantikan dengan NaN**: Anggap sebagai data yang hilang dan gunakan teknik imputasi
4. **Simpan**: Jika ia adalah nilai ekstrem yang sah


In [None]:
# Create a cleaned version by replacing impossible ages with NaN
dirty_data['age_clean'] = dirty_data['age'].apply(
    lambda x: np.nan if (x < 0 or x > 120) else x
)

print("Age column before and after cleaning:")
print(dirty_data[['customer_id', 'name', 'age', 'age_clean']])

### 3. Mengesan Baris Hampir Serupa

Perhatikan bahawa dataset kita mempunyai beberapa entri untuk "John Smith" dengan nilai yang sedikit berbeza. Mari kita kenal pasti kemungkinan pendua berdasarkan kesamaan nama.


In [None]:
# First, let's look at exact name matches (ignoring extra whitespace)
dirty_data['name_normalized'] = dirty_data['name'].str.strip().str.lower()

print("Checking for duplicate names:")
duplicate_names = dirty_data[dirty_data.duplicated(['name_normalized'], keep=False)]
print(duplicate_names.sort_values('name_normalized')[['customer_id', 'name', 'age', 'country']])

#### Mencari Pendua Hampir Sama dengan Pencocokan Kabur

Untuk pengesanan pendua yang lebih canggih, kita boleh menggunakan pencocokan kabur untuk mencari nama yang serupa:


In [None]:
try:
    from rapidfuzz import process, fuzz

    # Function to find potential duplicates
    def find_near_duplicates(df, column, threshold=90):
        """
        Find near-duplicate entries in a column using fuzzy matching.
        
        Parameters:
        - df: DataFrame
        - column: Column name to check for duplicates
        - threshold: Similarity threshold (0-100)
        
        Returns: List of potential duplicate groups
        """
        values = df[column].unique()
        duplicate_groups = []
        checked = set()
        
        for value in values:
            if value in checked:
                continue
                
            # Find similar values
            matches = process.extract(value, values, scorer=fuzz.ratio, limit=len(values))
            similar = [m[0] for m in matches if m[1] >= threshold]
            
            if len(similar) > 1:
                duplicate_groups.append(similar)
                checked.update(similar)
        
        return duplicate_groups

    # Find near-duplicate names
    duplicate_groups = find_near_duplicates(dirty_data, 'name', threshold=90)

    print("Potential duplicate groups:")
    for i, group in enumerate(duplicate_groups, 1):
        print(f"\nGroup {i}:")
        for name in group:
            matching_rows = dirty_data[dirty_data['name'] == name]
            print(f"  '{name}': {len(matching_rows)} occurrence(s)")
            for _, row in matching_rows.iterrows():
                print(f"    - Customer {row['customer_id']}: age={row['age']}, country={row['country']}")
except ImportError:
    print("rapidfuzz is not installed. Skipping fuzzy matching for near-duplicates.")

#### Mengendalikan Pendua

Setelah dikenal pasti, anda perlu memutuskan cara untuk mengendalikan pendua:
1. **Simpan kejadian pertama**: Gunakan `drop_duplicates(keep='first')`
2. **Simpan kejadian terakhir**: Gunakan `drop_duplicates(keep='last')`
3. **Gabungkan maklumat**: Satukan maklumat daripada baris pendua
4. **Semakan manual**: Tandakan untuk semakan manusia


In [None]:
# Example: Remove duplicates based on normalized name, keeping first occurrence
cleaned_data = dirty_data.drop_duplicates(subset=['name_normalized'], keep='first')

print(f"Original dataset: {len(dirty_data)} rows")
print(f"After removing name duplicates: {len(cleaned_data)} rows")
print(f"Removed: {len(dirty_data) - len(cleaned_data)} duplicate rows")

print("\nCleaned dataset:")
print(cleaned_data[['customer_id', 'name', 'age', 'country_clean']])

### Ringkasan: Saluran Pembersihan Data Lengkap

Mari kita gabungkan semuanya ke dalam saluran pembersihan yang menyeluruh:


In [None]:
def clean_dataset(df):
    """
    Comprehensive data cleaning function.
    """
    # Create a copy to avoid modifying the original
    cleaned = df.copy()
    
    # 1. Standardize categorical values (country)
    country_mapping = {
        'usa': 'USA', 'u.s.a': 'USA', 'united states': 'USA',
        'uk': 'UK', 'united kingdom': 'UK',
        'canada': 'Canada', 'mexico': 'Mexico'
    }
    cleaned['country'] = cleaned['country'].str.lower().map(country_mapping)
    
    # 2. Clean abnormal age values
    cleaned['age'] = cleaned['age'].apply(
        lambda x: np.nan if (x < 0 or x > 120) else x
    )
    
    # 3. Remove near-duplicate names (normalize whitespace)
    cleaned['name'] = cleaned['name'].str.strip()
    cleaned = cleaned.drop_duplicates(subset=['name'], keep='first')
    
    return cleaned

# Apply the cleaning pipeline
final_cleaned_data = clean_dataset(dirty_data)

print("Before cleaning:")
print(f"  Rows: {len(dirty_data)}")
print(f"  Unique countries: {dirty_data['country'].nunique()}")
print(f"  Invalid ages: {((dirty_data['age'] < 0) | (dirty_data['age'] > 120)).sum()}")

print("\nAfter cleaning:")
print(f"  Rows: {len(final_cleaned_data)}")
print(f"  Unique countries: {final_cleaned_data['country'].nunique()}")
print(f"  Invalid ages: {((final_cleaned_data['age'] < 0) | (final_cleaned_data['age'] > 120)).sum()}")

print("\nCleaned dataset:")
print(final_cleaned_data[['customer_id', 'name', 'age', 'country', 'purchase_amount']])

### 🎯 Latihan Cabaran

Sekarang giliran anda! Di bawah ini terdapat satu baris data baru dengan pelbagai isu kualiti. Bolehkah anda:

1. Kenal pasti semua isu dalam baris ini
2. Tulis kod untuk membersihkan setiap isu
3. Tambahkan baris yang telah dibersihkan ke dalam set data

Berikut adalah data yang bermasalah:


In [None]:
# New problematic row
new_row = pd.DataFrame({
    'customer_id': [13],
    'name': ['  Diana  Prince  '],  # Extra whitespace
    'age': [250],  # Impossible age
    'country': ['U.S.A.'],  # Inconsistent format
    'purchase_amount': [150.00]
})

print("New row to clean:")
print(new_row)

# TODO: Your code here to clean this row
# Hints:
# 1. Strip whitespace from the name
# 2. Check if the name is a duplicate (Diana Prince already exists)
# 3. Handle the impossible age value
# 4. Standardize the country name

# Example solution (uncomment and modify as needed):
# new_row_cleaned = new_row.copy()
# new_row_cleaned['name'] = new_row_cleaned['name'].str.strip()
# new_row_cleaned['age'] = np.nan  # Invalid age
# new_row_cleaned['country'] = 'USA'  # Standardized
# print("\nCleaned row:")
# print(new_row_cleaned)

### Perkara Penting

1. **Kategori tidak konsisten** adalah perkara biasa dalam data dunia sebenar. Sentiasa periksa nilai unik dan standardkan menggunakan pemetaan atau padanan kabur.

2. **Nilai luar biasa** boleh memberi kesan besar kepada analisis anda. Gunakan pengetahuan domain bersama kaedah statistik (IQR, Z-score) untuk mengesannya.

3. **Hampir serupa** lebih sukar dikesan berbanding duplikasi tepat. Pertimbangkan menggunakan padanan kabur dan normalisasi data (huruf kecil, buang ruang kosong) untuk mengenal pasti mereka.

4. **Pembersihan data adalah proses berulang**. Anda mungkin perlu menggunakan pelbagai teknik dan menyemak hasilnya sebelum memuktamadkan set data yang telah dibersihkan.

5. **Dokumentasikan keputusan anda**. Simpan rekod langkah pembersihan yang telah anda gunakan dan sebabnya, kerana ini penting untuk kebolehulangan dan ketelusan.

> **Amalan Terbaik:** Sentiasa simpan salinan data "kotor" asal anda. Jangan sesekali menulis ganti fail data sumber anda - buat versi yang telah dibersihkan dengan konvensyen penamaan yang jelas seperti `data_cleaned.csv`.



---

**Penafian**:  
Dokumen ini telah diterjemahkan menggunakan perkhidmatan terjemahan AI [Co-op Translator](https://github.com/Azure/co-op-translator). Walaupun kami berusaha untuk memastikan ketepatan, sila ambil perhatian bahawa terjemahan automatik mungkin mengandungi kesilapan atau ketidaktepatan. Dokumen asal dalam bahasa asalnya harus dianggap sebagai sumber yang berwibawa. Untuk maklumat yang kritikal, terjemahan manusia profesional adalah disyorkan. Kami tidak bertanggungjawab atas sebarang salah faham atau salah tafsir yang timbul daripada penggunaan terjemahan ini.
