Belajar cara mengatasi Handling Misiing Value

Pengenalan Data Cleaning

Pembersihan data adalah bagian penting dari ilmu data, namun hal ini bisa sangat membuat frustrasi. Mengapa beberapa kolom teks Anda kacau? Apa yang harus Anda lakukan terhadap nilai-nilai yang hilang tersebut? Mengapa tanggal Anda tidak diformat dengan benar? Bagaimana cara cepat membersihkan entri data yang tidak konsisten? Dalam kursus ini, Anda akan mempelajari mengapa Anda mengalami masalah ini dan, yang lebih penting, cara memperbaikinya!

Dalam kursus ini, Anda akan mempelajari cara mengatasi beberapa masalah pembersihan data yang paling umum sehingga Anda dapat menganalisis data dengan lebih cepat. Anda akan mengerjakan lima latihan praktis dengan data nyata dan berantakan serta menjawab beberapa pertanyaan pembersihan data yang paling sering diajukan.

Dalam buku catatan ini, kita akan melihat cara menangani nilai yang hilang.

1. Take a first look at the data / Lihatlah datanya terlebih dahulu

Hal pertama yang perlu kita lakukan adalah memuat perpustakaan dan kumpulan data yang akan kita gunakan.

ntuk demonstrasinya, kami akan menggunakan kumpulan data peristiwa yang terjadi di pertandingan American Football. Dalam latihan berikut, Anda akan menerapkan keterampilan baru Anda pada kumpulan data izin bangunan yang dikeluarkan di San Francisco.

In [1]:
# mempersiapkan module atau library yang diperlukan
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

Matplotlib created a temporary cache directory at C:\Users\mmuiz\AppData\Local\Temp\matplotlib-2hkvv1ny because the default path (C:\Users\mmuiz\.matplotlib) is not a writable directory; it is highly recommended to set the MPLCONFIGDIR environment variable to a writable directory, in particular to speed up the import of Matplotlib and to better support multiprocessing.
Matplotlib is building the font cache; this may take a moment.


In [4]:
# mempersiapkan dataset yang diperlukan
dataset = pd.read_csv('C:\Latihan\Latihan\Python\Sample Data\data.csv')
dataset

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
0,60,110,130,409.1
1,60,117,145,479.0
2,60,103,135,340.0
3,45,109,175,282.4
4,45,117,148,406.0
...,...,...,...,...
164,60,105,140,290.8
165,60,110,145,300.0
166,60,115,145,310.2
167,75,120,150,320.4


Hal pertama yang harus dilakukan saat Anda mendapatkan kumpulan data baru adalah melihat beberapa di antaranya. Ini memungkinkan Anda melihat bahwa semuanya terbaca dengan benar dan memberikan gambaran tentang apa yang terjadi dengan data tersebut. Dalam hal ini, mari kita lihat apakah ada nilai yang hilang, yang akan direpresentasikan dengan NaN atau None.

2. How many missing data points do we have? / Berapa banyak titik data yang hilang yang kita miliki?

Oke, sekarang kita tahu bahwa kita memiliki beberapa nilai yang hilang. Mari kita lihat berapa banyak yang kita miliki di setiap kolom.

In [5]:
# menghitung jumlah data yang hilang dari masing masing kolom

Dataset_Mis = dataset.isnull().sum() # sintaks ini digunakan untuk menghitung jumlah data yg hilang

Dataset_Mis[0:100] # sintaks ini digunakan untuk menampilkan data 100 baris pertama dari dataset

Duration    0
Pulse       0
Maxpulse    0
Calories    5
dtype: int64

Sepertinya banyak sekali! Mungkin berguna untuk melihat berapa persentase nilai dalam kumpulan data yang hilang agar kita bisa lebih memahami skala masalah ini:

In [6]:
# berapa total nilai hilang yang kita miliki?
Total_Kolom = np.product(Dataset_Mis.shape) # sintaks ini digunakan untuk menghitung total jumlah elemen dalam DataFrame Dataset_Mis
Total_Miss = Dataset_Mis.sum() # sintaks ini digunakan untuk menghitung total jumlah nilai dalam setiap kolom dari DataFrame

#  persen data yang hilang
Total_Persentase = (Total_Miss / Total_Kolom) * 100 # sintaks ini digunakan untuk menghitung persentase dari data yang hilang
print(Total_Persentase) # sintaks ini digunakan untuk menampilkan dataset

125.0


Wow, hampir seperempat sel di dataset ini kosong! Pada langkah berikutnya, kita akan melihat lebih dekat beberapa kolom dengan nilai yang hilang dan mencoba mencari tahu apa yang mungkin terjadi dengan kolom tersebut.

3. Figure out why the data is missing / Cari tahu mengapa datanya hilang

Ini adalah titik di mana kita masuk ke bagian ilmu data yang saya sebut "intusi data", yang saya maksud adalah "benar-benar melihat data Anda dan mencoba mencari tahu mengapa hal itu terjadi dan bagaimana hal itu akan terjadi. mempengaruhi analisis Anda". Ini bisa menjadi bagian yang membuat frustrasi dalam ilmu data, terutama jika Anda baru dalam bidang ini dan tidak memiliki banyak pengalaman. Untuk menangani nilai yang hilang, Anda harus menggunakan intuisi Anda untuk mencari tahu mengapa nilai tersebut hilang. Salah satu pertanyaan terpenting yang dapat Anda tanyakan pada diri sendiri untuk membantu memecahkan masalah ini adalah:

Apakah nilai ini hilang karena tidak dicatat atau karena tidak ada?

Jika suatu nilai hilang karena tidak ada (seperti tinggi badan anak tertua dari seseorang yang tidak memiliki anak) maka tidak masuk akal untuk mencoba menebak nilai tersebut. Nilai-nilai ini mungkin ingin Anda pertahankan sebagai NaN. Di sisi lain, jika suatu nilai hilang karena tidak dicatat, Anda dapat mencoba menebak nilai tersebut berdasarkan nilai lain di kolom dan baris tersebut. Ini disebut imputasi, dan kita akan mempelajari cara melakukannya selanjutnya! :

Mari kita kerjakan sebuah contoh. Melihat jumlah nilai yang hilang dalam kerangka data Dataset_Miss, saya perhatikan bahwa kolom "Calories" memiliki banyak nilai yang hilang di dalamnya:

In [7]:
# lihat titik yang hilang di sepuluh kolom pertama
Dataset_Mis[0:120]

Duration    0
Pulse       0
Maxpulse    0
Calories    5
dtype: int64

4. Drop Missing Values / Hilangkan nilai yang hilang

Jika Anda sedang terburu-buru atau tidak punya alasan untuk mencari tahu mengapa nilai Anda hilang, salah satu opsi yang Anda miliki adalah menghapus baris atau kolom apa pun yang berisi nilai yang hilang. (Catatan: Saya biasanya tidak merekomendasikan pendekatan ini untuk proyek-proyek penting! Biasanya ada baiknya meluangkan waktu untuk memeriksa data Anda dan benar-benar melihat semua kolom dengan nilai yang hilang satu per satu untuk benar-benar mengenal kumpulan data Anda .)

Jika Anda yakin ingin menghapus baris dengan nilai yang hilang, pandas memiliki fungsi praktis, dropna() untuk membantu Anda melakukan hal ini. Mari kita mencobanya di kumpulan data dataset kami!

In [13]:
# menghapus nilai yang hilang dengan menggunakan dungsi dropna()
dataset.dropna(inplace=True)
dataset

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
0,60,110,130,409.1
1,60,117,145,479.0
2,60,103,135,340.0
3,45,109,175,282.4
4,45,117,148,406.0
...,...,...,...,...
164,60,105,140,290.8
165,60,110,145,300.0
166,60,115,145,310.2
167,75,120,150,320.4


a ampun, sepertinya itu menghapus semua data kita! 😱 Ini karena setiap baris dalam kumpulan data kita memiliki setidaknya satu nilai yang hilang. Kami mungkin lebih beruntung menghapus semua kolom yang memiliki setidaknya satu nilai yang hilang.

In [14]:
dataset_drop = dataset.dropna(axis=True)
dataset_drop.head()

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
0,60,110,130,409.1
1,60,117,145,479.0
2,60,103,135,340.0
3,45,109,175,282.4
4,45,117,148,406.0
