## Handling missing values

Missing data dapat terjadi apabila hilang saat melakukan penggabungan data atau memang tidak ada isinya. Value yang hilang/tidak lengkap dari dataframe akan membuat analisis atau model prediksi yang dibuat menjadi tidak akurat dan mengakibatkan keputusan salah yang diambil. Terdapat beberapa cara untuk mengatasi data yang hilang/tidak lengkap tersebut. 

Gunakan **.info()** dapat menunjukan kolom mana yang terdapat data hilang dan berapa banyak.

Gunakan **.isna().sum()** dimana **.isna()** digunakan untuk mengecek berapa data yang bernilai NaN dan **.sum()** menjumlahkannya secara default untuk masing-masing kolom dataframe.

Perhatikan berikut ini:

```python
import pandas as pd
# Baca file 
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/datacovid19.csv")
# Cetak info dari df
print(df.info())
# Cetak jumlah missing value di setiap kolom
mv = df.isna().sum()
print("\nJumlah missing value per kolom:\n", mv)
```



In [None]:
# Silahkan dicoba disini



Terdapat beberapa cara untuk mengatasi missing value, antara lain:

1. dibiarkan saja, ini merupakan cara yang kurang baik, karena akan mempersulit dalam pemodelan nantinya.
2. hapus value itu dengan menghapus kolom, yang mana ini digunakan jika seluruh kolom dari dataset yang dipunyai semua barisnya adalah missing value (Gunakan **.dropna()**).

Catatan .dropna:

Dua keyword argumen yang harus diisikan yaitu axis dan how. Keyword axis digunakan untuk menentukan arah dataframe yang akan dibuang angka 1 untuk menyatakan kolom (column-based) atau dapat ditulis dalam string "column". Jika digunakan angka 0 berarti itu dalam searah index (row-based) atau dapat ditulis dalam string "index".

Sementara, keyword how digunakan untuk bagaimana cara membuangnya. Opsi yang dapat diterimanya (dalam string) adalah

"all" artinya jika seluruh data di satu/beberapa kolom atau di satu/beberapa baris adalah missing value.
"any" artinya jika memiliki 1 saja data yang hilang maka buanglah baris/kolom tersebut.

Perhatikan berikut ini:

```python
import pandas as pd
# Baca file 
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/datacovid19.csv")
# Cetak ukuran awal dataframe
print("Ukuran awal df: %d baris, %d kolom." % df.shape)
# Drop kolom yang seluruhnya missing value dan cetak ukurannya
df = df.dropna(axis=1, how="all")
print("Ukuran df setelah buang kolom dengan seluruh data missing: %d baris, %d kolom." % df.shape)
# Drop baris jika ada satu saja data yang missing dan cetak ukurannya
df = df.dropna(axis=0, how="any")
print("Ukuran df setelah dibuang baris yang memiliki sekurangnya 1 missing value: %d baris, %d kolom." % df.shape)
```



In [None]:
# Silahkan dicoba disini



Apa yang terjadi apabila jika?

> df.dropna(cols, axis=1, how='any')




3. isi value tersebut dengan value yang lain (biasanya interpolasi, mean, median, etc)

Perhatikan berikut ini:

```python
import pandas as pd
# Baca file 
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/datacovid19.csv")
# Cetak unique value pada kolom province_state
print("Unique value awal:\n", df["province_state"].unique())
# Ganti missing value dengan string "unknown_province_state"
df["province_state"] = df["province_state"].fillna("unknown_province_state")
# Cetak kembali unique value pada kolom province_state
print("Unique value setelah fillna:\n", df["province_state"].unique())
```



In [None]:
# Silahkan dicoba disini



Perhatikan berikut ini:

```python
import pandas as pd
# Baca file
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/datacovid19.csv")
# Cetak nilai mean dan median awal
print("Awal: mean = %f, median = %f." % (df["active"].mean(), df["active"].median()))
# Isi missing value kolom active dengan median
df_median = df["active"].fillna(df["active"].median())
# Cetak nilai mean dan median awal setelah diisi dengan median
print("Fillna median: mean = %f, median = %f." % (df_median.mean(), df_median.median()))
# Isi missing value kolom active dengan mean
df_mean = df["active"].fillna(df["active"].mean())
# Cetak nilai mean dan median awal setelah diisi dengan mean
print("Fillna mean: mean = %f, median = %f." % (df_mean.mean(), df_mean.median())) 
```



In [None]:
# Silahkan dicoba disini



Perhatikan berikut ini untuk interpolasi:

```python
import numpy as np
import pandas as pd
# Data
ts = pd.Series({
   "2020-01-01":9,
   "2020-01-02":np.nan,
   "2020-01-05":np.nan,
   "2020-01-07":24,
   "2020-01-10":np.nan,
   "2020-01-12":np.nan,
   "2020-01-15":33,
   "2020-01-17":np.nan,
   "2020-01-16":40,
   "2020-01-20":45,
   "2020-01-22":52,
   "2020-01-25":75,
   "2020-01-28":np.nan,
   "2020-01-30":np.nan
})
# Isi missing value menggunakan interpolasi linier
ts = ts.interpolate()
# Cetak time series setelah interpolasi linier
print("Setelah diisi missing valuenya:\n", ts)
```



In [None]:
# Silahkan dicoba disini

