# Handle Missing Value
Ada beberapa cara yaitu: 
- Menghapus Row
- Mengisinya dengan mean, median, modus, Nilai Sebelum/Sesudahnya dll
- Interpolasi

Terkadang informasi mengenai keberadaan missing value itu penting untuk memahami pola data dan menghindari interpretasi yang salah. Mengisi missing value dapat menghilangkan informasi tersebut karena nilai yang sebenarnya telah digantikan dengan nilai yang diprediksi. Oleh karena itu, sebelum mengisi missing value, tambahkan kolom baru sebagai *flag* untuk mengindikasikan apakah data tersebut asli atau berasal dari missing value yang telah diisi. *Flag* ini membantu kita melacak data yang telah dimanipulasi dan memastikan interpretasi data yang akurat. [https://youtu.be/f9AQy7p0QEo]()

Secara umum, menghapus baris dengan nilai yang hilang dapat menyebabkan hilangnya informasi berharga, terutama ketika persentase nilai yang hilang tinggi. Namun, dalam kasus di mana persentase data yang hilang kecil, menghapus baris mungkin tidak memiliki dampak signifikan pada analisis.

Teknik imputasi, di sisi lain, digunakan untuk mengganti nilai yang hilang dengan perkiraan. Imputasi berguna dalam menyimpan informasi dari data yang hilang dan menjaga ukuran sampel. Mengisi dengan nol mungkin sesuai ketika nilai yang hilang diharapkan nol atau ketika nilai yang hilang tidak informatif untuk analisis. 

Imputasi rata-rata dapat digunakan ketika distribusi data normal, dan nilai yang hilang acak. Imputasi median sesuai ketika distribusi data miring. Imputasi mode digunakan ketika berhadapan dengan data kategoris, di mana mode mewakili kategori yang paling umum. [https://www.linkedin.com/pulse/when-how-handle-missing-inaccurate-values-dataset-machine-abdallah/]()

In [11]:
import pandas as pd

ufo = pd.read_csv("https://bit.ly/uforeports")

In [12]:
ufo.tail()

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
18236,Grant Park,,TRIANGLE,IL,12/31/2000 23:00
18237,Spirit Lake,,DISK,IA,12/31/2000 23:00
18238,Eagle River,,,WI,12/31/2000 23:45
18239,Eagle River,RED,LIGHT,WI,12/31/2000 23:45
18240,Ybor,,OVAL,FL,12/31/2000 23:59


## Metode 1: Menghapus Row

In [13]:
# Cara 1
ufo[ufo.notnull().all(axis=1)].shape

(2486, 5)

In [14]:
# Cara 2
ufo.dropna(how='any').shape

# untuk mengahapus sesuai kolom tertentu
ufo.dropna(subset=['City','Shape Reported'],how='any').shape 

(15575, 5)

## Metode 2: Mengisi missing value
Dengan Modus (Nilai Terbanyak/Nilai yang sering muncul)


In [15]:
# Inplace=True berarti mengubah data asli 
# mode() mengembalikan series, [0] :ambil index pertama
ufo.fillna({"Shape Reported": ufo['Shape Reported'].mode()[0]},inplace=True) 

In [16]:
c = ufo["Shape Reported"].value_counts(dropna=False)
p = ufo["Shape Reported"].value_counts(dropna=False, normalize=True) * 100
pd.concat([c, p.round(1).astype(str) + "%"], axis=1, keys=["counts", "%"])

Unnamed: 0_level_0,counts,%
Shape Reported,Unnamed: 1_level_1,Unnamed: 2_level_1
LIGHT,5447,29.9%
DISK,2122,11.6%
TRIANGLE,1889,10.4%
OTHER,1402,7.7%
CIRCLE,1365,7.5%
SPHERE,1054,5.8%
FIREBALL,1039,5.7%
OVAL,845,4.6%
CIGAR,617,3.4%
FORMATION,434,2.4%


In [17]:
ufo["Colors Reported"].fillna(method="bfill",inplace=True)
ufo["Colors Reported"].fillna(value="RED",inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  ufo["Colors Reported"].fillna(method="bfill",inplace=True)
  ufo["Colors Reported"].fillna(method="bfill",inplace=True)


In [36]:
df = pd.DataFrame({
    "A":[3,4],
    "B":[5.0,6.0],
    "C":["c","c"],
    "D":[True,False],
    "E":pd.date_range("2021-12-25","2021-12-26")})