In [25]:
"""
None : Pythonic missing Data
"""

import numpy as np
import pandas as pd

# None object as missing values
arr1 = np.array([1.1, None, 3, 4])
arr1

# None 포함되면 object로 표현 

array([1.1, None, 3, 4], dtype=object)

In [26]:
# Python objects are incompatible with numpy and pandas operations
# arr1.sum() -> none이 포함되어있기 때문에 실행되지 않음

In [27]:
"""
NaN: Missing Numerical Data
"""
arr1 = np.array([1, np.nan, 3, 4])
arr1
arr1.dtype # Nan값은 작동함(특수한 float형으로 인식)

dtype('float64')

In [28]:
# Arithmetic with NaN will be another NaN
1 + np.nan # 비어있는 값에 하는 것이기 때문에 무엇을 해도 NaN 단, 적어도 오류는 없음

nan

In [29]:
# Special NumPy  aggregation funcs that ignore these missing values -> NaN값 무시하는 집계함수 쓰면 됨
np.nansum(arr1)

8.0

In [30]:
# Pandas automatically converts the None to a NaN value.
ser = pd.Series([1, np.nan, 2, None]) 
# 문자 섞이면 object로 바뀜

In [31]:
"""
Detecting null values
"""

print(ser)
print(ser.isnull())
print(ser.notnull())

0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64
0    False
1     True
2    False
3     True
dtype: bool
0     True
1    False
2     True
3    False
dtype: bool


In [34]:
"""
Dropping null values
"""

# dropna()
ser.dropna(how='all')

0    1.0
2    2.0
dtype: float64

In [36]:
# For a DataFrame, there are more options

df = pd.DataFrame([[1, np.nan, 2],
                  [2, 3, 5],
                  [np.nan, 4, 6]])
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [38]:
# df,drioba() : list-wise deletion
df.dropna(axis='columns', how='all')

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [39]:
"""
Filling Null values
"""

'\nFilling Null values\n'

In [43]:
# Fill null values with a certain value

ser = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
ser.fillna(-9999)

a       1.0
b   -9999.0
c       2.0
d   -9999.0
e       3.0
dtype: float64

In [47]:
# Forward-fill = LOCF

ser.fillna(method='ffill')
# ser.ffill()로 호출만 해도 됨

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

In [48]:
# backward-fill = NOCB

ser.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64