In [1]:
"""Pandas chọn sentinels cho missing data(thay vì masked array)"""
"""None với python object, NaN với floating-point value"""

"""None: pythonic missing data"""
"""Vì là Python object nên None không được tùy ý sử dụng trong Numpy/Pandas array"""
"""None chỉ thể hiện cho các data type là object"""
import numpy 
import pandas

vals1 = numpy.array([1, None, 3, 4])
vals1

array([1, None, 3, 4], dtype=object)

In [2]:
"""Python object khá là chậm, tốn kém so với native types của numpy"""
for dtype in ["object", "int"]:
    print("dtype = ", dtype)
    %timeit numpy.arange(1e6, dtype = dtype).sum()
    print()

dtype =  object
64.8 ms ± 1.47 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

dtype =  int
1.94 ms ± 33.3 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)



In [3]:
"""Ngoài ra sử dụng Python objects trong một array mà bạn xài sum() hoặc min(), các aggregations operations sẽ gây lỗi nếu có phần tử nào đó None"""
vals1.sum()

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

In [4]:
"""NAN: misssing numerical data"""
"""Là một floating-point value thể hiện bởi tất cả các hệ thống sử dụng chuẩn IEEE floating-point representation"""
vals2 = numpy.array([1, numpy.nan, 3, 4])
vals2.dtype

dtype('float64')

In [5]:
"""Vì nan là native floating point type ==> operations sẽ nhanh hơn rất nhiếu"""
"""Tuy nhiên nan giống như 1 con virus, chạm vào sẽ bị biến thành nó."""
1 + numpy.nan

nan

In [6]:
vals2.sum(), vals2.min(), vals2.max()

(nan, nan, nan)

In [7]:
"""Numpy cung cấp một vài cách để xử lý"""
numpy.nansum(vals2), numpy.nanmin(vals2), numpy.nanmax(vals2)

(8.0, 1.0, 4.0)

In [8]:
"""NaN và None trong pandas"""
"""Pandas được xây dựng để xử lý hai thằng NaN và None gần như thay thế cho nhau, chuyển đổi chúng khi thích hợp """
pandas.Series([1, numpy.nan, 2, None])

0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64

In [9]:
"""Với các types không có sentinel value sẵn có thì Pandas sẽ type casts lên float hoặc object khi thấy NA values xuất hiện"""
x = pandas.Series(range(2), dtype = int)
x

0    0
1    1
dtype: int64

In [11]:
x[0] = None
x

0    NaN
1    1.0
dtype: float64

In [13]:
x = pandas.Series(range(2), dtype = "object")
x

0    0
1    1
dtype: object

In [16]:
x[0] = numpy.NaN
x[1] = None
x

0     NaN
1    None
dtype: object

In [18]:

"""Operating trên các null values"""
"""Vì Pandas coi None và NaN là hai thằng thay thế lẫn nhau để thể hiện missing values"""
"""Chúng ta cần một vài phương thức để phát hiện, xóa, thay thế missing values trong Pandas data structures."""

"""Detect null values"""

data = pandas.Series([1, numpy.nan, "hello", None])
data.isnull()

0    False
1     True
2    False
3     True
dtype: bool

In [19]:
data[data.notnull()]

0        1
2    hello
dtype: object

In [20]:
"""Droping null values"""

data.dropna()

0        1
2    hello
dtype: object

In [21]:
"""Với DataFrame thì có nhiều options hơn Series"""
dataFrame = pandas.DataFrame([
    [1, numpy.nan, 2],
    [2, 3, 5],
    [numpy.nan, 4, 6]
])
dataFrame


Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [22]:
dataFrame.dropna()

Unnamed: 0,0,1,2
1,2.0,3.0,5


In [23]:
"""Drop theo cột"""
dataFrame.dropna(axis = 1)


Unnamed: 0,2
0,2
1,5
2,6


In [24]:
dataFrame.dropna(axis = 0)

Unnamed: 0,0,1,2
1,2.0,3.0,5


In [25]:
"""Drop với all hoặc any , thresh condition"""
dataFrame[3] = numpy.nan

dataFrame.dropna(axis = 1, how = "all")

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [30]:
"""Thresh xác định min number non-na values để một row/col phải có để không bị drop"""
dataFrame.dropna(axis = 0, thresh = 3)

Unnamed: 0,0,1,2,3


In [33]:
"""Filling null values"""

"""Ta hoàn toàn có thể sử dụng isnull() method"""
"""Pandas cung cấp một phương thức fillna() cho tiện vì nó trả về một copy"""
data = pandas.Series([numpy.nan, 1, numpy.nan, 2, None, 3], index = list("abcdef"))
data

a    NaN
b    1.0
c    NaN
d    2.0
e    NaN
f    3.0
dtype: float64

In [34]:
data.fillna(0)

a    0.0
b    1.0
c    0.0
d    2.0
e    0.0
f    3.0
dtype: float64

In [35]:
"""forward fill - gán na value = previous value"""
"""Tuy nhiên phần tử đầu tiên mà na value thì chịu"""
data.fillna(method = "ffill")

a    NaN
b    1.0
c    1.0
d    2.0
e    2.0
f    3.0
dtype: float64

In [36]:
data.fillna(method = "bfill")


a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
f    3.0
dtype: float64

In [None]:
"""Với DataFrame cũng giống vậy, hơn cái là chọn đc. axis"""

