<a href="https://colab.research.google.com/github/aekanun2020/Data-Analytics-using-Python/blob/main/F_A_2023_Oct_Python_Pandas_Null_Detection.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

การตรวจสอบ Null (Null Detection) มี 2 แบบ

(1) สรุปภาพรวมให้เห็นจำนวน Null ในแต่ละ Columns (Null Summary)

(2) การระบุตำแหน่ง Null ซึ่งเป็นการเลือกเฉพาะ Row/Columns ที่มี Null ขึ้นมาแสดง (Locate Null)

In [1]:
# Create DataFrame with None/Null to work with examples
import pandas as pd
import numpy as np
technologies   = {
    'Courses':["Spark","PySpark","Hadoop","Python","Pandas",None,"Spark","Python"],
    'Fee' :[22000,25000,23000,24000,np.nan,25000,25000,22000],
    'Duration':['30day','50days','55days','40days','60days','35day','','50days'],
    'Discount':[1000,2300,1000,1200,2500,1300,1400,1600]
          }
row_labels=['r0','r1','r2','r3','r4','r5','r6','r7']
df = pd.DataFrame(technologies, index=row_labels)
print(df)

    Courses      Fee Duration  Discount
r0    Spark  22000.0    30day      1000
r1  PySpark  25000.0   50days      2300
r2   Hadoop  23000.0   55days      1000
r3   Python  24000.0   40days      1200
r4   Pandas      NaN   60days      2500
r5     None  25000.0    35day      1300
r6    Spark  25000.0               1400
r7   Python  22000.0   50days      1600


In [2]:
df

Unnamed: 0,Courses,Fee,Duration,Discount
r0,Spark,22000.0,30day,1000
r1,PySpark,25000.0,50days,2300
r2,Hadoop,23000.0,55days,1000
r3,Python,24000.0,40days,1200
r4,Pandas,,60days,2500
r5,,25000.0,35day,1300
r6,Spark,25000.0,,1400
r7,Python,22000.0,50days,1600


In [3]:
df.values ## convert to array()

array([['Spark', 22000.0, '30day', 1000],
       ['PySpark', 25000.0, '50days', 2300],
       ['Hadoop', 23000.0, '55days', 1000],
       ['Python', 24000.0, '40days', 1200],
       ['Pandas', nan, '60days', 2500],
       [None, 25000.0, '35day', 1300],
       ['Spark', 25000.0, '', 1400],
       ['Python', 22000.0, '50days', 1600]], dtype=object)

# **1. Null Summary**

In [4]:
df.isnull().values.any() #ให้ค่า True เมื่อมี Null ใน Dataframe

True

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 8 entries, r0 to r7
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Courses   7 non-null      object 
 1   Fee       7 non-null      float64
 2   Duration  8 non-null      object 
 3   Discount  8 non-null      int64  
dtypes: float64(1), int64(1), object(2)
memory usage: 320.0+ bytes


In [6]:
df.isnull().sum()

Courses     1
Fee         1
Duration    0
Discount    0
dtype: int64

In [7]:
type(df.isnull().sum())

pandas.core.series.Series

In [8]:
# นำผลการทำ Null Summary มาสร้างเป็น DataFrame

pd.DataFrame(df.isnull().sum())

Unnamed: 0,0
Courses,1
Fee,1
Duration,0
Discount,0


In [9]:
pd.DataFrame(df.isnull().sum())[0]['Fee']

## ความรู้เดิม Subdata with column LABEL index and row LABEL index

1

In [10]:
df.columns

## ความรู้เดิม แสดง Column Index Label

Index(['Courses', 'Fee', 'Duration', 'Discount'], dtype='object')

In [11]:
df.isnull().sum().values

array([1, 1, 0, 0])

In [12]:
# นำผลการทำ Null Summary มาสร้างเป็น DataFrame
# โดยมีการกำหนด Column Index Label

pd.DataFrame({'col_name':df.columns,'num_null':df.isnull().sum().values})

Unnamed: 0,col_name,num_null
0,Courses,1
1,Fee,1
2,Duration,0
3,Discount,0


# **2. Locate Null**

In [13]:
df[df['Courses'].isnull()] # ตัดมาเฉพาะ Row ที่ Column 'Courses' เป็น Null

## Subdata with Boolean index

Unnamed: 0,Courses,Fee,Duration,Discount
r5,,25000.0,35day,1300


In [14]:
df[df['Fee'].isnull()] # ตัดมาเฉพาะ Row ที่ Column 'Fee' เป็น Null

## Subdata with Boolean index

Unnamed: 0,Courses,Fee,Duration,Discount
r4,Pandas,,60days,2500


In [15]:
df.isnull().any()

Courses      True
Fee          True
Duration    False
Discount    False
dtype: bool

In [16]:
# ตัดมาเฉพาะ Column ที่มี Element เป็น Null
# สังเกตว่า ผลลัพธ์จะมีครบทุก Row แต่อาจมีไม่ครบทุก Column
# เฉพาะ Column ที่มี Element เป็น Null เท่านั้น

df[df.columns[df.isnull().any()]]

Unnamed: 0,Courses,Fee
r0,Spark,22000.0
r1,PySpark,25000.0
r2,Hadoop,23000.0
r3,Python,24000.0
r4,Pandas,
r5,,25000.0
r6,Spark,25000.0
r7,Python,22000.0


In [17]:
df.apply(lambda x: x == "").any()

Courses     False
Fee         False
Duration     True
Discount    False
dtype: bool

In [18]:
# ตัดมาเฉพาะ Column ที่มี Element เป็น empty value
# สังเกตว่า ผลลัพธ์จะมีครบทุก Row แต่อาจมีไม่ครบทุก Column
# เฉพาะ Column ที่มี Element เป็น empty value เท่านั้น

df[df.columns[df.apply(lambda x: x == "").any()]]

Unnamed: 0,Duration
r0,30day
r1,50days
r2,55days
r3,40days
r4,60days
r5,35day
r6,
r7,50days


In [19]:
df.isnull().any(axis=1)

r0    False
r1    False
r2    False
r3    False
r4     True
r5     True
r6    False
r7    False
dtype: bool

In [20]:
# ตัดมาเฉพาะ Row ที่มี Element เป็น Null
# สังเกตว่า ผลลัพธ์จะมีครบทุก Column แต่อาจมีไม่ครบทุก Row
# เฉพาะ Row ที่มี Element เป็น Null เท่านั้น


df[df.isnull().any(axis=1)]

Unnamed: 0,Courses,Fee,Duration,Discount
r4,Pandas,,60days,2500
r5,,25000.0,35day,1300


In [21]:
# ตัดมาเฉพาะ Row ที่มี Element เป็น empty value
# สังเกตว่า ผลลัพธ์จะมีครบทุก Column แต่อาจมีไม่ครบทุก Row
# เฉพาะ Row ที่มี Element เป็น empty value เท่านั้น


df[df.apply(lambda x:x == "").any(axis=1)]

Unnamed: 0,Courses,Fee,Duration,Discount
r6,Spark,25000.0,,1400


In [22]:
## ตัดมาเฉพาะ Row หรือ Column ที่มี Null เท่านั้น

df[df.columns[df.isnull().any()]][df.isnull().any(axis=1)]

Unnamed: 0,Courses,Fee
r4,Pandas,
r5,,25000.0


In [23]:
df[df.isnull().any(axis=1)][df.columns[df.isnull().any()]]

Unnamed: 0,Courses,Fee
r4,Pandas,
r5,,25000.0
