In [1]:
#Python Pandas Tutorial (Part 9): Cleaning Data - Casting Datatypes and Handling Missing Values
import pandas as pd
import numpy as np

In [2]:
people = {
    "first":["Corey",'Jane','John','Chris', np.nan,None,'NA'],
    "last":["Schafer",'Doe','Doe','Schafer',np.nan, np.nan,'Missing'],
    "email":["CoreyMSchafer@gmail.com",'JaneDoe@email.com','JohnDoe@email.com',None,np.nan,'Anonymous@email.com','NA'],
    "age":["33","55","63","36",None,None,'Missing']
}

In [3]:
df = pd.DataFrame(people)
df.replace('NA',np.nan,inplace=True)
df.replace('Missing',np.nan,inplace=True)
df

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreyMSchafer@gmail.com,33.0
1,Jane,Doe,JaneDoe@email.com,55.0
2,John,Doe,JohnDoe@email.com,63.0
3,Chris,Schafer,,36.0
4,,,,
5,,,Anonymous@email.com,
6,,,,


In [4]:
df.dropna()

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreyMSchafer@gmail.com,33
1,Jane,Doe,JaneDoe@email.com,55
2,John,Doe,JohnDoe@email.com,63


In [5]:
#có đối số trục để đối số này có thể được đặt thành chỉ mục hoặc đặt thành các cột
# đặt how="any" để loại bỏ bất kỳ giá trị bị thiếu nào (mặc định)
# đặt how="all" để loại bỏ bất kỳ giá trị bị thiếu nào nhưng không phải tất cả
df.dropna(axis="index",how="all")

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreyMSchafer@gmail.com,33.0
1,Jane,Doe,JaneDoe@email.com,55.0
2,John,Doe,JohnDoe@email.com,63.0
3,Chris,Schafer,,36.0
5,,,Anonymous@email.com,


In [6]:
# lọc theo cột
df.dropna(axis="columns", how="all")

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreyMSchafer@gmail.com,33.0
1,Jane,Doe,JaneDoe@email.com,55.0
2,John,Doe,JohnDoe@email.com,63.0
3,Chris,Schafer,,36.0
4,,,,
5,,,Anonymous@email.com,
6,,,,


In [7]:
# lọc ra các hàng không có giá trị rỗng một cột bất kỳ nào đó
# vd dưới lọc theo last và email, hàng số 4 và 6 bị lọc ra vì có giá trị rỗng ở hàng last và email
df.dropna(axis="index", how="all",subset=["last","email"])

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreyMSchafer@gmail.com,33.0
1,Jane,Doe,JaneDoe@email.com,55.0
2,John,Doe,JohnDoe@email.com,63.0
3,Chris,Schafer,,36.0
5,,,Anonymous@email.com,


In [8]:
# kiểm tra hàng - cột nào có giá trị là nan
df.isna()

Unnamed: 0,first,last,email,age
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,True,False
4,True,True,True,True
5,True,True,False,True
6,True,True,True,True


In [9]:
# chuyển những kết quả là None hoặc NaN thành giá trị khác
df.fillna(0)

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreyMSchafer@gmail.com,33
1,Jane,Doe,JaneDoe@email.com,55
2,John,Doe,JohnDoe@email.com,63
3,Chris,Schafer,0,36
4,0,0,0,0
5,0,0,Anonymous@email.com,0
6,0,0,0,0


In [10]:
df.dtypes

first    object
last     object
email    object
age      object
dtype: object

In [17]:
# ép kiểu cho một cột dữ liệu
df['age'] = df['age'].astype(float)

In [13]:
df.dtypes

first     object
last      object
email     object
age      float64
dtype: object

In [16]:
#tính giá trị trung bình
df['age'].mean()

46.75