In [1]:
import numpy as  np
import pandas as pd
import missingno as msno


# 1.缺失值及判断

In [None]:
print(np.nan == True ) 
print(np.nan == False)
print(np.nan == 0)
print(np.nan ==  '')

In [None]:
print(pd.isna(np.nan))
print(pd.isnull(np.nan))
print(pd.notnull(np.nan))
print(pd.notna(np.nan))
print(pd.notna(1))

# 2. 演示加载加载缺失值

In [None]:
# 加载数据，包括缺失值
pd.read_csv('mdata/survey_visited.csv')

# 加载数据，忽略缺失值
pd.read_csv('mdata/survey_visited.csv', keep_default_na= False)

# 加载数据时，手动指定某些值为空值
pd.read_csv('mdata/survey_visited.csv', keep_default_na=False,na_values=['619','734'])


# 3.如何处理缺失值

## 3.1 加载数据源 及 缺失值的可视化

In [None]:
df = pd.read_csv('mdata/titanic_train.csv')
df.head()

In [None]:
df.shape
df.info()

In [None]:
df['Survived'].value_counts() # 0是没获救，1是获救了

In [None]:
# 缺失值的可视化，查看缺失值的分布情况

# 绘制柱状图，查看缺失值的分布情况
msno.bar(df)

# 查看下缺失值的关系（关联性），例如：A字段缺失，B字段会不会缺失等
msno.heatmap(df)

## 3.2 缺失值处理方式1：删除缺失值

In [None]:
# 1.查看各列的数据统计情况
df.isnull().sum()

# 删除缺失值，如果缺失值比较少的情况下，可以这样做
# 参数 axis =0 代表行 ， how是删除方式， any任意一个为空， all都要为空
df.dropna(subset=['Age'],how = 'any') # 只参考age

df.dropna(how = 'any' ,axis=1) # 只要列有空值，就把列删掉，删除列要慎重

## 3.3 缺失值处理方式2：非时间序列数值

In [None]:
# 查看各列的数据统计情况
df.isnull().sum()
df.fillna(0).isnull().sum() # 填充缺失值
# 实际开发中，我们一般不会直接随便写一个固定值，会用一些有统计意义的值
df.Age.mean()
df.Age.fillna(df.Age.mean())


## 3.4 缺失值处理方式：时间序列数据

In [30]:
city_day = pd.read_csv('mdata/city_day.csv',parse_dates= ['Date'],index_col='Date')
city_day.head()

# 获取有空值的某一段数据
city_day['Xylene'][50:64]

# 用空值的上一个值来填充
city_day['Xylene'].fillna(method = 'ffill')[50:64]

#  用空值的下个值来填充
city_day['Xylene'].fillna(method = 'bfill')[50:64]

# 线性填充，结合前边和后边的值，来推导出一个要填写的值
# method参数有三个值： both:参考前+后推导。
# forward只参考前面的值
# backward只参考后面的值
city_day['Xylene'].interpolate(limit_direction='backward')[50:64]


  city_day['Xylene'].fillna(method = 'ffill')[50:64]
  city_day['Xylene'].fillna(method = 'bfill')[50:64]


Date
2015-02-20     7.4800
2015-02-21    15.4400
2015-02-22     8.4700
2015-02-23    28.4600
2015-02-24     6.0500
2015-02-25     0.8100
2015-02-26     0.9375
2015-02-27     1.0650
2015-02-28     1.1925
2015-03-01     1.3200
2015-03-02     0.2200
2015-03-03     2.2500
2015-03-04     1.5500
2015-03-05     4.1300
Name: Xylene, dtype: float64