# Pandas处理丢失数据
- 两种丢失数据：
    - None
    - np.nan(NaN)

## 1.None
- None是Python自带的，其类型是python object。因此，None不能参与到任何计算中。
- object类型的运算要比int类型的运算慢很多
- 计算不同数据类型求和时间

In [1]:
import numpy as np
import pandas as pd

In [14]:
%timeit np.arange(0,10000,dtype=int).sum()

19.2 µs ± 2.08 µs per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [15]:
%timeit np.arange(0,10000,dtype=float).sum()

20.3 µs ± 1.89 µs per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [16]:
%timeit np.arange(0,10000,dtype=object).sum()

708 µs ± 150 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


## 2.np.nan(NaN)
- np.nan是浮点类型，能参与到计算中。但计算的结果总是NaN。
- 但可以使用np.nan*()函数来计算nan,此时视nan为0.

## 3.pandas中的None与NaN
### 3.1pandas中None与np.nan都视作np.nan

In [19]:
#创建DataFrame
import pandas as pd
import numpy as np

In [20]:
df = pd.DataFrame({'age':np.random.randint(20,25,size=5),
                   'salary':[10000,12000,15000,9000,20000]},
                 index=['张三','李四','小赵','小王','小刘'],
                 columns=['age','salary','work'])
df

Unnamed: 0,age,salary,work
张三,22,10000,
李四,23,12000,
小赵,23,15000,
小王,21,9000,
小刘,24,20000,


In [21]:
df.work['李四':'小王'] = 'Python'
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


Unnamed: 0,age,salary,work
张三,22,10000,
李四,23,12000,Python
小赵,23,15000,Python
小王,21,9000,Python
小刘,24,20000,


### 3.2pandas中None与np.nan的操作
- isnull()
- notnull()
- dropna():过滤丢失数据
- fillna():填充丢失数据
- （1）判断函数
    - isnull()
    - notnull()

In [25]:
df.isnull()

Unnamed: 0,age,salary,work
张三,False,False,True
李四,False,False,False
小赵,False,False,False
小王,False,False,False
小刘,False,False,True


In [28]:
#根据获取的数据取出原来数据的空数据
s1 = df.isnull().any(axis=1)
df[s1]

Unnamed: 0,age,salary,work
张三,22,10000,
小刘,24,20000,


In [23]:
df.notnull()

Unnamed: 0,age,salary,work
张三,True,True,False
李四,True,True,True
小赵,True,True,True
小王,True,True,True
小刘,True,True,False


In [32]:
#获取原来数据中非空的数据
df.notnull().any(axis=1)

张三    True
李四    True
小赵    True
小王    True
小刘    True
dtype: bool

In [33]:
df.notnull().all(axis=1)# all限定所有数据都不为空

张三    False
李四     True
小赵     True
小王     True
小刘    False
dtype: bool

In [34]:
s2 = df.notnull().all(axis=1)
df[s2]

Unnamed: 0,age,salary,work
李四,23,12000,Python
小赵,23,15000,Python
小王,21,9000,Python


- (2)过滤函数
    - dropna()

In [37]:
#选择过滤的是行还是列）（默认是行）
df.dropna(axis=0)

Unnamed: 0,age,salary,work
李四,23,12000,Python
小赵,23,15000,Python
小王,21,9000,Python


In [38]:
#还可以选择过滤方式how='all'
df.dropna(how='all')

Unnamed: 0,age,salary,work
张三,22,10000,
李四,23,12000,Python
小赵,23,15000,Python
小王,21,9000,Python
小刘,24,20000,


In [41]:
df.loc['张三'] = np.nan
df

Unnamed: 0,age,salary,work
张三,,,
李四,23.0,12000.0,Python
小赵,23.0,15000.0,Python
小王,21.0,9000.0,Python
小刘,24.0,20000.0,


In [40]:
df.dropna(how='all')

Unnamed: 0,age,salary,work
李四,23.0,12000.0,Python
小赵,23.0,15000.0,Python
小王,21.0,9000.0,Python
小刘,24.0,20000.0,


- (3)填充函数Series/DataFrame
    - fillna()

In [53]:
#fillna()对所有的空数据进行替换
display(df)
df.fillna(value='Java')

Unnamed: 0,age,salary,work
张三,,,
李四,23.0,12000.0,Python
小赵,23.0,15000.0,Python
小王,21.0,9000.0,Python
小刘,24.0,20000.0,


Unnamed: 0,age,salary,work
张三,Java,Java,Java
李四,23,12000,Python
小赵,23,15000,Python
小王,21,9000,Python
小刘,24,20000,Java


In [51]:
#选择向前填充还是向后填充(inplace对原来的数据进行变更)
df.fillna(method='bfill')

Unnamed: 0,age,salary,work
张三,23.0,12000.0,Python
李四,23.0,12000.0,Python
小赵,23.0,15000.0,Python
小王,21.0,9000.0,Python
小刘,24.0,20000.0,


In [52]:
df.fillna(method='ffill')

Unnamed: 0,age,salary,work
张三,,,
李四,23.0,12000.0,Python
小赵,23.0,15000.0,Python
小王,21.0,9000.0,Python
小刘,24.0,20000.0,Python


- 对于DataFrame来说，还要选择填充的轴axis。记住，对于DataFrame来说：
    - axis=0：index/行
    - axis=1：columns/列