In [1]:
import  numpy as np
import pandas as pd

In [2]:
data=pd.read_excel('test3.xlsx')
data

Unnamed: 0,姓名,年龄,身高,体重,性别
0,张三,18,170.0,180,男
1,李四,17,180.0,150,
2,王五,16,,90,女
3,赵六,18,180.0,200,赵


- 查看基本信息

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 5 columns):
姓名    4 non-null object
年龄    4 non-null int64
身高    3 non-null float64
体重    4 non-null int64
性别    3 non-null object
dtypes: float64(1), int64(2), object(2)
memory usage: 240.0+ bytes


## 一、缺失值类型

In [4]:
print('type(np.nan)',type(np.nan))
print('type(None)',type(None))
print('type(np.NAN)',type(np.NAN))
print('type(pd.np.nan)',pd.np.nan)

type(np.nan) <class 'float'>
type(None) <class 'NoneType'>
type(np.NAN) <class 'float'>
type(pd.np.nan) nan


In [5]:
data.loc[1,'性别']== np.nan
# data.iloc[2,2]

False

In [6]:
data.iloc[2,1] is np.nan

False

In [7]:
pd.isna(np.nan)

True

In [8]:
[pd.isna(i) for i in {np.nan,np.NAN,None,pd.np.nan}]

[True, True]

### pd.isna 能够识别np.nan np.NAN,None,pd.np.nan  识别的范围广
    **皆不相同**

In [9]:
for i in [np.nan,np.NAN,None,pd.np.nan]:
    print(pd.isna(i))

True
True
True
True


In [10]:
pd.np.nan == np.nan

False

In [11]:
None == np.nan

False

In [12]:
np.nan == np.NAN

False

## np.isnan 能够识别np.nan
- isnan 判断是否为nan 故而使用的范围较窄
- 表明np.isnan只能够判断数值型的数据是否为缺失值

In [13]:
np.isnan(np.nan)

True

In [14]:
data.loc[0,'性别']
# np.isnan(data[0,'性别'])  代码运行错误

'男'

## 二、将异常值定义为缺失值

#### 1.定义函数 map应用将异常值定义为缺失值

In [15]:
def f1(x):
    if x in {'男','女'}:
        v=x
    else:
        v=np.nan
    return v   

In [16]:
data['性别'].map(f1)
# 将异常值转化成了缺失值

0      男
1    NaN
2      女
3    NaN
Name: 性别, dtype: object

In [17]:
type(data['性别'].map(f1)[1])
# nan is float

float

####  ***map方法更加同用和保险的方式***
- 其一、try expect 
    - 判断其是否为数值型，不是则标记成np.nan float 的数据类型
- 其二、if else
    - 判断数据类型是否为np.nan 或None，是返回空值、不是则返回原始的数值

In [18]:
# 其一
def f2(x):
    try:   #防止报错
        a=float(x)  #首先判断其是否为数值型的
    except:
        a=np.nan   #若不是数值型这将其设定为np.nan
    return a
print('type(np.nan)',type(np.nan))

type(np.nan) <class 'float'>


In [19]:
data.身高.map(f2)

0    170.0
1    180.0
2      NaN
3    180.0
Name: 身高, dtype: float64

In [20]:
# 其二  
'''将空缺的值变成空的'''
def f3(x):
    if x in {np.nan,None}:
        return ''
    else:
        return x   
data.性别.map(f3)

0    男
1     
2    女
3    赵
Name: 性别, dtype: object

### 2.通过loc定义缺失值

In [21]:
data.loc[2,'身高']=np.nan

In [22]:
data.loc[2,'身高']

nan

### 三、isnull、isna均可识别np.nan、np.NAN,np.NaN

In [23]:
pd.isna(data.loc[1,'性别'])

True

In [24]:
pd.isnull(data.loc[1,'性别'])

True

### 缺失值个数统计

In [25]:
# 全部的缺失统计
data.isnull().sum()

姓名    0
年龄    0
身高    1
体重    0
性别    1
dtype: int64

In [26]:
# 身高的缺失情况
data.身高.isnull().sum()

1

In [27]:
data.身高.isna().sum()

1

### 缺失值占比

In [28]:
data.isnull().mean()

姓名    0.00
年龄    0.00
身高    0.25
体重    0.00
性别    0.25
dtype: float64

In [29]:
data.isna().mean()

姓名    0.00
年龄    0.00
身高    0.25
体重    0.00
性别    0.25
dtype: float64

### 四、缺失值的处理

- #### 1.缺失和非缺失值的判断
   - 缺失判断  isnull
   - 非缺失判断 notnull

In [30]:
data.isnull()

Unnamed: 0,姓名,年龄,身高,体重,性别
0,False,False,False,False,False
1,False,False,False,False,True
2,False,False,True,False,False
3,False,False,False,False,False


In [31]:
data.isna()
# 与isna等同

Unnamed: 0,姓名,年龄,身高,体重,性别
0,False,False,False,False,False
1,False,False,False,False,True
2,False,False,True,False,False
3,False,False,False,False,False


In [32]:
data.notnull()

Unnamed: 0,姓名,年龄,身高,体重,性别
0,True,True,True,True,True
1,True,True,True,True,False
2,True,True,False,True,True
3,True,True,True,True,True


- #### 2.提取缺失的值  布尔索引

In [33]:
data.身高[data.身高.isna()]

2   NaN
Name: 身高, dtype: float64

& 且      | 或  !非

In [34]:
data[(data.身高.isnull())&(data.性别.isna())]

Unnamed: 0,姓名,年龄,身高,体重,性别


In [35]:
data[(data.身高.isnull()) | (data.性别.isna())]

Unnamed: 0,姓名,年龄,身高,体重,性别
1,李四,17,180.0,150,
2,王五,16,,90,女


- ### 3.**删除缺失值**  **dropna 方法**
- how 参数
    - any  行或列中只要存在元素为空就将其删除
    - all  行或列中所有的元素为空时才将其整个删除
- thresh 行或列至少存在几个缺失值才将其保留

In [36]:
data.dropna(axis=0,how='any', #任意一行或一列有任意元素为空时就将其丢弃
            thresh=0,#一行或一列至少有1个缺失值则将其保留 None 表示存在缺失值则删除
           inplace=False) #True 直接作用于本身

Unnamed: 0,姓名,年龄,身高,体重,性别
0,张三,18,170.0,180,男
1,李四,17,180.0,150,
2,王五,16,,90,女
3,赵六,18,180.0,200,赵


In [37]:
data.dropna(axis=1,how='all') #all 表示一行或一列都为空时才将其删除

Unnamed: 0,姓名,年龄,身高,体重,性别
0,张三,18,170.0,180,男
1,李四,17,180.0,150,
2,王五,16,,90,女
3,赵六,18,180.0,200,赵


- ###  4.**缺失值的列转换类型**
- #### astype 将列转化成str
- ***副作用：转变成str后再用isnull、isna判断时会被判断成非缺失值，建议运用map方法进行缺失值的处理***

In [38]:
# 单个转变
data.iloc[2,2].astype(str)

'nan'

In [39]:
data.iloc[1,4]

nan

In [40]:
# 整列的转变
data.iloc[:,2::2]

Unnamed: 0,身高,性别
0,170.0,男
1,180.0,
2,,女
3,180.0,赵


In [41]:
data.iloc[:,2].astype(str)

0    170.0
1    180.0
2      nan
3    180.0
Name: 身高, dtype: object

In [42]:
data.iloc[:,4].astype(str)

0      男
1    nan
2      女
3      赵
Name: 性别, dtype: object

- ### **astype将列转化成float**

In [43]:
data.iloc[:,2].astype(float)

0    170.0
1    180.0
2      NaN
3    180.0
Name: 身高, dtype: float64

- ### **强制的将其转化成数值   pd.to_numeric**

In [44]:
# 参数errors ='ignore'忽略运行的错误结果返回原来的结果
pd.to_numeric(data.iloc[:,4],errors='ignore')

0      男
1    NaN
2      女
3      赵
Name: 性别, dtype: object

In [45]:
# errors ='raise' 结果为错误的，则不能继续运行下去
# pd.to_numeric(data.iloc[:,4],errors='raise')
# 文本型的值无法转换成数值，报错

### 五、缺失值的填充 fillna

### 1.固定值填充

In [46]:
data

Unnamed: 0,姓名,年龄,身高,体重,性别
0,张三,18,170.0,180,男
1,李四,17,180.0,150,
2,王五,16,,90,女
3,赵六,18,180.0,200,赵


In [47]:
# 用180来填充身高缺失值
# 通过将缺失值索引出来，并将其赋予成新值的形式来进行缺失值的填充
# 上述的方式适合列或行于缺失的适量很少的情景
data.iloc[2,2]=180

In [48]:
data

Unnamed: 0,姓名,年龄,身高,体重,性别
0,张三,18,170.0,180,男
1,李四,17,180.0,150,
2,王五,16,180.0,90,女
3,赵六,18,180.0,200,赵


In [49]:
# 运用fillna的方式对缺失的部分进行缺失值的填充
# 参数 inplace=True 直接作用
data.性别.fillna('女')

0    男
1    女
2    女
3    赵
Name: 性别, dtype: object

In [50]:
data

Unnamed: 0,姓名,年龄,身高,体重,性别
0,张三,18,170.0,180,男
1,李四,17,180.0,150,
2,王五,16,180.0,90,女
3,赵六,18,180.0,200,赵


In [51]:
# 将性别上的缺失值转化成空值
data.性别.fillna('')

0    男
1     
2    女
3    赵
Name: 性别, dtype: object

In [52]:
# 以字典的键值对的形式进行填充
# 参数inplace =True 直接作用
data.fillna(value={'性别':'男'})

Unnamed: 0,姓名,年龄,身高,体重,性别
0,张三,18,170.0,180,男
1,李四,17,180.0,150,男
2,王五,16,180.0,90,女
3,赵六,18,180.0,200,赵


- ### 2.上下文填充
- 利用前后的值对缺失的部分进行填充
- 参数 method 
    - pad 、ffill 使用前一个的值进行填充
    - bfill 、backfill 使用好一个的值进行填充
- inplce 参数


In [53]:
data1=pd.read_excel('test3.xlsx',encoding='utf-8')

In [54]:
data1

Unnamed: 0,姓名,年龄,身高,体重,性别
0,张三,18,170.0,180,男
1,李四,17,180.0,150,
2,王五,16,,90,女
3,赵六,18,180.0,200,赵


In [55]:
# 要求身高的缺失部分运用前一个进行填充
# 性别的缺失部分运用后一个进行填充
data1.身高.fillna(method='pad')

0    170.0
1    180.0
2    180.0
3    180.0
Name: 身高, dtype: float64

In [56]:
data1.身高.fillna(method='ffill')

0    170.0
1    180.0
2    180.0
3    180.0
Name: 身高, dtype: float64

In [57]:
data1.性别.fillna(method='backfill')

0    男
1    女
2    女
3    赵
Name: 性别, dtype: object

In [58]:
data1.性别.fillna(method='bfill')

0    男
1    女
2    女
3    赵
Name: 性别, dtype: object

### 3.其他列填充
- 运用与缺失值所处的相近的某列对应位置上的元素进行填充

In [59]:
data.性别

0      男
1    NaN
2      女
3      赵
Name: 性别, dtype: object

In [60]:
data1.身高.fillna(data1.体重)

0    170.0
1    180.0
2     90.0
3    180.0
Name: 身高, dtype: float64

### 4.线性插补
- 相邻连个元素的求平均的结果作为中间元素缺失值的填补值

In [61]:
data1.身高.interpolate()

0    170.0
1    180.0
2    180.0
3    180.0
Name: 身高, dtype: float64

In [62]:
data2=pd.DataFrame(pd.Series({'a':180,'b':190,'c':np.nan,'d':200}),columns=['x1'])
data2

Unnamed: 0,x1
a,180.0
b,190.0
c,
d,200.0


In [63]:
data2.x1.interpolate()

a    180.0
b    190.0
c    195.0
d    200.0
Name: x1, dtype: float64