# 数据的概览与清洗
## 1.数据类型的判断与转换
* Python语法中的函数有两种表现形式：函数(语法为（func（parameters)）、方法（语法为（obj.func(parameters)））,方法是针对特定对象的函数

In [1]:
import pandas as pd

In [3]:
# 读入外部数据
data3 = pd.read_excel(io=r'data3.xlsx')
# 查看数据的规模
data3.shape

(3000, 6)

In [4]:
# 查看表中各变量的数据类型
data3.dtypes

id              int64
gender         object
age           float64
edu            object
custom_amt     object
order_date     object
dtype: object

In [5]:
# 数值型转字符型
data3['id'] = data3['id'].astype(str)
# 字符型转数值型
data3['custom_amt'] = data3['custom_amt'].str[1:].astype(float)
# 字符型转日期型
data3['order_date'] = pd.to_datetime(data3['order_date'],format='%Y年%m月%d日')

# 重新查看数量集的各变量类型
data3.dtypes

id                    object
gender                object
age                  float64
edu                   object
custom_amt           float64
order_date    datetime64[ns]
dtype: object

In [6]:
# 预览数据的前5行
data3.head()

Unnamed: 0,id,gender,age,edu,custom_amt,order_date
0,890,female,43.0,,2177.94,2018-12-25
1,2391,male,52.0,,2442.18,2017-05-24
2,2785,male,39.0,,849.79,2018-05-15
3,1361,female,26.0,,2482.22,2018-05-16
4,888,female,61.0,本科,2027.9,2018-01-21


## 2.冗余数据的判断与处理
* 利用代码在数据集中发现了重复观测值，可以使用drop_duplicates方法将冗余信息删除
* 使用duplicated方法对数据行做重复性判断时，会返回一个与原数据行相同的序列（没有重复，对应False,否则True）
* 使用any方法，即序列中只要存在一个True，则返回True

In [8]:
# 判断数据中是否存在重复观测值
data3.duplicated().any()

False

## 3.缺失数据的判断与处理

In [9]:
# 判断各变量中是否存在缺失值
data3.isnull().any(axis = 0)

# 各变量中缺失值的数量
data3.isnull().sum(axis = 0)/data3.shape[0]

id            0.000000
gender        0.045333
age           0.033333
edu           0.642333
custom_amt    0.000000
order_date    0.000000
dtype: float64

In [10]:
# 判断各数据行中是否存在缺失值
data3.isnull().any(axis = 1).any()

True

In [11]:
# 缺失观测值的行数
data3.isnull().any(axis = 1).sum()

# 缺失观测值的比例
data3.isnull().any(axis = 1).sum()/data3.shape[0]

0.6746666666666666

In [12]:
# 删除变量。如删除缺失率非常高的edu变量
data3.drop(labels='edu',axis=1,inplace=True)
# 数据预览
data3.head()

Unnamed: 0,id,gender,age,custom_amt,order_date
0,890,female,43.0,2177.94,2018-12-25
1,2391,male,52.0,2442.18,2017-05-24
2,2785,male,39.0,849.79,2018-05-15
3,1361,female,26.0,2482.22,2018-05-16
4,888,female,61.0,2027.9,2018-01-21


In [13]:
# 删除观测值，如删除age变量中所对应的缺失观测值
data3_new = data3.drop(labels=data3.index[data3['age'].isnull()],axis=0)
# 查看数据的规模
data3_new.shape

(2900, 5)

In [15]:
# 替换法处理缺失值
data3.fillna(value = {'gender':data3['gender'].mode()[0],#使用性别的众数替换缺失性别
                     'age':data3['age'].mean()#使用年龄的平均值替换缺失年龄
                     },
            inplace = True# 原地修改数据
            )
# 再次查看个变量的缺失比列
data3.isnull().sum(axis = 0)

id            0
gender        0
age           0
custom_amt    0
order_date    0
dtype: int64