### 数据清理的内容

1. 数据筛选-筛选出于分析结果相关的数据
2. 缺失值的处理
3. 数据格式的转换
4. 数据重塑

### Pandas工具的使用

python for data analysis的简称。numpy是numeric python。
两个核心数据结构：Series和DataFrame。

### Series

In [1]:
import pandas as pd

In [4]:
a = pd.Series([1, 3, 5, 7, 9])
print(type(a))
a

<class 'pandas.core.series.Series'>


0    1
1    3
2    5
3    7
4    9
dtype: int64

In [14]:
b = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
b
b.index
b.values
b[2]
b['c']
b[1:3]
b[['b', 'c']]
b[2] =  8888
b

a       1
b       2
c    8888
d       4
dtype: int64

In [20]:
#通过numpy的array对象生成一个series
import numpy as np

attr = np.array([33,44,55,66,77,88])
t = pd.Series(attr)
type(attr)
type(t)
dir(attr)
for i in attr:
    print(i)
for i in t:
    print(i)

33
44
55
66
77
88
33
44
55
66
77
88


In [23]:
# 如何过滤符合条件的数据
a = t > 50
t[a]

2    55
3    66
4    77
5    88
dtype: int32

In [29]:
#加减乘除log操作（全部元素级别操作）
t + 10
t - 10
t * 2
t / 2
np.log(t)
t.size

6

In [30]:
#去重操作
a = pd.Series([1, 3, 5, 5, 7, 7, 9])
a.unique()

array([1, 3, 5, 7, 9], dtype=int64)

In [31]:
#统计每个元素出现的次数
a.value_counts()

7    2
5    2
3    1
9    1
1    1
dtype: int64

In [33]:
#判断Series里面的元素是否在另一个序列里面
condition = [5, 6]
a.isin(condition).values  #判断哪些符合条件
a[a.isin(condition).values]

2    5
3    5
dtype: int64

In [36]:
#空值
b = pd.Series([2, 3, 4, np.nan]) #np.nan代表空值
b
b.isnull()
b[b.isnull()]

3   NaN
dtype: float64

In [39]:
#通过字典来创建Series
dic = {'name': 'kevin', 'age': 18}
d = pd.Series(dic)
d.values

array(['kevin', 18], dtype=object)

In [44]:
a = {'a': 30, 'b': 40}
b = {'a': 44, 'b': 55, 'c': 66}
aa = pd.Series(a)
bb = pd.Series(b)

aa + bb
aa * bb
aa - bb
aa / bb

a * b

TypeError: unsupported operand type(s) for *: 'dict' and 'dict'

### dataFrame的基本使用

dataFrame是一种表示二维数据的数据结构，像表格一样，包括行和列的数据。

In [45]:
#创建一个dataframe
import pandas as pd

df = pd.DataFrame([['Frank', 'M', 29], ['Mary', 'F', 23], ['tom', 'M', 15]])
df

Unnamed: 0,0,1,2
0,Frank,M,29
1,Mary,F,23
2,tom,M,15


In [46]:
#添加列标签
df.columns = ['Name', 'Sex', 'Age']
df

Unnamed: 0,Name,Sex,Age
0,Frank,M,29
1,Mary,F,23
2,tom,M,15


In [50]:
#往dataframe里面添加数据
#用字典（Serias）方式添加
d = {'Name': 'Kevin', 'Sex': 'M', 'Age': 34}
df.append(d, ignore_index=True)  #ignore_index必须要加
df.loc[3] = ['Lily', 'F', 23]
df.loc[1] = ['Billy', 'M', 33]
df

Unnamed: 0,Name,Sex,Age
0,Frank,M,29
1,Billy,M,33
2,tom,M,15
3,Lily,F,23


In [51]:
#在指定的位置增加一列数据
df.insert(3, 'Addr', ['成都', '西安', '上海', '北京'])

In [53]:
df.insert(3, 'Add', df.pop('Addr'))

In [54]:
df

Unnamed: 0,Name,Sex,Age,Add
0,Frank,M,29,成都
1,Billy,M,33,西安
2,tom,M,15,上海
3,Lily,F,23,北京


In [57]:
#删除指定的列。第一个参数是要删除的列的列名，axis=1代表删除的是列，0代表删除一行。inplace=false代表返回一个复制的对象,默认是false
#如果inplace=True，那么就是原表删除。
df1 = df.drop('Add', axis=1, inplace=True)
df1

Unnamed: 0,Name,Sex,Age
0,Frank,M,29
1,Billy,M,33
2,tom,M,15
3,Lily,F,23


In [56]:
df

Unnamed: 0,Name,Sex,Age,Add
0,Frank,M,29,成都
1,Billy,M,33,西安
2,tom,M,15,上海
3,Lily,F,23,北京


In [58]:
#直接增加一列
df['emp'] = True
df

Unnamed: 0,Name,Sex,Age,Add,emp
0,Frank,M,29,成都,True
1,Billy,M,33,西安,True
2,tom,M,15,上海,True
3,Lily,F,23,北京,True


In [59]:
#直接删除一列，使用del直接删除一列，默认都是原表删除
del df['emp']
df

Unnamed: 0,Name,Sex,Age,Add
0,Frank,M,29,成都
1,Billy,M,33,西安
2,tom,M,15,上海
3,Lily,F,23,北京


In [60]:
#删除也可以删除指定的行
df.drop(3, axis=0, inplace=True)

In [61]:
df

Unnamed: 0,Name,Sex,Age,Add
0,Frank,M,29,成都
1,Billy,M,33,西安
2,tom,M,15,上海


In [62]:
#修改一行数据
df.loc[2] = ['Tom', 'M', 17, '广州']

In [63]:
df

Unnamed: 0,Name,Sex,Age,Add
0,Frank,M,29,成都
1,Billy,M,33,西安
2,Tom,M,17,广州


In [64]:
df.loc[3] = ['Tester1', 'M', 18, 'BJ']
df.loc[4] = ['Tester2', 'F', 33, 'SH']
df.loc[5] = ['Tester3', 'F', 23, 'SZ']

In [65]:
df

Unnamed: 0,Name,Sex,Age,Add
0,Frank,M,29,成都
1,Billy,M,33,西安
2,Tom,M,17,广州
3,Tester1,M,18,BJ
4,Tester2,F,33,SH
5,Tester3,F,23,SZ


In [71]:
df.head()
df.head(3)  #查看前n条数据
df.tail(3) #查看后n条数据
df.info()
df.describe()  #查看df里面的描述性统计结果，可自动将df数值型数据进行统计学计算

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6 entries, 0 to 5
Data columns (total 4 columns):
Name    6 non-null object
Sex     6 non-null object
Age     6 non-null int64
Add     6 non-null object
dtypes: int64(1), object(3)
memory usage: 240.0+ bytes


Unnamed: 0,Age
count,6.0
mean,25.5
std,7.204165
min,17.0
25%,19.25
50%,26.0
75%,32.0
max,33.0


In [76]:
df.iloc[1:4] #查看指定区间的数据
df.iloc[[1, 3, 5]]  #多个索引值查询，注意用列表括起来
df['Name']   #按列来进行查看
df[['Name', 'Age']]  #按照多列进行查看
df.loc[1:4, ['Name', 'Sex']]

Unnamed: 0,Name,Sex
1,Billy,M
2,Tom,M
3,Tester1,M
4,Tester2,F


In [83]:
#单条件数据筛选
df['Sex'] == 'M'
df[df['Sex'] == 'M']

#多条件筛选
df[(df['Sex'] == 'M') & (df['Age'] < 30)]  #按与条件筛选
df[(df['Sex'] == 'M') | (df['Add'] == 'SZ')]  #按或条件筛选

Unnamed: 0,Name,Sex,Age,Add
0,Frank,M,29,成都
1,Billy,M,33,西安
2,Tom,M,17,广州
3,Tester1,M,18,BJ
5,Tester3,F,23,SZ


In [87]:
df['user_id'] = range(100, 106)  
df.set_index('user_id', inplace=True)
df

Unnamed: 0_level_0,Name,Sex,Age,Add
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
100,Frank,M,29,成都
101,Billy,M,33,西安
102,Tom,M,17,广州
103,Tester1,M,18,BJ
104,Tester2,F,33,SH
105,Tester3,F,23,SZ


In [90]:
#.iloc通过行的真实的位置坐标来进行定位，从0开始
#.loc通过标签来进行定位
df.loc[[100, 103]]
df.iloc[[1, 3]]

Unnamed: 0_level_0,Name,Sex,Age,Add
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
101,Billy,M,33,西安
103,Tester1,M,18,BJ


### 缺失值的处理  missing value

数据中有特定或一定范围内的值是不完全的。缺失值可能来自于机械的缺失，也可以是人为的缺失，比如比较敏感的数据造成人为缺失。

In [91]:
#在数据分析中，我们一般用numpy里面的nan来代表缺失值。建立一个带有缺失值的dataframe。

import pandas as pd
import numpy as np

df = pd.DataFrame([
    ['Frank', 'M', np.nan],
    ['Bruce', np.nan, 33],
    ['Lily', 'F', 22],
    ['Tom', 'M', np.nan],
    ['Lisa', 'M', 35]
])

df.columns = ['name', 'sex', 'age']
df

Unnamed: 0,name,sex,age
0,Frank,M,
1,Bruce,,33.0
2,Lily,F,22.0
3,Tom,M,
4,Lisa,M,35.0


In [99]:
df.isnull().values.any()   #检查整个df里面是否含有缺失值
df.isnull().any()          #检查具体哪些列有缺失值
df.isnull().sum()          #统计每个字段具体有多少个缺失值
df.isnull().sum().sum()    #统计所有缺失值的个数
df['age'].isnull()         #检查每列具体哪些值是缺失值
df['sex'].notnull()
df['name'].isnull().values.any()
df['age'].isnull().sum()   #具体的列有多少个缺失值

2

### 对缺失值的处理方法

1. 直接舍弃缺失值：一般用于缺失值的数量占总的数据样本比例非常低的情况
2. 使用平均数、中位数或众数等描述性的统计值来填补这个缺失值
3. 使用内插法补齐缺失值，比如使字段的值呈现线性规律。

In [105]:
#舍弃缺失值
df.dropna()   #直接舍弃任意行里面含有缺失值的数据
df.dropna(how='all')   #舍弃全部是nan的行的数据
df.dropna(thresh=2)
df.loc[3] = ['Tom', np.nan, np.nan]
df.dropna(thresh=2)

Unnamed: 0,name,sex,age
0,Frank,M,
1,Bruce,,33.0
2,Lily,F,22.0
4,Lisa,M,35.0


In [106]:
df['emp'] = np.nan

In [108]:
df.dropna(axis=1, how='all', inplace=True)

In [109]:
df

Unnamed: 0,name,sex,age
0,Frank,M,
1,Bruce,,33.0
2,Lily,F,22.0
3,Tom,,
4,Lisa,M,35.0


In [114]:
## 填补缺失值
df.fillna(0)
df['age'].fillna(df['age'].mean())  #用指定列的平均值去填补缺失值

0    30.0
1    33.0
2    22.0
3    30.0
4    35.0
Name: age, dtype: float64

In [119]:
df2 = df['age'].fillna(df.groupby('sex')['age'].transform('mean'))

In [120]:
df2

0    35.0
1    33.0
2    22.0
3     NaN
4    35.0
Name: age, dtype: float64

In [121]:
df.fillna(method='pad')

Unnamed: 0,name,sex,age
0,Frank,M,
1,Bruce,M,33.0
2,Lily,F,22.0
3,Tom,F,22.0
4,Lisa,M,35.0


In [123]:
df.fillna(method='bfill')

Unnamed: 0,name,sex,age
0,Frank,M,33.0
1,Bruce,F,33.0
2,Lily,F,22.0
3,Tom,M,35.0
4,Lisa,M,35.0


In [124]:
df

Unnamed: 0,name,sex,age
0,Frank,M,
1,Bruce,,33.0
2,Lily,F,22.0
3,Tom,,
4,Lisa,M,35.0


In [126]:
df2 = pd.DataFrame([
    [1, 870],
    [2, 930],
    [np.nan, np.nan],
    [4, 950],
    [5, 1030],
    [6, 1070]
])

df2.columns = ['time', 'value']
df2
df2.interpolate()

Unnamed: 0,time,value
0,1.0,870.0
1,2.0,930.0
2,3.0,940.0
3,4.0,950.0
4,5.0,1030.0
5,6.0,1070.0
