In [1]:
import pandas as pd

# 数据处理
+ 错的数据被叫做脏数据
+ 噪声数据：特别大或特别小的数据
+ 缺失值:采集源没有，没采集到的
+ 重复数据
+ 数据变换：文本>数值

## 噪声数据

In [2]:
df=pd.DataFrame([1,2,3,4,100])
df

Unnamed: 0,0
0,1
1,2
2,3
3,4
4,100


In [3]:
df>99#寻找

Unnamed: 0,0
0,False
1,False
2,False
3,False
4,True


In [4]:
df[df>99]=6
df#修改

Unnamed: 0,0
0,1
1,2
2,3
3,4
4,6


## 缺失数据

### 填充

In [5]:
import numpy as np

In [6]:
df=pd.DataFrame(
{
    'a':[1,np.nan,2,3],
    'b':[4,np.nan,2,1],
    'c':[np.nan,np.nan,np.nan,np.nan]
},
index=[2,0,1,3])
df

Unnamed: 0,a,b,c
2,1.0,4.0,
0,,,
1,2.0,2.0,
3,3.0,1.0,


In [7]:
#填充一个数
df.fillna(value=9,
          inplace=True)
df

Unnamed: 0,a,b,c
2,1.0,4.0,9.0
0,9.0,9.0,9.0
1,2.0,2.0,9.0
3,3.0,1.0,9.0


In [8]:
#相邻数据填充
df.fillna(method='bfill')#ffill bfill应该分别对应用下方数据填充和用上方数据填充

Unnamed: 0,a,b,c
2,1.0,4.0,9.0
0,9.0,9.0,9.0
1,2.0,2.0,9.0
3,3.0,1.0,9.0


### 删除

In [9]:
df.dropna(axis=0,#编号为0的那一行
         how='any',
         subset=['a','b'])

Unnamed: 0,a,b,c
2,1.0,4.0,9.0
0,9.0,9.0,9.0
1,2.0,2.0,9.0
3,3.0,1.0,9.0


## 重复数据

In [10]:
df=pd.DataFrame({'one':[0,0,2,3],
    'two':[0,0,6,6],
    'three':[0,0,6,6],
    'four':[0,1,2,3],},
    index=['b','c','c','e'])
df

Unnamed: 0,one,two,three,four
b,0,0,0,0
c,0,0,0,1
c,2,6,6,2
e,3,6,6,3


### 判断重复数据

In [11]:
#一列
df['one'].duplicated()#判断那一列的重复，第一个出现不算，第二次出现true提示重复

b    False
c     True
c    False
e    False
Name: one, dtype: bool

In [12]:
#一列
df['one'].duplicated().sum()#sum判断重复数量

1

In [13]:
df[['two','one']].duplicated()#判断两列的重复情况

b    False
c     True
c    False
e    False
dtype: bool

### 删除重复数据

In [14]:
df.drop_duplicates(subset=['one','two'],
                  keep='last',#默认保留第一个，设置成保留最后一个
                  inplace=True)

In [15]:
df

Unnamed: 0,one,two,three,four
c,0,0,0,1
c,2,6,6,2
e,3,6,6,3


## 数据分箱

In [16]:
data=[80,55,60.73,99,83,28,9,3,4,2,66,1]
cut_stan=[0,18,24,30,60,100]#指定间距

In [17]:
ans=pd.cut(data,bins=cut_stan,
      right=False,#调整区间标点
       labels=['未成年','大学生','单身汉','青壮年','老年人']
      )

In [18]:
ans

['老年人', '青壮年', '老年人', '老年人', '老年人', ..., '未成年', '未成年', '未成年', '老年人', '未成年']
Length: 12
Categories (5, object): ['未成年' < '大学生' < '单身汉' < '青壮年' < '老年人']

In [19]:
ans.categories#查看分类信息

Index(['未成年', '大学生', '单身汉', '青壮年', '老年人'], dtype='object')

In [20]:
ans.codes#属于第几个分类

array([4, 3, 4, 4, 4, 2, 0, 0, 0, 0, 4, 0], dtype=int8)

In [21]:
ans=pd.cut(data,
          bins=5,#等间距,会自己根据数值计算分的模块的间距大小
          )

In [22]:
ans

[(79.4, 99.0], (40.2, 59.8], (59.8, 79.4], (79.4, 99.0], (79.4, 99.0], ..., (0.902, 20.6], (0.902, 20.6], (0.902, 20.6], (59.8, 79.4], (0.902, 20.6]]
Length: 12
Categories (5, interval[float64]): [(0.902, 20.6] < (20.6, 40.2] < (40.2, 59.8] < (59.8, 79.4] < (79.4, 99.0]]

In [23]:
pd.qcut(data,q=3).codes#告诉他分成三个部分

array([2, 1, 1, 2, 2, 1, 1, 0, 0, 0, 2, 0], dtype=int8)

## 文本数据转换

In [24]:
#因为不支持中文

### 转替代数据

In [25]:
df1=pd.DataFrame({'职业':['工人','学生','司机','教师','导游']})
df1

Unnamed: 0,职业
0,工人
1,学生
2,司机
3,教师
4,导游


In [26]:
dict1={item:i for i,item in enumerate(df1['职业'])}#做一个字典
dict1

{'工人': 0, '学生': 1, '司机': 2, '教师': 3, '导游': 4}

In [27]:
df1['New_job_name']=df1['职业'].map(dict1)#将字典转化回表格且多加一行讲解
df1

Unnamed: 0,职业,New_job_name
0,工人,0
1,学生,1
2,司机,2
3,教师,3
4,导游,4


In [28]:
df1

Unnamed: 0,职业,New_job_name
0,工人,0
1,学生,1
2,司机,2
3,教师,3
4,导游,4


### 哑变量处理

In [29]:
pd.get_dummies(df1['职业'],
              prefix='😊',
              prefix_sep='^')#是为1 不是为0 好看出来

Unnamed: 0,😊^司机,😊^学生,😊^导游,😊^工人,😊^教师
0,0,0,0,1,0
1,0,1,0,0,0
2,1,0,0,0,0
3,0,0,0,0,1
4,0,0,1,0,0


# 合并数据

## 按键（行列索引）合并

In [30]:
df1=pd.DataFrame({'first':[2,3,8],
                'second':[4,5,6]},
               index=['aa','b','c'])

In [31]:
df2=pd.DataFrame({'second':[6,5,8],
                'third':[17,18,19]},
               index=['b','c','aa'])#数据类行列索引别重复

In [32]:
#可以看到行索引一样，所以可以合并
all_data=pd.concat([df1,df2],
         join='inner',#指定数据保留交集还是并集
         axis=1#默认按列拼，调整为按行拼
         )

In [33]:
df1.append(df2)#了解即可

Unnamed: 0,first,second,third
aa,2.0,4,
b,3.0,5,
c,8.0,6,
b,,6,17.0
c,,5,18.0
aa,,8,19.0


## 按值合并

In [34]:
df1=pd.DataFrame({'first':[2,3,8],
                'second':[4,5,6]},
               index=['aa','aa','c'])

df2=pd.DataFrame({'second':[6,5,8],
                'third':[17,8,19]},
               index=['b','c','aa'])

In [35]:
pd.merge(df1,df2)#默认求交集

Unnamed: 0,first,second,third
0,3,5,8
1,8,6,17


In [36]:
pd.merge(df1,df2,how='outer')
#用how来修改 outer保留所有数据 inner保留交集（没空的） left保留完整1 right保留完整2

Unnamed: 0,first,second,third
0,2.0,4,
1,3.0,5,8.0
2,8.0,6,17.0
3,,8,19.0


In [37]:
#on='first' 多相同列明，指定其中一个,1放1下面，多的3放后面;会自动补齐后缀
#suffixes=('')修改列明后缀

In [38]:
pd.merge(df1,df2,
         how='outer',
         left_on='first',
         right_on='second',
         suffixes=('_df1','_df2'),)

Unnamed: 0,first,second_df1,second_df2,third
0,2.0,4.0,,
1,3.0,5.0,,
2,8.0,6.0,8.0,19.0
3,,,6.0,17.0
4,,,5.0,8.0


In [39]:
pd.merge(df1,df2,
         how='outer',
         on='second',
         suffixes=('_df1','_df2'))

Unnamed: 0,first,second,third
0,2.0,4,
1,3.0,5,8.0
2,8.0,6,17.0
3,,8,19.0


# groupby

In [40]:
data=pd.read_excel('Excel数据.xlsx')
data

Unnamed: 0,订单号,销售日期,销售人员,地区,城市,家电品牌,单价,数量（台）,销售额
0,10240,2009-01-02,张三,华北,北京,奥克斯,1200,4,4800
1,10241,2009-01-03,李四,华北,北京,格力,1300,5,6500
2,10242,2009-01-13,钱五,华北,北京,美的,1250,6,7500
3,10243,2009-01-14,赵六,华北,北京,春兰,1500,3,4500
4,10244,2009-01-25,刘琦,华北,石家庄,海尔,1500,5,7500
...,...,...,...,...,...,...,...,...,...
94,10334,2009-11-25,王娜,西南,成都,奥克斯,1501,7,10507
95,10335,2009-12-01,刘宇,西南,成都,格力,1400,2,2800
96,10336,2009-12-12,陈笑,西南,成都,志高,1400,9,12600
97,10337,2009-12-23,汪俊,西南,昆明,春兰,1200,3,3600


In [41]:
for i in data.groupby(by=['地区']):#按照指定列，分成小数据
    print(i)
    print('*'*80)

('东北',       订单号       销售日期 销售人员  地区   城市 家电品牌    单价  数量（台）    销售额
51  10291 2009-06-24   大军  东北  哈尔滨  奥克斯  1200      5   6000
52  10292 2009-06-25   小莉  东北  哈尔滨   格力  1300      3   3900
53  10293 2009-06-26   万西  东北  哈尔滨   美的  1250      4   5000
54  10294 2009-07-04   彤彤  东北  哈尔滨   春兰  1500      5   7500
55  10295 2009-07-05   海利  东北   沈阳   海尔  1500      6   9000
56  10296 2009-07-06   全圈  东北   沈阳   美的  1400      3   4200
57  10297 2009-07-07   泉清  东北   沈阳   美的  1401      5   7005
76  10316 2009-09-14   青青  东北   长春   松下  1500      9  13500
77  10317 2009-09-15   小娟  东北   长春   志高  1400      9  12600
78  10318 2009-09-16   李娜  东北   长春   春兰  1200      3   3600
79  10319 2009-09-17   小莉  东北  哈尔滨  奥克斯  1200      5   6000
80  10320 2009-09-18   万西  东北  哈尔滨   格力  1200      8   9600
81  10321 2009-09-19   彤彤  东北  哈尔滨   志高  1000      5   5000
82  10322 2009-10-13   泉清  东北   沈阳  奥克斯  1200      6   7200)
********************************************************************************
('华东',     

In [42]:
#单键分组
data.groupby(by=['地区']).mean()#根据上面每一个组对其求平均

Unnamed: 0_level_0,订单号,单价,数量（台）,销售额
地区,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
东北,10306.5,1303.642857,5.428571,7150.357143
华东,10291.0,1396.875,5.3125,7096.875
华中,10273.0,1471.428571,4.714286,7585.714286
华北,10265.0,1462.5,5.833333,8766.666667
华南,10283.388889,1452.777778,4.666667,7011.111111
西北,10296.0,1381.25,5.4375,7393.75
西南,10296.0,1347.0,5.9375,7800.875


In [43]:
#多键分组
data.groupby(by=['地区','城市']).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,订单号,销售日期,销售人员,家电品牌,单价,数量（台）,销售额
地区,城市,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
东北,哈尔滨,7,7,7,7,7,7,7
东北,沈阳,4,4,4,4,4,4,4
东北,长春,3,3,3,3,3,3,3
华东,上海,8,8,8,8,8,8,8
华东,杭州,4,4,4,4,4,4,4
华东,苏州,4,4,4,4,4,4,4
华中,武汉,4,4,4,4,4,4,4
华中,长沙,3,3,3,3,3,3,3
华北,北京,6,6,6,6,6,6,6
华北,石家庄,6,6,6,6,6,6,6


In [44]:
#多键分组
data.groupby(by=['地区','城市'])['销售人员','销售额'].count()
#可以求各种需要的数据和啊平均啊什么的，很方便

  data.groupby(by=['地区','城市'])['销售人员','销售额'].count()


Unnamed: 0_level_0,Unnamed: 1_level_0,销售人员,销售额
地区,城市,Unnamed: 2_level_1,Unnamed: 3_level_1
东北,哈尔滨,7,7
东北,沈阳,4,4
东北,长春,3,3
华东,上海,8,8
华东,杭州,4,4
华东,苏州,4,4
华中,武汉,4,4
华中,长沙,3,3
华北,北京,6,6
华北,石家庄,6,6


In [45]:
#多键分组
data.groupby(by=['地区','城市']).agg({'单价':'mean','销售额':'sum'})
#运用agg函数对不同列求不同值

Unnamed: 0_level_0,Unnamed: 1_level_0,单价,销售额
地区,城市,Unnamed: 2_level_1,Unnamed: 3_level_1
东北,哈尔滨,1235.714286,43000
东北,沈阳,1375.25,27405
东北,长春,1366.666667,29700
华东,上海,1418.75,60950
华东,杭州,1400.0,21100
华东,苏州,1350.0,31500
华中,武汉,1250.0,12400
华中,长沙,1766.666667,40700
华北,北京,1425.0,53900
华北,石家庄,1500.0,51300


In [47]:
#多键分组
data.groupby(by=['地区','城市']).agg({'单价':['mean','count'],'销售额':'sum'})
#修改一下即可同一列求不同值

Unnamed: 0_level_0,Unnamed: 1_level_0,单价,单价,销售额
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,count,sum
地区,城市,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
东北,哈尔滨,1235.714286,7,43000
东北,沈阳,1375.25,4,27405
东北,长春,1366.666667,3,29700
华东,上海,1418.75,8,60950
华东,杭州,1400.0,4,21100
华东,苏州,1350.0,4,31500
华中,武汉,1250.0,4,12400
华中,长沙,1766.666667,3,40700
华北,北京,1425.0,6,53900
华北,石家庄,1500.0,6,51300


In [48]:
def fun(x):
    return max(x)-min(x)

In [49]:
data.groupby(by=['地区'])['销售额'].agg(fun)

地区
东北     9900
华东    15300
华中    20700
华北    18200
华南    18600
西北    13800
西南    11600
Name: 销售额, dtype: int64

In [50]:
#加后缀
def fun1(x):
    return str(x)+'元'

In [51]:
fun1(6)

'6元'

In [52]:
data['单价'].agg(fun1)

0     1200元
1     1300元
2     1250元
3     1500元
4     1500元
      ...  
94    1501元
95    1400元
96    1400元
97    1200元
98    1200元
Name: 单价, Length: 99, dtype: object

## apply

In [57]:
df1=pd.DataFrame({'sex':list('FFMFMMF'),
                  'smoker':list('YNYYNYY'),
                  'age':[21,30,17,37,40,18,26],
                  'weight':[120,100,132,140,94,89,123]})

In [61]:
def fun2(x):
    return (df1['weight']/df1['age'])**2

In [62]:
fun2(df1)

0    32.653061
1    11.111111
2    60.290657
3    14.317020
4     5.522500
5    24.447531
6    22.380178
dtype: float64

# 透视表

In [63]:
data

Unnamed: 0,订单号,销售日期,销售人员,地区,城市,家电品牌,单价,数量（台）,销售额
0,10240,2009-01-02,张三,华北,北京,奥克斯,1200,4,4800
1,10241,2009-01-03,李四,华北,北京,格力,1300,5,6500
2,10242,2009-01-13,钱五,华北,北京,美的,1250,6,7500
3,10243,2009-01-14,赵六,华北,北京,春兰,1500,3,4500
4,10244,2009-01-25,刘琦,华北,石家庄,海尔,1500,5,7500
...,...,...,...,...,...,...,...,...,...
94,10334,2009-11-25,王娜,西南,成都,奥克斯,1501,7,10507
95,10335,2009-12-01,刘宇,西南,成都,格力,1400,2,2800
96,10336,2009-12-12,陈笑,西南,成都,志高,1400,9,12600
97,10337,2009-12-23,汪俊,西南,昆明,春兰,1200,3,3600


In [73]:
pd.pivot_table(data,
                index='地区',
                columns='家电品牌',
                values='销售额',
                aggfunc='sum',
                fill_value=0)

家电品牌,奥克斯,志高,春兰,松下,格力,海尔,美的
地区,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
东北,19200,17600,11100,13500,13500,9000,16205
华东,10000,2000,15300,29400,34800,4500,17550
华中,12000,0,0,23100,7200,0,10800
华北,14400,0,4500,21000,17300,19500,28500
华南,9600,3000,6000,31800,27600,0,48200
西北,6000,8000,13500,12900,30000,25100,22800
西南,41207,22600,9600,18600,22007,0,10800


In [74]:
#计算不同地区，不同品牌，空调平均单价

In [75]:
pd.pivot_table(data,
              index='地区',
              columns='家电品牌',
              values='单价',
              aggfunc='mean',
              fill_value=0)

家电品牌,奥克斯,志高,春兰,松下,格力,海尔,美的
地区,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
东北,1200.0,1200,1350,1500,1250.0,1500.0,1350.333333
华东,1250.0,1000,1400,1600,1200.0,1500.0,1583.333333
华中,1200.0,0,0,2100,1200.0,0.0,1700.0
华北,1200.0,0,1500,2100,1250.0,1500.0,1512.5
华南,1200.0,1000,1200,1800,1200.0,0.0,1691.666667
西北,1200.0,1000,1500,1600,1200.0,1466.666667,1700.0
西南,1340.2,1200,1200,1850,1250.25,0.0,1350.0
