In [2]:
## 第7章 数值操作
### 7.1 数值替换
#数值替换就是将数值A替换成B，可以用在异常数据替换处理、缺失值填充处理中。主要有一对一替换、多对一替换、多对多替换三种方法。
#### 7.1.1 一对一替换
#将某一区域中的一个值全部替换成另一个值。
#在Python中对某个值进行替换利用的是replace(A,B)方法，就是将A替换成B。
#可以对指定列进行替换，也可以对全表进行替换
#与Excel一样也是先选定范围，然后再进行操作(比如替换)
#replace可以代替fillna, df.replace(np.NaN,0)。用0去替换空值或将空值填充为0，结果一样。

In [9]:
import pandas as pd
df = pd.read_csv("./维修焊机用标签.csv")
df['品名'].replace('表示板','标签')
df.replace('表示板','标签')
df.iloc[0:4].replace('标签','label')

Unnamed: 0,资材编号,品名,规格,单位,数量
0,JJ36A12083,label,NK1799,PCS,1
1,JJ36E00646,label,NC4629B,PCS,1
2,JJ36E00657,label,NC4873,PCS,1
3,JJ36E21722,表示板,NK5891,PCS,2


In [11]:
#### 7.1.2 多对一替换
#Excel通过if函数来实现
# =if(or(D:D=240,D:D=260,D:D=280),33,D:D)
#Python同样还是使用replace([A,B],C),表示将A、B替换成C。
df.replace(['NL0060','NL0061'],"XXXXXX")

Unnamed: 0,资材编号,品名,规格,单位,数量
0,JJ36A12083,标签,NK1799,PCS,1
1,JJ36E00646,标签,NC4629B,PCS,1
2,JJ36E00657,标签,NC4873,PCS,1
3,JJ36E21722,表示板,NK5891,PCS,2
4,JJ36E60019,标签,NK5319,PCS,1
5,JJ36E60916,标签,NT0006,PCS,1
6,JJ36E90315,标签,XXXXXX,PCS,2
7,JJ36E90326,标签,XXXXXX,PCS,2
8,JJ36F42742,标签,NK3384B,PCS,1
9,MM36D00154,说明书,CPSS-135(P7436),PCS,1


In [14]:
#### 7.1.3 多对多替换
#多对多替换其实就是某个区域内的一对一替换，
#Excel需要用if函数的嵌套来实现。
# =if(D:D=240,32,IF(D:D=260,33,if(D:D=280,34,D:D)))
#Python还是使用replace({'A':'a','B':'b'}),表示用a替换A，b替换B。
df.replace({'标签':'标签1','表示板':'表示板1'})

Unnamed: 0,资材编号,品名,规格,单位,数量
0,JJ36A12083,标签1,NK1799,PCS,1
1,JJ36E00646,标签1,NC4629B,PCS,1
2,JJ36E00657,标签1,NC4873,PCS,1
3,JJ36E21722,表示板1,NK5891,PCS,2
4,JJ36E60019,标签1,NK5319,PCS,1
5,JJ36E60916,标签1,NT0006,PCS,1
6,JJ36E90315,标签1,NL0060,PCS,2
7,JJ36E90326,标签1,NL0061,PCS,2
8,JJ36F42742,标签1,NK3384B,PCS,1
9,MM36D00154,说明书,CPSS-135(P7436),PCS,1


In [17]:
### 7.2 数值排序
#### 7.2.1 按照一列数值进行排序
#整个表都以某一列为准，进行升序或降序排列
#Python需要用到sort_values()方法，参数指明列名及升序还是降序
df.sort_values(by=['资材编号'],ascending=True)

Unnamed: 0,资材编号,品名,规格,单位,数量
0,JJ36A12083,标签,NK1799,PCS,1
1,JJ36E00646,标签,NC4629B,PCS,1
2,JJ36E00657,标签,NC4873,PCS,1
3,JJ36E21722,表示板,NK5891,PCS,2
4,JJ36E60019,标签,NK5319,PCS,1
5,JJ36E60916,标签,NT0006,PCS,1
6,JJ36E90315,标签,NL0060,PCS,2
7,JJ36E90326,标签,NL0061,PCS,2
8,JJ36F42742,标签,NK3384B,PCS,1
9,MM36D00154,说明书,CPSS-135(P7436),PCS,1


In [34]:
#### 7.2.2 按照有缺失值的列进行排序
#在Python中，当待排序的列中有缺失值时，可以通过设置na_position参数对缺失值的显示位置进行设置，默认参数值为last，可以不写，缺失值在最后。
df = pd.read_csv("./维修焊机用标签.csv",encoding='ANSI',sep='\t')
df
df.sort_values(by=['单位'],ascending=True,na_position="last")

Unnamed: 0,资材编号,品名,规格,单位,数量
0,JJ36A12083,标签,NK1799,PCS,1
3,JJ36E21722,表示板,NK5891,PCS,2
4,JJ36E60019,标签,NK5319,PCS,1
5,JJ36E60916,标签,NT0006,PCS,1
6,JJ36E90315,标签,NL0060,PCS,2
7,JJ36E90326,标签,NL0061,PCS,2
8,JJ36F42742,标签,NK3384B,PCS,1
9,MM36D00154,说明书,CPSS-135(P7436),PCS,1
10,MM36D00155,说明书,CPSS-135(P7973),PCS,1
1,JJ36E00646,标签,NC4629B,,1


In [36]:
#### 7.2.3 按照多列值进行排序
#同时依据多列数据进行升序、降序排列，当第一列出现重复值时，按照第2列进行排序……以此类推。
#在Python中实现按照多列进行排序，用到的方法同样是sort_values()方法分别以列表的形式指明要排序的列以及排序方式即可。
df.sort_values(by=['品名','数量'],ascending=[True,False])

Unnamed: 0,资材编号,品名,规格,单位,数量
6,JJ36E90315,标签,NL0060,PCS,2
7,JJ36E90326,标签,NL0061,PCS,2
0,JJ36A12083,标签,NK1799,PCS,1
1,JJ36E00646,标签,NC4629B,,1
2,JJ36E00657,标签,NC4873,,1
4,JJ36E60019,标签,NK5319,PCS,1
5,JJ36E60916,标签,NT0006,PCS,1
8,JJ36F42742,标签,NK3384B,PCS,1
3,JJ36E21722,表示板,NK5891,PCS,2
9,MM36D00154,说明书,CPSS-135(P7436),PCS,1


In [None]:
### 7.3 数值排名
#数值排名和数值排序是相对应的，排名会新增一列，这一列用来存放数据的排名情况，排名是从1开始的。
#Excel中的rank.eq函数就是用来给学生成绩进行排名的的、
#Python中对数值进行排名，需要用到rank()方法。rank方法主要有两个参数：
#ascending排序方式，默认是升序排列
#method重复值的处理方式：
# ○ average 与Excel中rank.avg函数的功能一样
# ○ first 按值在所有的待排列数据中出现的先后顺序排名
# ○ min 与Excel中的rank.eq函数的功能一样
# ○ max 与min相反，取重复值对应的最大排名。

In [39]:
df = pd.read_excel('../english.xlsx')
df['test'].rank(method='average')

0      3.5
1      3.5
2      3.5
3      3.5
4      3.5
5      3.5
6      7.0
7      8.0
8     11.0
9     11.0
10    11.0
11    11.0
12    11.0
13    14.0
14    15.0
15    16.0
16    17.0
17    20.0
18    20.0
19    20.0
20    20.0
21    20.0
Name: test, dtype: float64

In [41]:
df

Unnamed: 0,单词,意义,test,Unnamed: 3,Unnamed: 4
0,officially,官方的 正式的,1,19.5,1
1,Keep-Alive,长连接,1,19.5,1
2,great on,熟悉的 热衷于,1,19.5,1
3,prose,散文,1,19.5,1
4,get out of,摆脱,1,19.5,1
5,in mind,在心里,1,19.5,1
6,contributions,捐款 贡献,2,16.0,7
7,as obvious,一目了然 显而易见,3,15.0,8
8,webpage,网页,4,12.0,9
9,pass in,传入,4,12.0,9


In [40]:
df['test'].rank(method='first')

0      1.0
1      2.0
2      3.0
3      4.0
4      5.0
5      6.0
6      7.0
7      8.0
8      9.0
9     10.0
10    11.0
11    12.0
12    13.0
13    14.0
14    15.0
15    16.0
16    17.0
17    18.0
18    19.0
19    20.0
20    21.0
21    22.0
Name: test, dtype: float64

In [43]:
df['test'].rank(method='min')

0      1.0
1      1.0
2      1.0
3      1.0
4      1.0
5      1.0
6      7.0
7      8.0
8      9.0
9      9.0
10     9.0
11     9.0
12     9.0
13    14.0
14    15.0
15    16.0
16    17.0
17    18.0
18    18.0
19    18.0
20    18.0
21    18.0
Name: test, dtype: float64

In [44]:
df['test'].rank(method='max')

0      6.0
1      6.0
2      6.0
3      6.0
4      6.0
5      6.0
6      7.0
7      8.0
8     13.0
9     13.0
10    13.0
11    13.0
12    13.0
13    14.0
14    15.0
15    16.0
16    17.0
17    22.0
18    22.0
19    22.0
20    22.0
21    22.0
Name: test, dtype: float64

In [46]:
### 7.4 数值删除
#数值删除是对数据表中一些无用的数据进行删除操作
#### 7.4.1 删除列
#在Python中，用drop()方法删除列，在参数中指明列名或列位置。
#在drop()方法后的括号中直接传入待删除的列名，需要加一个axis，并让其参数等于1，表示删除列。
#也可以在drop()方法的参数中直接传入待删除列的位置，也要用到axis=1

Unnamed: 0,单词,意义,test,Unnamed: 3,Unnamed: 4
0,officially,官方的 正式的,1,19.5,1
1,Keep-Alive,长连接,1,19.5,1
2,great on,熟悉的 热衷于,1,19.5,1
3,prose,散文,1,19.5,1
4,get out of,摆脱,1,19.5,1


In [47]:
df[0:5]

Unnamed: 0,单词,意义,test,Unnamed: 3,Unnamed: 4
0,officially,官方的 正式的,1,19.5,1
1,Keep-Alive,长连接,1,19.5,1
2,great on,熟悉的 热衷于,1,19.5,1
3,prose,散文,1,19.5,1
4,get out of,摆脱,1,19.5,1


In [51]:
df.drop(["意义","test"],axis=1)

Unnamed: 0,单词,Unnamed: 3,Unnamed: 4
0,officially,19.5,1
1,Keep-Alive,19.5,1
2,great on,19.5,1
3,prose,19.5,1
4,get out of,19.5,1
5,in mind,19.5,1
6,contributions,16.0,7
7,as obvious,15.0,8
8,webpage,12.0,9
9,pass in,12.0,9


In [3]:
import pandas as pd
df = pd.read_excel('../english.xlsx')
df
#df.drop(df.columns[[3,4]],axis=1)

Unnamed: 0,单词,意义,数据,avg,first
0,officially,官方的 正式的,1,19.5,1
1,Keep-Alive,长连接,1,19.5,1
2,great on,熟悉的 热衷于,1,19.5,1
3,prose,散文,1,19.5,1
4,get out of,摆脱,1,19.5,1
5,in mind,在心里,1,19.5,1
6,contributions,捐款 贡献,2,16.0,7
7,as obvious,一目了然 显而易见,3,15.0,8
8,webpage,网页,4,12.0,9
9,pass in,传入,4,12.0,9


In [64]:
#### 7.4.2 删除行
#在Python中，依然是用drop()方法，传入行的相关信息，axis=0
df.drop([1,20],axis=0)

Unnamed: 0,单词,意义,数据,avg,first
0,officially,官方的 正式的,1,19.5,1
2,great on,熟悉的 热衷于,1,19.5,1
3,prose,散文,1,19.5,1
4,get out of,摆脱,1,19.5,1
5,in mind,在心里,1,19.5,1
6,contributions,捐款 贡献,2,16.0,7
7,as obvious,一目了然 显而易见,3,15.0,8
8,webpage,网页,4,12.0,9
9,pass in,传入,4,12.0,9
10,seamlessly,天衣无缝,4,12.0,9


#### 7.4.3 删除特定行(满足某个条件的)
#在Python中删除特定行使用的方法有些特殊，不直接删除符合条件的值，而是把不满足条件的值筛选出来作为新的数据源，这样就把要删除的的行过滤掉了。
例如，要删除单词表中"“数据”等于1或不等于10的数据，就是过滤出“数据”不等于1或不等于10的数据

In [7]:
df[(df['数据']==1) | (df['数据']==10)]

Unnamed: 0,单词,意义,数据,avg,first
0,officially,官方的 正式的,1,19.5,1
1,Keep-Alive,长连接,1,19.5,1
2,great on,熟悉的 热衷于,1,19.5,1
3,prose,散文,1,19.5,1
4,get out of,摆脱,1,19.5,1
5,in mind,在心里,1,19.5,1
17,deprecation,反对,10,3.0,18
18,fragment,片段,10,3.0,18
19,paddle,桨 船桨,10,3.0,18
20,inspector,检查,10,3.0,18


In [8]:
### 7.5 数值计数
#就是计算某个值在一系列数值中出现的次数。
#Excel使用Countif（）函数
#Python使用的方法是value_counts()
df['数据'].value_counts()

1     6
10    5
4     5
8     1
7     1
6     1
5     1
3     1
2     1
Name: 数据, dtype: int64

In [9]:
### 7.6 唯一值获取
#唯一值获取就是把一系列数值删除重复项以后的结果，一般可以将表中某一列认为是一系列值。
#Excel中若想查看某一列数值中的唯一值，可以把这一系列数值复制粘贴出来，然后删除重复项，剩下的就是唯一值了。
#Python使用unique()方法
df['数据'].unique()

array([ 1,  2,  3,  4,  5,  6,  7,  8, 10], dtype=int64)

In [13]:
### 7.7 数值查找
#数值查找就是查看数据表中的数据是否包含某个值或者某些值
#Python中用isin()方法实现，存在返回true，不存在返回false。
#针对某列查找
df['数据'].isin([9,10])

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17     True
18     True
19     True
20     True
21     True
Name: 数据, dtype: bool

In [22]:
df.iloc[0:5]

Unnamed: 0,单词,意义,数据,avg,first
0,officially,官方的 正式的,1,19.5,1
1,Keep-Alive,长连接,1,19.5,1
2,great on,熟悉的 热衷于,1,19.5,1
3,prose,散文,1,19.5,1
4,get out of,摆脱,1,19.5,1


In [21]:
#针对全表查询
df.iloc[0:5].isin([1])

Unnamed: 0,单词,意义,数据,avg,first
0,False,False,True,False,True
1,False,False,True,False,True
2,False,False,True,False,True
3,False,False,True,False,True
4,False,False,True,False,True


In [28]:
df

Unnamed: 0,单词,意义,数据,avg,first
0,officially,官方的 正式的,1,19.5,1
1,Keep-Alive,长连接,1,19.5,1
2,great on,熟悉的 热衷于,1,19.5,1
3,prose,散文,1,19.5,1
4,get out of,摆脱,1,19.5,1
5,in mind,在心里,1,19.5,1
6,contributions,捐款 贡献,2,16.0,7
7,as obvious,一目了然 显而易见,3,15.0,8
8,webpage,网页,4,12.0,9
9,pass in,传入,4,12.0,9


In [29]:
### 7.8 区间切分
#区间切分就是将一系列数值分成若干份，比如有10个人，根据年龄将这10个人分成3组，这个切分过程就是区间切分。
#Excel借助if函数来实现
#Python中对区间的切分是利用cut()方法，三个参数分别是要切分的列，切分为几个区间，bins设定区间的范围。
df = pd.read_excel('../english.xlsx')
df                

Unnamed: 0,单词,意义,数据,avg,first
0,officially,官方的 正式的,1,22,1
1,Keep-Alive,长连接,2,21,2
2,great on,熟悉的 热衷于,3,20,3
3,prose,散文,4,19,4
4,get out of,摆脱,5,18,5
5,in mind,在心里,6,17,6
6,contributions,捐款 贡献,7,16,7
7,as obvious,一目了然 显而易见,8,15,8
8,webpage,网页,9,14,9
9,pass in,传入,10,13,10


In [39]:
pd.cut(df['数据'],5,bins=[0,6,10,22])

TypeError: cut() got multiple values for argument 'bins'

In [42]:
pd.qcut(df['数据'],3)

0     (0.999, 8.0]
1     (0.999, 8.0]
2     (0.999, 8.0]
3     (0.999, 8.0]
4     (0.999, 8.0]
5     (0.999, 8.0]
6     (0.999, 8.0]
7     (0.999, 8.0]
8      (8.0, 15.0]
9      (8.0, 15.0]
10     (8.0, 15.0]
11     (8.0, 15.0]
12     (8.0, 15.0]
13     (8.0, 15.0]
14     (8.0, 15.0]
15    (15.0, 22.0]
16    (15.0, 22.0]
17    (15.0, 22.0]
18    (15.0, 22.0]
19    (15.0, 22.0]
20    (15.0, 22.0]
21    (15.0, 22.0]
Name: 数据, dtype: category
Categories (3, interval[float64]): [(0.999, 8.0] < (8.0, 15.0] < (15.0, 22.0]]

### 7.9 插入新行或列
在Python中没有专门用来插入新行的方法，可以把待插入的行当作一个新的表，然后将两个表在纵轴方向上进行拼接。
插入新列用的方法是insert(),在参数中指明要插入的位置、插入后新列的列名以及要插入的数据。

In [43]:
df = pd.read_csv("./维修焊机用标签.csv",encoding='ANSI',sep='\t')
df

Unnamed: 0,资材编号,品名,规格,单位,数量
0,JJ36A12083,标签,NK1799,PCS,1
1,JJ36E00646,标签,NC4629B,,1
2,JJ36E00657,标签,NC4873,,1
3,JJ36E21722,表示板,NK5891,PCS,2
4,JJ36E60019,标签,NK5319,PCS,1
5,JJ36E60916,标签,NT0006,PCS,1
6,JJ36E90315,标签,NL0060,PCS,2
7,JJ36E90326,标签,NL0061,PCS,2
8,JJ36F42742,标签,NK3384B,PCS,1
9,MM36D00154,说明书,CPSS-135(P7436),PCS,1


In [49]:
df.insert(3,"类别1",['国内','国内','国内','国内','国内','国内','国内','国内','国内','进口','进口'])

In [52]:
df.insert(5,'类别2',[])
df

ValueError: Length of values does not match length of index

In [54]:
df["类别1"]=['国内','国内','国内','国内','国内','国内','国内','国内','国内','进口','进口'])

SyntaxError: invalid syntax (<ipython-input-54-b75e676aceea>, line 1)

In [56]:
### 7.10 行列互换
#所谓行列互换(又称转置)就是将行数据转到列方向上，将列数据转换到行方向上。
#Excel操作方法是拷贝→选择性粘贴→转置
#Python在源数据表上调用.T方法，方法不带括号，没有参数
df.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
资材编号,JJ36A12083,JJ36E00646,JJ36E00657,JJ36E21722,JJ36E60019,JJ36E60916,JJ36E90315,JJ36E90326,JJ36F42742,MM36D00154,MM36D00155
品名,标签,标签,标签,表示板,标签,标签,标签,标签,标签,说明书,说明书
规格,NK1799,NC4629B,NC4873,NK5891,NK5319,NT0006,NL0060,NL0061,NK3384B,CPSS-135(P7436),CPSS-135(P7973)
类别1,国内,国内,国内,国内,国内,国内,国内,国内,国内,进口,进口
类别,国内,国内,国内,国内,国内,国内,国内,国内,国内,进口,进口
单位,PCS,,,PCS,PCS,PCS,PCS,PCS,PCS,PCS,PCS
数量,1,1,1,2,1,1,2,2,1,1,1


In [57]:
#### 7.11 索引重塑
#索引重塑就是将原来的索引进行重新构建。把数据从表格型转换到树形数据的过程叫重塑。Excel中没有该操作，Python中用stack()，unstack()反向操作
df

Unnamed: 0,资材编号,品名,规格,类别1,类别,单位,数量
0,JJ36A12083,标签,NK1799,国内,国内,PCS,1
1,JJ36E00646,标签,NC4629B,国内,国内,,1
2,JJ36E00657,标签,NC4873,国内,国内,,1
3,JJ36E21722,表示板,NK5891,国内,国内,PCS,2
4,JJ36E60019,标签,NK5319,国内,国内,PCS,1
5,JJ36E60916,标签,NT0006,国内,国内,PCS,1
6,JJ36E90315,标签,NL0060,国内,国内,PCS,2
7,JJ36E90326,标签,NL0061,国内,国内,PCS,2
8,JJ36F42742,标签,NK3384B,国内,国内,PCS,1
9,MM36D00154,说明书,CPSS-135(P7436),进口,进口,PCS,1


In [60]:
df1 = df.stack
df1

<bound method DataFrame.stack of           资材编号   品名               规格 类别1  类别   单位  数量
0   JJ36A12083   标签           NK1799  国内  国内  PCS   1
1   JJ36E00646   标签          NC4629B  国内  国内  NaN   1
2   JJ36E00657   标签           NC4873  国内  国内  NaN   1
3   JJ36E21722  表示板           NK5891  国内  国内  PCS   2
4   JJ36E60019   标签           NK5319  国内  国内  PCS   1
5   JJ36E60916   标签           NT0006  国内  国内  PCS   1
6   JJ36E90315   标签           NL0060  国内  国内  PCS   2
7   JJ36E90326   标签           NL0061  国内  国内  PCS   2
8   JJ36F42742   标签          NK3384B  国内  国内  PCS   1
9   MM36D00154  说明书  CPSS-135(P7436)  进口  进口  PCS   1
10  MM36D00155  说明书  CPSS-135(P7973)  进口  进口  PCS   1>

In [None]:
### 7.12 长宽表转换
#将比较长的表(很多行)转换为比较宽(很多列)的表，或者将比较宽的表转换为比较长的表
#转换过程是有前提的，就是要有公共列
#### 7.12.1 宽表转换为长表
#Excel中用拷贝粘贴实现
#Python中有两种方法，stack()和melt()
#这个主题以后在用到时再详细研究

### 7.13 apply()和applymap()函数
在Python基础知识讲过的Python高级特性map()函数，能够对一个序列中的所有元素执行相同的函数操作。
在DataFrame中与map()函数类似的函数有两个，一个是apply()函数，另一个是applymap()函数。都需要与匿名函数lambda结合使用。
apply()函数主要用于对DataFrame中的某一列或行中的元素执行相同的函数操作。
applymap()函数用于对DataFrame中的每一个元素执行相同的函数操作。

In [61]:
df

Unnamed: 0,资材编号,品名,规格,类别1,类别,单位,数量
0,JJ36A12083,标签,NK1799,国内,国内,PCS,1
1,JJ36E00646,标签,NC4629B,国内,国内,,1
2,JJ36E00657,标签,NC4873,国内,国内,,1
3,JJ36E21722,表示板,NK5891,国内,国内,PCS,2
4,JJ36E60019,标签,NK5319,国内,国内,PCS,1
5,JJ36E60916,标签,NT0006,国内,国内,PCS,1
6,JJ36E90315,标签,NL0060,国内,国内,PCS,2
7,JJ36E90326,标签,NL0061,国内,国内,PCS,2
8,JJ36F42742,标签,NK3384B,国内,国内,PCS,1
9,MM36D00154,说明书,CPSS-135(P7436),进口,进口,PCS,1


In [70]:
df.iloc[:,0:5]

Unnamed: 0,资材编号,品名,规格,类别1,类别
0,JJ36A12083,标签,NK1799,国内,国内
1,JJ36E00646,标签,NC4629B,国内,国内
2,JJ36E00657,标签,NC4873,国内,国内
3,JJ36E21722,表示板,NK5891,国内,国内
4,JJ36E60019,标签,NK5319,国内,国内
5,JJ36E60916,标签,NT0006,国内,国内
6,JJ36E90315,标签,NL0060,国内,国内
7,JJ36E90326,标签,NL0061,国内,国内
8,JJ36F42742,标签,NK3384B,国内,国内
9,MM36D00154,说明书,CPSS-135(P7436),进口,进口


In [66]:
df.iloc[:,[0:6]].['数量'].apply(lambda x:x.join(" aaa"))

SyntaxError: invalid syntax (<ipython-input-66-263e173ed978>, line 1)

In [72]:
df.iloc[:,0:5].applymap(lambda x:x+'2')

Unnamed: 0,资材编号,品名,规格,类别1,类别
0,JJ36A120832,标签2,NK17992,国内2,国内2
1,JJ36E006462,标签2,NC4629B2,国内2,国内2
2,JJ36E006572,标签2,NC48732,国内2,国内2
3,JJ36E217222,表示板2,NK58912,国内2,国内2
4,JJ36E600192,标签2,NK53192,国内2,国内2
5,JJ36E609162,标签2,NT00062,国内2,国内2
6,JJ36E903152,标签2,NL00602,国内2,国内2
7,JJ36E903262,标签2,NL00612,国内2,国内2
8,JJ36F427422,标签2,NK3384B2,国内2,国内2
9,MM36D001542,说明书2,CPSS-135(P7436)2,进口2,进口2


# Python的操作也跟Excel的基本操作相同：先选择，再操作。

In [81]:
## 第8章 数据运行
### 8.1 算术运算
df = pd.DataFrame([[1,2,3],[4,5,6]],columns=['C1','C2','C3'],index=['S1','S2'])
df

Unnamed: 0,C1,C2,C3
S1,1,2,3
S2,4,5,6


In [82]:
#两列相加
df['C1'] + df['C2']

S1    3
S2    9
dtype: int64

In [83]:
#两列相减
df['C1'] - df['C2']

S1   -1
S2   -1
dtype: int64

In [84]:
#两列相乘
df['C1'] * df['C2']

S1     2
S2    20
dtype: int64

In [85]:
#两列相除
df['C1'] / df['C2']

S1    0.5
S2    0.8
dtype: float64

In [87]:
df

Unnamed: 0,C1,C2,C3
S1,1,2,3
S2,4,5,6


In [86]:
#任意一列加/减/乘/除一个常数，这一列中的所有值都加/减/乘/除这个常数
df['C1'] + 2

S1    3
S2    6
Name: C1, dtype: int64

In [None]:
### 8.2 比较运算
#大于 >  < == != >= <=b

In [88]:
df

Unnamed: 0,C1,C2,C3
S1,1,2,3
S2,4,5,6


In [89]:
df['C1'] > df['C2']

S1    False
S2    False
dtype: bool

In [90]:
df['C1'] == df['C2']

S1    False
S2    False
dtype: bool

In [91]:
df['C1'] != df['C2']

S1    True
S2    True
dtype: bool

In [92]:
df['C1'] < df['C2']

S1    True
S2    True
dtype: bool

In [95]:
### 8.3 汇总运算
#算术运算一般是在列之间进行的，而汇总运行是将数据进行汇总返回一个汇总以后的结果值。

#### 8.3.1 count非空值计数
#非空值计数就是计算某一个区域中非空(单元格)数值的个数。
#在Excel中，counta()函数计算某个区域中非空单元格的个数，count()函数用于计算某个区域中含有数字的单元格的个数。
#在Python中，直接在数据表上调用count()函数，返回的结果为该数据表中每列的非空值的个数，axis切换行、列操作，也可以单独查看某行或某列的个数

In [96]:
df

Unnamed: 0,C1,C2,C3
S1,1,2,3
S2,4,5,6


In [97]:
df.count(axis=0)

C1    2
C2    2
C3    2
dtype: int64

In [98]:
df.count(axis=1)

S1    3
S2    3
dtype: int64

In [100]:
df['C1'].count()

2

In [103]:
df.loc['S1'].count()

3

In [104]:
#### 8.3.2 sum求和
#在Python中直接在数据表上调用sum()函数，返回的是该数据表每一列求和的结果
df

Unnamed: 0,C1,C2,C3
S1,1,2,3
S2,4,5,6


In [105]:
df.sum(axis=0)

C1    5
C2    7
C3    9
dtype: int64

In [106]:
df.sum(axis=1)

S1     6
S2    15
dtype: int64

In [107]:
df.loc['S1'].sum()

6

In [108]:
df['C1'].sum()

5

In [None]:
#### 8.3.3 mean求均值
#求均值是针对某一区域中的所有值进行算术平均值的运算，均值是用来衡量数据一般情况的指标，容易受极大值、极小值的影响。
#Excel中用average()函数
#Python中用mean()函数，对全表求均值，返回每一列的均值，通过axis可设定对行或列进行操作，也可以先选定表的一部分进行求均值。

In [109]:
df

Unnamed: 0,C1,C2,C3
S1,1,2,3
S2,4,5,6


In [110]:
df.mean(axis=0)

C1    2.5
C2    3.5
C3    4.5
dtype: float64

In [111]:
df.mean(axis=1)

S1    2.0
S2    5.0
dtype: float64

In [112]:
df['C1'].mean()

2.5

In [113]:
df.loc['S1'].mean()

2.0

In [114]:
#### 8.3.4 max求最大值
#### 8.3.5 min求最小值
#### 8.3.6 median求中位数
#中位数就是将一组含有n个数据的序列X按从小到大排列，位于中间位置的那个数。
#中位数是以中间位置的数来反映数据的一般情况，不容易受到极大值和极小值的影响，因而在反映数据分布情况上要比平均值更有代表性。
#如果序列是偶数，则中间的那两个数的平均值就是中位数
#在Excel和Python中都使用median()函数来求中位数，在Python中，该函数的使用原则同其他函数一样。
df

Unnamed: 0,C1,C2,C3
S1,1,2,3
S2,4,5,6


In [115]:
df.median(axis=0)

C1    2.5
C2    3.5
C3    4.5
dtype: float64

In [116]:
df.median(axis=1)

S1    2.0
S2    5.0
dtype: float64

In [117]:
df['C1'].median()

2.5

In [None]:
#### 8.3.7 mode求众数
#众数是一组数据中出现次数最多的数，求众数就是返回这组数据中出现次数最多的那个数。
#在Excel和Python中都使用mode()函数求众数，函数的使用原则同其他函数一样

In [120]:
df1 = pd.read_csv("./维修焊机用标签.csv",encoding='ANSI',sep='\t')
df1

Unnamed: 0,资材编号,品名,规格,单位,数量
0,JJ36A12083,标签,NK1799,PCS,1
1,JJ36E00646,标签,NC4629B,,1
2,JJ36E00657,标签,NC4873,,1
3,JJ36E21722,表示板,NK5891,PCS,2
4,JJ36E60019,标签,NK5319,PCS,1
5,JJ36E60916,标签,NT0006,PCS,1
6,JJ36E90315,标签,NL0060,PCS,2
7,JJ36E90326,标签,NL0061,PCS,2
8,JJ36F42742,标签,NK3384B,PCS,1
9,MM36D00154,说明书,CPSS-135(P7436),PCS,1


In [121]:
df1['数量'].mode()

0    1
dtype: int64

In [122]:
#### 8.3.8 var求方差
#方差是用来衡量一组数据的离散程度(即数据的波动幅度)的。
#在Excel和Python中求方差都使用var()函数，使用原则同其他函数一致。
df

Unnamed: 0,C1,C2,C3
S1,1,2,3
S2,4,5,6


In [123]:
df.var()

C1    4.5
C2    4.5
C3    4.5
dtype: float64

In [124]:
df.var(axis=1)

S1    1.0
S2    1.0
dtype: float64

In [125]:
df['C1'].var()

4.5

In [126]:
#### 8.3.9 求标准差
#标准差是方差的平方根，二者都是用来表示数据的离散程度的。
#Excel中计算标准差使用的是stdevp()函数。
#在Python中使用的是std()函数，使用原则同其他函数一致。
df

Unnamed: 0,C1,C2,C3
S1,1,2,3
S2,4,5,6


In [127]:
df.std()

C1    2.12132
C2    2.12132
C3    2.12132
dtype: float64

In [128]:
df.std(axis=1)

S1    1.0
S2    1.0
dtype: float64

In [130]:
#### 8.3.10 quantile求分位数
#分位数是比中位数更加详细的基于位置的指标，分位数主要有四分之一分位数、四分之二分位数、四分之三分位数，而四分之二分位数就是中位数。
#在Excel中求分位数用的是percentile()函数。
#在Python中用的是quantile()函数，要在参数值指明分位数值，其他使用规则相同。
df = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9],[10,11,12],[13,14,15]],columns=['C1','C2','C3'],index=['S1','S2','S3','S4','S5'])
df

Unnamed: 0,C1,C2,C3
S1,1,2,3
S2,4,5,6
S3,7,8,9
S4,10,11,12
S5,13,14,15


In [131]:
df.quantile(0.25) #四分之一分位数

C1    4.0
C2    5.0
C3    6.0
Name: 0.25, dtype: float64

In [132]:
df.quantile(0.5)  #四分之二分位数

C1    7.0
C2    8.0
C3    9.0
Name: 0.5, dtype: float64

In [133]:
df.quantile(0.75)  #四分之三分位数

C1    10.0
C2    11.0
C3    12.0
Name: 0.75, dtype: float64

In [136]:
#求每一行的四分之一分位数
df['C1'].quantile(0.25)

4.0

In [139]:
df.quantile(0.75,axis=1)

S1     2.5
S2     5.5
S3     8.5
S4    11.5
S5    14.5
Name: 0.75, dtype: float64

In [141]:
### 8.4 相关性运算
#相关性常用来衡量两个事物之间的相关程度，比如啤酒与尿布之间的相关性很强。一般用相关系数来衡量二者之间的相关程度，所以计算相关性就是求相关系数
#在Excel中求相关系数用correl()函数
#在Python中用corr()函数。
df

Unnamed: 0,C1,C2,C3
S1,1,2,3
S2,4,5,6
S3,7,8,9
S4,10,11,12
S5,13,14,15


In [142]:
df['C1'].corr(df['C2'])

1.0

In [143]:
df.corr()

Unnamed: 0,C1,C2,C3
C1,1.0,1.0,1.0
C2,1.0,1.0,1.0
C3,1.0,1.0,1.0


In [145]:
## 第10章 时间序列
### 9.1 获取当前时刻的时间
#获取当前时刻的时间，就是获取此时此刻与时间相关的数据，除了具体的年、月、日、时、分、秒，还会单独看年、月、周、日等指标。

#### 9.1.1 返回当前时刻的日期和时间
#在Excel是使用Now()函数
#Python使用如下代码
from datetime import datetime as dt
dt.now()

datetime.datetime(2019, 12, 6, 13, 46, 1, 99898)

In [147]:
#### 9.1.2 分别返回当前时刻的日期和时间
#Excel实现方法是year(now()) month(now())  day(now())
#Python实现方法：
print(dt.now().year)
print(dt.now().month)
print(dt.now().day)

2019
12
6


In [158]:
#### 9.1.3 返回当前时刻的周数
#返回周几
#Excel： weekday(now()-1)
print((dt.now().weekday() + 1))
#返回第几周
#Excel：  weeknum()
#该功能调试没有通过，用的不多，以后用到时再说。

5


In [159]:
print(dt.now().isocalendar())

(2019, 49, 5)


In [161]:
### 9.2 指定日期和时间的格式
#借助date()函数，将日期和时间设置成只展示日期。
dt.now().date()

datetime.date(2019, 12, 6)

In [156]:
#借助time()函数将日期和时间设置成只展示时间
dt.now().time()

datetime.time(14, 1, 2, 777489)

#借助strtime()函数可以自定义时间和日期格式，具体格式代码含义如下：
%H  小时（24小时制）[00,23]
%I  小时（12小时制）[01,12]
%M  两位数的分钟 【00,59】
%S  秒 【00,61】(60和61表示闰秒)
%w  用整数表示的星期 【0,6】
%U  每年的第几周，从周日开始
%W  每年的第几周，从周一开始
%F  %Y-%m-%d的简写形式，例如2018-04-08
%D  %m/%d/%y的简写形式，例如04/08/2018
%Y  4位的年
%m  2位的月
%d  2位的日

In [162]:
dt.now().strftime('%F')

'2019-12-06'

In [163]:
dt.now().strftime('%Y-%m-%d %H:%M:%S')

'2019-12-06 14:26:15'

In [164]:
### 9.3 字符串和时间格式相互转换
#### 9.3.1 将时间格式转换为字符串 str()
now = dt.now()
now

datetime.datetime(2019, 12, 6, 14, 36, 55, 465694)

In [165]:
type(now)

datetime.datetime

In [166]:
type(str(now))

str

In [167]:
#### 9.3.2 将字符串格式转换为时间格式 parse()
str_time = '2019-12-06'
type(str_time)

str

In [169]:
from dateutil.parser import parse
a = parse(str_time)

In [170]:
type(a)

datetime.datetime

In [172]:
### 9.4 时间索引
#时间索引就是根据时间来对时间格式的字段进行数据选取的一种索引方式
#Excel实现专门的日期格式筛选，根据需要选择相应的筛选格式即可
#Python实现，可以选取具体的某一时间对应的值，也可以选取某一时间段内的值。
#通过时间索引选择数据不适用的情况下，可以用布尔索引，因为时间是有大小的，可以选出时间范围。
import numpy as np
index = ['2018-01-01','2018-01-02','2018-01-03','2018-01-04','2018-01-05','2018-01-06','2018-01-07','2018-01-08','2018-01-09','2018-01-10']
data = pd.DataFrame(np.arange(1,11),columns = ["num"],index=index)
data

Unnamed: 0,num
2018-01-01,1
2018-01-02,2
2018-01-03,3
2018-01-04,4
2018-01-05,5
2018-01-06,6
2018-01-07,7
2018-01-08,8
2018-01-09,9
2018-01-10,10


In [175]:
data['2018-01-10':'2018-01-10']

Unnamed: 0,num
2018-01-10,10


In [176]:
data['2018':'2018']

Unnamed: 0,num


In [177]:
data['2018-01-01':'2018-01-09']

Unnamed: 0,num
2018-01-01,1
2018-01-02,2
2018-01-03,3
2018-01-04,4
2018-01-05,5
2018-01-06,6
2018-01-07,7
2018-01-08,8
2018-01-09,9


In [179]:
data['2018-01-10']

KeyError: '2018-01-10'

In [180]:
### 9.5 时间运算
#### 9.5.1 两个时间之差
#在Python中两个时间做差会返回一个timedelta对象，该对象中包含天数、秒、微妙三个等级，如果要取小时、分钟，则需要换算。
cha = dt(2018,5,21,19,50) - dt(2018,5,18,20,32)
cha

datetime.timedelta(days=2, seconds=83880)

In [181]:
cha.days

2

In [182]:
cha.seconds

83880

In [183]:
cha.seconds/3600

23.3

In [185]:
#### 9.5.1 时间偏移
#时间偏移是指给时间往前或往后推一段时间，即加或减一段时间。
#Excel中应该使用dateadd或datediff函数
#Python中有两种实现方式，第一种是借助timedelta，只能偏移天、秒、微秒的时间。第2种是一用pandas中的日期偏移量(date offset)
from datetime import timedelta
date = dt(2018,5,18,20,32)
#往后推1天
date + timedelta(days=1)

datetime.datetime(2018, 5, 19, 20, 32)

In [186]:
#往后推60秒
date + timedelta(seconds=60)

datetime.datetime(2018, 5, 18, 20, 33)

In [187]:
#往前推1天
date - timedelta(days=1)

datetime.datetime(2018, 5, 17, 20, 32)

In [188]:
#往前推60秒
date - timedelta(seconds=60)

datetime.datetime(2018, 5, 18, 20, 31)

In [190]:
import pandas as pd
from pd.tseries.offsets import Day,Hour,Minute
date = dt(2018,5,18,20,32)
#往后推1天
date + Day(1)

ModuleNotFoundError: No module named 'pd'