# **Pandas 学习(1)**

## 前言
- 参考“蚂蚁学视频”
- 书籍《Python人工智能开发》

## **1. Pandas怎样读取数据**

|文件类型|说明|pandas方法|
|:------|:---|:--------|
|csv,tsv,txt|逗号分隔，Tab分隔的纯文本文件|pd.read_csv|
|excel|xls,xlsx文件|pd.read_excel|
|mysql|关系型数据库表|pd.read_sql|

In [2]:
import pandas as pd

### **1.1. 读取纯文本文件**

#### **1.1.1. 读取CSV文件，使用默认的标题行，逗号分隔**

In [None]:
fpath='/media/数据盘/pandas/gy202302.csv'

In [None]:
#读取cvs文件
ratings=pd.read_csv(fpath)

In [None]:
#缠看前几行数据
ratings.head()

In [None]:
#查看数据的形状，返回数据的行数和列数
ratings.shape

In [None]:
#缠看列名，列名以列表（List）的形式返回
ratings.columns

In [None]:
#缠看索引列
ratings.index

In [None]:
#查看每列的数据类型
ratings.dtypes

#### **1.1.2. 读取txt文件，自己指定列名和分隔符**

In [None]:
fpath='/media/数据盘/pandas/test-tab.txt'

In [None]:
testtab=pd.read_csv(
    fpath,
    sep='\t',
    usecols=['NF','YF','H02','N2000_1','N2000_2']
)[['NF','YF','H02','N2000_2','N2000_2']] #此处为指定列显示的顺序，可省略

In [None]:
testtab

### **1.2. 读取Excel文件**

In [None]:
fpath='/media/数据盘/pandas/gy202302.xlsx'
testexcel=pd.read_excel(fpath)

In [None]:
testexcel

### **1.3. 读取MySQL数据库表**

#### **1.3.1 安装 MySQL**

#### **1.3.2 安装 ‘Pure Python MySQL Driver’**

`$pip3 install pymysql`

```



```

  
---

```



```

## **2. Pandas数据结构 Series & DataFrame**

如果从DataFrame中查询出来的结果是一行或者一列，那这个结果是一个Series

In [47]:
import numpy as np    #pandas has been imported before

### **2.1 Series**

Series是一种类似于数组的对象，它由一组数据（可以是不同数据类型）以及一组与之相关的数据标签（即索引）组成

#### **2.1.1 仅有数据列表即可生成最简单的 Series**

In [49]:
s1=pd.Series([1,'a',5.2,'7'])

In [51]:
#输出共两列，左侧列为索引，右侧列为数据
s1

0      1
1      a
2    5.2
3      7
dtype: object

In [52]:
#获取索引
s1.index

RangeIndex(start=0, stop=4, step=1)

In [53]:
#获取数据
s1.values

array([1, 'a', 5.2, '7'], dtype=object)

#### **2.1.2 创建一个具有标签索引的Series**

In [68]:
s2=pd.Series([1,'a',5.2,7],index=['d','b','a','c'])

In [69]:
s2

d      1
b      a
a    5.2
c      7
dtype: object

In [58]:
s2.index

Index(['d', 'B', 'a', 'C'], dtype='object')

#### **2.1.3 使用Python字典创建Series**

In [59]:
data={'Ohio':35000,'Texas':72000,'Oregon':16000,'Utah':5000}

In [60]:
s3=pd.Series(data)

In [61]:
s3

Ohio      35000
Texas     72000
Oregon    16000
Utah       5000
dtype: int64

#### **2.1.4 根据标签索引查询数据**

In [63]:
s2['a']

5.2

In [71]:
s2[['a','b','c','d']]

a    5.2
b      a
c      7
d      1
dtype: object

In [72]:
type(s2['a'])

float

In [74]:
type(s2[['a','b','c']])

pandas.core.series.Series

### **2.2 DataFrame**

DataFrame是一个表格型的数据结构  
- 每列可以是不同的值类型（数值、字符串、布尔型等）
- 既有行索引Index，也有列索引columns
- 可以看作是由Series组成的字典  

创建Dataframe最常见的方法就是前面的读取文本文件、Excel文件和数据库表

#### **2.2.1 根据多个字典序列创建DataFrame**

In [3]:
data={
    'state':['Ohi','Ohi','Ohi','Nevada','Nevada'],
    'year':[2000,2001,2002,2001,2002],
    'pop':[1.5,1.7,3.6,2.4,2.9]
}
df=pd.DataFrame(data)

In [4]:
df

Unnamed: 0,state,year,pop
0,Ohi,2000,1.5
1,Ohi,2001,1.7
2,Ohi,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [7]:
df.dtypes

state     object
year       int64
pop      float64
dtype: object

In [8]:
df.columns

Index(['state', 'year', 'pop'], dtype='object')

In [9]:
df.index

RangeIndex(start=0, stop=5, step=1)

#### **2.2.2 从DataFrame中查询出Series**
- 如果只查询出一行、一列，返回的是一个 Series
- 如果查询出的是多行多列，返回的是一个 DataFrame

##### **2.2.2.1 查询一列，结果是一个 Series**

In [10]:
df['year']

0    2000
1    2001
2    2002
3    2001
4    2002
Name: year, dtype: int64

In [15]:
df['year'].dtype

dtype('int64')

In [16]:
type(df['year'])

pandas.core.series.Series

##### **2.2.2.2 查询多列，结果是一个 DataFrame**

In [18]:
df[['year','pop']]

Unnamed: 0,year,pop
0,2000,1.5
1,2001,1.7
2,2002,3.6
3,2001,2.4
4,2002,2.9


In [19]:
type(df[['year','pop']])

pandas.core.frame.DataFrame

##### **2.2.2.3 查询一行，结果是一个 Series**

In [8]:
df.loc[0]

state     Ohi
year     2000
pop       1.5
Name: 0, dtype: object

In [10]:
type(df.loc[0])

pandas.core.series.Series

##### **2.2.2.4 查询多行，结果是一个 DataFrame**

In [14]:
df.loc[2:3]   #注意在Python中是不包含末尾元素的,但在Pandas中是包含的,这里行号为3的行也将包含在结果集中

Unnamed: 0,state,year,pop
2,Ohi,2002,3.6
3,Nevada,2001,2.4


In [13]:
type(df.loc[1:3])

pandas.core.frame.DataFrame

```



```

---

```



```

## **3. Pandas查询数据的5中方法**

### **Pandas查询数据的集中方法**

1. df.loc方法,根据行,列的标签值查询
2. df.iloc方法,根据行,列的数字位置查询
3. df.where方法
4. df.query方法

***.loc方法既能查询,又能覆盖写入***

### **Pandas使用df.loc查询数据的方法**

1. 使用单个label值查询数据
2. 使用值列表批量查询
3. 使用数值区间进行范围查询
4. 使用条件表达式查询
5. 调用函数查询

### **注意**

- 以上查询方法,既适用与行,也适用于列
- 注意观察降维 Dataframe-->Series-->值

In [19]:
import pandas as pd

### **3.0 读取数据**

In [94]:
df=pd.read_csv('gy202302.csv')

In [95]:
df.head()

Unnamed: 0,NF,YF,A01,H02,N2000_1,N2000_2,N2000_3,N2000_4,N4000_1,N4000_2,...,A341,A342,A343,B93,DZX,A07_2017,A14,N2000_2_KBJ,N2000_2_TB,N2000_1_KBJ
0,2023,2,57686533,上海欣禄包装制品有限公司,3554,7542,3376,6179,3554,7542,...,0,0,0,501,3,2231,1,7618.18,7618.18,3589.9
1,2023,2,59324579,上海弘干机械制造有限公司,4109,7425,2335,5418,4109,7425,...,0,0,0,502,3,3311,1,7702.28,7702.28,4262.45
2,2023,2,60907093,上海图正信息科技股份有限公司,200,200,185,185,200,200,...,0,0,0,502,3,3983,1,201.01,201.01,201.01
3,2023,2,60946834,上海东富龙拓溥科技有限公司,84318,90495,29460,54482,5754,8837,...,230105,0,0,502,3,3544,1,90314.37,90314.37,84149.7
4,2023,2,62523851,上海海的实业有限公司,3309,6753,8019,20177,3167,8092,...,0,0,0,502,3,3312,1,7005.19,7005.19,3432.57


In [96]:
#设置索引为年份,月份,A01
df.set_index(['NF','YF','A01'],inplace=True)

In [None]:
df.index

In [None]:
df.head()

In [99]:
df.loc[:,['H02','N2000_1','N2000_2','N2000_3']]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,H02,N2000_1,N2000_2,N2000_3
NF,YF,A01,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2023,2,057686533,上海欣禄包装制品有限公司,3554,7542,3376
2023,2,059324579,上海弘干机械制造有限公司,4109,7425,2335
2023,2,060907093,上海图正信息科技股份有限公司,200,200,185
2023,2,060946834,上海东富龙拓溥科技有限公司,84318,90495,29460
2023,2,062523851,上海海的实业有限公司,3309,6753,8019
2023,2,...,...,...,...,...
2023,2,MA7C8CMP1,上海江崎格力高闵发食品有限公司,19303,28645,0
2023,2,MA7D1RP0X,上海申电通轨道交通科技有限公司,204,227,0
2023,2,X07672168,上海闵行振华汽车配件有限公司,253,1543,1215
2023,2,X07676054,上海汇盈鞋艺二厂,1337,2005,547


### **3.1 用单个label值查询数据**
行或者列,都可以只传入单个值,实现精确匹配

In [170]:
#这里的label是要给元组，即(2023, 2,'MA7D1RP0X')，结果得到单个值
df.loc[(2023, 2,'MA7D1RP0X'),'N2000_2'] #当键是多个字段的组合时,用元组

227

In [101]:
#得到一个Series.
df.loc[(2023, 2,'MA7D1RP0X'),['H02','N2000_1','N2000_2','N2000_3','N2000_4','DZX']]

H02        上海申电通轨道交通科技有限公司
N2000_1                204
N2000_2                227
N2000_3                  0
N2000_4                  0
DZX                      3
Name: (2023, 2, MA7D1RP0X), dtype: object

### **3.2 使用值列表批量值查询**

In [169]:
#[(2023, 2,'MA7D1RP0X'),(2023, 2,'X07676580'),(2023, 2,'057686533')]为一个值列表
df.loc[[(2023, 2,'MA7D1RP0X'),(2023, 2,'X07676580'),(2023, 2,'057686533')],['H02','N2000_1','N2000_2','N2000_3','N2000_4','DZX']]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,H02,N2000_1,N2000_2,N2000_3,N2000_4,DZX
NF,YF,A01,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2023,2,MA7D1RP0X,上海申电通轨道交通科技有限公司,204,227,0,0,3
2023,2,X07676580,上海五星制帽有限公司,1965,3015,3481,5475,3
2023,2,057686533,上海欣禄包装制品有限公司,3554,7542,3376,6179,3


### **3.3 使用数值区间进行范围查询**

In [104]:
#行Index按区间
df.loc[(2023, 2,'MA7D1RP0X'):(2023, 2,'X07676580'),'H02']

NF    YF  A01      
2023  2   MA7D1RP0X    上海申电通轨道交通科技有限公司
          X07672168     上海闵行振华汽车配件有限公司
          X07676054           上海汇盈鞋艺二厂
          X07676580         上海五星制帽有限公司
Name: H02, dtype: object

In [106]:
#列Index按区间
df.loc[(2023, 2,'MA7D1RP0X'),'N2000_1':'DZX']

N2000_1             204
N2000_2             227
N2000_3               0
N2000_4               0
N4000_1             204
N4000_2             227
N4000_3               0
N4000_4               0
N4090_1               0
N4090_2               0
N4090_3               0
N4090_4             0.0
A052       310112501009
A18                 110
A19                   1
A09                  11
LEV        310112501808
A10          91310112MA
A340                NaN
A341             230104
A342             119911
A343                  0
B93                 502
DZX                   3
Name: (2023, 2, MA7D1RP0X), dtype: object

In [107]:
#行和列都按区间查询
df.loc[(2023, 2,'MA7D1RP0X'):(2023, 2,'X07676580'),'N2000_1':'N2000_4']

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,N2000_1,N2000_2,N2000_3,N2000_4
NF,YF,A01,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2023,2,MA7D1RP0X,204,227,0,0
2023,2,X07672168,253,1543,1215,4756
2023,2,X07676054,1337,2005,547,1142
2023,2,X07676580,1965,3015,3481,5475


### **3.4 使用条件表达式查询**

In [171]:
df.loc[df['N2000_2']>1000000,['H02','N2000_1','N2000_2','N2000_3','N2000_4']]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,H02,N2000_1,N2000_2,N2000_3,N2000_4
NF,YF,A01,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2023,2,607205141,上海三菱电梯有限公司,1523310,2434437,1053300,2469335
2023,2,607328264,大金空调（上海）有限公司,625716,1024786,499171,1215441
2023,2,717880375,上海电气电站设备有限公司,642948,1086694,495538,1056317
2023,2,795641927,可口可乐饮料（上海）有限公司,844936,1573473,979446,2138492
2023,2,MA1GDL7B6,上海顺诠科技有限公司,702218,1280006,734542,2043539


In [111]:
#观察这里的布尔条件
df['N2000_2']>1000000

NF    YF  A01      
2023  2   057686533    False
          059324579    False
          060907093    False
          060946834    False
          062523851    False
                       ...  
          MA7C8CMP1    False
          MA7D1RP0X    False
          X07672168    False
          X07676054    False
          X07676580    False
Name: N2000_2, Length: 878, dtype: bool

#### **复杂条件查询,查询N2000_2大于10亿元,且DZX标志为1的数据, 或者N2000_2==0且DZX标志为2的数据**

**注意与用'&'号,或用'|'号链接,且每个条件都要带括号**

In [135]:
df.loc[((df['N2000_2']>1000000)&(df['DZX']==1))|((df['N2000_2']==0)&(df['DZX']==2)),['H02','N2000_1','N2000_2','DZX']]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,H02,N2000_1,N2000_2,DZX
NF,YF,A01,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2023,2,586801197,上海鸣志机械制造有限公司,0,0,2
2023,2,607205141,上海三菱电梯有限公司,1523310,2434437,1
2023,2,607328264,大金空调（上海）有限公司,625716,1024786,1
2023,2,630574703,上海紫燕食品股份有限公司,0,0,2
2023,2,717880375,上海电气电站设备有限公司,642948,1086694,1
2023,2,770201458,上海至正道化高分子材料股份有限公司,0,0,2
2023,2,MA1GDL7B6,上海顺诠科技有限公司,702218,1280006,1


### **3.5 调用函数进行查询**

#### **3.5.1 python lambda 函数简介**

python 使用 lambda 来创建匿名函数
-    lambda只是一个表达式，函数体比def简单很多。
-    lambda的主体是一个表达式，而不是一个代码块。仅仅能在lambda表达式中封装有限的逻辑进去。
-    lambda函数拥有自己的命名空间，且不能访问自有参数列表之外或全局命名空间里的参数。
-    虽然lambda函数看起来只能写一行，却不等同于C或C++的内联函数，后者的目的是调用小函数时不占用栈内存从而增加运行效率。

**语法**

lambda函数的语法只包含一个语句，如下：  
`lambda [arg1 [,arg2,.....argn]]:expression`

**如下实例：**

```
#!/usr/bin/python
# -*- coding: UTF-8 -*-
 
# 定义一个名为sum的Lambda函数,带有两个参数arg1,arg2,函数体只能是一个表达式,这里是一个加法运算表达式
sum = lambda arg1, arg2: arg1 + arg2
 
# 调用sum函数,调用方式与普通函数类似
print "相加后的值为 : ", sum( 10, 20 )
print "相加后的值为 : ", sum( 20, 20 )
```

以上实例输出结果：

相加后的值为 :  30  
相加后的值为 :  40

#### **3.5.2 使用lambda函数进行查询**

In [173]:
#查询增幅大于10%的数据,通过定义一个lambda函数实现
df.loc[lambda df:df['N2000_2']/df['N2000_4']>1.1,['H02','N2000_2','N2000_4']]  #冒号前面是参数，后面是表达式

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,H02,N2000_2,N2000_4
NF,YF,A01,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2023,2,057686533,上海欣禄包装制品有限公司,7542,6179
2023,2,059324579,上海弘干机械制造有限公司,7425,5418
2023,2,060946834,上海东富龙拓溥科技有限公司,90495,54482
2023,2,066027572,美登思电气（上海）有限公司,11504,7929
2023,2,067780507,上海壹徕科技股份有限公司,6627,5649
2023,2,...,...,...,...
2023,2,MA202ELM3,上海谭慕半导体科技有限公司,63645,23400
2023,2,MA28A0KG0,好米动力设备有限公司,3675,2893
2023,2,MA7C8CMP1,上海江崎格力高闵发食品有限公司,28645,0
2023,2,MA7D1RP0X,上海申电通轨道交通科技有限公司,227,0


#### **3.5.3 使用def定义的函数进行查询**

In [167]:
#定义函数myfun，用于找出A01的第一位为字符'0'的所有行索引，本例行索引为（NF，YF，A01）
def myfun(df):
    res=[]                          #定义一个用于存储结果的列表
    for e in df.index:              #df.index得到行索引列表(List)，列表中每个元素为一个元组(Tuple)，元组的第三个元素为A01
        if e[2].startswith('0'):    #判断A01第一个字符是否为'0'
            res.append(e)           #复合条件的索引值添加到结果列表中去
    return res
        
df.loc[myfun,['H02','N2000_2','N2000_4']]   #注意：这里是将函数本身作为参数传递给了loc，而不是直接调用
                                            #函数式编成的本质是---函数自身可以像变量一样传递
    

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,H02,N2000_2,N2000_4
NF,YF,A01,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2023,2,057686533,上海欣禄包装制品有限公司,7542,6179
2023,2,059324579,上海弘干机械制造有限公司,7425,5418
2023,2,060907093,上海图正信息科技股份有限公司,200,185
2023,2,060946834,上海东富龙拓溥科技有限公司,90495,54482
2023,2,062523851,上海海的实业有限公司,6753,20177
2023,2,066027572,美登思电气（上海）有限公司,11504,7929
2023,2,067780507,上海壹徕科技股份有限公司,6627,5649
2023,2,069313216,上海龙鑫电缆科技有限公司,3,40
2023,2,076447175,上海玖广兴塑胶制品有限公司,4266,4391
2023,2,07811696X,上海璞珞食品有限公司,9632,13056


```


```

---

```


```

## **4. Pandas怎样新增数据列**

### 按照一定的条件创建新的数据列

1. 直接赋值
2. df.apply方法
3. df.assign方法
4. 按条件选择分组分别赋值

In [2]:
import pandas as pd

### **4.0 读取数据到DataFrame**

In [3]:
df=pd.read_csv('gy202302.csv')

In [5]:
df.head()

Unnamed: 0,NF,YF,A01,H02,N2000_1,N2000_2,N2000_3,N2000_4,N4000_1,N4000_2,...,A341,A342,A343,B93,DZX,A07_2017,A14,N2000_2_KBJ,N2000_2_TB,N2000_1_KBJ
0,2023,2,57686533,上海欣禄包装制品有限公司,3554,7542,3376,6179,3554,7542,...,0,0,0,501,3,2231,1,7618.18,7618.18,3589.9
1,2023,2,59324579,上海弘干机械制造有限公司,4109,7425,2335,5418,4109,7425,...,0,0,0,502,3,3311,1,7702.28,7702.28,4262.45
2,2023,2,60907093,上海图正信息科技股份有限公司,200,200,185,185,200,200,...,0,0,0,502,3,3983,1,201.01,201.01,201.01
3,2023,2,60946834,上海东富龙拓溥科技有限公司,84318,90495,29460,54482,5754,8837,...,230105,0,0,502,3,3544,1,90314.37,90314.37,84149.7
4,2023,2,62523851,上海海的实业有限公司,3309,6753,8019,20177,3167,8092,...,0,0,0,502,3,3312,1,7005.19,7005.19,3432.57


In [5]:
df.dtypes

NF               int64
YF               int64
A01             object
H02             object
N2000_1          int64
N2000_2          int64
N2000_3          int64
N2000_4          int64
N4000_1          int64
N4000_2          int64
N4000_3          int64
N4000_4          int64
N4090_1          int64
N4090_2          int64
N4090_3          int64
N4090_4        float64
A052             int64
A18              int64
A19              int64
A09              int64
LEV              int64
A10             object
A340           float64
A341             int64
A342             int64
A343             int64
B93              int64
DZX              int64
A07_2017         int64
A14              int64
N2000_2_KBJ    float64
N2000_2_TB     float64
N2000_1_KBJ    float64
dtype: object

### **4.1 直接赋值的方法**

**例1：将字段'DZX'由int64转为‘object‘**

In [4]:
df.loc[:,'DZX']=df['DZX'].astype('object')   #df['DZX']是一个Series，所以这里的运算是对Series的运算，df.loc[:,'DZX']也是Series

In [7]:
df.dtypes

NF               int64
YF               int64
A01             object
H02             object
N2000_1          int64
N2000_2          int64
N2000_3          int64
N2000_4          int64
N4000_1          int64
N4000_2          int64
N4000_3          int64
N4000_4          int64
N4090_1          int64
N4090_2          int64
N4090_3          int64
N4090_4        float64
A052             int64
A18              int64
A19              int64
A09              int64
LEV              int64
A10             object
A340           float64
A341             int64
A342             int64
A343             int64
B93              int64
DZX             object
A07_2017         int64
A14              int64
N2000_2_KBJ    float64
N2000_2_TB     float64
N2000_1_KBJ    float64
dtype: object

### **4.1 直接赋值的方法**

### **4.1 直接赋值的方法**

**例2：计算增幅**

In [5]:
df.loc[:,'LJZF'] = (df['N2000_2']/df['N2000_4']-1)*100   #求增幅，这里使用的Series的直接运算！！！
                                                         #两个运算的Series必须具有相同的索引，这里两个索引来自同一个DataFrame，所以他们的索引是自然
                                                         #相同的

In [7]:
df.loc[0:3,['H02','LJZF']]

Unnamed: 0,H02,LJZF
0,上海欣禄包装制品有限公司,22.058586
1,上海弘干机械制造有限公司,37.043189
2,上海图正信息科技股份有限公司,8.108108
3,上海东富龙拓溥科技有限公司,66.100731


In [12]:
df.dtypes

NF               int64
YF               int64
A01             object
H02             object
N2000_1          int64
N2000_2          int64
N2000_3          int64
N2000_4          int64
N4000_1          int64
N4000_2          int64
N4000_3          int64
N4000_4          int64
N4090_1          int64
N4090_2          int64
N4090_3          int64
N4090_4        float64
A052             int64
A18              int64
A19              int64
A09              int64
LEV              int64
A10             object
A340           float64
A341             int64
A342             int64
A343             int64
B93              int64
DZX             object
A07_2017         int64
A14              int64
N2000_2_KBJ    float64
N2000_2_TB     float64
N2000_1_KBJ    float64
LJZF           float64
dtype: object

### **4.2 df.apply方法**

**官方文档：**  

Apply a function along an axis of the DataFrame.

Objects passed to the function are Series objects whose index is either the DataFrame’s index (axis=0) or the DataFrame’s columns (axis=1). By default (result_type=None), the final return type is inferred from the return type of the applied function. Otherwise, it depends on the result_type argument.

**译文：**  

沿DataFrame的轴应用函数。

**传递给函数的对象是Series对象，** 其索引为 DataFrame 的索引 **（轴=0）** 或 DataFrame的列 **（轴=1）**。默认情况下（result_type=None），最终返回类型是根据应用函数的返回类型推断出来的。否则，它取决于result_type参数。

**增加一列，增长类型(zzlx)**  
-        累计增幅(LJZF) >= 20  高速增长  
-   20 < 累计增幅(LJZF) >= 0   平稳增长  
-    0 < 累计增幅(LJZF) >=-10  小幅下降  
-  -10 < 累计增幅(LJZF)        快速下降  


In [8]:
#定义一个函数，根据累计增速，求的增长类型
def get_growth_type(x):
    if x['LJZF']>=20:
        return '高速增长'
    if x['LJZF']>=0 and x['LJZF']<20:
        return '平稳增长'
    if x['LJZF']>=-10 and x['LJZF']<0:
        return '小幅下降'
    if x['LJZF']<-10:
        return '快速下降'
    return '未知类型'
df.loc[:,'ZZLX']=df.apply(get_growth_type,axis=1)  #这里是增加一列，怎么增加一行？？？

In [9]:
df[['H02','LJZF','ZZLX']]

Unnamed: 0,H02,LJZF,ZZLX
0,上海欣禄包装制品有限公司,22.058586,高速增长
1,上海弘干机械制造有限公司,37.043189,高速增长
2,上海图正信息科技股份有限公司,8.108108,平稳增长
3,上海东富龙拓溥科技有限公司,66.100731,高速增长
4,上海海的实业有限公司,-66.531199,快速下降
...,...,...,...
873,上海江崎格力高闵发食品有限公司,inf,高速增长
874,上海申电通轨道交通科技有限公司,inf,高速增长
875,上海闵行振华汽车配件有限公司,-67.556770,快速下降
876,上海汇盈鞋艺二厂,75.569177,高速增长


In [10]:
df['ZZLX'].value_counts()

快速下降    436
高速增长    234
平稳增长    110
小幅下降     85
未知类型     13
Name: ZZLX, dtype: int64

In [11]:
df.loc[0:5,['H02','LJZF','ZZLX']]

Unnamed: 0,H02,LJZF,ZZLX
0,上海欣禄包装制品有限公司,22.058586,高速增长
1,上海弘干机械制造有限公司,37.043189,高速增长
2,上海图正信息科技股份有限公司,8.108108,平稳增长
3,上海东富龙拓溥科技有限公司,66.100731,高速增长
4,上海海的实业有限公司,-66.531199,快速下降
5,美登思电气（上海）有限公司,45.087653,高速增长


### **4.3 df.assign方法**

此方法与apply方法类此，区别是：  
- 一次可以添加多列
- 只能添加列，所以不需要设置axis参数
- 不会修改df本身，它返回以下包含了新增列的新对象

例如：  
```
df.assign(
    field1=fun1,
    field2=fun2'
    ...
    fieldn=funn
)
```


In [12]:
#增加当月同比增量（dy_zl）和 累积同比增量（lj_zl）两列
def dyzl(x):
    return x['N2000_1']-x['N2000_3']

def ljzl(x):
    return x['N2000_2']-x['N2000_4']

df2=df.assign(DY_ZL = dyzl,
          LJ_ZL = ljzl
         )

In [23]:
df2.loc[df2['DY_ZL']>100000,['H02','DY_ZL','LJ_ZL']]

Unnamed: 0,H02,DY_ZL,LJ_ZL
77,上海上药第一生化药业有限公司,240745,138927
161,上海三菱电梯有限公司,470010,-34898
241,大金空调（上海）有限公司,126545,-190655
351,上海米其林轮胎有限公司,109961,76690
363,东富龙科技集团股份有限公司,150430,30101
409,上海电气集团上海电机厂有限公司,119337,-10466
486,上海正帆科技股份有限公司,148971,256198
514,上海电气电站设备有限公司,147410,30377
738,上海剑桥科技股份有限公司,177068,290875


### **4.4 建立空白新列，然后按条件选择分组分别赋值**

In [24]:
#先增加一个新列
df2.loc[:,'NEWCOL']=''

In [33]:
#分条件给新列赋值
df2.loc[df2['LJ_ZL']>100000,'NEWCOL']='异动'
df2.loc[df2['LJ_ZL']<=100000,'NEWCOL']='平稳'

In [32]:
df2['NEWCOL'].value_counts()

平稳    872
异动      6
Name: NEWCOL, dtype: int64