In [2]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

# 引入

Pandas 是 Python 为解决数据分析而创建的，详情看官网 (https://pandas.pydata.org/)。 在使用 pandas 之前，需要引进它，语法如下：

In [6]:
import pandas as pd

这样你就可以用 pandas 里面所有的内置方法 (build-in methods) 了，比如创建一维的 Series 和二维的 DataFrame。

In [7]:
pd.Series()
pd.DataFrame()

  """Entry point for launching an IPython kernel.


Series([], dtype: float64)

Pandas 里面的数据结构是「多维数据表」，学习它可以类比这 NumPy 里的「多维数组」。1/2/3 维的「多维数据表」分别叫做 Series (系列), DataFrame (数据帧) 和 Panel (面板)，和1/2/3 维的「多维数组」的类比关系如下。

![jupyter](./pandas_numpy_map.jpg)

对比 NumPy (np) 和 Pandas (pd) 每个维度下的数据结构，不难看出



    pd 多维数据表 = np 多维数组 + 描述



其中



Series = 1darray + index

DataFrame = 2darray + index + columns

Panel = 3darray + index + columns + item



每个维度上的「索引」使得「多维数据表」比「多维数组」涵盖更多的信息，如下图，左边的 2d array 仅仅储存了一组数值 (具体代表什么意思却不知道)，而右边的 DataFrame 一看就知道这是平安银行和茅台从 2018-1-3 到 2019-1-3 的价格。

![jupyter](./pandas_dataframe_2darray_map.jpg)

# 数据表的创建

数据表有三大类型



Series: 一维数据，类似于 python 中的基本数据的 list 或 NumPy 中的 1D array。Pandas 里最基本的数据结构



DataFrame: 二维数据，类似于 R 中的 data.frame 或 Matlab 中的 Tables。DataFrame 是 Series 的容器



Panel：三维数据。Panel 是 DataFrame 的容器

In [8]:
sr = pd.Series()
df = pd.DataFrame()
pl = pd.Panel()

  """Entry point for launching an IPython kernel.
  This is separate from the ipykernel package so we can avoid doing imports until


最常见的数据类型是二维的 DataFrame，其中

每行代表一个示例 (instance)

每列代表一个特征 (feature)


DataFrame 可理解成是 Series 的容器，每一列都是一个 Series，或者 Series 是只有一列的 DataFrame。

Panel 可理解成是 DataFrame 的容器。

## 一维Series

创建 Series 只需用下面一行代码



    pd.Series( x, index=idx )



其中 x 可以是：列表 (list)、numpy 数组 (ndarray)、字典 (dict)。

x是数据，index是描述，默认值为 idx = range(0, len(x))。

### 用list

In [9]:
s = pd.Series([27.2, 27.65, 27.70, 28])
s

0    27.20
1    27.65
2    27.70
3    28.00
dtype: float64

打印出来并不仅仅是列表里面的浮点数，每个浮点数前面还有一个索引，在本例中是 0, 1, 2, 3。



因此在创建 Series 时，如果不显性设定 index，那么 Python 给定一个默认从 0 到 N-1 的值，其中 N 是 x 的长度。


Series s 也是一个对象，用 dir(s) 可看出关于 Series 所有的属性和内置函数，其中最重要的是



用 s.values 打印 s 中的元素

用 s.index 打印 s 中的元素对应的索引

In [10]:
dir(s)

['T',
 '_AXIS_ALIASES',
 '_AXIS_IALIASES',
 '_AXIS_LEN',
 '_AXIS_NAMES',
 '_AXIS_NUMBERS',
 '_AXIS_ORDERS',
 '_AXIS_REVERSED',
 '_HANDLED_TYPES',
 '__abs__',
 '__add__',
 '__and__',
 '__annotations__',
 '__array__',
 '__array_priority__',
 '__array_ufunc__',
 '__array_wrap__',
 '__bool__',
 '__class__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__div__',
 '__divmod__',
 '__doc__',
 '__eq__',
 '__finalize__',
 '__float__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__imod__',
 '__imul__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__long__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__module__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__nonzero__',
 '__or__

In [12]:
s.values

array([27.2 , 27.65, 27.7 , 28.  ])

In [14]:
s.index

RangeIndex(start=0, stop=4, step=1)

不难发现，以上创建的 Series 和 numpy 数组比多了「索引」，但这种 0,1,2,3 的索引是在没有什么描述意义。实际上我们定义的 s 是海底捞在 2019 年 4 月 1 日到 2019 年 4 月 4 日的股价，那么用日期来当索引是不是更好些？

In [15]:
dates = pd.date_range('20190401',periods=4)
s2 = pd.Series( [27.2, 27.65, 27.70, 28], index=dates )
s2

2019-04-01    27.20
2019-04-02    27.65
2019-04-03    27.70
2019-04-04    28.00
Freq: D, dtype: float64

显然，s2 比 s 包含的信息更多，这是 s2 的索引是一组日期对象，数据类型是 datetime64，频率是 D (天)。

In [16]:
s2.index

DatetimeIndex(['2019-04-01', '2019-04-02', '2019-04-03', '2019-04-04'], dtype='datetime64[ns]', freq='D')

你甚至还可以给 s2 命名，就叫海底捞股价如何？

In [17]:
s2.name = '海底捞股价'
s2

2019-04-01    27.20
2019-04-02    27.65
2019-04-03    27.70
2019-04-04    28.00
Freq: D, Name: 海底捞股价, dtype: float64

### 用numpy(+内置函数)

除了用列表，我们还可以用 numpy 数组来生成 Series。在下例中，我们加入缺失值 np.nan，并分析一下 Series 中另外 5 个属性或内置函数的用法：



    len: s 里的元素个数

    shape: s 的形状 (用元组表示)

    count: s 里不含 nan 的元素个数

    unique: 返回 s 里不重复的元素

    value_counts: 统计 s 里非 nan 元素的出现次数



对照上面函数的用法，下面的输出一看就懂了吧。

In [19]:
import numpy as np
s = pd.Series( np.array([27.2, 27.65, 27.70, 28, 28, np.nan]) )
print( 'The length is', len(s) )
print( 'The shape is', s.shape )
print( 'The count is', s.count() )

The length is 6
The shape is (6,)
The count is 5


In [20]:
s.unique()

array([27.2 , 27.65, 27.7 , 28.  ,   nan])

In [21]:
s.value_counts()

28.00    2
27.70    1
27.65    1
27.20    1
dtype: int64

### 用dict

创建 Series 还可以用字典。字典的「键值对」的「键」自动变成了 Series 的索引 (index)，而「值」自动变成了Series 的值 (values)。代码如下 (下列用 name 参数来对 s3 命名)

In [22]:
data_dict = { 'BABA': 187.07, 'PDD': 21.83, 'JD': 30.79, 'BIDU': 184.77 }
s3 = pd.Series(data_dict, name='中概股')
s3.index.name = '股票代号'
s3

股票代号
BABA    187.07
PDD      21.83
JD       30.79
BIDU    184.77
Name: 中概股, dtype: float64

给 s3 起名中概股是因为阿里巴巴 (BABA)、拼多多 (PDD)、京东 (JD) 和百度 (BIDU) 都是中国公司但在美国上市的。此外还可以给 index 命名为 '股票代号'。



现在假设我们的股票代号为

In [24]:
stock = ['FB', 'BABA', 'PDD', 'JD']
s4 = pd.Series( data_dict, index=stock )
s4

FB         NaN
BABA    187.07
PDD      21.83
JD       30.79
dtype: float64

代号里多加了脸书 (FB)，而 data_dict 字典中没有 FB 这个键，因此生成的 s4 在 FB 索引下对应的值为 NaN。再者，代号里没有百度 (BIDU)，因此 s4 里面没有 BIDU 对应的值 (即便 data_dict 里面有)。



当两个 Series 进行某种操作时，比如相加，Python 会自动对齐不同 Series 的 index，如下面代码所示：

In [25]:
s3 + s4

BABA    374.14
BIDU       NaN
FB         NaN
JD       61.58
PDD      43.66
dtype: float64

Series 是 Pandas 里面最基本的数据结构，但是对应每个索引只有一个元素 (比如一个日期对应一个股价)，因此 Series 处理不了每个索引对应多个元素 (比如一个日期对应一个开盘价、收盘价、交易量等等)。而 DataFrame 可以解决这个问题。

## 二维DataFrame

创建 DataFrame 只需用下面一行代码



    pd.DataFrame( x, index=idx, columns=col )



其中 x 可以是二维列表 (list)、二维 numpy 数组 (ndarray)、字典 (dict，其值是一维列表、numpy 数组或 Series)、另外一个 DataFrame。

x 是数据，index 是行描述，默认值为 idx = range(0, x.shape[0])，columns 是列描述，默认值为 col = range(0, x.shape[1])。

### 用list或numpy

In [26]:
# df1 = pd.DataFrame( [[1, 2, 3], [4, 5, 6]] )
df1 = pd.DataFrame( np.array([[1, 2, 3], [4, 5, 6]]) )
df1

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


### 用dict(+内置函数)

In [27]:
symbol = ['BABA', 'JD', 'AAPL', 'MS', 'GS', 'WMT']
data = {'行业': ['电商', '电商', '科技', '金融', '金融', '零售'],
        '价格': [176.92, 25.95, 172.97, 41.79, 196.00, 99.55],
        '交易量': [16175610, 27113291, 18913154, 10132145, 2626634, 8086946],
        '雇员': [101550, 175336, 100000, 60348, 36600, 2200000]}
df2 = pd.DataFrame( data, index=symbol )
df2.name='美股'
df2.index.name = '代号'
df2

Unnamed: 0_level_0,行业,价格,交易量,雇员
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BABA,电商,176.92,16175610,101550
JD,电商,25.95,27113291,175336
AAPL,科技,172.97,18913154,100000
MS,金融,41.79,10132145,60348
GS,金融,196.0,2626634,36600
WMT,零售,99.55,8086946,2200000


字典的「键值对」的「键」自动变成了 DataFrame 的栏 (columns)，而「值」自动变成了 DataFrame 的值 (values)，而其索引 (index) 需要另外定义。

In [28]:
df2.values
df2.index
df2.columns

array([['电商', 176.92, 16175610, 101550],
       ['电商', 25.95, 27113291, 175336],
       ['科技', 172.97, 18913154, 100000],
       ['金融', 41.79, 10132145, 60348],
       ['金融', 196.0, 2626634, 36600],
       ['零售', 99.55, 8086946, 2200000]], dtype=object)

Index(['BABA', 'JD', 'AAPL', 'MS', 'GS', 'WMT'], dtype='object', name='代号')

Index(['行业', '价格', '交易量', '雇员'], dtype='object')

In [29]:
# 查看DataFrame，默认为5行
df2.head()
df2.tail()
df2.head(3)

Unnamed: 0_level_0,行业,价格,交易量,雇员
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BABA,电商,176.92,16175610,101550
JD,电商,25.95,27113291,175336
AAPL,科技,172.97,18913154,100000
MS,金融,41.79,10132145,60348
GS,金融,196.0,2626634,36600


Unnamed: 0_level_0,行业,价格,交易量,雇员
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
JD,电商,25.95,27113291,175336
AAPL,科技,172.97,18913154,100000
MS,金融,41.79,10132145,60348
GS,金融,196.0,2626634,36600
WMT,零售,99.55,8086946,2200000


Unnamed: 0_level_0,行业,价格,交易量,雇员
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BABA,电商,176.92,16175610,101550
JD,电商,25.95,27113291,175336
AAPL,科技,172.97,18913154,100000


In [30]:
# 统计
df2.describe()

Unnamed: 0,价格,交易量,雇员
count,6.0,6.0,6.0
mean,118.863333,13841300.0,445639.0
std,73.748714,8717312.0,860752.2
min,25.95,2626634.0,36600.0
25%,56.23,8598246.0,70261.0
50%,136.26,13153880.0,100775.0
75%,175.9325,18228770.0,156889.5
max,196.0,27113290.0,2200000.0


函数 describe() 只对「数值型变量」有用 (没有对「字符型变量」行业栏做统计)，统计量分别包括个数、均值、标准差、最小值，25-50-75 百分数值，最大值。一般做数据分析第一步会用这个表大概看看

    数据是否有缺失值 (每个栏下的 count 是否相等)？

    数据是否有异常值 (最小值 min 和最大值 max 是否太极端)？



In [31]:
# 升维

df2.index = pd.MultiIndex.from_tuples( 
            [('中国公司','BABA'), ('中国公司','JD'), 
             ('美国公司','AAPL'), ('美国公司','MS'), 
             ('美国公司','GS'), ('美国公司','WMT')] )
df2

Unnamed: 0,Unnamed: 1,行业,价格,交易量,雇员
中国公司,BABA,电商,176.92,16175610,101550
中国公司,JD,电商,25.95,27113291,175336
美国公司,AAPL,科技,172.97,18913154,100000
美国公司,MS,金融,41.79,10132145,60348
美国公司,GS,金融,196.0,2626634,36600
美国公司,WMT,零售,99.55,8086946,2200000


我们用 MultiIndex.from_tuples() 还可以赋予 DataFrame 多层索引 (实际上增加了维度，多层索引的 DataFrame 实际上是三维数据)。

# 数据表的存载

DataFrame 可以被保存为 Excel, csv, SQL 和 HDF5 格式，其语句一看就懂，用 to_数据格式，具体如下：



    to_excel()
    to_csv()
    to_sql()
    to_hdf()

如果要加载某种格式的数据到 DataFrame 里，用 read_数据格式，具体如下：

    read_excel()
    read_csv()
    read_sql()
    read_hdf()

我们只用 excel 和 csv 格式举例。

## excel

用 pd.to_excel 函数将 DataFrame 保存为 .xlsx 格式，并保存到 ‘Sheet1’ 中，具体写法如下：

    pd.to_excel( '文件名'，'表名' )

In [32]:
df = pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6]]))
df.to_excel('pd_excel.xlsx', sheet_name='Sheet1')

用 pd.read_excel( '文件名'，'表名' ) 即可加载该文件并存成 DataFrame 形式

In [33]:
df1 = pd.read_excel('pd_excel.xlsx', sheet_name='Sheet1')
df1

Unnamed: 0.1,Unnamed: 0,0,1,2
0,0,1,2,3
1,1,4,5,6


## csv

用 pd.to_csv 函数将 DataFrame 保存为 .csv 格式，注意如果 index 没有特意设定，最后不要把 index 值存到 csv 文件中。具体写法如下：



    pd.to_csv( '文件名'，index=False )

In [35]:
data = {'Code': ['BABA', '00700.HK', 'AAPL', '600519.SH'],
        'Name': ['阿里巴巴', '腾讯', '苹果', '茅台'],
        'Market': ['US', 'HK', 'US', 'SH'],
        'Price': [185.35, 380.2, 197, 900.2],
        'Currency': ['USD', 'HKD', 'USD', 'CNY']}
df = pd.DataFrame(data)
df.to_csv('pd_csv.csv', index=False)

用 pd.read_csv( '文件名' ) 即可加载该文件并存成 DataFrame 形式。

In [36]:
df2 = pd.read_csv('pd_csv.csv')
df2

Unnamed: 0,Code,Name,Market,Price,Currency
0,BABA,阿里巴巴,US,185.35,USD
1,00700.HK,腾讯,HK,380.2,HKD
2,AAPL,苹果,US,197.0,USD
3,600519.SH,茅台,SH,900.2,CNY


如果一开始储存 df 的时候用 index=True，你会发现：

In [37]:
df = pd.DataFrame(data)
df.to_csv('pd_csv.csv', index=True)
df2 = pd.read_csv('pd_csv.csv')
df2

Unnamed: 0.1,Unnamed: 0,Code,Name,Market,Price,Currency
0,0,BABA,阿里巴巴,US,185.35,USD
1,1,00700.HK,腾讯,HK,380.2,HKD
2,2,AAPL,苹果,US,197.0,USD
3,3,600519.SH,茅台,SH,900.2,CNY


df2 里面第一栏是 df 的 index，由于没有具体的 columns 名称，系统给它一个 "Unamed: 0"。因此在存储 df 的时候，如果 df.index 没有特意设定，记住要在 to_csv() 中把 index 设置为 False。

# 数据表的切片和索引

In [38]:
symbol = ['BABA', 'JD', 'AAPL', 'MS', 'GS', 'WMT']
data = {'行业': ['电商', '电商', '科技', '金融', '金融', '零售'],
        '价格': [176.92, 25.95, 172.97, 41.79, 196.00, 99.55],
        '交易量': [16175610, 27113291, 18913154, 10132145, 2626634, 8086946],
        '雇员': [101550, 175336, 100000, 60348, 36600, 2200000]}
df = pd.DataFrame( data, index=symbol )
df.name='美股'
df.index.name = '代号'
df

Unnamed: 0_level_0,行业,价格,交易量,雇员
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BABA,电商,176.92,16175610,101550
JD,电商,25.95,27113291,175336
AAPL,科技,172.97,18913154,100000
MS,金融,41.79,10132145,60348
GS,金融,196.0,2626634,36600
WMT,零售,99.55,8086946,2200000


![jupyter](./pandas_dataframe_example.jpg)

<img style="float: center;" src="./pandas_dataframe_example.jpg" width="50%"> 

DataFrame 的索引或切片可以基于标签 (label-based) ，也可以基于位置 (position-based)，不像 numpy 数组的索引或切片只基于位置。

DataFrame 的索引或切片有四大类：

索引单元素：

    基于标签的 at
    基于位置的 iat

切片 columns：

    用 . 来切片单列
    用 [] 来切片单列或多列
    基于标签的 loc
    基于位置的 iloc

切片 index：

    用 [] 来切片单行或多行
    基于标签的 loc
    基于位置的 iloc

切片 index 和 columns：

    基于标签的 loc
    基于位置的 iloc

总体规律，基于标签就用 at 和 loc，基于位置就用 iat 和 iloc。

## 索引单元素

两种方法来索引单元素，情况 1 基于标签 at，情况 2 基于位置 iat。

    情况 1 - df.at['idx_i', 'attr_j']
    情况 2 - df.iat[i, j]

Python 里的中括号 [] 会代表很多意思，比如单元素索引，多元素切片，布尔索引等等，因此让 Python 猜你用的 [] 意图会很低效。如果你想索引单元素，明明白白的用 at 和 iat 效率最高。

In [40]:
df.at['AAPL','价格']

df.iat[2,1]

172.97

172.97

<img style="float: center;" src="./pandas_iat.jpg" width="50%"> 

## 切片columns

### 切片单个columns

切片单个 columns 会返回一个 Series，有以下四种情况。情况 1 用点 .；情况 2 用中括号 []；情况 3 基于标签 loc，情况 4 基于位置 iloc。

    情况 1 - df.attr_i
    情况 2 - df['attr_i']
    情况 3 - df.loc[:, 'attr_i']
    情况 4 - df.iloc[:, i]

情况 1 记住就可以了，没什么可说的。

情况 2 非常像二维 numpy 数组 arr 的切片，用 arr[i] 就能获取 arr 在「轴 0」上的第 i 个元素 (一个 1darray)，同理 df['attr_i'] 也能获取 df 的第 i 个 Series。

情况 3 和 4 的 loc 和 iloc 可类比于上面的 at 和 iat。带 i 的基于位置 (位置用整数表示，i 也泛指整数)，不带 i 的基于标签。里面的冒号 : 代表所有的 index (和 numpy 数组里的冒号意思相同)。

个人建议，如果追求简洁和方便，用 . 和 []；如果追求一致和清晰，用 loc 和 iloc。

In [42]:
df.价格

df['价格']

df.loc[:, '交易量']

df.iloc[:, 0]

代号
BABA    176.92
JD       25.95
AAPL    172.97
MS       41.79
GS      196.00
WMT      99.55
Name: 价格, dtype: float64

代号
BABA    176.92
JD       25.95
AAPL    172.97
MS       41.79
GS      196.00
WMT      99.55
Name: 价格, dtype: float64

代号
BABA    16175610
JD      27113291
AAPL    18913154
MS      10132145
GS       2626634
WMT      8086946
Name: 交易量, dtype: int64

代号
BABA    电商
JD      电商
AAPL    科技
MS      金融
GS      金融
WMT     零售
Name: 行业, dtype: object

<img style="float: center;" src="./pandas_iloc.jpg" width="70%"> 

### 切片多个columns 

切片多个 columns 会返回一个 sub-DataFrame (原 DataFrame 的子集)，有以下三种情况。情况 1 用中括号 []；情况 2 基于标签 loc，情况 3 基于位置 iloc。

    情况 1 - df[['attr_i', 'attr_j']]
    情况 2 - df.loc[:, 'attr_i':'attr_j']
    情况 3 - df.iloc[:, i:j]

和切片单个 columns 相比：

    情况 1 用一个列表来储存一组属性 'attr_i', 'attr_j'，然后在放进中括号 [] 里获取它们
    情况 2 用 'attr_i':'attr_j' 来获取从属性 i 到属性 j 的 sub-DataFrame
    情况 3 用 i:j 来获取从列 i+1 到列 j 的 sub-DataFrame

个人建议，如果追求简洁和方便，用 []；如果追求一致和清晰，用 loc 和 iloc。

In [43]:
df[ ['雇员', '价格'] ]

df.loc[:, '行业':'交易量']

df.iloc[:, 0:2]

Unnamed: 0_level_0,雇员,价格
代号,Unnamed: 1_level_1,Unnamed: 2_level_1
BABA,101550,176.92
JD,175336,25.95
AAPL,100000,172.97
MS,60348,41.79
GS,36600,196.0
WMT,2200000,99.55


Unnamed: 0_level_0,行业,价格,交易量
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
BABA,电商,176.92,16175610
JD,电商,25.95,27113291
AAPL,科技,172.97,18913154
MS,金融,41.79,10132145
GS,金融,196.0,2626634
WMT,零售,99.55,8086946


Unnamed: 0_level_0,行业,价格
代号,Unnamed: 1_level_1,Unnamed: 2_level_1
BABA,电商,176.92
JD,电商,25.95
AAPL,科技,172.97
MS,金融,41.79
GS,金融,196.0
WMT,零售,99.55


<img style="float: center;" src="./pandas_iloc_multi.jpg" width="70%"> 

## 切片index

### 切片单个index

切片单个 index 有时会返回一个 Series，有以下两种情况。情况 1 基于标签 loc，情况 2 基于位置 iloc。

    情况 1 - df.loc['idx_i', :]
    情况 2 - df.iloc[i, :]

切片单个 index 有时会返回一个只有一行的 DataFrame，有以下两种情况。情况 3 用中括号 [] 加「位置」，情况 4 用中括号 [] 加「标签」。

    情况 3 - df[i:i+1]
    情况 4 - df['idx_i':'idx_i']

情况 1 和 2 的 loc 和 iloc 可类比于上面的 at 和 iat。带 i 的基于位置 (位置用整数表示，i 也泛指整数)，不带 i 的基于标签。里面的冒号 : 代表所有的 columns (和 numpy 数组里的冒号意思相同)。

情况 3 用中括号 [] 加「位置」，位置 i:i+1 有前闭后开的性质。如果要获取第 i+1 行，需要用 i:i+2。

情况 4 用中括号 [] 加「标签」，标签没有前闭后开的性质。如果要获取标签 i，只需要用 'idx_i':'idx_i'。为什么不能只用 'idx_i' 呢？原因是 Python 会把 df['idx_i'] 当成切片 columns，然后发现属性中没有 'idx_i' 这一个字符，会报错的。



个人建议，只用 loc 和 iloc。情况 3 太麻烦，获取一行还要用 i:i+1。情况 4 的 df['idx_i'] 很容易和切片 columns 中的语句 df['attr_j'] 混淆。

In [47]:
df.loc[ 'GS', : ]


df.iloc[ 3, : ]

df[1:2]


df['JD':'JD']

行业          金融
价格         196
交易量    2626634
雇员       36600
Name: GS, dtype: object

行业           金融
价格        41.79
交易量    10132145
雇员        60348
Name: MS, dtype: object

Unnamed: 0_level_0,行业,价格,交易量,雇员
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
JD,电商,25.95,27113291,175336


Unnamed: 0_level_0,行业,价格,交易量,雇员
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
JD,电商,25.95,27113291,175336


<img style="float: center;" src="./pandas_iloc_index.jpg" width="70%"> 

### 切片多个index

切片多个 index 会返回一个 sub-DataFrame，有以下四种情况。情况 1 用中括号 [] 加「位置」，情况 2 用中括号 [] 加「标签」，情况 3 基于标签 loc，情况 4 基于位置 iloc。

    情况 1 - df[i:j]
    情况 2 - df['idx_i':'idx_j']
    情况 3 - df.loc['idx_i':'idx_j', :]
    情况 4 - df.iloc[i:j, :]

和切片单个 index 相比：
    
    情况 1 用 [i:j] 来获取行 i+1 到行 j 的 sub-DataFrame
    情况 2 用 ['idx_i':'idx_j'] 来获取标签 i 到标签 j 的 sub-DataFrame
    情况 3 用 loc 加 'idx_i':'idx_j' 来获取从标签 i 到标签 j 的 sub-DataFrame
    情况 4 用 iloc 加 i:j 来获取从行 i+1 到行 j 的 sub-DataFrame

个人建议，只用 loc 和 iloc。情况 1 和 2 的 df[] 很容易混淆中括号 [] 里的到底是切片 index 还是 columns。

In [48]:
df[ 1:4 ]

df[ 'GS':'WMT' ]


df.loc[ 'MS':'GS', : ]


df.loc[ 'MS':'JD', : ]


df.iloc[ 1:3, : ]

Unnamed: 0_level_0,行业,价格,交易量,雇员
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
JD,电商,25.95,27113291,175336
AAPL,科技,172.97,18913154,100000
MS,金融,41.79,10132145,60348


Unnamed: 0_level_0,行业,价格,交易量,雇员
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
GS,金融,196.0,2626634,36600
WMT,零售,99.55,8086946,2200000


Unnamed: 0_level_0,行业,价格,交易量,雇员
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
MS,金融,41.79,10132145,60348
GS,金融,196.0,2626634,36600


Unnamed: 0_level_0,行业,价格,交易量,雇员
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1


Unnamed: 0_level_0,行业,价格,交易量,雇员
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
JD,电商,25.95,27113291,175336
AAPL,科技,172.97,18913154,100000


<img style="float: center;" src="./pandas_iloc_index_multi.jpg" width="70%"> 

## 切片index和columns

<img style="float: center;" src="./pandas_iat.jpg" width="50%"> 

<img style="float: center;" src="./pandas_iat.jpg" width="50%"> 

<img style="float: center;" src="./pandas_iat.jpg" width="50%"> 

<img style="float: center;" src="./pandas_iat.jpg" width="50%"> 

<img style="float: center;" src="./pandas_iat.jpg" width="50%"> 

<img style="float: center;" src="./pandas_iat.jpg" width="50%"> 