# pandas

![](pandas.jpg)
![](https://img.i21st.cn/paper/21ke/2019/626/95cbbb11444d3c42c5c514f2eb930522.jpg) 

# pandas

 

+ pandas这个名字源于 panel data( 面板数据)，以及 Python data analysis。
+ Pandas以NumPy为基础，让以NumPy为中心的应用变得更加简单。
+ 提供了大量适用于金融数据的高性能时间序列工具。
   作者在设计该包时就计划将其做成一款适用于金融数据分析的工具。

## 内容

+ Pandas的数据结构介绍
   - Seires
   - DataFrame
+ 基本功能
+ 汇总和计算描述统计
+ 处理缺失数据
+ 其他

+ 通常在调用Pandas之前做如下的引入约定：

In [233]:
import pandas as pd #引入pandas包
from pandas import Series, DataFrame

In [234]:
import numpy as np
from numpy.random import randn
import os
import matplotlib.pyplot as plt
""" from myfunctions import * """
np.random.seed(12345) #随机种子设置
plt.rc('figure', figsize=(10, 6)) #设置图片放置的格式
np.set_printoptions(precision=4) #四位有效数字

In [267]:
class side_by_side():
    def __init__(self, *frames):
        self.frames = frames

    def _repr_html_(self):
        width = 100. / len(self.frames)

        s = ""
        for f in self.frames:
            s += "<div style='float: left; border-left : 5px solid #6699cc;'>%s</div>" % f._repr_html_()

        return s

## 介绍Pandas数据结构

要使用pandas，首先得熟悉两个主要的数据结构：Series 和 DataFrame。

### Series

一种类似于一维数组的对象，数据(values)及其标签(index)组成，和numpy array的差别是具有index

In [None]:
obj = Series([100, 99, 100, 60])
obj
#有index和value

In [None]:
obj.values#导出value

In [None]:
obj.index#导出index

+ 在构建Series时，通过"index="参数指定索引，不指定就默认为$0，1，2，\cdots$

In [None]:
obj2 = Series([4, 7, -5, 3], index=['d', 'a', 'a', 'c'])
obj2
#构建Series的时候可以自定义地指定索引
#类似于字典，可以通过index来引用value

+ 用索引引用数据，

In [None]:
obj2['a']#index是可以重复的！查找时就会一起输出

和NumPy一样选取数据,对数据进行计算。只不过Series每个数据都有一个关键字索引。

In [None]:
obj2['d'] = 6
obj2[['c', 'a', 'd']]

+ 用条件判断，布尔值索引

In [None]:
obj2[obj2 > 0]

+ 可以将Series看成一个有序字典，定义了索引值到数据值的一个映射。

In [None]:
obj2

+ 注意使用in的结果

In [None]:
[6 in obj2,'b' in obj2] #in 直接查找的是index

In [None]:
'b' in obj2.index #要精确地指明是index还是value

In [None]:
6 in obj2.values

+ 如果数据被存在字典中，我们可以直接通过该字典来创建Series

In [None]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000} #dictionary
obj3 = Series(sdata) #转换dictionary into Series
obj3

+ 可以通过index选择数据，即可以指定Series的index，只提取该index中存在的索引及其对应值。 

In [None]:
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = Series(sdata, index=states) #没有的地方用NaN填进去
obj4

+ 但Clifornia在字典sdata中没有，这时在pandas中产生一个缺失值。
+ 通过isnull方法判断是否有缺失值

In [None]:
pd.isnull(obj4) #用来判断是不是空的

+ Series一个最重要的功能是：它在算术运算中会自动对齐不同索引的数据。

In [None]:
obj3

In [None]:
obj4

In [None]:
obj3 + obj4 #同一个Index对应的value做运算（首先是并集），有缺失值就是NaN

+ 可以通过赋值的方式修改索引。

In [None]:
obj

In [None]:
obj.index = ['Tom', 'Steve', 'Jeff', 'Ryan'] #之后也可以修改index
obj

## DataFrame

+ DataFrame是表格型的数据结构，其含有一组有序的列，每列可以是不同的类型(数值，字符串，布尔等)
+ DataFrame既有行索引也有列索引，它可以被看做由Series组成的字典（共用同一个索引）
+ 最常见的构建DataFrame的方法
   + NumPy数组组成的字典。
   + 二维ndarray生成DataFrame

In [None]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
print(data,end='\n\n')
frame = DataFrame(data) # Create a Dataframe 
frame #没有指定行的index，采用默认值

我们可以指定列的顺序。

In [None]:
DataFrame(data, columns=['year', 'state', 'pop']) #产生dataframe的时候，可以指定columns的顺序

如果传入的数据不存在，就会产生NA值：

In [None]:
frame2 = DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                   index=['one', 'two', 'three', 'four', 'five'])
frame2

通过引用一个列，可以获得一个Series,下面是两种引用方法

In [None]:
frame2['state'] #按列引用

In [None]:
frame2.year

+ 行的引用，loc，iloc方法　

In [None]:
frame2.loc['three']#用的是名字来引用

In [None]:
frame2.iloc[2]#用的是位置来引用

+ 给DataFrame的列赋值， 
  
  将标量赋值给列中所有单元

In [None]:
frame2['debt'] = 16.5 #默认为是对列进赋值
frame2

  - 用list或数组赋值，列的长度必须和DataFrame长度匹配

In [None]:
a=np.arange(5.)
print(a,end='\n\n')
frame2['debt'] = a
frame2

  - 如果赋值的是一个Series，就会精确匹配索引，空的地方用缺失值补上。

In [None]:
val = Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])#精确匹配索引
frame2['debt'] = val
frame2

  - 为不存在的列赋值　
  

In [None]:
frame2['eastern'] = (frame2.state == 'Ohio')
frame2

In [None]:
# 特定位置插入已知的列
random_col = np.random.randint(100, size=len(frame2))
frame2.insert(3, 'random_col', random_col)#在第三列（实际上是第四列）前面
frame2

-  关键字 del用于删除列。

In [None]:
del frame2['eastern']
frame2.columns
frame2

???

+ 将嵌套的字典传给DataFrame时，外层字典的键为列，内层为行索引。

In [None]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

In [None]:
frame3 = DataFrame(pop)
frame3

+ 行和列都有关键字索引，也可以进行转置

In [None]:
frame3.T

Frame 的值 是ndarray

In [None]:
frame3.values

In [None]:
frame2.values

+ 也可以直接用二维ndarray生成DataFrame

In [None]:
frame4=DataFrame(np.array([[0, 1.5],
       [ 2.4,  1.7],
       [ 2.9,  3.6]]),index=['2001','2002','2003'],columns=['Nevada','Ohio'])
frame4

+ 最常用的方法是从文件中读入
+ 最常用的函数包括pd.read_csv,pd.read_excel等

In [None]:
##请修改为自己的目录

datapath="C:\\Users\\16017\\Desktop\\Dropbox\\Guide_to_financial_data_analysis\\金融数据分析导引\\data\\" #文件夹的路径
stockinfo=pd.read_excel(datapath+"A股基本资料.xlsx") #stockinfo 股票信息，使用pd.read_excel 来读取文件

In [None]:
x=stockinfo['主营产品名称']
a=x[1]#取出它的第二行
a

In [None]:
x=stockinfo['主营产品名称']
a=x[1]
b=stockinfo['主营产品类型']
b[2]

+ columns是DataFrame最常用的函数之一，用来显示数据的列名

In [None]:
stockinfo.columns #显示数据的类别名称

In [None]:
# 看看多少行
len(stockinfo)

In [None]:
stockinfo.tail(1) #return the last n rows

+ 了解 各列的数据类型

In [None]:
stockinfo.dtypes #查询数据类型

+ 目前国内共三个商品期货交易所、一个金融期货交易所，四个交易所的品种分别为：

  + 中国金融交易所：沪深300股指期货（沪深两家证券交易所精选300只股票，加权计算得出的指数，反映A股市场整体走势的指数）
   
  + 上海期货交易所：铜、铝、橡胶、燃料油、锌、黄金、螺纹钢、线材、铅

  + 大连商品交易所：大豆、豆粕、豆油、玉米、塑料（聚乙烯）、棕榈油、PVC（聚氯乙烯）、焦炭

  + 郑州商品交易所：小麦、棉花、白糖、PTA（精对苯二甲酸）、菜籽油、早籼稻


 + 商品现货交易所，渤海商品交易所，
     上市品种，原油、焦炭、动力煤、螺纹钢、热卷板、PTA、白糖、聚酯切片、电解镍。

In [None]:
finfutureinfo=pd.read_excel(datapath+"中金所品种.xlsx") 

In [None]:
finfutureinfo.loc[10] #读取第20行

In [None]:
commodityinfo=pd.read_excel(datapath+"大连商品品种.xlsx") 

In [None]:
commodityinfo.loc[1]

In [None]:
commodityinfo.tail(2)

## 基本功能

我们介绍操作Series和DataFrame中数据的基本手段。

### 舍弃某些数据

+ 可以通过drop方法删指定索引上的值，即删掉一行。


In [None]:
obj = Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj.drop(['d', 'c']) #删掉行

+ 选项 axis=1，则删列. 

In [None]:
data = DataFrame(np.arange(16).reshape((4, 4)),
                 index=['Ohio', 'Colorado', 'Utah', 'New York'],
                 columns=['one', 'two', 'three', 'four'])

In [None]:
data.drop(['two', 'four'], axis=1)#这个时候就是列了

In [None]:
data

+ 请大家删掉上面wind数据中空白行、以及"wind 数据来源”行

commodityinfo.shape

commodityinfo.drop()


### 索引、选取和过滤 （  Indexing, selection, and filtering）

+ Series可以通过索引，整数，布尔型进行选择。
+ DataFrame的索引能获得一或多列。


+ 回顾一下Series

In [None]:
#用一个或多个关键字索引
obj = Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
print(obj['b']) # index
obj[['b', 'a', 'd']]

In [None]:
#通过一个整数或整数list索引
print(obj,end='\n\n')
print(obj[1])
obj[[1,3]]

In [None]:
#用逻辑值索引
obj[obj < 2]

+ 对DataFrame的索引

In [None]:
data = DataFrame(np.arange(16).reshape((4, 4)),
                 index=['Ohio', 'Colorado', 'Utah', 'New York'],
                 columns=['one', 'two', 'three', 'four'])
data

+ 对列索引，[[]]

In [None]:
print(data)
data[['three', 'one']]

In [None]:
# 选取特定类型的数据

infosel=stockinfo.select_dtypes(include="float64")
infosel.dtypes

+ 对行索引

In [None]:
print(data)
data[:2] # 切片，行


In [None]:
#利用逻辑值索引行

print(data)
data[(data['three'] > 5) &  (data['four']>7)]

+ 利用逻辑值索引

In [None]:
data < 5

In [None]:
data[data < 5]

In [None]:
data[data < 5] = 0
data

+ 使用.iloc,.loc索引，指定行

In [None]:
#只指定一个整数，索引一行
data.iloc[2]#指定行，使用位置来引用

+ .iloc,.loc同时指定行列

In [None]:
#ix老版本可以用的已经不能用给，loc的用法也有变化

data2=data.loc[['Colorado', 'Utah'],['three', 'one']]
 
data3=data.loc[data.three > 5,data.columns[:3]]
data4=data.iloc[[0,1],:3]
side_by_side(data,data2,data3,data4)

+ 用query能实现更自由的数据选择


In [None]:
data.query("one+two>20")



In [None]:
#where的用法不一样，不满足条件的都用0替换
data.where(data["one"]+data["two"]>20,0)

+ 或者抽样

In [None]:
# n样本数,frac比例
data.sample(n = 2)

### 算术运算和数据对齐

+ 在进行计算时会将索引对齐，是pandas最重要的功能。
+ 将两个不同索引的对象相加时，结果的索引为两对象索引的并，相同索引的值相加，不同索引处为缺失值。
+ DataFrame， 同时在行和列上对齐。

In [235]:
s1 = Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [268]:
df1 = DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),
                index=['Ohio', 'Texas', 'Colorado'])
df2 = DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
                index=['Utah', 'Ohio', 'Texas', 'Oregon'])
df1
df2
df1+df2
side_by_side(df1,df2,df1 + df2)

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


#### 处理运算中的缺失值

可以通过 fill_value在NaN的地方填充一个值， 算术方法分别为 add，sub，div，mul

In [269]:
df1 = DataFrame(np.arange(12.).reshape((3, 4)), columns=list('abcd'))
df2 = DataFrame(np.arange(20.).reshape((4, 5)), columns=list('abcde'))
#dfadd=df1+df2
dfaddfill0=df1.add(df2, fill_value=0)
side_by_side(df1,df2,dfaddfill0)

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,11.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


### DataFrame 和 Series 之间的运算 

+ 当一个向量减去一个标量时，向量中的每个值都会减去该值。


In [244]:
arr = np.arange(12.).reshape((3, 4))
print(np.arange(12.))
print(arr)
arr - arr[0]
arr

[ 0.  1.  2.  3.  4.  5.  6.  7.  8.  9. 10. 11.]
[[ 0.  1.  2.  3.]
 [ 4.  5.  6.  7.]
 [ 8.  9. 10. 11.]]


array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [246]:
arr - arr[0]#减去行

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

+ 减去一个Sereis，其每行都要做相同的操作


In [None]:
frame = DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
                  index=['Utah', 'Ohio', 'Texas', 'Oregon'])
series = frame.iloc[0]
fsubr=frame - series
side_by_side(frame,fsubr)

+ Pandas和一般数组不同的是，它还要进行列索引的匹配。
+ 如果有不匹配的，还要生成新的列，并用缺失值NaN代替。这种操作被称为广播。

In [None]:
series2 = Series(range(3), index=['b', 'e', 'f'])
frame + series2

+ 一般的广播都是按行进行，如果希望在列上进行，则要进行设定， axis=0，此处传入的是进行匹配的轴。

In [None]:
series3 = frame['d']
fsubc=frame.sub(series3, axis=0)#默认值是行，要设置之后才是列

side_by_side(frame,fsubc)

### 函数应用和映射 

NumPy的函数也可以操作到pandas对象

In [248]:
frame = DataFrame(np.random.randn(4, 3), columns=list('bde'),
                  index=['Utah', 'Ohio', 'Texas', 'Oregon'])
fabs=np.abs(frame)
#side_by_side(frame,fabs) 
print(frame,fabs)

               b         d         e
Utah    0.274992  0.228913  1.352917
Ohio    0.886429 -2.001637 -0.371843
Texas   1.669025 -0.438570 -0.539741
Oregon  0.476985  3.248944 -1.021228                b         d         e
Utah    0.274992  0.228913  1.352917
Ohio    0.886429  2.001637  0.371843
Texas   1.669025  0.438570  0.539741
Oregon  0.476985  3.248944  1.021228


+ 将函数应用到各列或者各行计算得到一个一维数组，可以用apply方法，这样方法也是R中的重要方法。

In [251]:
frame

Unnamed: 0,b,d,e
Utah,0.274992,0.228913,1.352917
Ohio,0.886429,-2.001637,-0.371843
Texas,1.669025,-0.43857,-0.539741
Oregon,0.476985,3.248944,-1.021228


In [253]:
f = lambda x: x.max() - x.min() #最大值减去最小值

frame.apply(f, axis=0) #f作用到所有值上面

b    1.394034
d    5.250581
e    2.374144
dtype: float64

In [254]:
#　将函数应用到列
frame.apply(f, axis=1) #加上行(axis=1)的参数指定

Utah      1.124004
Ohio      2.888067
Texas     2.208767
Oregon    4.270171
dtype: float64

+ 若函数只有一个返回值，apply之后得到一个Series。
+ 若有多个返回值，则得到DateFrame

In [255]:
def f(x):
    return Series([x.min(), x.max()], index=['min', 'max'])
frame.apply(f)

Unnamed: 0,b,d,e
min,0.274992,-2.001637,-1.021228
max,1.669025,3.248944,1.352917


+ 元素级（即每个数值）的Python函数在DataFrame也可以用，使用applymap即可
+ 如下的例子实现每个元素的输出特定的格式

In [258]:
 
format = lambda x: '%.2f'%x
frame.applymap(format) #apply 和 applymap 的差别？？？
#applymap 作用的是每一个数据格

Unnamed: 0,b,d,e
Utah,0.27,0.23,1.35
Ohio,0.89,-2.0,-0.37
Texas,1.67,-0.44,-0.54
Oregon,0.48,3.25,-1.02


+ 对Sereis，相应的方法为map

In [257]:
frame['e'].map(format)

Utah       1.35
Ohio      -0.37
Texas     -0.54
Oregon    -1.02
Name: e, dtype: object

练习：

+ 如何识别空行和空列?
+ 如何统计每列变量的统计特征?

###  序 

+ 按照索引关键字进行排序，使用sort_index方法，
+ 对DataFrame，默认对行排，如果对列索引排，需要指明 axis=1, 
+ 选项 ascending =False 表示降序。
+ 如果需要对Series的值排序，sort_values。缺失值会放到末尾。
+ 对DataFrame的值进行排序，传递给选项by列名称即可。

In [259]:
#按照索引关键字进行排序，使用sort_index方法，
obj = Series(range(4), index=['d', 'a', 'b', 'c'])
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [260]:
#对DataFrame，默认对行排
frame = DataFrame(np.arange(8).reshape((2, 4)), index=['three', 'one'],
                  columns=['d', 'a', 'b', 'c'])
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [261]:
#，如果对列索引排，需要指明 axis=1,
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [262]:
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


In [263]:
#如果需要对Series的值排序，则用order方法。缺失值会放到末尾。
obj = Series([4, 7, -3, 2])
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

In [264]:
obj = Series([4, np.nan, 7, np.nan, -3, 2])
obj.sort_values()


4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

In [265]:
# 对DataFrame的值进行排序，传递给选项by列名称即可。

frame = DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
sortbyb=frame.sort_values(by='b')
sortbyab=frame.sort_values(by=['a', 'b'])
side_by_side(frame,sortbyb,sortbyab) 

NameError: name 'side_by_side' is not defined

+ rank方法给出Series各元素的序号
+ 对DataFrame，可以逐行或列给出序号

In [None]:
obj = Series([7, -5, 7, 4, 2, 0, 4])
obj.rank()

In [None]:
obj.rank(ascending=False, method='max')

In [None]:
frame = DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1],
                   'c': [-2, 5, 8, -2.5]})
side_by_side(frame,frame.rank())

In [None]:
frame.rank(axis=1)

### 有重复的索引 

 索引值可以是不唯一的

In [None]:
obj = Series(range(5), index=['a', 'a', 'b', 'b', 'c'])
obj

In [None]:
obj['a']

In [None]:
df = DataFrame(np.random.randn(4, 3), index=['a', 'a', 'b', 'b'])
df

In [None]:
df.loc['b']

## 汇总和描述性统计量的计算  

下面介绍一些汇总和描述性统计量的计算。

包括，count,value_counts, describe, min,max, argmin, argmax, idxmin, idxmax, quantile, sum,mean, median, mad,var,std, skew,kurt,cumsum, cummin, cummax, cumprod,  diff, pct_change，crosstab，cut(数据分到不同的bin)，nlargest, nsmallest

In [None]:
df = DataFrame([[1.4, np.nan], [7.1, -4.5],
                [np.nan, np.nan], [0.75, -1.3]],
               index=['a', 'b', 'c', 'd'],
               columns=['one', 'two'])


In [None]:
df.sum()

In [None]:
df.sum(axis=1)
#缺失值处理方法?

In [None]:
df.sum(axis=1, skipna=False)

In [None]:
df['three']=1
df

In [None]:
df.idxmax()
# first occurrence

In [None]:
res1=df.cumsum(axis=1)
side_by_side(df,res1)

In [None]:
obj = Series(['a', 'b', 'b', 'b'] * 4)
obj.describe()

###  唯一集合，频数等

In [None]:
obj = Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

In [None]:
uniques = obj.unique()
uniques

In [None]:
#计算频数
obj.value_counts()

In [None]:
# 判断包含关系
mask = obj.isin(['b', 'c'])
mask

In [None]:
#利用布尔索引，取出相应数据
obj[mask]

In [None]:
data = DataFrame({'Qu1': [1, 3, 4, 3, 4],
                  'Qu2': [2, 3, 1, 2, 3],
                  'Qu3': [1, 5, 2, 4,5]})
# 计算各个数出现的频数,按列
result = data.apply(pd.value_counts,axis=1)
side_by_side(data,result)

## 处理缺失值

In [None]:
string_data = Series(['aardvark', 'artichoke', np.nan, 'avocado'])
string_data

In [None]:
string_data.isnull()

###  数据选择，滤掉一些缺失值

+ 函数 data.dropna()，data.notnull()


In [None]:
from numpy import nan as NA
data = Series([1, NA, 3.5, NA, 7])
data.dropna()

In [None]:
data[data.notnull()]

In [None]:
# DataFrame
data = DataFrame([[1., 6.5, 3.], [1., NA, NA],
                  [NA, NA, NA], [NA, 6.5, 3.]])

data

In [None]:
cleaned = data.dropna()
cleaned

In [None]:
data.dropna?

In [None]:
# 其它参数选项
res1=data.dropna(axis=0,how='all')
side_by_side(data,res1)

### 填补缺失值

In [None]:
df.fillna(0)

+ 传入字典实现 不同列填补不同数据

In [None]:
res2=df.fillna({"one": 0.5, "two": -1},axis=0)
side_by_side(df,res2)

## 分层索引

In [None]:
data = Series(np.random.randn(10),
              index=[['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'd', 'd'],
                     [1, 2, 3, 1, 2, 3, 1, 2, 2, 3]])
data

In [None]:
data.index

In [None]:
data['b']

In [None]:
data['b':'c']

In [None]:
data.loc[['b', 'd']]

内层引用

In [None]:
data[:, 2]

###  使用 DataFrame的列作为索引使用

In [None]:
frame = DataFrame({'a': range(7), 'b': range(7, 0, -1),
                   'c': ['one', 'one', 'one', 'two', 'two', 'two', 'two'],
                   'd': [0, 1, 2, 0, 1, 2, 3],
                "e":["四川"]*5+["北京"]*2})
frame

In [None]:
frame2 = frame.set_index(['c', 'd'])
frame2

In [None]:
frame.set_index(['c', 'd'], drop=False)

frame2.reset_index()

## 数据合并

可以根据关键字进行合并，非常灵活。

In [None]:
df1 = DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                 'data1': range(7)})
df2 = DataFrame({'key': ['a', 'b', 'b'],
                 'data2': range(3)})
side_by_side(df1,df2)

In [None]:
pd.merge(df1, df2) # 共同的关键字，inner