# Pandas入门及实践

Pandas 是基于 NumPy 的一个开源 Python 库，它被广泛用于快速分析数据，以及数据清洗和准备等工作。它的名字来源是由“ Panel data”（面板数据，一个计量经济学名词）两个单词拼成的。简单地说，你可以把 Pandas 看作是 Python 版的 Excel。

<img src='./image/pandas.png' />

Pandas非常酷，它能很好地处理来自一大堆各种不同来源的数据，比如 Excel 表格、CSV 文件、SQL 数据库，甚至还能处理存储在网页上的数据。

此外，因为pandas基于Numpy，所以执行效率非常快。比如把几十个结构一致的csv文件合并为200M左右的单个文件（主要数据都是字符串文本），然后在此基础上做各个数据点的分组统计与分析，执行速度是秒级别的。

## 1. 安装

如果安装anaconda，安装命令为：```conda install pandas```

如果没有安装anaconda，安装命令为：```pip install pandas```

## 2. Pandas数据结构

Series 是一种<b>一维数组</b>，和 NumPy 里的数组很相似。事实上，Series 基本上就是基于 NumPy 的数组对象来的。和 NumPy 的数组不同，Series 能为数据自定义标签，也就是索引（index），然后通过索引来访问数组中的数据。

下面我们来实战部分，在python的世界里，numpy惯例缩写为np，pandas惯例缩写为pd

In [2]:
import numpy as np
import pandas as pd

### 2.1 Series

创建一个Series的基本语法如下：

```series = pd.Series(data, index)```

上面的 data 参数可以是任意数据对象，比如字典、列表甚至是 NumPy 数组，而index 参数则是对 data 的索引值，类似字典的 key。

下面这个例子里，将创建一个 Series 对象，并用字符串对数字列表进行索引：

In [4]:
countries = ['USA', 'France', 'China']
my_data = [100, 100, 300]

In [5]:
pd.Series(my_data, countries)

USA       100
France    100
China     300
dtype: int64

注意：请记住， index 参数是可省略的，你可以选择不输入这个参数。如果不带 index 参数，Pandas 会自动用默认 index 进行索引，类似数组，索引值是 [0, ..., len(data) - 1] ，如下所示：

基于numpy的array创建Series

In [6]:
array = np.array(my_data)

In [7]:
pd.Series(array)

0    100
1    100
2    300
dtype: int32

基于字典对象创建Series <br>
如果从一个python字典对象创建Series，Pandas会自动把字典的键值设置成Series的index，并将对应的value放在和索引对应的data里。

In [8]:
my_dict = {'a': 50, 'b': 60, 'c' : 70, 'd' : 80}

In [9]:
pd.Series(my_dict)

a    50
b    60
c    70
d    80
dtype: int64

In [10]:
my_dict_list = [{'a': 50, 'b': 60, 'c' : 70, 'd' : 80}, {'a': 80, 'b': 80, 'c' : 70, 'd' : 80}]
df = pd.DataFrame(my_dict_list)

In [11]:
df

Unnamed: 0,a,b,c,d
0,50,60,70,80
1,80,80,70,80


与Numpy数组不同，Pandas的Series能存放各种不同类型的对象。

从Series里获取数据，和python字典基本一样：

In [12]:
countries = ['USA', 'France', 'China']
my_data = [100, 200, 300]
series = pd.Series(my_data, countries)
series['USA']

100

对Series进行算术运算操作

对 Series 的算术运算都是基于 index 进行的。我们可以用加减乘除（+ - * /）这样的运算符对两个 Series 进行运算，Pandas 将会根据索引 index，对响应的数据进行计算，结果将会以浮点数的形式存储，以避免丢失精度。

In [13]:
series1 = pd.Series([1, 2, 3, 4], ['London', 'HongKong', 'Shanghai', 'Shenzhen'])
series2 = pd.Series([0, 6, 7, 8], ['London', 'Shenzhen', 'NewYork', 'Delhi'])

In [14]:
series1 - series2

Delhi       NaN
HongKong    NaN
London      1.0
NewYork     NaN
Shanghai    NaN
Shenzhen   -2.0
dtype: float64

In [15]:
series1 + series2

Delhi        NaN
HongKong     NaN
London       1.0
NewYork      NaN
Shanghai     NaN
Shenzhen    10.0
dtype: float64

In [16]:
series1 * series2

Delhi        NaN
HongKong     NaN
London       0.0
NewYork      NaN
Shanghai     NaN
Shenzhen    24.0
dtype: float64

In [17]:
series1 / series2

Delhi            NaN
HongKong         NaN
London           inf
NewYork          NaN
Shanghai         NaN
Shenzhen    0.666667
dtype: float64

如上，如果 Pandas 在两个 Series 里找不到相同的 index，对应的位置就返回一个空值 NaN。

### 2.2 DataFrames

Pandas 的 DataFrame（数据表）是一种 2 维数据结构，数据以表格的形式存储，分成若干行和列。通过 DataFrame，你能很方便地处理数据。常见的操作比如选取、替换行或列的数据，还能重组数据表、修改索引、多重筛选等。

构建一个 DataFrame 对象的基本语法如下：```DataFrame(data=[],index=[],coloumns=[])```

举个例子，我们可以创建一个 5 行 4 列的 DataFrame，并填上随机数据：

In [19]:
np.random.seed(100)
dataframe = pd.DataFrame(data=np.random.randint(low=1, high=10, size=(5, 4)))
print(dataframe)

   0  1  2  3
0  9  9  4  8
1  8  1  5  3
2  6  3  3  3
3  2  1  9  5
4  1  7  3  5


该dataframe中的每一列基本上就是一个 Series ，它们都用了同一组 index。因此，我们基本上可以把 DataFrame 理解成一组采用同样索引的 Series 的集合。

下面这个例子里，我们将用许多 Series 来构建一个DataFrame：

In [20]:
df = {'name': pd.Series(['Jon', 'Aaron', 'Tod'], index=['a', 'b', 'c']),
     'age': pd.Series(['39', '28', '17', '25'], index=['a', 'b', 'c', 'd']),
     'nationality': pd.Series(['US', 'China', 'US'], ['a', 'b', 'c'])}
pd.DataFrame(df)

Unnamed: 0,name,age,nationality
a,Jon,39,US
b,Aaron,28,China
c,Tod,17,US
d,,25,


下面的例子是用一个字典来创建DataFrame: (需要注意的是，索引与字典中各个key对应的value的数量必须相等)

In [21]:
data = {'name': ['Jon', 'Aaron', 'Tod'],
     'age': ['39', '28', '17'],
     'nationality': ['US', 'China', 'US']}
my_df = pd.DataFrame(data, 
                     index=['Lagos', 'Dubai', 'Mumbai'])
my_df

Unnamed: 0,name,age,nationality
Lagos,Jon,39,US
Dubai,Aaron,28,China
Mumbai,Tod,17,US


In [22]:
my_data = [{'name': 'a', 'age': 3}, {'name': 'b', 'age': 18}]

In [23]:
temp_df = pd.DataFrame(my_data)

In [24]:
temp_df

Unnamed: 0,name,age
0,a,3
1,b,18


#### 获取DataFrame中的列

要获取一列的数据，还是用中括号 [] 的方式，跟 Series 类似。比如尝试获取上面这个表中的 name 列数据：

In [25]:
my_df['name']

Lagos       Jon
Dubai     Aaron
Mumbai      Tod
Name: name, dtype: object

因为我们只获取一列，所以返回的就是一个 Series。可以用 type() 函数确认返回值的类型：

In [26]:
type(my_df['name'])

pandas.core.series.Series

如果获取多个列，那返回的就是一个 DataFrame 类型：

In [27]:
my_df[['name', 'age']]

Unnamed: 0,name,age
Lagos,Jon,39
Dubai,Aaron,28
Mumbai,Tod,17


In [29]:
type(my_df[['name', 'age']])

pandas.core.frame.DataFrame

#### 向 DataFrame 里增加数据列

创建一个列的时候，你需要先定义这个列的数据和索引。举个栗子，比如这个 DataFrame：

In [30]:
my_df

Unnamed: 0,name,age,nationality
Lagos,Jon,39,US
Dubai,Aaron,28,China
Mumbai,Tod,17,US


增加数据列有两种办法：可以从头开始定义一个 pd.Series，再把它放到表中，也可以利用现有的列来产生需要的新列。比如下面两种操作：

定义一个 Series ，并放入 'year' 列中：

In [31]:
my_df['year'] = pd.Series(['2016', '2017', '2018'], 
                          ['Lagos', 'Dubai', 'Mumbai'])
my_df

Unnamed: 0,name,age,nationality,year
Lagos,Jon,39,US,2016
Dubai,Aaron,28,China,2017
Mumbai,Tod,17,US,2018


#### 从现有的列创建新列：

In [32]:
my_df['age_year'] = my_df['age'] + '_' + my_df['year']
my_df

Unnamed: 0,name,age,nationality,year,age_year
Lagos,Jon,39,US,2016,39_2016
Dubai,Aaron,28,China,2017,28_2017
Mumbai,Tod,17,US,2018,17_2018


#### 从 DataFrame 里删除行/列

想要删除某一行或一列，可以用 .drop() 函数。在使用这个函数的时候，你需要先指定具体的删除方向，axis=0 对应的是行 row，而 axis=1 对应的是列 column 。

删除 'age_year' 列：

In [34]:
my_df.drop('age_year', axis=1)

Unnamed: 0,name,age,nationality,year
Lagos,Jon,39,US,2016
Dubai,Aaron,28,China,2017
Mumbai,Tod,17,US,2018


In [35]:
my_df

Unnamed: 0,name,age,nationality,year,age_year
Lagos,Jon,39,US,2016,39_2016
Dubai,Aaron,28,China,2017,28_2017
Mumbai,Tod,17,US,2018,17_2018


删除'Dubai'行：

In [36]:
my_df.drop('Dubai', axis=0)

Unnamed: 0,name,age,nationality,year,age_year
Lagos,Jon,39,US,2016,39_2016
Mumbai,Tod,17,US,2018,17_2018


In [37]:
my_df.drop(index='Lagos')

Unnamed: 0,name,age,nationality,year,age_year
Dubai,Aaron,28,China,2017,28_2017
Mumbai,Tod,17,US,2018,17_2018


请务必记住，除非用户明确指定，否则在调用 .drop() 的时候，Pandas 并不会真的永久性地删除这行/列。这主要是为了防止用户误操作丢失数据。

你可以通过调用 df 来确认数据的完整性。如果你确定要永久性删除某一行/列，现在my_df数据并没有发生变化：

In [38]:
my_df

Unnamed: 0,name,age,nationality,year,age_year
Lagos,Jon,39,US,2016,39_2016
Dubai,Aaron,28,China,2017,28_2017
Mumbai,Tod,17,US,2018,17_2018


你需要加上 inplace=True 参数，比如：

In [39]:
my_df.drop('Dubai', axis=0, inplace=True)
my_df

Unnamed: 0,name,age,nationality,year,age_year
Lagos,Jon,39,US,2016,39_2016
Mumbai,Tod,17,US,2018,17_2018


#### 获取 DataFrame 中的一行或多行数据

要获取某一行，你需要用 .loc[] 来按索引（标签名）引用这一行，或者用 .iloc[]，按这行在表中的位置（行数）来引用。

In [40]:
my_df.loc['Lagos']

name               Jon
age                 39
nationality         US
year              2016
age_year       39_2016
Name: Lagos, dtype: object

In [41]:
my_df.loc[['Lagos', 'Mumbai']]

Unnamed: 0,name,age,nationality,year,age_year
Lagos,Jon,39,US,2016,39_2016
Mumbai,Tod,17,US,2018,17_2018


In [42]:
my_df.iloc[0]

name               Jon
age                 39
nationality         US
year              2016
age_year       39_2016
Name: Lagos, dtype: object

In [44]:
my_df.iloc[[0, 1]]

Unnamed: 0,name,age,nationality,year,age_year
Lagos,Jon,39,US,2016,39_2016
Mumbai,Tod,17,US,2018,17_2018


同时你可以用 .loc[] 来指定具体的行列范围，并生成一个子数据表，就像在 NumPy里做的一样。比如，提取 'Lagos' 行中 'Name’ 列的内容，可以如下操作：

In [47]:
my_df.loc['Lagos', 'name']

'Jon'

In [48]:
type(my_df.loc['Lagos', 'name'])

str

In [49]:
my_df.loc['Lagos', 'name'] = 'Amanda'

In [50]:
my_df.loc['Lagos', 'name']

'Amanda'

此外，你还可以制定多行和/或多列, 此时得到的是DataFrame

In [51]:
my_df.loc[['Lagos', 'Mumbai'], ['name', 'age']]

Unnamed: 0,name,age
Lagos,Amanda,39
Mumbai,Tod,17


In [52]:
type(my_df.loc[['Lagos', 'Mumbai'], ['name', 'age']])

pandas.core.frame.DataFrame

#### 条件筛选

用中括号 [] 的方式，除了直接指定选中某些列外，还能接收一个条件语句，然后筛选出符合条件的行/列。比如，我们希望在下面这个表格中筛选出 'W'>0 的行：

In [54]:
np.random.seed(100)
df = pd.DataFrame(data=np.random.randn(5, 4), 
                  index=['a', 'b', 'c', 'd', 'e'], 
                  columns=['W', 'X', 'Y', 'Z'])
df

Unnamed: 0,W,X,Y,Z
a,-1.749765,0.34268,1.153036,-0.252436
b,0.981321,0.514219,0.22118,-1.070043
c,-0.189496,0.255001,-0.458027,0.435163
d,-0.583595,0.816847,0.672721,-0.104411
e,-0.53128,1.029733,-0.438136,-1.118318


In [55]:
df[df['X'] > 0.5]

Unnamed: 0,W,X,Y,Z
b,0.981321,0.514219,0.22118,-1.070043
d,-0.583595,0.816847,0.672721,-0.104411
e,-0.53128,1.029733,-0.438136,-1.118318


In [56]:
df[df.X > 0.5]

Unnamed: 0,W,X,Y,Z
b,0.981321,0.514219,0.22118,-1.070043
d,-0.583595,0.816847,0.672721,-0.104411
e,-0.53128,1.029733,-0.438136,-1.118318


只看W列中，X > 0.5的数据：

In [57]:
df[df['X'] > 0.5]['W']

b    0.981321
d   -0.583595
e   -0.531280
Name: W, dtype: float64

类似的，你还可以试试这样的语句 ```df[df['X']>0.5][['X','Y']]``` ，结果将会是这样：

In [58]:
df[df['X']>0.5][['X','Y']]

Unnamed: 0,X,Y
b,0.514219,0.22118
d,0.816847,0.672721
e,1.029733,-0.438136


相当于将下面操作连在一起

In [60]:
myseries = df['X'] > 0.5
result = df[myseries]
mycols = ['X', 'Y']
result[mycols]

Unnamed: 0,X,Y
b,0.514219,0.22118
d,0.816847,0.672721
e,1.029733,-0.438136


你可以用逻辑运算符 &（与）和 |（或）来链接多个条件语句，以便一次应用多个筛选条件到当前的 DataFrame 上。举个栗子，你可以用下面的方法筛选出同时满足 'W'>0 和'X'>1 的行：

In [62]:
df[~((df['W'] > 0) | (df['X'] > 0.5))]

Unnamed: 0,W,X,Y,Z
a,-1.749765,0.34268,1.153036,-0.252436
c,-0.189496,0.255001,-0.458027,0.435163


In [61]:
df[(df['W'] > 0) | (df['X'] > 0.5)]

Unnamed: 0,W,X,Y,Z
b,0.981321,0.514219,0.22118,-1.070043
d,-0.583595,0.816847,0.672721,-0.104411
e,-0.53128,1.029733,-0.438136,-1.118318


#### 重置 DataFrame 的索引

如果你觉得当前 DataFrame 的索引有问题，你可以用 .reset_index() 简单地把整个表的索引都重置掉。这个方法将把目标 DataFrame 的索引保存在一个叫 index 的列中，而把表格的索引变成默认的从零开始的数字，也就是 [0, ..., len(data) - 1] 。比如下面这样：

In [65]:
df.reset_index()

Unnamed: 0,index,W,X,Y,Z
0,a,-1.749765,0.34268,1.153036,-0.252436
1,b,0.981321,0.514219,0.22118,-1.070043
2,c,-0.189496,0.255001,-0.458027,0.435163
3,d,-0.583595,0.816847,0.672721,-0.104411
4,e,-0.53128,1.029733,-0.438136,-1.118318


In [66]:
df.reset_index(drop=True)

Unnamed: 0,W,X,Y,Z
0,-1.749765,0.34268,1.153036,-0.252436
1,0.981321,0.514219,0.22118,-1.070043
2,-0.189496,0.255001,-0.458027,0.435163
3,-0.583595,0.816847,0.672721,-0.104411
4,-0.53128,1.029733,-0.438136,-1.118318


和删除操作差不多，.reset_index() 并不会永久改变你表格的索引，除非你调用的时候明确传入了 inplace 参数，比如：.reset_index(inplace=True)

In [67]:
df

Unnamed: 0,W,X,Y,Z
a,-1.749765,0.34268,1.153036,-0.252436
b,0.981321,0.514219,0.22118,-1.070043
c,-0.189496,0.255001,-0.458027,0.435163
d,-0.583595,0.816847,0.672721,-0.104411
e,-0.53128,1.029733,-0.438136,-1.118318


In [68]:
df.reset_index(inplace=True)

In [69]:
df

Unnamed: 0,index,W,X,Y,Z
0,a,-1.749765,0.34268,1.153036,-0.252436
1,b,0.981321,0.514219,0.22118,-1.070043
2,c,-0.189496,0.255001,-0.458027,0.435163
3,d,-0.583595,0.816847,0.672721,-0.104411
4,e,-0.53128,1.029733,-0.438136,-1.118318


注意：原有的索引会作为一个备份列，列名为index, 出现在DataFrame中

In [70]:
df.columns

Index(['index', 'W', 'X', 'Y', 'Z'], dtype='object')

#### 设置 DataFrame 的索引值

类似地，我们还可以用 .set_index() 方法，将 DataFrame 里的某一列作为索引来用。比如，我们在这个表里新建一个名为 "ID" 的列：

In [71]:
# table的列名
columns = list(df)

In [72]:
columns

['index', 'W', 'X', 'Y', 'Z']

In [73]:
# table的行数量
len(df)
for i in range(len(df)):
    print(df.loc[i, columns[1]])

-1.7497654730546974
0.9813207869512316
-0.18949583082317534
-0.5835950503226648
-0.5312803768519098


In [74]:
df['ID'] = ['{0}{1}'.format('myid',i) for i in range(len(df))]
df

Unnamed: 0,index,W,X,Y,Z,ID
0,a,-1.749765,0.34268,1.153036,-0.252436,myid0
1,b,0.981321,0.514219,0.22118,-1.070043,myid1
2,c,-0.189496,0.255001,-0.458027,0.435163,myid2
3,d,-0.583595,0.816847,0.672721,-0.104411,myid3
4,e,-0.53128,1.029733,-0.438136,-1.118318,myid4


In [75]:
df.set_index('ID')

Unnamed: 0_level_0,index,W,X,Y,Z
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
myid0,a,-1.749765,0.34268,1.153036,-0.252436
myid1,b,0.981321,0.514219,0.22118,-1.070043
myid2,c,-0.189496,0.255001,-0.458027,0.435163
myid3,d,-0.583595,0.816847,0.672721,-0.104411
myid4,e,-0.53128,1.029733,-0.438136,-1.118318


同样的，这种做法也不会直接修改df的索引，依然需要设置inplace

In [76]:
df

Unnamed: 0,index,W,X,Y,Z,ID
0,a,-1.749765,0.34268,1.153036,-0.252436,myid0
1,b,0.981321,0.514219,0.22118,-1.070043,myid1
2,c,-0.189496,0.255001,-0.458027,0.435163,myid2
3,d,-0.583595,0.816847,0.672721,-0.104411,myid3
4,e,-0.53128,1.029733,-0.438136,-1.118318,myid4


In [77]:
df.set_index('ID', inplace=True)

In [78]:
df

Unnamed: 0_level_0,index,W,X,Y,Z
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
myid0,a,-1.749765,0.34268,1.153036,-0.252436
myid1,b,0.981321,0.514219,0.22118,-1.070043
myid2,c,-0.189496,0.255001,-0.458027,0.435163
myid3,d,-0.583595,0.816847,0.672721,-0.104411
myid4,e,-0.53128,1.029733,-0.438136,-1.118318


In [79]:
for i in range(len(df)):
    print(df.loc['myid{0}'.format(i), columns[1]])

-1.7497654730546974
0.9813207869512316
-0.18949583082317534
-0.5835950503226648
-0.5312803768519098


注意：set_index，不会保留原有索引的备份，会直接将原有索引替代为新的索引

多级索引（MultiIndex）以及命名索引的不同等级

多级索引其实就是一个由元组（Tuple）组成的数组，每一个元组都是独一无二的。你可以从一个包含许多数组的列表中创建多级索引（调用 MultiIndex.from_arrays ），也可以用一个包含许多元组的数组（调用 MultiIndex.from_tuples ）或者是用一对可迭代对象的集合（比如两个列表，互相两两配对）来构建（调用MultiIndex.from_product ）。

下面这个例子，我们从元组中创建多级索引：

In [80]:
outside = ['0 level', '0 level', '0 level', 'A level', 'A level', 'A level',]
inside = [21, 22, 23, 21, 22, 23]
myindex = list(zip(outside, inside))

In [81]:
myindex

[('0 level', 21),
 ('0 level', 22),
 ('0 level', 23),
 ('A level', 21),
 ('A level', 22),
 ('A level', 23)]

最后这个 list(zip()) 的嵌套函数，把上面两个列表合并成了一个每个元素都是元组的列表。这时 my_index 的内容如上所示。

接下来，我们调用 .MultiIndex.from_tuples(my_index) 生成一个多级索引对象：

In [82]:
myindex = pd.MultiIndex.from_tuples(myindex)
myindex

MultiIndex([('0 level', 21),
            ('0 level', 22),
            ('0 level', 23),
            ('A level', 21),
            ('A level', 22),
            ('A level', 23)],
           )

In [83]:
type(myindex)

pandas.core.indexes.multi.MultiIndex

最后，将这个多级索引对象转成一个 DataFrame：

In [84]:
np.random.seed(100)
df = pd.DataFrame(np.random.randn(6, 2), index=myindex, columns=['A', 'B'])
df

Unnamed: 0,Unnamed: 1,A,B
0 level,21,-1.749765,0.34268
0 level,22,1.153036,-0.252436
0 level,23,0.981321,0.514219
A level,21,0.22118,-1.070043
A level,22,-0.189496,0.255001
A level,23,-0.458027,0.435163


要获取多级索引中的数据，还是用到 .loc[] 。比如，先获取 '0 Level' 下的数据：

In [85]:
df.loc['0 level']

Unnamed: 0,A,B
21,-1.749765,0.34268
22,1.153036,-0.252436
23,0.981321,0.514219


然后再用一次 .loc[]，获取下一层 21 里的数据：

In [87]:
df.loc['0 level'].loc[21]

A   -1.749765
B    0.342680
Name: 21, dtype: float64

如上所示，df 这个 DataFrame 的头两个索引列没有名字，看起来不太易懂。我们可以用 .index.names 给它们加上名字：

In [88]:
df.index.names = ['level', 'num']

In [81]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
level,num,Unnamed: 2_level_1,Unnamed: 3_level_1
0 level,21,-1.749765,0.34268
0 level,22,1.153036,-0.252436
0 level,23,0.981321,0.514219
A level,21,0.22118,-1.070043
A level,22,-0.189496,0.255001
A level,23,-0.458027,0.435163


In [89]:
df.columns

Index(['A', 'B'], dtype='object')

交叉选择行和列中的数据

我们可以用 .xs() 方法轻松获取到多级索引中某些特定级别的数据。比如，我们需要找到所有 Levels 中，Num = 22 的行：

In [90]:
df.xs(22, level='num')

Unnamed: 0_level_0,A,B
level,Unnamed: 1_level_1,Unnamed: 2_level_1
0 level,1.153036,-0.252436
A level,-0.189496,0.255001


#### 清洗数据

##### 删除或填充空值

在许多情况下，如果你用 Pandas 来读取大量数据，往往会发现原始数据中会存在不完整的地方。在 DataFrame 中缺少数据的位置， Pandas 会自动填入一个空值，比如 NaN或 Null 。因此，我们可以选择用 .dropna() 来丢弃这些自动填充的值，或是用.fillna() 来自动给这些空值填充数据。

比如这个例子：

In [3]:
dt = {'A':[1, np.nan, 3, 4, np.nan, np.nan, 6, 7, 8, np.nan, np.nan],
      'B':[2, np.nan, 3, 4, 5, 17, 6, 7, 8, 20, np.nan], 
      'C':[4, 5, 3, 4, 5, 25, 6, 7, 8, np.nan, np.nan]}
df = pd.DataFrame(dt)
df

Unnamed: 0,A,B,C
0,1.0,2.0,4.0
1,,,5.0
2,3.0,3.0,3.0
3,4.0,4.0,4.0
4,,5.0,5.0
5,,17.0,25.0
6,6.0,6.0,6.0
7,7.0,7.0,7.0
8,8.0,8.0,8.0
9,,20.0,


当你使用 .dropna() 方法时，就是告诉 Pandas 删除掉存在一个或多个空值的行（或者列）。删除列用的是 .dropna(axis=1) ，删除行用的是 .dropna(axis=0) 。

请注意，如果你没有指定 axis 参数，默认是删除行。

##### 删除行：

In [5]:
df.dropna()

Unnamed: 0,A,B,C
0,1.0,2.0,4.0
2,3.0,3.0,3.0
3,4.0,4.0,4.0
6,6.0,6.0,6.0
7,7.0,7.0,7.0
8,8.0,8.0,8.0


In [6]:
df

Unnamed: 0,A,B,C
0,1.0,2.0,4.0
1,,,5.0
2,3.0,3.0,3.0
3,4.0,4.0,4.0
4,,5.0,5.0
5,,17.0,25.0
6,6.0,6.0,6.0
7,7.0,7.0,7.0
8,8.0,8.0,8.0
9,,20.0,


In [7]:
df.dropna(axis=0)

Unnamed: 0,A,B,C
0,1.0,2.0,4.0
2,3.0,3.0,3.0
3,4.0,4.0,4.0
6,6.0,6.0,6.0
7,7.0,7.0,7.0
8,8.0,8.0,8.0


注意：DataFrame的删除操作，并不会永久删除数据，依然需要加入inplace=True

In [87]:
df

Unnamed: 0,A,B,C
0,1.0,2.0,4.0
1,,,5.0
2,3.0,3.0,3.0
3,4.0,4.0,4.0
4,,5.0,5.0
5,,17.0,25.0
6,6.0,6.0,6.0
7,7.0,7.0,7.0
8,8.0,8.0,8.0
9,,20.0,


##### 删除列：

In [8]:
df.dropna(axis=1)

0
1
2
3
4
5
6
7
8
9
10


类似的，如果你使用 .fillna() 方法，Pandas 将对这个 DataFrame 里所有的空值位置填上你指定的默认值。比如，将表中所有 NaN 替换成 20 ：

In [9]:
df.fillna(20)

Unnamed: 0,A,B,C
0,1.0,2.0,4.0
1,20.0,20.0,5.0
2,3.0,3.0,3.0
3,4.0,4.0,4.0
4,20.0,5.0,5.0
5,20.0,17.0,25.0
6,6.0,6.0,6.0
7,7.0,7.0,7.0
8,8.0,8.0,8.0
9,20.0,20.0,20.0


当然，这有的时候打击范围太大了。于是我们可以选择只对某些特定的行或者列进行填充。比如只对 'B' 列进行操作，在空值处填入该列的平均值：

In [10]:
df

Unnamed: 0,A,B,C
0,1.0,2.0,4.0
1,,,5.0
2,3.0,3.0,3.0
3,4.0,4.0,4.0
4,,5.0,5.0
5,,17.0,25.0
6,6.0,6.0,6.0
7,7.0,7.0,7.0
8,8.0,8.0,8.0
9,,20.0,


首先这里是回复同学的问题，如果遇到空值，希望对空值按照其下方的值直接填充，如果没有才填默认值？<br>
下面的例子，是实现方法，如果后续行没有值了，则用0填充。<br>
但是这种做法，会真正修改A列的值。

In [11]:
a = df['A'].isnull()
nanlist = []
foundnan = False
for i, x in enumerate(a):
    if x:
        nanlist.append(i)
        foundnan = True
    elif foundnan:
        if len(nanlist) > 0:
            df['A'][nanlist] = df['A'][i]
        foundnan = False
        nanlist = []

if foundnan and len(nanlist) > 0:
    df['A'][nanlist] = 0
df

Unnamed: 0,A,B,C
0,1.0,2.0,4.0
1,3.0,,5.0
2,3.0,3.0,3.0
3,4.0,4.0,4.0
4,6.0,5.0,5.0
5,6.0,17.0,25.0
6,6.0,6.0,6.0
7,7.0,7.0,7.0
8,8.0,8.0,8.0
9,0.0,20.0,


In [12]:
df['B'].fillna(df['B'].mean())

0      2.0
1      8.0
2      3.0
3      4.0
4      5.0
5     17.0
6      6.0
7      7.0
8      8.0
9     20.0
10     8.0
Name: B, dtype: float64

如上所示，'B' 列的平均值是 8.0，所以第二行的空值被填上了 8.0。

同理，.dropna() 和 .fillna() 并不会永久性改变你的数据，除非你传入了inplace=True 参数。

##### 查找两列不相同的值

In [13]:
df1 = pd.DataFrame({'docid': [1, 2, 3, 5, 6]})
df2 = pd.DataFrame({'docid': [1, 2, 5, 6]})
np.setdiff1d(df1['docid'], df2['docid'])

array([3], dtype=int64)

#### 分组统计

Pandas 的分组统计功能可以按某一列的内容对数据行进行分组，并对其应用统计函数，比如求和，平均数，中位数，标准差等等…

举例来说，用 .groupby() 方法，我们可以对下面这数据表按 'Company' 列进行分组，并用 .mean() 求每组的平均值：

首先，初始化一个DataFrame：

In [14]:
dt = {'company':['a', 'a', 'a', 'b', 'b'], 
      'person': ['Ali', 'Bale', 'Alice', 'Charlie', 'David'], 
      'sale': [105, 126, 158, 321, 256], 'asset': [1045, 1268, 2053, 3158, 2890]}
df = pd.DataFrame(dt)
df

Unnamed: 0,company,person,sale,asset
0,a,Ali,105,1045
1,a,Bale,126,1268
2,a,Alice,158,2053
3,b,Charlie,321,3158
4,b,David,256,2890


根据company分组，求所有的数字列求均值

In [15]:
df.groupby('company').mean()

Unnamed: 0_level_0,sale,asset
company,Unnamed: 1_level_1,Unnamed: 2_level_1
a,129.666667,1455.333333
b,288.5,3024.0


#### 计数

用 .count() 方法，能对 DataFrame 中的某个元素出现的次数进行计数。

In [16]:
df.count()

company    5
person     5
sale       5
asset      5
dtype: int64

In [99]:
df.count(numeric_only=True)

sale     5
asset    5
dtype: int64

#### 数据描述

与Numpy类似，Pandas也有多个描述性的统计指标方法。

Pandas 的 .describe() 方法将对 DataFrame 里的数据进行分析，并一次性生成多个描述性的统计指标，方便用户对数据有一个直观上的认识。

对于非分组列，将统计该列的条目，唯一值的数量，出现频率最多的值，以及出现频率数量：

In [17]:
df['company'].describe()

count     5
unique    2
top       a
freq      3
Name: company, dtype: object

对于分组数据，生成的指标，从左到右分别是：计数、平均数、标准差、最小值、25% 50% 75% 位置的值、最大值。

In [101]:
df.groupby('company').describe()

Unnamed: 0_level_0,asset,asset,asset,asset,asset,asset,asset,asset,sale,sale,sale,sale,sale,sale,sale,sale
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
company,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
a,3.0,1455.333333,529.467972,1045.0,1156.5,1268.0,1660.5,2053.0,3.0,129.666667,26.689573,105.0,115.5,126.0,142.0,158.0
b,2.0,3024.0,189.504617,2890.0,2957.0,3024.0,3091.0,3158.0,2.0,288.5,45.961941,256.0,272.25,288.5,304.75,321.0


如果你不喜欢这个排版，你可以用 .transpose() 方法获得一个竖排的格式：

In [102]:
df.groupby('company').describe().transpose()

Unnamed: 0,company,a,b
asset,count,3.0,2.0
asset,mean,1455.333333,3024.0
asset,std,529.467972,189.504617
asset,min,1045.0,2890.0
asset,25%,1156.5,2957.0
asset,50%,1268.0,3024.0
asset,75%,1660.5,3091.0
asset,max,2053.0,3158.0
sale,count,3.0,2.0
sale,mean,129.666667,288.5


也可以只统计某个数据项(将获得Series)

In [18]:
df.groupby('company').describe().transpose()['a']

sale   count       3.000000
       mean      129.666667
       std        26.689573
       min       105.000000
       25%       115.500000
       50%       126.000000
       75%       142.000000
       max       158.000000
asset  count       3.000000
       mean     1455.333333
       std       529.467972
       min      1045.000000
       25%      1156.500000
       50%      1268.000000
       75%      1660.500000
       max      2053.000000
Name: a, dtype: float64

#### 堆叠(Concat)

堆叠基本上就是简单地把多个 DataFrame 堆在一起，拼成一个更大的 DataFrame。当你进行堆叠的时候，请务必注意你数据表的索引和列的延伸方向，堆叠的方向要和它一致。

比如，有这样3个 DataFrame：

In [19]:
df1 = pd.DataFrame(data=[['A0', 'B0', 'C0', 'D0'], 
                         ['A1', 'B1', 'C1', 'D1'], 
                         ['A2', 'B2', 'C2', 'D2'], 
                         ['A3', 'B3', 'C3', 'D3'],
                         ['A31', 'B31', 'C31', 'D31']], 
                   columns=['A', 'B', 'C', 'D'])
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A31,B31,C31,D31


In [20]:
df2 = pd.DataFrame(data=[['A4', 'B4', 'C4', 'D4'], 
                         ['A5', 'B5', 'C5', 'D5'], 
                         ['A6', 'B6', 'C6', 'D6'], 
                         ['A7', 'B7', 'C7', 'D7']], 
                   columns=['A', 'B', 'C', 'D'])
df2

Unnamed: 0,A,B,C,D
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [21]:
df3 = pd.DataFrame(data=[['A8', 'B8', 'C8', 'D8'], 
                         ['A9', 'B9', 'C9', 'D9'], 
                         ['A10', 'B10', 'C10', 'D10'], 
                         ['A11', 'B11', 'C11', 'D11']], 
                   columns=['A', 'B', 'C', 'D'])
df3

Unnamed: 0,A,B,C,D
0,A8,B8,C8,D8
1,A9,B9,C9,D9
2,A10,B10,C10,D10
3,A11,B11,C11,D11


In [23]:
dffull = pd.concat([df1, df2, df3])
# dffull.reset_index()

In [24]:
dffull

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A31,B31,C31,D31
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7
0,A8,B8,C8,D8


In [25]:
dffull.loc[0]

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
0,A4,B4,C4,D4
0,A8,B8,C8,D8


In [26]:
dffull.sort_values(['A', 'B'])

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A10,B10,C10,D10
3,A11,B11,C11,D11
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A31,B31,C31,D31
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6


In [27]:
dffull.reset_index(drop=True, inplace=True)

In [28]:
dffull

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A31,B31,C31,D31
5,A4,B4,C4,D4
6,A5,B5,C5,D5
7,A6,B6,C6,D6
8,A7,B7,C7,D7
9,A8,B8,C8,D8


因为我们没有指定堆叠的方向，Pandas 默认按行的方向堆叠，把每个表的索引按顺序叠加。

如果你想要按列的方向堆叠，那你需要传入 axis=1 参数：

In [29]:
pd.concat([df1, df2, df3], axis=1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,A4,B4,C4,D4,A8,B8,C8,D8
1,A1,B1,C1,D1,A5,B5,C5,D5,A9,B9,C9,D9
2,A2,B2,C2,D2,A6,B6,C6,D6,A10,B10,C10,D10
3,A3,B3,C3,D3,A7,B7,C7,D7,A11,B11,C11,D11
4,A31,B31,C31,D31,,,,,,,,


注意，这里出现了一大堆空值。因为我们用来堆叠的3个 DataFrame 里，有许多索引是没有对应数据的。因此，当你使用 pd.concat() 的时候，一定要注意堆叠方向的坐标轴（行或列）含有所需的所有数据。

#### 归并(Merge)

使用 pd.merge() 函数，能将多个 DataFrame 归并在一起，它的合并方式类似合并 SQL 数据表的方式。

归并操作的基本语法是 pd.merge(left, right, how='inner', on='Key') 。其中 left 参数代表放在左侧的 DataFrame，而 right 参数代表放在右边的 DataFrame；how='inner' 指的是当左右两个 DataFrame 中存在不重合的 Key 时，取结果的方式：inner 代表交集；Outer 代表并集。最后，on='Key' 代表需要合并的键值所在的列，最后整个表格会以该列为准进行归并。

对于两个都含有 key 列的 DataFrame，我们可以这样归并：

In [30]:
left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3', 'K4'],
                    'A': ['A0', 'A1', 'A2', 'A3', 'A4'],
                    'B': ['B0', 'B1', 'B2', 'B3', 'B4']})
right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']})

In [31]:
left

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3
4,K4,A4,B4


In [32]:
right

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3


In [33]:
pd.merge(left, right, how='inner', on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


In [34]:
pd.merge(left, right, how='outer', on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3
4,K4,A4,B4,,


同时，我们可以传入多个 on 参数，这样就能按多个键值进行归并：

In [35]:
left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2', 'K3'],
                     'key2': ['K0', 'K1', 'K2', 'K3', 'K4'],
                     'A': ['A0', 'A1', 'A2', 'A3', 'A4'],
                     'B': ['B0', 'B1', 'B2', 'B3', 'B4']})
right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                      'key2': ['K0', 'K0', 'K0', 'K0'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']})

In [36]:
left

Unnamed: 0,key1,key2,A,B
0,K0,K0,A0,B0
1,K0,K1,A1,B1
2,K1,K2,A2,B2
3,K2,K3,A3,B3
4,K3,K4,A4,B4


In [37]:
right

Unnamed: 0,key1,key2,C,D
0,K0,K0,C0,D0
1,K1,K0,C1,D1
2,K1,K0,C2,D2
3,K2,K0,C3,D3


In [39]:
pd.merge(left, right, on=['key1', 'key2'])
# select * from left 
# inner join on left.key1 = right.key1 and left.key2 = right.key2

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0


In [40]:
pd.merge(left, right, on=['key1', 'key2'], how='outer')
# select * from left 
# (left + right) join on left.key1 = right.key1 and left.key2 = right.key2

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K2,A2,B2,,
3,K2,K3,A3,B3,,
4,K3,K4,A4,B4,,
5,K1,K0,,,C1,D1
6,K1,K0,,,C2,D2
7,K2,K0,,,C3,D3


#### 连接(Join)

如果你要把两个表连在一起，然而它们之间没有太多共同的列，那么你可以试试 .join() 方法。和 .merge() 不同，连接采用索引作为公共的键，而不是某一列。

In [41]:
left = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3', 'A4'],
                    'B': ['B0', 'B1', 'B2', 'B3', 'B4']}, index=['2000', '2001', '2006', '2003', '2004'])
right = pd.DataFrame({'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']}, index=['2000', '2007', '2003', '2004'])

In [42]:
left

Unnamed: 0,A,B
2000,A0,B0
2001,A1,B1
2006,A2,B2
2003,A3,B3
2004,A4,B4


In [43]:
right

Unnamed: 0,C,D
2000,C0,D0
2007,C1,D1
2003,C2,D2
2004,C3,D3


In [44]:
left.join(right)

Unnamed: 0,A,B,C,D
2000,A0,B0,C0,D0
2001,A1,B1,,
2006,A2,B2,,
2003,A3,B3,C2,D2
2004,A4,B4,C3,D3


同样，inner 代表交集，Outer 代表并集。

In [45]:
left.join(right, how='outer')

Unnamed: 0,A,B,C,D
2000,A0,B0,C0,D0
2001,A1,B1,,
2003,A3,B3,C2,D2
2004,A4,B4,C3,D3
2006,A2,B2,,
2007,,,C1,D1


#### 数值处理

##### 查找不重复的值

不重复的值，在一个 DataFrame 里往往是独一无二，与众不同的。找到不重复的值，在数据分析中有助于避免样本偏差。在 Pandas 里，主要用到 3 种方法：

首先是 .unique() 方法。比如在下面这个 DataFrame 里，查找 col2 列中所有不重复的值：

In [46]:
import pandas as pd
df = pd.DataFrame({'col1': [1, 2, 3, 4], 
                   'col2': [444, 555, 666, 444], 
                   'col3': ['abcd', 'def', 'ghijklm', 'xyz']})
df.head()

Unnamed: 0,col1,col2,col3
0,1,444,abcd
1,2,555,def
2,3,666,ghijklm
3,4,444,xyz


In [47]:
df['col2'].unique()

array([444, 555, 666], dtype=int64)

除了列出所有不重复的值，我们还能用 .nunique() 方法，获取所有不重复值的个数：

In [48]:
df['col2'].nunique()

3

此外，还可以用 .value_counts() 同时获得所有值和对应值的计数：

In [49]:
df['col2'].value_counts()

444    2
555    1
666    1
Name: col2, dtype: int64

##### 删除重复行

In [50]:
data = {'a': [1,2,3,4,1], 'b': [1,2,15,18,1]}
df = pd.DataFrame(data)
df

Unnamed: 0,a,b
0,1,1
1,2,2
2,3,15
3,4,18
4,1,1


索引0与4对应的行的数据是完全一样的，如果需要去除，则使用下面的语句：

In [51]:
df.drop_duplicates()

Unnamed: 0,a,b
0,1,1
1,2,2
2,3,15
3,4,18


#### apply()方法

用 .apply() 方法，可以对 DataFrame 中的数据应用自定义函数，进行数据处理。比如，我们先定义一个 square() 函数，然后对表中的 col1 列应用这个函数：

In [52]:
df = pd.DataFrame({'col1': [1, 2, 3, 4], 
                   'col2': [444, 555, 666, 444], 
                   'col3': ['abcd', 'def', 'ghijklm', 'xyz']})
df

Unnamed: 0,col1,col2,col3
0,1,444,abcd
1,2,555,def
2,3,666,ghijklm
3,4,444,xyz


In [53]:
def square(x):
    return x * x

df['col1'].apply(square)

0     1
1     4
2     9
3    16
Name: col1, dtype: int64

在上面这个例子中，这个函数被应用到这一列里的每一个元素上。同样，我们也可以调用任意的内置函数。比如对 col3 列取长度 len ：

In [54]:
df['col3'].apply(len)

0    4
1    3
2    7
3    3
Name: col3, dtype: int64

有的时候，你定义了一个函数，而它其实只会被用到一次。那么，我们可以用 lambda 表达式来代替函数定义，简化代码。比如，我们可以用这样的 lambda 表达式代替上面的函数定义：

In [55]:
df['col1'].apply(lambda x : x * x)

0     1
1     4
2     9
3    16
Name: col1, dtype: int64

#### 获取DataFrame的属性

DataFrame 的属性包括列和索引的名字。假如你不确定表中的某个列名是否含有空格之类的字符，你可以通过 .columns 来获取属性值，以查看具体的列名。

In [56]:
df.columns

Index(['col1', 'col2', 'col3'], dtype='object')

In [59]:
df.index

RangeIndex(start=0, stop=4, step=1)

In [170]:
list(df)

['col1', 'col2', 'col3']

#### 排序

如果想要将整个表按某一列的值进行排序，可以用 .sort_values() ：

In [64]:
sort_df = df.sort_values('col2', ascending=False)

In [65]:
sort_df

Unnamed: 0,col1,col2,col3
2,3,666,ghijklm
1,2,555,def
0,1,444,abcd
3,4,444,xyz


如上所示，表格变成按 col2 列的值从小到大排序。要注意的是，表格的索引 index 还是对应着排序前的行，并没有因为排序而丢失原来的索引数据。

In [173]:
del df

#### 查找空值

假如你有一个很大的数据集，你可以用 Pandas 的 .isnull() 方法，方便快捷地发现表中的空值：

In [66]:
df.isnull()['col1'].value_counts()

False    4
Name: col1, dtype: int64

这返回的是一个新的 DataFrame，里面用布尔值（True/False）表示原 DataFrame 中对应位置的数据是否是空值。

#### 数据透视表

在使用 Excel 的时候，你或许已经试过数据透视表的功能了。数据透视表是一种汇总统计表，它展现了原表格中数据的汇总统计结果。Pandas 的数据透视表能自动帮你对数据进行分组、切片、筛选、排序、计数、求和或取平均值，并将结果直观地显示出来。比如，这里有个关于动物的统计表：

In [67]:
data = {'a': ['dog','dog','dog','goat','goat','goat'],
        'b': ['brown','brown','black','black','brown','black'],
        'c': ['x','y','x','y','x','y'],
        'd': [1,3,2,5,4,1]}
df = pd.DataFrame(data)
df

Unnamed: 0,a,b,c,d
0,dog,brown,x,1
1,dog,brown,y,3
2,dog,black,x,2
3,goat,black,y,5
4,goat,brown,x,4
5,goat,black,y,1


Pandas 数据透视表的语法是 .pivot_table(data, values='', index=[''], columns=['']) ，其中 values 代表我们需要汇总统计的数据点所在的列，index 表示按该列进行分组索引，而 columns 则表示最后结果将按该列的数据进行分列。你可以在 Pandas 的官方文档 中找到更多数据透视表的详细用法和例子。

于是，我们按上面的语法，给这个动物统计表创建一个数据透视表：

In [68]:
import numpy as np
pd.pivot_table(df, values='d', index=['a','b'], columns='c',aggfunc=np.sum)

Unnamed: 0_level_0,c,x,y
a,b,Unnamed: 2_level_1,Unnamed: 3_level_1
dog,black,2.0,
dog,brown,1.0,3.0
goat,black,,6.0
goat,brown,4.0,


也可以直接对DataFrame对象做操作

In [69]:
df.pivot_table(values='d', index=['a','b'], columns='c')

Unnamed: 0_level_0,c,x,y
a,b,Unnamed: 2_level_1,Unnamed: 3_level_1
dog,black,2.0,
dog,brown,1.0,3.0
goat,black,,3.0
goat,brown,4.0,


在上面的例子中，数据透视表的某些位置是 NaN 空值，因为在原数据里没有对应的条件下的数据。

### 2.3 导入导出数据

可以这样理解，array, dictionary, csv，excel，数据库等结构化数据载体，都是DataFrame的数据源，只是加载的方法有一些区别

#### 从数据库读取数据

这里只是举了如何从sql server获取数据，大家知道这种做法即可。

```with pymssql.connect(server="myserver",
                         user="myuser",
                         password="mypwd",
                         database="mydb") as conn:
    df = pd.read_sql('SELECT * FROM MYTABLE', con=conn)```

#### 从CSV读取数据

简单地说，只要用 pd.read_csv() 就能将 CSV 文件里的数据转换成 DataFrame 对象：

需要注意的是，尽量加上encoding的值，避免读取到乱码

In [71]:
pd.read_csv('./csv/auto.csv', encoding='utf-8').head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,year,origin,name
0,18.0,8,307.0,130,3504,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165,3693,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150,3436,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150,3433,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140,3449,10.5,70,1,ford torino


我们有时操作字符集特别丰富的文本，并尝试保存为csv，常常保存为utf-16模式，而且用tab作为分隔符，如: <br>
```dfsample.to_csv(file_path, encoding='utf-16', sep="\t")```<br>
那么读取的时候，也应该保持同样的编码与分隔符：<br>
```pd.read_csv(file, encoding="utf-16", sep="\t")```

#### 保存CSV文件

In [72]:
data = {'a': ['dog','dog','dog','goat','goat','goat'],
        'b': ['brown','brown','black','black','brown','black'],
        'c': ['x','y','x','y','x','y'],
        'd': [1,3,2,5,4,1]}
df = pd.DataFrame(data)
df

Unnamed: 0,a,b,c,d
0,dog,brown,x,1
1,dog,brown,y,3
2,dog,black,x,2
3,goat,black,y,5
4,goat,brown,x,4
5,goat,black,y,1


In [73]:
df.to_csv('./csv/animal_2019.csv', encoding='utf-8', index=False)

这里传入 index=False 参数是因为不希望 Pandas 把索引列的 0~5 也存到文件中。

为了确保数据已经保存好了，你可以试试用 pd.read_csv('New_dataframe') ，把这个文件的内容读取出来看看。

In [74]:
pd.read_csv('./csv/animal_2019.csv', encoding='utf-8')

Unnamed: 0,a,b,c,d
0,dog,brown,x,1
1,dog,brown,y,3
2,dog,black,x,2
3,goat,black,y,5
4,goat,brown,x,4
5,goat,black,y,1


#### 写入Excel表格文件

跟写入 CSV 文件类似，我们可以将一个 DataFrame 对象存成 .xlsx 文件，语法是 .to_excel() ：

不过前提是需要安装openpyxl，通过```pip install openpyxl```即可完成安装

In [75]:
df.to_excel('./excel/animal_2019.xlsx', encoding='utf-8', sheet_name='animal')

##### 写入多个sheets

官方用法
>```
>>> writer = pd.ExcelWriter('output.xlsx')
>>> df1.to_excel(writer,'Sheet1')
>>> df2.to_excel(writer,'Sheet2')
>>> writer.save()```

In [76]:
"""
df1,df2均为sql查询来的数据
excel_filepath为要生成保存的excel文件地址
"""
excel_filepath = './excel/multisheets.xlsx'

write = pd.ExcelWriter(excel_filepath)
data = {'a': ['dog','dog','dog','goat','goat','goat'],
        'b': ['brown','brown','black','black','brown','black'],
        'c': ['x','y','x','y','x','y'],
        'd': [1,3,2,5,4,1]}
df1 = pd.DataFrame(data)
# df1 = pd.DataFrame(df1)
excel_header = ['a','b','c','d']#excel的标题
df1.to_excel(write,sheet_name='Sheet1',header=excel_header,index=False)

data = {'a': ['duck','duck','duck','sheep','sheep','sheep'],
        'b': ['brown','brown','black','black','brown','black'],
        'c': ['x','y','x','y','x','y'],
        'd': [1,3,2,5,4,1]}
df2 = pd.DataFrame(data)
# df2 = pd.DataFrame(df2)
excel_header = ['a','b','c','d']
df2.to_excel(write,sheet_name='Sheet2',header=excel_header,index=False)
write.save()

#### 读取 Excel 表格文件

Excel 文件是一个不错的数据来源。使用 pd.read_excel() 方法，我们能将 Excel 表格中的数据导入 Pandas 中。请注意，Pandas 只能导入表格文件中的数据，其他对象，例如宏、图形和公式等都不会被导入。如果文件中存在有此类对象，可能会导致 pd.read_excel() 方法执行失败。

举个例子，假设我们有一个 Excel 表格 './excel/animal.xlsx'，然后读取它的数据：

读取Excel的前提是安装xlrd模块: ```pip install xlrd```

In [38]:
pd.read_excel('./excel/animal.xlsx', encoding='utf-8', sheet_name='animal')

Unnamed: 0,a,b,c,d
0,dog,brown,x,1
1,dog,brown,y,3
2,dog,black,x,2
3,goat,black,y,5
4,goat,brown,x,4
5,goat,black,y,1


In [79]:
pd.read_excel('./excel/multisheets.xlsx', sheet_name='Sheet1')

Unnamed: 0,a,b,c,d
0,dog,brown,x,1
1,dog,brown,y,3
2,dog,black,x,2
3,goat,black,y,5
4,goat,brown,x,4
5,goat,black,y,1


In [81]:
pd.read_excel('./excel/multisheets.xlsx', sheet_name='Sheet2')

Unnamed: 0,a,b,c,d
0,duck,brown,x,1
1,duck,brown,y,3
2,duck,black,x,2
3,sheep,black,y,5
4,sheep,brown,x,4
5,sheep,black,y,1


#### 读取 HTML 文件中的数据

为了读取 HTML 文件，你需要安装 lxml 以及 BeautifulSoup4 库

举个例子，我们用让 Pandas 读取这个页面的数据： ./html/167711672.htm。由于一个页面上含有多个不同的表格，我们需要通过下标 [0, ..., len(tables) - 1] 访问数组中的不同元素。

In [82]:
dflist = pd.read_html('./html/167711672.htm')

In [83]:
len(dflist)

92

In [85]:
from IPython.display import display, HTML
for index, df in enumerate(dflist):
    print('Show the {0} table'.format(index))
    display(df.head())
    if index > 1:
        break

Show the 0 table


Unnamed: 0,0
0,PART A:
1,INFORMATION REQUIRED IN THE PROSPECTUS


Show the 1 table


Unnamed: 0,0,1
0,,
1,,
2,• Advanced Series Trust,• MFS®
3,• American Funds®,• Neuberger Berman
4,• Dreyfus,• Prudential


Show the 2 table


Unnamed: 0,0,1
0,,
1,,
2,,Page
3,SUMMARY OF THE CONTRACT AND CONTRACT BENEFITS,1
4,SUMMARY OF CONTRACT RISKS,1


In [86]:
dflist[8]

Unnamed: 0,0,1,2
0,,,
1,,,
2,Table 1: Transaction and Optional Rider Fees,Table 1: Transaction and Optional Rider Fees,Table 1: Transaction and Optional Rider Fees
3,Charge,When Charge Is Deducted,Amount Deducted
4,Sales Charge (load) on Premiums,Deducted from premium payments.,2.68%
5,Premium Based Administrative Charge,Deducted from premium payments.,3.75%
6,Surrender Charge(1) (Minimum and maximum per $...,"Upon lapse, surrender, or decrease in Basic In...",From $3.83 to $17.04(3) _____________ $7.68
7,Transfer fee,Each transfer exceeding 12 in any Contract Year.,$25
8,Withdrawal fee,Upon withdrawal.,$25
9,Basic Insurance Amount Decrease fee,Upon decrease in Basic Insurance Amount.,$25


In [87]:
dflist[8][0][6]

'Surrender Charge(1) (Minimum and maximum per $1,000 of Basic Insurance Amount.)  _____________  Initial charge for a representative Contract Owner(2)'