# Pandas

In [1]:
import numpy as np
import pandas as pd

Pandas提供了3种数据类型，分别是`Series`、`DataFrame`和`Panel`。

* `Series`用于保存一维数据
* `DataFrame` 用于保存二维数据
* `Panel`用于保存三维或者可变维数据

## Series数据结构

`Series`本质上是一个带索引的一维数组。

指定索引：

In [2]:
s = pd.Series([1,3,2,4], index=['a', 'b', 'c', 'd'])

In [3]:
s.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [4]:
s.values

array([1, 3, 2, 4])

默认索引：

In [5]:
s = pd.Series([1, 3, 2, 4])

In [6]:
s.index

RangeIndex(start=0, stop=4, step=1)

In [7]:
s.values

array([1, 3, 2, 4])

## DataFrame数据结构

### 创建DataFrame

In [8]:
df = pd.DataFrame({'x': ['a', 'b', 'c'],
                   'y': range(1, 4),
                   'z': [2, 5, 3]})

In [9]:
df

Unnamed: 0,x,y,z
0,a,1,2
1,b,2,5
2,c,3,3


In [10]:
df.columns

Index(['x', 'y', 'z'], dtype='object')

In [11]:
df.values

array([['a', 1, 2],
       ['b', 2, 5],
       ['c', 3, 3]], dtype=object)

### 查看数据内容

* `df.info()` 查看DataFrame属性信息
* `df.head()` 查看DataFrame前五行数据信息
* `df.tail()` 查看DataFrame后五行数据信息

### 选取多列

* df.loc
* df.iloc

In [12]:
df[['x', 'y']]
df.loc[:, ['x', 'y']]
df.iloc[:, [0, 1]]

Unnamed: 0,x,y
0,a,1
1,b,2
2,c,3


### 单行过滤

In [13]:
df[df.z>=3]

Unnamed: 0,x,y,z
1,b,2,5
2,c,3,3


### 重新定义列名

In [14]:
df.rename(columns={'x': 'X'}, inplace=True)

In [15]:
df

Unnamed: 0,X,y,z
0,a,1,2
1,b,2,5
2,c,3,3


In [16]:
df.columns = ['X', 'Y', 'Z']

In [17]:
df

Unnamed: 0,X,Y,Z
0,a,1,2
1,b,2,5
2,c,3,3


### 数据的多重索引

In [18]:
df = pd.DataFrame({
    'X': list('ABCABC'),
    'year': [2010] * 3 + [2011] * 3,
    'Value': [1, 3, 4, 3, 5, 2]
})

In [19]:
df

Unnamed: 0,X,year,Value
0,A,2010,1
1,B,2010,3
2,C,2010,4
3,A,2011,3
4,B,2011,5
5,C,2011,2


In [20]:
df.set_index(['X', 'year'])

Unnamed: 0_level_0,Unnamed: 1_level_0,Value
X,year,Unnamed: 2_level_1
A,2010,1
B,2010,3
C,2010,4
A,2011,3
B,2011,5
C,2011,2


## 表格的变换

In [21]:
df = pd.DataFrame({
    'X': list('ABC'),
    '2010': [1, 3, 4],
    '2011': [3, 5, 2]
})

In [22]:
df

Unnamed: 0,X,2010,2011
0,A,1,3
1,B,3,5
2,C,4,2


In [23]:
df_melt = pd.melt(df, id_vars='X', var_name='year', value_name='value')
df_melt

Unnamed: 0,X,year,value
0,A,2010,1
1,B,2010,3
2,C,2010,4
3,A,2011,3
4,B,2011,5
5,C,2011,2


* `id.vars('X')`表示由标识变量构成的向量，用于标识观测的变量
* `variable_name('year')`表示用于保存原始变量名的变量名称
* `value.name('value')`表示用于保存原始值的名称

In [24]:
df_pivot = df_melt.pivot_table(index='X', columns='year', values='value')
df_pivot.reset_index(inplace=True)
df_pivot

year,X,2010,2011
0,A,1,3
1,B,3,5
2,C,4,2


## 变量的变换

* `apply`的操作对象是`DataFrame`的某一列（`axis`=0）或者某一列（`axis`=1）
* `applymap`的操作对象是元素级，作用于每个`DataFrame`的每个数据

## 表格的排序

`df.sort_values(by, ascending=True)`

In [25]:
df

Unnamed: 0,X,2010,2011
0,A,1,3
1,B,3,5
2,C,4,2


In [26]:
df.sort_values('2010', ascending=False)

Unnamed: 0,X,2010,2011
2,C,4,2
1,B,3,5
0,A,1,3


In [27]:
df.sort_values('2011', ascending=True)

Unnamed: 0,X,2010,2011
2,C,4,2
0,A,1,3
1,B,3,5


In [28]:
df.sort_values(by=['X', '2010'], ascending=False)

Unnamed: 0,X,2010,2011
2,C,4,2
1,B,3,5
0,A,1,3


## 表格拼接

In [29]:
df1 = pd.DataFrame({
    'x': ['a', 'b', 'c'],
    'y': range(1, 4),
})

In [30]:
df2 = pd.DataFrame({
    'z': ['B', 'D', 'H'],
    'g': [2, 5, 3]
})

In [31]:
df3 = pd.DataFrame({
    'x': ['g', 'd'],
    'y': [2, 5]
})

横轴方向连接

In [32]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,x,y,z,g
0,a,1,B,2
1,b,2,D,5
2,c,3,H,3


纵轴方向连接

In [33]:
pd.concat([df1, df3], axis=0).reset_index()

Unnamed: 0,index,x,y
0,0,a,1
1,1,b,2
2,2,c,3
3,0,g,2
4,1,d,5


## 表的融合

In [34]:
df1 = pd.DataFrame({
    'x': list('abc'),
    'y': range(1, 4)
})

In [35]:
df2 = pd.DataFrame({
    'x': list('abd'),
    'z': [2, 5, 3]
})

In [36]:
df3 = pd.DataFrame({
    'g': list('abd'),
    'z': [2, 5, 3]
})

In [37]:
df1

Unnamed: 0,x,y
0,a,1
1,b,2
2,c,3


In [38]:
df2

Unnamed: 0,x,z
0,a,2
1,b,5
2,d,3


In [39]:
df3

Unnamed: 0,g,z
0,a,2
1,b,5
2,d,3


只保留左表的所有数据

In [40]:
pd.merge(df1, df2, how='left', on='x')

Unnamed: 0,x,y,z
0,a,1,2.0
1,b,2,5.0
2,c,3,


只保留右表的数据

In [41]:
pd.merge(df1, df2, how='right', on='x')

Unnamed: 0,x,y,z
0,a,1.0,2
1,b,2.0,5
2,d,,3


保留两个表中公共的部分信息

In [42]:
pd.merge(df1, df2, how='inner', on='x')

Unnamed: 0,x,y,z
0,a,1,2
1,b,2,5


保留两个表的所有信息

In [43]:
pd.merge(df1, df2, how='outer', on='x')

Unnamed: 0,x,y,z
0,a,1.0,2.0
1,b,2.0,5.0
2,c,3.0,
3,d,,3.0


## 表格分组操作

In [44]:
df = pd.DataFrame({
    'X': list('ABC'),
    '2010': [1, 3, 4],
    '2011': [3, 5, 2]
})

In [45]:
df

Unnamed: 0,X,2010,2011
0,A,1,3
1,B,3,5
2,C,4,2


按行或列操作

按行求和

In [46]:
df[['2010', '2011']].apply(lambda x: x.sum(), axis=1)

0    4
1    8
2    6
dtype: int64

按列求和

In [47]:
df[['2010', '2011']].apply(lambda x: x.sum(), axis=0)

2010     8
2011    10
dtype: int64

多列运算

In [48]:
df['2010_2011'] = df[['2010', '2011']].apply(lambda x: x['2010'] + 2 * x['2011'], axis=1)
df

Unnamed: 0,X,2010,2011,2010_2011
0,A,1,3,7
1,B,3,5,13
2,C,4,2,8


分组操作

In [49]:
df = pd.DataFrame({
    'X': list('ABC'),
    '2010': [1, 3, 4],
    '2011': [3, 5, 2]
})

In [50]:
df_melt = pd.melt(df, id_vars=['X'], var_name='year', value_name='value')

In [51]:
df_melt

Unnamed: 0,X,year,value
0,A,2010,1
1,B,2010,3
2,C,2010,4
3,A,2011,3
4,B,2011,5
5,C,2011,2


按`year`分组求均值

In [52]:
df_melt.groupby('year').mean()

Unnamed: 0_level_0,value
year,Unnamed: 1_level_1
2010,2.666667
2011,3.333333


按`year`和`x`两列分组求均值

In [53]:
df_melt.groupby(['year', 'X']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,value
year,X,Unnamed: 2_level_1
2010,A,1
2010,B,3
2010,C,4
2011,A,3
2011,B,5
2011,C,2


In [54]:
df_melt.groupby(['year', 'X'], as_index=False).mean()

Unnamed: 0,year,X,value
0,2010,A,1
1,2010,B,3
2,2010,C,4
3,2011,A,3
4,2011,B,5
5,2011,C,2


分组聚合

In [55]:
df_melt.groupby(['X', 'year']).aggregate([np.mean, np.median])

Unnamed: 0_level_0,Unnamed: 1_level_0,value,value
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,median
X,year,Unnamed: 2_level_2,Unnamed: 3_level_2
A,2010,1,1
A,2011,3,3
B,2010,3,3
B,2011,5,5
C,2010,4,4
C,2011,2,2


分组运算：`transform()`函数

In [56]:
df_melt['percentage'] = df_melt.groupby('X')['value'].transform(lambda x: x/s.sum())

In [57]:
df_melt

Unnamed: 0,X,year,value,percentage
0,A,2010,1,0.1
1,B,2010,3,0.3
2,C,2010,4,0.4
3,A,2011,3,0.3
4,B,2011,5,0.5
5,C,2011,2,0.2


分组筛选：`filter()`函数

In [58]:
df_melt.groupby('X').filter(lambda x: x['value'].mean()>2)

Unnamed: 0,X,year,value,percentage
1,B,2010,3,0.3
2,C,2010,4,0.4
4,B,2011,5,0.5
5,C,2011,2,0.2
