![logo](python_logo.jpg)

In [194]:
from pandas import DataFrame, Series
import pandas as pd

# 创建DataFrame

## 从文件读取

很常用的场景，从csv, tsv, excel等文件读取数据表

In [196]:
df = pd.read_excel('test_data.xlsx', index_col='index')
df

Unnamed: 0_level_0,id,type,sub_type,value
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,1,A,a,1
B,1,A,b,2
C,2,A,a,3
D,2,B,b,4


## 用其他数据结构创建

也可以从其他的数据结构创建，例如，用list of tuple存放每一行的数据

In [198]:
records = [
    (1, 'A', 'a1', 1),
    (1, 'A', 'a2', 2),    
    (2, 'A', 'a1', 3),
    (2, 'B', 'b1', 4),    
]

df = DataFrame(records, columns = ['id', 'type', 'sub_type', 'value'], index=['A', 'B', 'C', 'D'])
df

Unnamed: 0,id,type,sub_type,value
A,1,A,a1,1
B,1,A,a2,2
C,2,A,a1,3
D,2,B,b1,4


或者用dict存放每一列的数据

In [200]:
data = {
    'id':[1, 1, 2, 2],
    'type':['A', 'A', 'A', 'B'],
    'sub_type': ['a1', 'a2', 'a1', 'b1'],
    'value': [1, 2, 3, 4]    
}

df = DataFrame(data, columns = ['id', 'type', 'sub_type', 'value'], index=['A', 'B', 'C', 'D']) #这里columns的目的是固定列出现的位置
df

Unnamed: 0,id,type,sub_type,value
A,1,A,a1,1
B,1,A,a2,2
C,2,A,a1,3
D,2,B,b1,4


为了后面的实验方便，我们写一个函数生成所需要的测试DataFrame

In [201]:
def get_sample_df():
    data = {
        'id':[1, 1, 2, 2],
        'type':['A', 'A', 'A', 'B'],
        'sub_type': ['a', 'b', 'a', 'b'],
        'value': [1, 2, 3, 4]    
    }

    df = DataFrame(data, columns = ['id', 'type', 'sub_type', 'value'], index=['A', 'B', 'C', 'D']) #这里columns的目的是固定列出现的位置
    
    return df

## DataFrame的组成

In [202]:
df = get_sample_df()
df

Unnamed: 0,id,type,sub_type,value
A,1,A,a,1
B,1,A,b,2
C,2,A,a,3
D,2,B,b,4


列标签

In [203]:
df.columns

Index(['id', 'type', 'sub_type', 'value'], dtype='object')

行标签

In [204]:
df.index

Index(['A', 'B', 'C', 'D'], dtype='object')

数据部分

In [205]:
df.values

array([[1, 'A', 'a', 1],
       [1, 'A', 'b', 2],
       [2, 'A', 'a', 3],
       [2, 'B', 'b', 4]], dtype=object)

# 选择DataFrame中部分行列

## loc

### 基于index或者column筛选

index保留0, 1; columns保留id, type, value

In [206]:
df

Unnamed: 0,id,type,sub_type,value
A,1,A,a,1
B,1,A,b,2
C,2,A,a,3
D,2,B,b,4


In [207]:
df = get_sample_df()

df.loc[['A', 'C'], ['id', 'type', 'value']]

Unnamed: 0,id,type,value
A,1,A,1
C,2,A,3


如果对index或者column进行筛选，可以用':'表示

例如，选择全部的行，选择'id', 'type'两列

In [209]:
df.loc[:, ['id', 'type']]

Unnamed: 0,id,type,sub_type,value
A,1,A,a,1
B,1,A,b,2
C,2,A,a,3
D,2,B,b,4


如果只传入一个条件，那么默认会去选择全行

In [211]:
df.loc[['A', 'C']]

Unnamed: 0,id,type,sub_type,value
A,1,A,a,1
C,2,A,a,3


 和下面代码效果一样

In [212]:
df.loc[['A', 'C'], :]

Unnamed: 0,id,type,sub_type,value
A,1,A,a,1
C,2,A,a,3


### 选择单行或者单列

如果选则条件不是list，那么选出的结果会以Series(一维)的形式返回

In [213]:
df = get_sample_df()

df['type']

A    A
B    A
C    A
D    B
Name: type, dtype: object

比较下面，返回的结果是只有一列的DataFrame(2维)

In [246]:
df[['type']]

Unnamed: 0,type
A,A
B,A
C,A
D,B


### 基于条件筛选

选择type为A, value大于1的行

In [221]:
df

Unnamed: 0,id,type,sub_type,value
A,1,A,a,1
B,1,A,b,2
C,2,A,a,3
D,2,B,b,4


In [237]:
type_condition = (df['type'] == 'A')
type_condition

A     True
B     True
C     True
D    False
Name: type, dtype: bool

In [222]:
value_condition = (df['value'] > 1)
value_condition

A    False
B     True
C     True
D     True
Name: value, dtype: bool

In [239]:
combined_condition = type_condition & value_condition
combined_condition

A    False
B     True
C     True
D    False
dtype: bool

In [240]:
df.loc[combined_condition]

Unnamed: 0,id,type,sub_type,value
B,1,A,b,2
C,2,A,a,3


如果希望选择type为A, 或者value大于1的行，可以用|去进行逻辑或的运算

In [241]:
combined_condition = type_condition | combined_condition
combined_condition

A     True
B     True
C     True
D    False
dtype: bool

In [244]:
df.loc[combined_condition]

Unnamed: 0,id,type,sub_type,value
A,1,A,a,1
B,1,A,b,2
C,2,A,a,3


## [ ]
用法和loc类似，但是只传入一个参数的时候，默认选择的是列

In [245]:
df[['type', 'value']]

Unnamed: 0,type,value
A,A,1
B,A,2
C,A,3
D,B,4


## iloc

用iloc可以基于位置信息去筛选行列

选出第1, 3行, 第1列，倒数第1列

In [252]:
df

Unnamed: 0,id,type,sub_type,value
A,1,A,a,1
B,1,A,b,2
C,2,A,a,3
D,2,B,b,4


In [254]:
df.iloc[[0, 2], [0, -1]]

Unnamed: 0,id,value
A,1,1
C,2,3


## at

at用于根据index和column选择单个格子的数值

In [249]:
df.at['A', 'value']

1

## iat
根据位置去选择单个格子的数值

选出第2行, 第3列对应的数值

In [250]:
df.iat[1, 2]

'b'

# 添加新列

In [257]:
df['value_doubled'] = df['value'] * 2
df

Unnamed: 0,id,type,sub_type,value,value_doubled
A,1,A,a,1,2
B,1,A,b,2,4
C,2,A,a,3,6
D,2,B,b,4,8


如果想控制插入的位置，可以用DataFrame.insert()

In [261]:
df = get_sample_df()

df.insert(0, 'value_doubled', df['value'] * 2) 
df

Unnamed: 0,value_doubled,id,type,sub_type,value
A,2,1,A,a,1
B,4,1,A,b,2
C,6,2,A,a,3
D,8,2,B,b,4


# DataFrame参与计算

## 简单运算

In [272]:
df = DataFrame(
    [
        (3,2,1,2),
        (10,2,4,0),
        (5,2,4,8)
    ],
    index = ['a', 'b', 'c'],
    columns = ['A','B','C','D']
)

df

Unnamed: 0,A,B,C,D
a,3,2,1,2
b,10,2,4,0
c,5,2,4,8


DataFrame提供了大量的方法进行常见的运算，例如求每列的最小值

In [277]:
df.min()

A    3
B    2
C    1
D    0
dtype: int64

如果要求每行的最小值，传入axis=1

In [280]:
df.min(axis=1)

a    1
b    0
c    2
dtype: int64

## apply遍历行列

有时候我们需要去遍历DataFrame的行(或者列)，并且对每一行(或者列)做自定义的某种运算。这时可以用apply实现。

例如, 我们想遍历行，然后根据'value'的取值，将'type'字符复制相应的次数，可以这么做。

In [284]:
df = get_sample_df()
df

Unnamed: 0,id,type,sub_type,value
A,1,A,a,1
B,1,A,b,2
C,2,A,a,3
D,2,B,b,4


In [296]:
def calculation(func, a, b):
    return func(a, b)

def add(a, b):
    return a + b

def multiply(a, b):
    return a * b

calculation(multiply, 3, 4)

12

In [304]:
def expand_type(s):
    return s['value'] * s['type']

df.apply(expand_type, axis=1)

A       A
B      AA
C     AAA
D    BBBB
dtype: object

这里apply表示遍历，axis=1表示是对行进行遍历(默认是列), expand_type是我们传入的函数，表达我们想干什么。

## lambda语法
使用apply函数的时候，经常会需要写一些这样的函数
* 比较简单
* 不会被重复使用如果觉得用

如果觉得```def```语法定义函数麻烦，可以用```lambda```语法创建一个临时使用的函数


In [306]:
df.apply(lambda s:s['type'] * s['value'], axis=1)

A       A
B      AA
C     AAA
D    BBBB
dtype: object

## 分组后遍历

### 分组聚合

* 指定分组条件
* 指定需要聚合的列
* 指定聚合函数(支持的函数名称，或者函数)

In [307]:
df

Unnamed: 0,id,type,sub_type,value
A,1,A,a,1
B,1,A,b,2
C,2,A,a,3
D,2,B,b,4


In [313]:
df = get_sample_df()
df['value_doubled'] = df['value'] * 2

def span(s):
    return s.max() - s.min()

df.groupby(['id', 'type'])[['value', 'value_doubled']].agg(['mean', 'max', 'min', len, span])

Unnamed: 0_level_0,Unnamed: 1_level_0,value,value,value,value,value,value_doubled,value_doubled,value_doubled,value_doubled,value_doubled
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,max,min,len,span,mean,max,min,len,span
id,type,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2
1,A,1.5,2,1,2,1,3,4,2,2,2
2,A,3.0,3,3,1,0,6,6,6,1,0
2,B,4.0,4,4,1,0,8,8,8,1,0


## 分组后进行自定义的操作

我们找出每个id对应的数据中最小的值，和最大值构成的区间

In [315]:
data = [
    (1, 1, 2),
    (1, 3, 7),
    (2, 2, 3),
    (2, 4, 10)
]

df = DataFrame(data, columns = ['id', 'min', 'max'])
df

Unnamed: 0,id,min,max
0,1,1,2
1,1,3,7
2,2,2,3
3,2,4,10


In [322]:
def merge_range(df):    
    min_v = df['min'].min()
    max_v = df['max'].max()
    
    return Series([min_v, max_v], index=['merged_min', 'merged_max'])

df.groupby('id').apply(merge_range)

Unnamed: 0_level_0,merged_min,merged_max
id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1,7
2,2,10


## applymap

如果我们要遍历所有的单元格，进行某种运算。

例如，将所有的格子转化成字符后，前后添加下划线

In [326]:
df = get_sample_df()

In [327]:
df.applymap(lambda v:'_' + str(v) + '_')

Unnamed: 0,id,type,sub_type,value
A,_1_,_A_,_a_,_1_
B,_1_,_A_,_b_,_2_
C,_2_,_A_,_a_,_3_
D,_2_,_B_,_b_,_4_


## 多个DataFrame之间的运算

In [331]:
df_1 = DataFrame(
    [
        (1, 2, 3),
        (4, 5, 6),
    ],
    columns = ['A', 'B', 'C'],
    index = ['a', 'b']
    
)

df_1

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6


In [330]:
df_2 = DataFrame(
    [
        (-1, -1, -1),
        (-1, -1, -1),
    ],
    columns = ['C', 'B', 'D'],
    index = ['b', 'c']
    
)

df_2

Unnamed: 0,C,B,D
b,-1,-1,-1
c,-1,-1,-1


In [334]:
df_1 + df_2

Unnamed: 0,A,B,C,D
a,,,,
b,,4.0,5.0,
c,,,,


In [335]:
df_1 = DataFrame({'A':[1,2,3,4]}, index= [1,2,3,4])
df_1

Unnamed: 0,A
1,1
2,2
3,3
4,4


In [336]:
df_2 = DataFrame({'A':[4,3,2,1]}, index= [4,3,2,1])
df_2

Unnamed: 0,A
4,4
3,3
2,2
1,1


In [337]:
df_1 + df_2

Unnamed: 0,A
1,2
2,4
3,6
4,8


这里特别注意DataFrame会根据index和columns对齐以后才进行相应的运算！

# DataFrame的拼接

## merge

In [351]:
df_1 = DataFrame(
    [
        (121, 'male'),
        (123, 'female'),
        (124, 'female'),
    ],
    columns = ['id', 'sex']
)
df_1

Unnamed: 0,id,sex
0,121,male
1,123,female
2,124,female


In [352]:
df_2 = DataFrame(
    [
        (121, 34),
        (124, 41),
    ],
    columns = ['id', 'age']
)
df_2

Unnamed: 0,id,age
0,121,34
1,124,41


根据id去拼接两个DataFrame

In [353]:
df_1.merge(df_2, on='id')

Unnamed: 0,id,sex,age
0,121,male,34
1,124,female,41


默认是inner_join, 可以用```how```参数控制拼接方式

In [354]:
df_1.merge(df_2, on='id', how='outer')

Unnamed: 0,id,sex,age
0,121,male,34.0
1,123,female,
2,124,female,41.0


## join
join也可以实现拼接，但是匹配的依据是index

我们把id设为两个DataFrame的index

In [355]:
df_1 = df_1.set_index('id')
df_1

Unnamed: 0_level_0,sex
id,Unnamed: 1_level_1
121,male
123,female
124,female


In [356]:
df_2 = df_2.set_index('id')
df_2

Unnamed: 0_level_0,age
id,Unnamed: 1_level_1
121,34
124,41


In [124]:
df_1.join(df_2, how='right')

Unnamed: 0_level_0,sex,age
id,Unnamed: 1_level_1,Unnamed: 2_level_1
121,male,34
124,female,41


## concat

用concat可以实现
* 多个DataFrame拼接
* 按照行去拼接

In [359]:
pd.concat([df_1, df_2], axis=1)

Unnamed: 0_level_0,sex,age
id,Unnamed: 1_level_1,Unnamed: 2_level_1
121,male,34.0
123,female,
124,female,41.0


In [388]:
df_1 = DataFrame(
    [
        (1,2),
        (3,4)
    ],
    index = [0, 1]
)

df_2 = DataFrame(
    [
        (5,6),
        (7,8)
    ],
    index = [2, 3]
)

In [389]:
df_1

Unnamed: 0,0,1
0,1,2
1,3,4


In [390]:
df_2

Unnamed: 0,0,1
2,5,6
3,7,8


In [391]:
pd.concat([df_1, df_2])

Unnamed: 0,0,1
0,1,2
1,3,4
2,5,6
3,7,8


## 长表转宽表

配合index和DataFrame.unstack, 可以很方便的实现长表转宽表。

对于长表转宽表的问题，关键是识别清楚以下几种列
* 最终想作为index使用的列(A)
* 想作为分类依据的列(B)
* 包含关心的目标值的列(C)

操作步骤是:
1. 先把A, B两类列都设成index
2. 用C列筛选包含关心的数值的列
3. 用DataFrame.unstack()将B类列的数值组合转成不同的列

下面看一个实例

In [410]:
df = DataFrame(
    [
        (1, '姓名', '亚德曼'),
        (1, '性别', '男'),
        (2, '性别', '女'),
        (2, '职业', '数据建模'),
    ],
    columns = ['id', 'key', 'value']
)
df

Unnamed: 0,id,key,value
0,1,姓名,亚德曼
1,1,性别,男
2,2,性别,女
3,2,职业,数据建模


In [411]:
df.set_index(['id','key'])['value'].unstack('key')

key,姓名,性别,职业
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,亚德曼,男,
2,,女,数据建模


In [412]:
index_cols = ['id']
categorical_cols = ['key']
target_value_cols = ['value']

In [413]:
step_1 = df.set_index(index_cols + categorical_cols)
step_1

Unnamed: 0_level_0,Unnamed: 1_level_0,value
id,key,Unnamed: 2_level_1
1,姓名,亚德曼
1,性别,男
2,性别,女
2,职业,数据建模


In [414]:
step_2  = step_1.unstack(categorical_cols)
step_2

Unnamed: 0_level_0,value,value,value
key,姓名,性别,职业
id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,亚德曼,男,
2,,女,数据建模


In [417]:
df

Unnamed: 0,id,key,value
0,1,姓名,亚德曼
1,1,性别,男
2,2,性别,女
3,2,职业,数据建模


In [420]:
def long_to_wide(df, index_cols, categorical_cols):
    return (
        df.set_index(index_cols + categorical_cols)
        .unstack(categorical_cols)                
    )


long_to_wide(df, index_cols, categorical_cols)

Unnamed: 0_level_0,value,value,value
key,姓名,性别,职业
id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,亚德曼,男,
2,,女,数据建模


In [421]:
df = get_sample_df()
df['value_doubled'] = df['value'] * 2

In [423]:
index_cols = ['id']
categorical_cols = ['type', 'sub_type']

In [424]:
long_to_wide(df, index_cols, categorical_cols)

Unnamed: 0_level_0,value,value,value,value_doubled,value_doubled,value_doubled
type,A,A,B,A,A,B
sub_type,a,b,b,a,b,b
id,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3
1,1.0,2.0,,2.0,4.0,
2,3.0,,4.0,6.0,,8.0


如果觉得这个操作很麻烦不好记，那么封装一个函数就行了。 这个也是用代码工作的优势，麻烦一次就可以反复调用，不用每次都操心细节。

## 想知道更多？

pandas官方文档是学习pandas很好的地方

http://pandas.pydata.org/pandas-docs/stable/