In [2]:
from pandas import DataFrame,Series
import pandas as pd
import numpy as np

# 数据合并
df1 = DataFrame({'key': ['b','b','a','c','a','a','b'],
                 'data1': range(7)})
df2 = DataFrame({'key': ['a','b','d'],
                 'data2': range(3)
                })
df1

Unnamed: 0,data1,key
0,0,b
1,1,b
2,2,a
3,3,c
4,4,a
5,5,a
6,6,b


In [3]:
df2

Unnamed: 0,data2,key
0,0,a
1,1,b
2,2,d


In [4]:
pd.merge(df1, df2)

Unnamed: 0,data1,key,data2
0,0,b,1
1,1,b,1
2,6,b,1
3,2,a,0
4,4,a,0
5,5,a,0


In [5]:
# 其实如果没有指定要用哪个列进行连接，merge就会将重复列的列名当作键
# 最好显式指定一下
pd.merge(df1, df2, on='key') # 结果和上面一样

Unnamed: 0,data1,key,data2
0,0,b,1
1,1,b,1
2,6,b,1
3,2,a,0
4,4,a,0
5,5,a,0


In [6]:
# 两个对象的列名不同，可以分别进行指定
df3 = DataFrame({'lkey': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                 'data1': range(7)})
df4 = DataFrame({'rkey': ['a', 'b', 'd'],
                 'data2': range(3)
                })
pd.merge(df3, df4, left_on = 'lkey', right_on = 'rkey')

Unnamed: 0,data1,lkey,data2,rkey
0,0,b,1,b
1,1,b,1,b
2,6,b,1,b
3,2,a,0,a
4,4,a,0,a
5,5,a,0,a


In [7]:
# 默认情况下，merge做的是“inner”连接，结果中的键是交集，
# 其他方式还有“left”、“right”以及“outer”。
# 外连接求取的是键的并集，组合了左连接和右连接的效果

pd.merge(df1, df2, how='outer')

Unnamed: 0,data1,key,data2
0,0.0,b,1.0
1,1.0,b,1.0
2,6.0,b,1.0
3,2.0,a,0.0
4,4.0,a,0.0
5,5.0,a,0.0
6,3.0,c,
7,,d,2.0


In [8]:
# 索引上的合并
left2 = DataFrame([[1,2], [3,4], [5,6]], index=['a', 'c', 'e'],
                    columns=['ohio', 'nevada'])
right2 = DataFrame([[7,8], [9,10], [11,12], [13,14]],
                  index = ['b', 'c', 'd', 'e'], columns=['misster', 'Alama'])
pd.merge(left2, right2, how='outer', left_index=True, right_index=True)

Unnamed: 0,ohio,nevada,misster,Alama
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


In [9]:
# DataFrame还有一个join实例方法， 它能更方便地实现索引合并，还可用于合并多个
# 带有相同或相似索引的DataFrame对象，不管它们之间有没有重叠的列。

left2.join(right2, how='outer')

Unnamed: 0,ohio,nevada,misster,Alama
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


In [10]:
# 对于简单的索引合并， 还可以向join传入一组DataFrame 
another = DataFrame([[7,8], [9.10], [11,12], [16,17]],
                    index = ['a', 'c', 'e', 'f'], columns=['NewYork', 'Oregon'])
left2.join([right2, another])

Unnamed: 0,ohio,nevada,misster,Alama,NewYork,Oregon
a,1,2,,,7.0,8.0
c,3,4,9.0,10.0,9.1,
e,5,6,13.0,14.0,11.0,12.0


In [11]:
#  接下来的重要操作是 过滤、清理以及其他的转换工作
data = DataFrame({'k1':['one'] * 3 + ['two']*4,
                  'k2':[1,1,2,3,3,4,4]})
data

Unnamed: 0,k1,k2
0,one,1
1,one,1
2,one,2
3,two,3
4,two,3
5,two,4
6,two,4


In [12]:
# DataFrame的duplicated方法返回一个布尔型Series，表示各行是否是重复行
data.duplicated()

0    False
1     True
2    False
3    False
4     True
5    False
6     True
dtype: bool

In [13]:
# drop_duplicates方法， 用于返回一个移除了重复行的DataFrame
data.drop_duplicates()

Unnamed: 0,k1,k2
0,one,1
2,one,2
3,two,3
5,two,4


In [14]:
# 这两个方法默认会判断全部列，也可以指定部分列进行重复项判断
data['v1'] = range(7)
data.drop_duplicates(['k1'])

Unnamed: 0,k1,k2,v1
0,one,1,0
3,two,3,3


In [15]:
# 这两个方法默认保留的是重复值中第一个出现的值的组合，传入take_last=True（已过时）
# 则保留最后一个,用keep='last'

data.drop_duplicates(['k1', 'k2'], keep='last')

Unnamed: 0,k1,k2,v1
1,one,1,1
2,one,2,2
4,two,3,4
6,two,4,6


In [16]:
# 利用函数或映射进行数据转换
data = DataFrame({'food':['bacon','pulled pork','bacon','Pastrami',
            'corned beef','Bacon','pastrami','honey ham','nova lox'],
                  'ounces':[4,3,12,6,7.5,8,3,5,6]})
data

Unnamed: 0,food,ounces
0,bacon,4.0
1,pulled pork,3.0
2,bacon,12.0
3,Pastrami,6.0
4,corned beef,7.5
5,Bacon,8.0
6,pastrami,3.0
7,honey ham,5.0
8,nova lox,6.0


In [17]:
# 假设要添加一列表示肉类食物来源的动物类型，先编写一个肉类到动物的映射
meat_to_animal = {
    'bacon':'pig',
    'pulled pork':'pig',
    'pastrami':'cow',
    'corned beef':'cow',
    'honey ham':'pig',
    'nova lox':'salmon' 
}

# Series的map方法可以接受一个函数或含有映射关系的字典型对象，有些肉类的首字母大写了，
# 因此还需要将各个值转换为小写
data['animal'] = data['food'].map(str.lower).map(meat_to_animal)
data

Unnamed: 0,food,ounces,animal
0,bacon,4.0,pig
1,pulled pork,3.0,pig
2,bacon,12.0,pig
3,Pastrami,6.0,cow
4,corned beef,7.5,cow
5,Bacon,8.0,pig
6,pastrami,3.0,cow
7,honey ham,5.0,pig
8,nova lox,6.0,salmon


In [18]:
# 也可以传入一个能够完成全部这些工作的函数
data['animal'] = data['food'].map(lambda x: meat_to_animal[x.lower()])
data

# 使用map是一种实现元素级转换以及其他数据清理工作的便捷方式

Unnamed: 0,food,ounces,animal
0,bacon,4.0,pig
1,pulled pork,3.0,pig
2,bacon,12.0,pig
3,Pastrami,6.0,cow
4,corned beef,7.5,cow
5,Bacon,8.0,pig
6,pastrami,3.0,cow
7,honey ham,5.0,pig
8,nova lox,6.0,salmon


In [19]:
# 替换值
data = Series([1,-999,2,-999,-1000,3])
data

0       1
1    -999
2       2
3    -999
4   -1000
5       3
dtype: int64

In [20]:
# -999这个值可能是一个表示缺失数据的标记值。将其替换为pandas能够理解的NA值
data.replace(-999, np.nan)

0       1.0
1       NaN
2       2.0
3       NaN
4   -1000.0
5       3.0
dtype: float64

In [21]:
# 一次性替换多个值
data.replace([-999,-1000], np.nan)

0    1.0
1    NaN
2    2.0
3    NaN
4    NaN
5    3.0
dtype: float64

In [22]:
# 对不同的值进行不同的替换
data.replace([-999, -1000], [np.nan, 0])

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64

In [23]:
# 传入的参数也可以是字典
data.replace({-999: np.nan, -1000:22})

0     1.0
1     NaN
2     2.0
3     NaN
4    22.0
5     3.0
dtype: float64

In [24]:
# 重命名轴索引
# 跟Series一样，轴标签也有一个map方法
data = DataFrame(np.arange(12).reshape((3,4)), 
                index = ['ohio', 'colorado', 'new york'],
                columns = ['one', 'two', 'three', 'four'])
data.index = data.index.map(str.upper)
data

Unnamed: 0,one,two,three,four
OHIO,0,1,2,3
COLORADO,4,5,6,7
NEW YORK,8,9,10,11


In [25]:
# Python title() 方法返回"标题化"的字符串,就是说所有单词都是以大写开始，其余字母均为小写
data.rename(index=str.title, columns = str.upper)

Unnamed: 0,ONE,TWO,THREE,FOUR
Ohio,0,1,2,3
Colorado,4,5,6,7
New York,8,9,10,11


In [28]:
# 用特定于分组的值填充缺失值
s = Series(np.random.randn(6))
s[::2] = np.nan
s

0         NaN
1    0.265459
2         NaN
3    0.256481
4         NaN
5    0.106694
dtype: float64

In [29]:
s.fillna(s.mean())

0    0.209545
1    0.265459
2    0.209545
3    0.256481
4    0.209545
5    0.106694
dtype: float64