In [None]:
import pandas as pd
import numpy as np
obj	=	pd.Series([4.5,	7.2,	-5.3,	3.6],	index=['d',	'b', 'a', 'c'])
obj

Unnamed: 0,0
d,4.5
b,7.2
a,-5.3
c,3.6


In [None]:
# ⽤该Series的reindex将会根据新索引进⾏重排。如果某个索引值
# 当前不存在，就引⼊缺失值：
import pandas as pd
import numpy as np
obj	=	pd.Series([4.5,	7.2,	-5.3,	3.6],	index=['d',	'b', 'a', 'c'])
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2


Unnamed: 0,0
a,-5.3
b,7.2
c,3.6
d,4.5
e,


In [None]:
obj3	=	pd.Series(['blue',	'purple',	'yellow'], index=[0,2,4])
obj3
# 对于时间序列这样的有序数据，重新索引时可能需要做⼀些插值处理。method选项即可达到此⽬的，例如，使⽤ffill可以实现前向值填充

obj3.reindex(range(6),method='ffill')

Unnamed: 0,0
0,blue
1,blue
2,purple
3,purple
4,yellow
5,yellow


In [None]:
# 借助DataFrame，reindex可以修改（⾏）索引和列。只传递⼀个序列时，会重新索引结果的⾏：
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=['a', 'c', 'd'],
                     columns=['Ohio', 'Texas', 'California'])
frame
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [None]:
# 丢弃某条轴上的⼀个或多个项很简单，只要有⼀个索引数组或列表即可。
# 由于需要执⾏⼀些数据整理和集合逻辑，所以drop⽅法返回的是⼀个在指定轴上删除了指定值的新对象：

obj=pd.Series(np.arange(5.),index=['a','b','c','d','e'])
obj

newObj=obj.drop('c')
newObj
obj.drop(['d','c'])

Unnamed: 0,0
a,0.0
b,1.0
e,4.0


In [None]:
# 对于DataFrame，可以删除任意轴上的索引值。
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data


Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
# ⽤标签序列调⽤drop会从⾏标签（axis 0）删除值：
data.drop(['Colorado','Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
# 通过传递axis=1或axis='columns'可以删除列的值：
data.drop('two',axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [None]:
data.drop(['two','four'],axis='columns')

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


In [None]:
# 许多函数，如drop，会修改Series或DataFrame的⼤⼩或形状，
# inplace=True 可以就地修改对象，不会返回新的对象：
obj.drop('c', inplace=True)
obj
# ⼩⼼使⽤inplace，它会销毁所有被删除的数据。

Unnamed: 0,0
a,0.0
b,1.0
d,3.0
e,4.0


In [None]:
# Series索引（obj[...]）的⼯作⽅式类似于NumPy数组的索引，只
# 不过Series的索引值不只是整数。下⾯是⼏个例⼦
# obj['b']
# obj[1]
# obj[2:4]
# obj[['b','a','d']]
# obj[[1,3]]
obj[obj < 2]

Unnamed: 0,0
a,0.0
b,1.0


In [None]:
# 利⽤标签的切⽚运算与普通的Python切⽚运算不同，其末端是包含的：
obj['b':'e']

Unnamed: 0,0
b,1.0
d,3.0
e,4.0


In [None]:
obj['c']=2.0
obj=obj.reindex(['a','b','c','d','e'])
obj['d']=3.0
obj['e']=4.0

In [None]:
# ⽤切⽚可以对Series的相应部分进⾏设置
obj['b':'c']=5
obj

Unnamed: 0,0
a,0.0
b,5.0
c,5.0
d,3.0
e,4.0


In [None]:
# ⽤⼀个值或序列对DataFrame进⾏索引其实就是获取⼀个或多个列：
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data['two']

Unnamed: 0,two
Ohio,1
Colorado,5
Utah,9
New York,13


In [None]:
# 这种索引⽅式有⼏个特殊的情况。⾸先通过切⽚或布尔型数组选取数据：
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [None]:
data[data['three']>5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
# 另⼀种⽤法是通过布尔型DataFrame（⽐如下⾯这个由标量⽐较运算得出的）进⾏索引：
data <5
# 这使得DataFrame的语法与NumPy⼆维数组的语法很像

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [None]:
# Dataframe 的 loc
data.loc['Colorado',['two','three']]

Unnamed: 0,Colorado
two,5
three,6


In [None]:
# iloc
data.iloc[2 ,[3,0,1]]

Unnamed: 0,Utah
four,11
one,8
two,9


In [None]:
data.iloc[[1,	2],	[3,	0,	1]]

Unnamed: 0,four,one,two
Colorado,7,4,5
Utah,11,8,9


In [None]:
# 这两个索引函数也适⽤于⼀个标签或多个标签的切⽚
data.loc[:'Utah','two']

Unnamed: 0,two
Ohio,1
Colorado,5
Utah,9


In [None]:
data.iloc[:,:3][data.three > 5]

Unnamed: 0,one,two,three
Colorado,4,5,6
Utah,8,9,10
New York,12,13,14


In [None]:
# 为了进⾏统⼀，如果轴索引含有整数，数据选取总会使⽤标签。
# 为了更准确，请使⽤loc（标签）或iloc（整数）
ser = pd.Series(np.arange(3.))
ser.loc[:1]

Unnamed: 0,0
0,0.0
1,1.0


In [None]:
ser.iloc[:1]

Unnamed: 0,0
0,0.0


In [None]:
# 算术运算和数据对⻬
# pandas最重要的⼀个功能是，它可以对不同索引的对象进⾏算术运算。
# 在将对象相加时，如果存在不同的索引对，则结果的索引就是该索引对的并集。
# 对于有数据库经验的⽤户，这就像在索引标签上进⾏⾃动外连接。看⼀个简单的例⼦：
s1=pd.Series([7.3,-2.5,3.4,1.5],index=['a','c','d','e'])
s2=pd.Series([-2.1,3.6,-1.5,4,3.1],index=['a','c','e','f','g'])

s1+s2


Unnamed: 0,0
a,5.2
c,1.1
d,
e,0.0
f,
g,


In [None]:
# 对于DataFrame，对⻬操作会同时发⽣在⾏和列上：
df1=pd.DataFrame(np.arange(9.).reshape((3,3)),columns=list('bcd'),index=['Ohio','Texas','Colorado'])
df2=pd.DataFrame(np.arange(12.).reshape((4,3)),columns=list('bde'),index=['Utah','Ohio','Texas','Oregon'])

In [None]:
# 把它们相加后将会返回⼀个新的DataFrame，其索引和列为原来那两个DataFrame的并集：
df1+df2


Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


In [None]:
# 在算术⽅法中填充值
# 在对不同索引的对象进⾏算术运算时，你可能希望当⼀个对象中某个轴标签在另⼀个对象中找不到时填充⼀个特殊值（⽐如0）：
df1=pd.DataFrame(np.arange(12.).reshape((3,4)),columns=list('abcd'))
df2=pd.DataFrame(np.arange(20.).reshape((4,5)),columns=list('abcde'))
df2.loc[1,'b']=np.nan
# 使⽤df1的add⽅法，传⼊df2以及⼀个fill_value参数
df1.add(df2,fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


add,radd 用于加法+
sub,rsub 用于减法-
div,rdiv 用于除法/
floordiv,rfloordiv 用于//
mul,rmul 用于乘法*
pow,rpow 用于指数**

In [None]:
# 与此类似，在对Series或DataFrame重新索引时，也可以指定⼀个填充值：
df1.reindex(columns=df2.columns,	fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


In [None]:
# DataFrame和Series之间的运算
# 跟不同维度的NumPy数组⼀样，DataFrame和Series之间算术运算也是有明确规定的。
# 先来看⼀个具有启发性的例⼦，计算⼀个⼆维数组与其某⾏之间的差：
arr=np.arange(12.).reshape((3,4))
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [None]:
arr[0]

array([0., 1., 2., 3.])

In [None]:
arr-arr[0]
# 当我们从arr减去arr[0]，每⼀⾏都会执⾏这个操作。这就叫做⼴（broadcasting）

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

In [None]:
# 如果某个索引值在DataFrame的列或Series的索引中找不到，则参与运算的两个对象就会被重新索引以形成并集：
series2 = pd.Series(range(3), index=['b', 'e', 'f'])
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                     columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame+series2
# 如果你希望匹配⾏且在列上⼴播，则必须使⽤算术运算⽅法 sub

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,
