In [60]:
import numpy as np
import pandas as pd
from pandas import Series,DataFrame

+ 要使⽤pandas，你⾸先就得熟悉它的两个主要数据结构：
+ Series
和DataFrame。
+ 虽然它们并不能解决所有问题，但它们为⼤多数
应⽤提供了⼀种可靠的、易于使⽤的基础。


+ Series
+ Series是⼀种类似于⼀维数组的对象，它由⼀组数据（各种NumPy数据类型）以及⼀组与之相关的数据标签（即索引）组
成。
+ 仅由⼀组数据即可产⽣最简单的Series：

In [61]:
obj = pd.Series([4,7,-5,3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

+ Series的字符串表现形式为：索引在左边，值在右边。
+ 由于我们
没有为数据指定索引，于是会⾃动创建⼀个0到N-1（N为数据的
⻓度）的整数型索引。
+ 你可以通过Series 的values和index属性
获取其数组表示形式和索引对象：

In [62]:
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [63]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [64]:
# 通常，我们希望所创建的Series带有⼀个可以对各个数据点进⾏标记的索引：
obj2 = pd.Series([4,7,-5,3],index=['d','b','a','c'])
obj2


d    4
b    7
a   -5
c    3
dtype: int64

In [65]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [66]:
# 与普通NumPy数组相⽐，你可以通过索引的⽅式访问或修改Series中的单个或⼀组值：
obj2['a']

-5

In [67]:
obj2['d'] = 6

In [68]:
obj2[['c','a','d']]

c    3
a   -5
d    6
dtype: int64

In [69]:
# 使⽤NumPy函数或类似NumPy的运算（如根据布尔型数组进⾏过滤、标量乘法、应⽤数学函数等）都会保留索引值的链接：
obj2[obj2>0]


d    6
b    7
c    3
dtype: int64

In [70]:
obj2 * 2

d    12
b    14
a   -10
c     6
dtype: int64

In [71]:
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

In [72]:
# 还可以将Series看成是⼀个定⻓的有序字典，因为它是索引值到数据值的⼀个映射。它可以⽤在许多原本需要字典参数的函数中：
'b' in obj2


True

In [73]:
'e' in obj2

False

In [74]:
# 如果数据被存放在⼀个Python字典中，也可以直接通过这个字典来创建Series
# 如果只传⼊⼀个字典，则结果Series中的索引就是原字典的键（有序排列）。你可以传⼊排好序的字典的键以改变顺序：
sdata = {'Ohio':35000,'Oregon':16000,'Texas':71000,'Utah':5000}

In [75]:
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

In [76]:
# 如果只传⼊⼀个字典，则结果Series中的索引就是原字典的键（有序排列）。你可以传⼊排好序的字典的键以改变顺序：
states = ['California','Ohio','Oregon','Texas']
obj4 = pd.Series(sdata,states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [77]:
# 我将使⽤缺失（missing）或NA表示缺失数据。
# pandas的isnull和notnull函数可⽤于检测缺失数据：
pd.isnull(obj4)


California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [78]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [79]:
# Series也有类似的实例⽅法：
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [80]:
obj4.notnull()

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [81]:
# Series最重要的⼀个功能是，它会根据运算的索引标签⾃动对⻬数据：
obj3

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

In [82]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [83]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

In [84]:
# Series对象本身及其索引都有⼀个name属性，该属性跟pandas其他的关键功能关系⾮常密切：
obj4.name = 'population'
obj4.index.name = 'state'

In [85]:
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [86]:
# Series的索引可以通过赋值的⽅式就地修改：
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [87]:
obj.index = ['Bob','Steve','Jeff','Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

+ DataFrame
+ DataFrame是⼀个表格型的数据结构，它含有⼀组有序的列，每
列可以是不同的值类型（数值、字符串、布尔值等）。
+ DataFrame既有⾏索引也有列索引，它可以被看做由Series组成
的字典（共⽤同⼀个索引）。
+ DataFrame中的数据是以⼀个或多
个⼆维块存放的（⽽不是列表、字典或别的⼀维数据结构）。
+ 有
关DataFrame内部的技术细节远远超出了本书所讨论的范围。

In [88]:
# 建DataFrame的办法有很多，最常⽤的⼀种是直接传⼊⼀个由等⻓列表或NumPy数组组成的字典：
# 结果DataFrame会⾃动加上索引（跟Series⼀样），且全部列会被有序排列：
# 如果你使⽤的是Jupyter notebook，pandas DataFrame对象会以对浏览器友好的HTML表格的⽅式呈现。
# 对于特别⼤的DataFrame，head⽅法会选取前五⾏：
data = {'state':['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada']
       , 'year':[2000, 2001, 2002, 2001, 2002, 2003]
       , 'pop':[1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}


In [89]:
frame = pd.DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [90]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [91]:
# 如果指定了列序列，则DataFrame的列就会按照指定顺序进⾏排列：
pd.DataFrame(data,columns=['year','state','pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [92]:
# 如果传⼊的列在数据中找不到，就会在结果中产⽣缺失值：
frame2 = pd.DataFrame(data,columns=['year','state','pop','debt']
                          ,index=['one','two','three','four','five','six'])

frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [93]:
# 通过类似字典标记的⽅式或属性的⽅式，可以将DataFrame的列获取为⼀个Series：
# frame2[column]适⽤于任何列的名，
# 但是frame2.column只有在列名是⼀个合理的Python变量名时才适⽤。

frame2['state']
# frame2.state

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [94]:
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

In [95]:
# ⾏也可以通过位置或名称的⽅式进⾏获取，⽐如⽤loc属性（稍后将对此进⾏详细讲解）：
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [96]:
# 列可以通过赋值的⽅式进⾏修改。例如，我们可以给那个空的"debt"列赋上⼀个标量值或⼀组值：
frame2['debt'] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


In [97]:
frame2['debt'] = np.arange(6.)
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


In [98]:
val = pd.Series([-1.2,-1.5,-1.7],index=['one','four','five'])
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,-1.2
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


In [99]:
# 为不存在的列赋值会创建出⼀个新列。关键字del⽤于删除列。
# 作为del的例⼦，我先添加⼀个新的布尔值的列，state是否为'Ohio'：
# 注意：不能⽤frame2.eastern创建新的列。
frame2['eastern'] = frame2.state == 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,-1.2,True
two,2001,Ohio,1.7,,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


In [100]:
# del⽅法可以⽤来删除这列：
del frame2['eastern']
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,-1.2
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


In [101]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [102]:
# 注意：通过索引⽅式返回的列只是相应数据的视图⽽已，并不是副本。
# 因此，对返回的Series所做的任何就地修改全都会反映到源DataFrame上。
# 通过Series的copy⽅法即可指定复制列。

In [103]:
# 另⼀种常⻅的数据形式是嵌套字典：
# 如果嵌套字典传给DataFrame，pandas就会被解释为：外层字典的键作为列，内层键则作为⾏索引：
# 你也可以使⽤类似NumPy数组的⽅法，对DataFrame进⾏转置（交换⾏和列）：

+ 索引对象
+ pandas的索引对象负责管理轴标签和其他元数据（⽐如轴名称
等）。
+ 构建Series或DataFrame时，所⽤到的任何数组或其他序
列的标签都会被转换成⼀个Index：

In [104]:
obj = pd.Series(range(3), index = ['a','b','c'])
obj

a    0
b    1
c    2
dtype: int64

In [105]:
index = obj.index
index


Index(['a', 'b', 'c'], dtype='object')

In [106]:
index[1:]

Index(['b', 'c'], dtype='object')

In [107]:
# Index对象是不可变的，因此⽤户不能对其进⾏修改：
# index[1]	=	'd'		#	TypeError

In [108]:
# 不可变可以使Index对象在多个数据结构之间安全共享
labels = pd.Index(np.arange(3))
labels

Int64Index([0, 1, 2], dtype='int64')

In [109]:
obj2 = pd.Series([1.5,-2.5,0],index=labels)
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

In [110]:
obj2.index is labels

True

In [111]:
# 与python的集合不同，pandas的Index可以包含重复的标签：


In [112]:
# pandas对象的⼀个重要⽅法是reindex，其作⽤是创建⼀个新对象，它的数据符合新的索引。看下⾯的例⼦：
obj = pd.Series([4.5,7.2,-5.3,3.6],index=['d','b','a','c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [113]:
# ⽤该Series的reindex将会根据新索引进⾏重排。如果某个索引值当前不存在，就引⼊缺失值：
obj2 = obj.reindex(['a','b','c','d','e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [114]:
# 对于时间序列这样的有序数据，重新索引时可能需要做⼀些插值处理。
# method选项即可达到此⽬的，例如，使⽤ffill可以实现前向值填充：
obj3 = pd.Series(['blue','purple','yellow'],index=[0,2,4])
obj3


0      blue
2    purple
4    yellow
dtype: object

In [115]:
obj3.reindex(range(6),method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

+ DataFrame和Series之间的运算
+ 跟不同维度的NumPy数组⼀样，DataFrame和Series之间算术运
算也是有明确规定的。
+ 先来看⼀个具有启发性的例⼦，计算⼀个
⼆维数组与其某⾏之间的差：

In [116]:
arr	=np.arange(12.).reshape((3,	4))
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [117]:
arr[0]

array([0., 1., 2., 3.])

In [118]:
arr-arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

+ 当我们从arr减去arr[0]，每⼀⾏都会执⾏这个操作。
+ 这就叫做⼴
播（broadcasting），附录A将对此进⾏详细讲解。
+ DataFrame
和Series之间的运算差不多也是如此：
