# Pandas

In [19]:
import pandas as pd
import numpy as np

尽管pandas采用了很多NumPy的代码风格，但最大
的不同在于pandas是用来处理表格型或异质型数据的。
而NumPy则相反，它更适合处理同质型的数值类数组
数据。
两个常用的工具数据
结构：Series和DataFrame。

## Series

Series是一种一维的数组型对象，它包含了一个值
序列（与NumPy中的类型相似），并且包含了数据标
签，称为索引（index）。最简单的序列可以仅仅由一
个数组形成

In [4]:
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [8]:
# 通过values属性和index属性分别获得Series对象的值和索引
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [10]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [15]:
# 用标签标识每个数据
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a','e'])
print(obj2)

# 使用标签来索引
obj2['a']

d    4
b    7
a   -5
e    3
dtype: int64


-5

In [16]:
# 用布尔值数组过滤
obj2[obj2 > 0]

d    4
b    7
e    3
dtype: int64

In [17]:
# 与标量相乘
obj2 * 2

d     8
b    14
a   -10
e     6
dtype: int64

In [20]:
# 应用数学函数
np.exp(obj2)


d      54.598150
b    1096.633158
a       0.006738
e      20.085537
dtype: float64

另一个角度考虑Series，可以认为它是一个长度
固定且有序的字典，因为它将索引值和数据值按位置配
对。在你可能会使用字典的上下文中，也可以使用Series

In [22]:
"b" in obj2

True

In [23]:
"e" in obj2

True

In [26]:
# 已经有数据包含在Python字典中，可使用字典生成Series
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 1600}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon     1600
dtype: int64

In [27]:
# index 传参 从而使生成的Series的索引顺序符合你的预期
new_index = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index = new_index)
obj4

California        NaN
Ohio          35000.0
Oregon         1600.0
Texas         71000.0
dtype: float64

In [28]:
# pandas中使用isnull和notnull函数来检查缺失数据
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [29]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [30]:
# isnull和notnull也是Series的实例方法
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [31]:
# 数据对齐特性与数据库的join操作是非常相似
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon          3200.0
Texas         142000.0
dtype: float64

In [35]:
# Series对象自身和其索引都有name属性，
# 这个特性与pandas其他重要功能集成在一起

obj4.name = 'population'
obj4.index.name = 'state'

In [36]:
obj4

state
California        NaN
Ohio          35000.0
Oregon         1600.0
Texas         71000.0
Name: population, dtype: float64

In [40]:
# Series的索引可以通过按位置赋值的方式进行改变
obj
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64