# CHAPTER 5 Getting Started with pandas
## 5.1 Introduction to pandas Data Structures
数据结构其实就是Series和DataFrame。

## 1 Series
这里series我就不翻译成序列了，因为之前的所有笔记里，我都是把sequence翻译成序列的。

series是一个像数组一样的一维序列，并伴有一个数组表示label，叫做index。创建一个series的方法也很简单：

In [9]:
import pandas as pd

In [10]:
from pandas import Series, DataFrame

In [11]:
obj = pd.Series([4,7,-5,3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [12]:
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [13]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [14]:
obj2 = pd.Series([4,7,-5,3], index=['d','b','a','c'])

In [15]:
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [16]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [17]:
obj2['a']

-5

In [18]:
obj2['c']

3

In [19]:
obj2['d']=6

In [20]:
obj2[['c','a','d']]

c    3
a   -5
d    6
dtype: int64

In [21]:
obj2[obj2>0]

d    6
b    7
c    3
dtype: int64

In [22]:
obj2*2

d    12
b    14
a   -10
c     6
dtype: int64

In [23]:
obj2*6

d    36
b    42
a   -30
c    18
dtype: int64

In [24]:
import numpy as np
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

NumPy（Numeric Python）提供了许多高级的数值编程工具，如：矩阵数据类型、矢量处理，以及精密的运算库。专为进行严格的数字处理而产生。

In [25]:
'b'in obj2

True

In [26]:
'o'in obj2

False

In [27]:
sdta = {'Ohio':35000,'Texas':71000,'Oregon':16000,'Utah':5000}

In [28]:
obj3 = pd.Series(sdta)
obj3

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

In [29]:
states=['California','Ohio','Oregon','Texas']

In [30]:
obj4 = pd.Series(sdta,index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [31]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

IsNull，计算机语言函数，意思是返回 Boolean 值，**指明表达式是否不包含任何有效数据 (Null)。**  所以，California是缺失值，所以是正确，是不包含任何有效数据。

In [32]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [33]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [34]:
obj3

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

In [35]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [36]:
obj3+obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

这个Data alignment features（数据对齐特色）和数据库中的join相似。

serice自身和它的index都有一个叫name的属性，这个能和其他pandas的函数进行整合：

In [37]:
obj4.name = 'population'

In [38]:
obj4.index.name = 'state'

In [39]:
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

series的index能被直接更改：

In [40]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [41]:
obj.index=['Bob','Jom','Jeff','Ryan']
obj

Bob     4
Jom     7
Jeff   -5
Ryan    3
dtype: int64

# 2 DataFrame
DataFrame表示一个长方形表格，并包含排好序的列，每一列都可以是不同的数值类型（数字，字符串，布尔值）。DataFrame有行索引和列索引（row index, column index）；可以看做是分享所有索引的由series组成的字典。数据是保存在一维以上的区块里的。

（其实我是把dataframe当做excel里的那种表格来用的，这样感觉更直观一些）

构建一个dataframe的方法，用一个dcit，dict里的值是list：

In [42]:
data = {'state':['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
       'year':[2000,2001,2002,2001,2002,2003],
       'pop':[1.5,1.7,3.6,2.4,2.9,3.2]}
frame = pd.DataFrame(data)
frame

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002
5,3.2,Nevada,2003


dataframe也会像series一样，自动给数据赋index, 而列则会按顺序排好。

对于一个较大的DataFrame，用head方法会返回前5行（注：这个函数在数据分析中经常使用，用来查看表格里有什么东西）：

In [43]:
frame.head()

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002


如果指定一列的话，会自动按列排序：

In [46]:
pd.DataFrame(data,columns=['year','state','pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


如果你导入一个不存在的列名，那么会显示为缺失数据：

In [49]:
frame2=pd.DataFrame(data,columns=['year','state','pop','debt'],
                    index=['one','two','three','four','five','six'])

In [50]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [51]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

从DataFrame里提取一列的话会返回series格式，可以以属性或是dict一样的形式来提取：

In [53]:
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [54]:
frame2['year']

one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

In [55]:
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

In [56]:
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

列值也能通过赋值改变。比如给debt赋值：

In [57]:
frame2['debt'] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


In [59]:
frame2['debt']= np.arange(6.)
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


如果把list或array赋给column的话，长度必须符合DataFrame的长度。如果把一二series赋给DataFrame，会按DataFrame的index来赋值，不够的地方用缺失数据来表示：

In [60]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two','four','five'])
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


如果列不存在，赋值会创建一个新列。而del也能像删除字典关键字一样，删除列：

In [61]:
frame2['eastern'] = frame2.state = 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,Ohio
two,2001,Ohio,1.7,-1.2,Ohio
three,2002,Ohio,3.6,,Ohio
four,2001,Ohio,2.4,-1.5,Ohio
five,2002,Ohio,2.9,-1.7,Ohio
six,2003,Ohio,3.2,,Ohio


然后用del删除这一列：

In [62]:
del frame2['eastern']

In [63]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

注意：columns返回的是一个view，而不是新建了一个copy。因此，任何对series的改变，会反映在DataFrame上。除非我们用copy方法来新建一个。

另一种常见的格式是dict中的dict：

In [64]:
pop = {'Nevada':{2001:2.4, 2002:2.9},
      'Ohio':{2000:1.5, 2001:1.7, 2002:3.6}}

把上面这种嵌套dcit传给DataFrame，pandas会把外层dcit的key当做列，内层key当做行索引：

In [65]:
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


另外DataFrame也可以向numpy数组一样做转置：

In [66]:
frame3.T

Unnamed: 0,2000,2001,2002
Nevada,,2.4,2.9
Ohio,1.5,1.7,3.6


指定index

In [67]:
pd.DataFrame(pop,index = [2001,2002,2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


series组成的dict：

In [68]:
pdata = {'Ohio':frame3['Ohio'][:-1],
        'Nevada':frame3['Nevada'][:2]}

其他一些可以传递给DataFrame的构造器：



如果DataFrame的index和column有自己的name属性，也会被显示：

In [69]:
frame3.index.name = 'year'; frame3.columns.name = 'stata'

In [70]:
frame3

stata,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


values属性会返回二维数组：

In [72]:
frame3.values

array([[ nan,  1.5],
       [ 2.4,  1.7],
       [ 2.9,  3.6]])

如果column有不同的类型，dtype会适应所有的列：

In [73]:
frame2.values

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Ohio', 2.4, -1.5],
       [2002, 'Ohio', 2.9, -1.7],
       [2003, 'Ohio', 3.2, nan]], dtype=object)

## 3 Index Objects (索引对象)
pandas的Index Objects (索引对象)负责保存axis labels和其他一些数据（比如axis name或names）。一个数组或其他一个序列标签，只要被用来做构建series或DataFrame，就会被自动转变为index：

In [74]:
obj = pd.Series(range(3),index=['a','b','c'])

In [75]:
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [78]:
index[1:]

Index(['b', 'c'], dtype='object')

In [79]:
index[2:]

Index(['c'], dtype='object')

index object是不可更改的：

In [80]:
index[1]='d'

TypeError: Index does not support mutable operations

正因为不可修改，所以data structure中分享index object是很安全的：

In [86]:
labels = pd.Index(np.arange(3))
labels

Int64Index([0, 1, 2], dtype='int64')

In [87]:
obj2 = pd.Series([1.5, -2.5, 0], index = labels)
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

In [88]:
obj2.index is labels

True

ndex除了想数组，还能像大小一定的set：

In [90]:
frame3

stata,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [91]:
frame3.columns

Index(['Nevada', 'Ohio'], dtype='object', name='stata')

In [92]:
2003 in frame3.columns

False

与python里的set不同，pandas的index可以有重复的labels：

In [93]:
dup_labels = pd.Index(['foo','foo','bar','bar'])
dup_labels

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

在这种重复的标签中选择的话，会选中所有相同的标签。

Index还有一些方法和属性：

