# Pandas入门

一个能够使得数据分析工作变得更加简单高效的包含高级数据结构以及处理工具的库，基于NumPy构建，更加接近解决业务问题；

In [1]:
from pandas import Series, DataFrame
import pandas as pd

## Pandas的数据结构

主要数据结构，为解决数据分析问题提供基础：
* Series
* DataFrame

### Series

Series类似于一维数组（跟字典也有点像），它由一组数据以及对应该组数据的索引组成（默认就是角标）；

#### 创建 

In [4]:
se = Series([1, 3, 5, 2, 6]) # 默认索引
se # 左侧是默认索引，角标index，右侧是对应的数组数据values

0    1
1    3
2    5
3    2
4    6
dtype: int64

In [5]:
se = Series([68, 44, 75], index=['HoLoong', 'Kael', 'Nemo']) # 指定的有意义的索引
se

HoLoong    68
Kael       44
Nemo       75
dtype: int64

In [26]:
Series({'A':11, 'C':33, 'B':22}) # 不使用index参数的字典构造（会自动按照key排序）

A    11
B    22
C    33
dtype: int64

In [25]:
Series({'A':11, 'C':33, 'B':22}, index=['A', 'B', 'C']) # 使用相同的key的index参数的字典构造

A    11
B    22
C    33
dtype: int64

In [29]:
Series({'A':11, 'C':33, 'B':22}, index=['D', 'B', 'C']) # 使用不同的key的index参数的字典构造，缺失的index值对应value为NaN

D     NaN
B    22.0
C    33.0
dtype: float64

#### 对比NumPy数组具有特殊索引

In [12]:
# 角标索引是默认的，使用特殊索引需要设置
print se[0]
print se['Nemo']
print se[['HoLoong', 'Kael']] # 可以通过传入[]来获取多个元素

68
75
HoLoong    68
Kael       44
dtype: int64


#### 数组运算会保留索引

In [13]:
se + 10

HoLoong    78
Kael       54
Nemo       85
dtype: int64

#### 看做定长字典

In [23]:
print se
print 'Kael' in se # key in dataset
print 'Murphy' in se

HoLoong    68
Kael       44
Nemo       75
dtype: int64
True
False


#### 算术运算中会自动对齐不同索引的数据（后续会细讲）

In [30]:
se1 = Series({'Nemo':56,'HoLoong':35,'Kael':44})
se2 = Series({'Nemo':25,'HeLong':32,'Kael':18})
se1 + se2

HeLong      NaN
HoLoong     NaN
Kael       62.0
Nemo       81.0
dtype: float64

#### Series以及其index属性都有一个name属性

In [34]:
se.name = '分数表'
se.index.name = '学员姓名'
se

学员姓名
HoLoong    68
Kael       44
Nemo       75
Name: 分数表, dtype: int64

#### Series的索引可以通过赋值的方式就地修改

In [36]:
se.index = ['HL', 'KL', 'NM']
se.index.name = '学员姓名缩写'
se

学员姓名缩写
HL    68
KL    44
NM    75
Name: 分数表, dtype: int64

### DataFrame