# Pandas入门

一个能够使得数据分析工作变得更加简单高效的包含高级数据结构以及处理工具的库，基于NumPy构建，更加接近解决业务问题；

In [1]:
from pandas import Series, DataFrame
import pandas as pd

## Pandas的数据结构

主要数据结构，为解决数据分析问题提供基础：
* Series
* DataFrame

### Series

Series类似于一维数组（跟字典也有点像），它由一组数据以及对应该组数据的索引组成（默认就是角标）；

#### 创建 

In [4]:
se = Series([1, 3, 5, 2, 6]) # 默认索引
se # 左侧是默认索引，角标index，右侧是对应的数组数据values

0    1
1    3
2    5
3    2
4    6
dtype: int64

In [5]:
se = Series([68, 44, 75], index=['HoLoong', 'Kael', 'Nemo']) # 指定的有意义的索引
se

HoLoong    68
Kael       44
Nemo       75
dtype: int64

In [26]:
Series({'A':11, 'C':33, 'B':22}) # 不使用index参数的字典构造（会自动按照key排序）

A    11
B    22
C    33
dtype: int64

In [25]:
Series({'A':11, 'C':33, 'B':22}, index=['A', 'B', 'C']) # 使用相同的key的index参数的字典构造

A    11
B    22
C    33
dtype: int64

In [29]:
Series({'A':11, 'C':33, 'B':22}, index=['D', 'B', 'C']) # 使用不同的key的index参数的字典构造，缺失的index值对应value为NaN

D     NaN
B    22.0
C    33.0
dtype: float64

#### 对比NumPy数组具有特殊索引

In [12]:
# 角标索引是默认的，使用特殊索引需要设置
print se[0]
print se['Nemo']
print se[['HoLoong', 'Kael']] # 可以通过传入[]来获取多个元素

68
75
HoLoong    68
Kael       44
dtype: int64


#### 数组运算会保留索引

In [13]:
se + 10

HoLoong    78
Kael       54
Nemo       85
dtype: int64

#### 看做定长字典

In [23]:
print se
print 'Kael' in se # key in dataset
print 'Murphy' in se

HoLoong    68
Kael       44
Nemo       75
dtype: int64
True
False


#### 算术运算中会自动对齐不同索引的数据（后续会细讲）

In [30]:
se1 = Series({'Nemo':56,'HoLoong':35,'Kael':44})
se2 = Series({'Nemo':25,'HeLong':32,'Kael':18})
se1 + se2

HeLong      NaN
HoLoong     NaN
Kael       62.0
Nemo       81.0
dtype: float64

#### Series以及其index属性都有一个name属性

In [34]:
se.name = '分数表'
se.index.name = '学员姓名'
se

学员姓名
HoLoong    68
Kael       44
Nemo       75
Name: 分数表, dtype: int64

#### Series的索引可以通过赋值的方式就地修改

In [36]:
se.index = ['HL', 'KL', 'NM']
se.index.name = '学员姓名缩写'
se

学员姓名缩写
HL    68
KL    44
NM    75
Name: 分数表, dtype: int64

### DataFrame

DataFrame是一个**表格型**的数据结构,它含有一组有序的列,每列可以是**不同**的值类型(数值、字符串、布尔值等)，DataFrame既有**行索引**也有**列索引**,它可以被看做由Series组成的字典(共用同一个索引)，跟其他类似的数据结构相比(如R的data.frame),DataFrame中面向行和面向列的操作基本上是**平衡**的，其实,DataFrame中的数据是以一个或多个**二维块**存放的(而不是列表、字典或别的一维数据结构)；

#### 创建

In [37]:
data = {
    'age':[18, 20, 19],
    'score':[68, 70, 56]
} # 这个是一列一列的来表示的
df = DataFrame(data) # 默认索引
df

Unnamed: 0,age,score
0,18,68
1,20,70
2,19,56


In [61]:
# 字典的字典，相当于同时指定了index和columns，外层字典key作为列，内层字典key作为行
data = {
    'age':{'HL':23,'NM':43},
    'score':{'HL':77,'NM':66}
} # 这个是一列一列的来表示的
df = DataFrame(data) # 默认索引
print df
print df.T # 转置过来

    age  score
HL   23     77
NM   43     66
       HL  NM
age    23  43
score  77  66


In [40]:
df = DataFrame(data, index=['Nemo', 'HoLoong', 'Kael']) # 指定索引，也就是行的名称
df

Unnamed: 0,age,score
Nemo,18,68
HoLoong,20,70
Kael,19,56


In [43]:
df = DataFrame(data, index=['Nemo', 'HoLoong', 'Kael'], columns=['score', 'age', 'state']) # 指定列的顺序，没有的置NaN
df

Unnamed: 0,score,age,state
Nemo,68,18,
HoLoong,70,20,
Kael,56,19,


#### 行列的访问以及写入

In [45]:
df['age'] # 通过column访问列，得到一个具有索引和name的Series

Nemo       18
HoLoong    20
Kael       19
Name: age, dtype: int64

In [46]:
df.score # 同上效果

Nemo       68
HoLoong    70
Kael       56
Name: score, dtype: int64

In [49]:
df.ix['Nemo'] # 访问行需要通过ix属性

score     68
age       18
state    NaN
Name: Nemo, dtype: object

In [52]:
df.state = 'Unknown' # 写入列，使用标量
df

Unnamed: 0,score,age,state
Nemo,68,18,Unknown
HoLoong,70,20,Unknown
Kael,56,19,Unknown


In [54]:
df.state = ['Ohio', 'DC', 'NewYork'] # 长度需要跟df行数一致，否则报错
df

Unnamed: 0,score,age,state
Nemo,68,18,Ohio
HoLoong,70,20,DC
Kael,56,19,NewYork


In [57]:
df.state = Series({'Kael':'Beijing', 'Nemo':'Nanjing'}) # 缺少的那些索引对应的位置都会被设置为NaN，即使之前是有值的
df

Unnamed: 0,score,age,state
Nemo,68,18,Nanjing
HoLoong,70,20,
Kael,56,19,Beijing


**警告**: 通过索引方式返回的列只是相应数据的视图而已,并**不是副本**，因此,对返回的Series所做的任何就地修改全都会反映到源DataFrame上，通过Series的**copy**方法即可显式地复制列；

#### DataFrame接受的各种数据

* 二维ndarray：数据矩阵，可以传入行标列标；
* 由数组、列表或元组组成的字典：每个序列作为DataFrame的一列，长度必须相等；
* NumPy的结构化/记录数组：类似于数组组成的字典；
* 由Series组成的字典：每个Series作为一列，如果没有指定索引，则由多个Series合并索引（并集）；
* 由字典组成的字典：内层每个字典作为一列，索引情况同上；
* 字典或Series的列表：各项会作为DataFrame的一行，字典key和Series索引会作为列标；
* 由列表或元组组成的列表：类似二维ndarray；
* 另一个DataFrame：除非显示指定索引，否则基本一致；
* NumPy的MaskedArray：类似二维ndarray，只是掩码值在结果DataFrame中表示为NA/缺失值；

#### 索引对象 Index

pandas的索引对象负责管理**轴标签**和其他**元数据**(比如轴名称等)，构建Series或DataFrame时，所用到的任何**数组**或其他**序列**的**标签**都会被转换成一个**Index**；
> 不可修改性（Immutable）：使得Index可以在多个数据结构中安全传递；

Pandas内置的Index类：
* Index：最泛化的Index类，将轴标签表示为一个由Python对象组成的NumPy数组；
* Int64Index：针对整数的特殊Index；
* MultiIndex：“层次化”索引对象，表示单个轴上的多层索引，可以看做是由元组组成的数组；
* DatetimeIndex：存储纳秒级时间戳（由NumPy的datetime64类型表示）；
* PeriodIndex：针对Period数据（时间间隔）的特殊Index；

索引方法和属性：
* append：连接另一个Index，并返回一个新的Index对象；
* diff：计算差集，返回Index对象；
* intersection：计算交集；
* union：计算并集；
* isin：得到一个各个值是否都在参数集中中的布尔型数组；
* delete：删除索引i处的元素，返回Index对象；
* drop：删除传入的值对应的元素，返回Index对象；
* insert：元素插入到i处，返回Index对象；
* is_monotonic：各元素均大于前一个元素（即元素是递增的）时，返回True；
* is_unique：没有重复元素时，返回True；
* unique：计算Index中唯一值的数组；

## 基本功能 