# Pandas

## 1. 数据结构

### 1.1 Series

Series是一种类似于一维数组的对象，它由一组数据（各种NumPy数据类型）以及一组与之相关的数据标签（即索引）组成。Series的字符串表现形式为：索引在左边，值在右边。

用数组生成Series：

In [8]:
import pandas as pd

print("用数组生成Series")
obj = pd.Series([4, 7, -5, 3])
print(obj)
print("\r\nSeries的值：")
print(obj.values)
print("\r\nSeries的索引：")
print(obj.index)

用数组生成Series
0    4
1    7
2   -5
3    3
dtype: int64

Series的值：
[ 4  7 -5  3]

Series的索引：
RangeIndex(start=0, stop=4, step=1)


指定Series的index：

In [16]:
print("指定Series的index")
obj2 = pd.Series([4, 7, -5, 3], index = ['d', 'b', 'a', 'c'])
print(obj2)
print("\r\nSeries的值：")
print(obj2.values)
print("\r\nSeries的索引：")
print(obj2.index)

print("\r\n替换index")
obj2.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
print(obj2)

指定Series的index
d    4
b    7
a   -5
c    3
dtype: int64

Series的值：
[ 4  7 -5  3]

Series的索引：
Index(['d', 'b', 'a', 'c'], dtype='object')

替换index
Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64


使用字典生成Series，以及Series相加：

In [61]:
print("使用字典生成Series")
obj3 = pd.Series({'Ohio':45000, 'Texas':71000, 'Oregon':16000, 'Utah':5000})
print(obj3)

print("\r\n使用字典生成Series，并额外指定index，不匹配部分为NaN")
obj4 = pd.Series({'Ohio':45000, 'Texas':71000, 'Oregon':16000, 'Utah':5000}, \
                 index=['California', 'Ohio', 'Oregon', 'Texas'])
print(obj4)

print("\r\nSeries相加，相同索引部分相加")
print(obj3 + obj4)

使用字典生成Series
Ohio      45000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

使用字典生成Series，并额外指定index，不匹配部分为NaN
California        NaN
Ohio          45000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

Series相加，相同索引部分相加
California         NaN
Ohio           90000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64


指定Series及其索引的名字：

In [60]:
print("\r\n指定Series及其索引的名字：")
obj4.name = "population"
obj4.index.name = "state"
print(obj4)


指定Series及其索引的名字：
state
California        NaN
Ohio          45000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64


### 1.2 DataFrame

- DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔型等）。
- DataFrame既有行索引也有列索引，它可以看做由Series组成的字典（共用同一个索引）。

以下数据都可以用于构建一个DataFrame：

- 二维ndarray：数据矩阵，还可以传入行标和列标
- 由数组、列表或元组组成的字典：每个序列会变成DataFrame的一列，所有序列的长度必须相同
- NumPy的结构化数组：类似于”由数组组成的字典“
- 由Series组成的字典：每个Series会组成一列。如果没有显式指定索引，则各Series的索引会被合并成结果的行索引。
- 由字典组成的字典：各内层字典会成为一列。键会合并成结果的行索引。跟”由Series组成的字典”情况一样。
- 字典或Series的列表：各项将会成为DataFrame的一行。字典键或Series索引的并集将会成为DataFrame的列标。
- 由列表或元组组成的列表：类似于“二维ndarray”
- 另一个DataFrame：该DataFrame的索引将会被沿用，除非显式指定了其他索引。
- NumPy的MaskedArray：类似于“二维ndarray”的情况，只是掩码值在结果DataFrame会变成NaN缺失值。

典型地，可以用字典生成DataFrame：

In [49]:
import numpy as np

data = {'state':['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year':[2000, 2001, 2002, 2001, 2002],
        'pop':[1.5, 1.7, 3.6, 2.4, 2.9]}
print("用字典生成DataFrame，key为列的名字，列的顺序默认是乱序的：")
print(pd.DataFrame(data))
print("\r\n可以显式指定列的顺序：")
print(pd.DataFrame(data, columns=['year', 'state', 'pop']))

print("\r\n用字典生成DataFrame，如果显式指定的列中有字典中不存在的列，默认值为NaN。下面这个例子同时指定了索引：")
frame = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'], index=['one', 'two', 'three', 'four', 'five'])
print(frame)

用字典生成DataFrame，key为列的名字，列的顺序默认是乱序的：
   pop   state  year
0  1.5    Ohio  2000
1  1.7    Ohio  2001
2  3.6    Ohio  2002
3  2.4  Nevada  2001
4  2.9  Nevada  2002

可以显式指定列的顺序：
   year   state  pop
0  2000    Ohio  1.5
1  2001    Ohio  1.7
2  2002    Ohio  3.6
3  2001  Nevada  2.4
4  2002  Nevada  2.9

用字典生成DataFrame，如果显式指定的列中有字典中不存在的列，默认值为NaN。下面这个例子同时指定了索引：
       year   state  pop debt
one    2000    Ohio  1.5  NaN
two    2001    Ohio  1.7  NaN
three  2002    Ohio  3.6  NaN
four   2001  Nevada  2.4  NaN
five   2002  Nevada  2.9  NaN


取一行和取一列的操作：

In [50]:
print("取一列：")
print(frame['state']) # 或者frame.state
print("\r\n取一行：")
print(frame.ix['three']) # loc好像也行

取一列：
one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

取一行：
year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object


修改一列的值：

In [51]:
print("\r\n使用标量修改一整列的每个值：")
frame['debt'] = 16.5
print(frame)
print("\r\n使用ndarray修改一整列的所有值：")
frame.debt = np.arange(5)
print(frame)


使用标量修改一整列的每个值：
       year   state  pop  debt
one    2000    Ohio  1.5  16.5
two    2001    Ohio  1.7  16.5
three  2002    Ohio  3.6  16.5
four   2001  Nevada  2.4  16.5
five   2002  Nevada  2.9  16.5

使用ndarray修改一整列的所有值：
       year   state  pop  debt
one    2000    Ohio  1.5     0
two    2001    Ohio  1.7     1
three  2002    Ohio  3.6     2
four   2001  Nevada  2.4     3
five   2002  Nevada  2.9     4


用Series来修改数据：

In [52]:
print("用Series指定要修改的索引及其对应的值，默认值为NaN")
frame['debt'] = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
print(frame)

用Series指定要修改的索引及其对应的值，默认值为NaN
       year   state  pop  debt
one    2000    Ohio  1.5   NaN
two    2001    Ohio  1.7  -1.2
three  2002    Ohio  3.6   NaN
four   2001  Nevada  2.4  -1.5
five   2002  Nevada  2.9  -1.7


新的一列：

In [53]:
frame['eastern'] = (frame.state == 'Ohio')
print(frame)
print("\r\n查看DataFrame有哪些列：")
print(frame.columns)

       year   state  pop  debt eastern
one    2000    Ohio  1.5   NaN    True
two    2001    Ohio  1.7  -1.2    True
three  2002    Ohio  3.6   NaN    True
four   2001  Nevada  2.4  -1.5   False
five   2002  Nevada  2.9  -1.7   False

查看DataFrame有哪些列：
Index(['year', 'state', 'pop', 'debt', 'eastern'], dtype='object')


DataFrame的转置：

In [56]:
# 字典组成的字典来构建DataFrame
pop = {'Nevada':{2001:2.4, 2002:2.9}, 'Ohio':{2000:1.5, 2001:1.7, 2002:3.6}}
frame2 = pd.DataFrame(pop)
print(frame2)
print(frame2.T)

      Nevada  Ohio
2000     NaN   1.5
2001     2.4   1.7
2002     2.9   3.6
        2000  2001  2002
Nevada   NaN   2.4   2.9
Ohio     1.5   1.7   3.6


切片：

In [57]:
pdata = {'Ohio': frame2['Ohio'][:-1], 'Nevada':frame2['Nevada'][:2]}
print(pd.DataFrame(pdata))

      Nevada  Ohio
2000     NaN   1.5
2001     2.4   1.7


类似于Series，指定索引和列的名称：

In [59]:
frame2.index.name = "year"
frame2.columns.name = "state"
print(frame2)

state  Nevada  Ohio
year               
2000      NaN   1.5
2001      2.4   1.7
2002      2.9   3.6


### 1.3 索引对象

- pandas的索引对象负责管理轴标签和其他元数据(比如轴名称等)。构建Series或DataFrame时，所用到的任何数组或其他序列的标签都会被转换成一个Index。
- Index对象是不可修改的(immutable)，因此用户不能对其进行修改。不可修改性非常重要，因为这样才能使Index对象在多个数据结构之间安全共享。

pandas中的主要index对象：

- `Index` 最泛化的index对象，将轴标签为一个由Python对象组成的NumPy数组
- `Int64Index` 针对整数的特殊index
- `MultiIndex` “层次化”索引对象，表示单个轴上的多层索引
- `DatetimeIndex` 存储纳秒级时间戳
- `PeriodIndex` 针对Period数据的特殊索引

index的方法和属性：

- `append` 连接另一个index对象，产生一个新的Index
- `diff` 计算差集，并得到一个Index
- `intersection` 计算交集
- `union` 计算并集
- `isin` 计算一个指示各值是否包含在参数集合中的布尔型数组
- `delete` 删除索引i处的元素，并得到新的Index
- `drop` 删除传入的值，并得到新的索引
- `insert` 将元素插入到索引i处，并得到新的Index
- `is_monotonic` 当各元素均大于等于前一个元素时，返回True
- `is_unique` 当Index没有重复值时，返回True
- `unique` 计算Index中唯一值的数组

获取Index对象：

In [70]:
obj = pd.Series(range(3), index=['a', 'b', 'c'])
idx = obj.index
print(idx)
print(idx[1:])

print("\r\n尝试修改index时会报错：")
try:
    idx[1] = 'd'
except Exception as e:
    print(e)

Index(['a', 'b', 'c'], dtype='object')
Index(['b', 'c'], dtype='object')

尝试修改index时会报错：
Index does not support mutable operations


使用Index对象：

In [72]:
idx = pd.Index(np.arange(3))
obj2 = pd.Series([1.5, -2.5, 0], index=idx)
print(obj2)
print(obj2.index is idx)

0    1.5
1   -2.5
2    0.0
dtype: float64
True


判断列和索引是否存在：

In [76]:
frame = pd.DataFrame({'Nevada':{20001:2.4, 2002:2.9}, 'Ohio':{2000:1.5, 2001:1.7, 2002:3.6}})
print('Ohio' in frame.columns)
print(2003 in frame.index)
print(2001 in frame.index)

True
False
True
