## Pandas 
Pandas 是在numpy基础上 建立的新程序库，提供了一种更高效的DataFrame数据结构，其本质是一种带行列标签、支持相同数据类型和缺失值的多维数组

本教程来源于《Python数据科学手册》第三章

In [28]:
# 安装好后可以检查一下版本号
import pandas
pandas.__version__

import numpy as np
import pandas as pd

如果从底层视角观察Pandas对象，可以把他们看成是增强版的NumPy结构化数组，行列都不是简单的整数索引还可以带标签。首先介绍Pandas三个基本的数据结构：__Serise、DataFrame__和__Index__

### 2 Series对象
pandas的Serise对象是一个带索引数据的一维数组
> Numpy隐式定义整数索引获取数值，Pandas的Serise对象显式定义索引与数值关联

In [16]:
data = pd.Series([0.25,0.5,0.75,1.0],index=['a','b','c','d'])

# Serise 是通用的Numpy数组
# Series 是特殊的字典
population_dict = {'California':38332521,'Texas':26448193}
population = pd.Series(population_dict)

# 创建Series 对象
# pd.Series(data,index=index)
# 如果index为空，自动生成一个默认整数序列
print(pd.Series([2,5,9]))
# data也可以是一个标量，填充到每一个索引
print(pd.Series(5,[100,200,300]))
# data还可以是一个字典，字典键排序
print(pd.Series({2:'a',3:'b'}))

0    2
1    5
2    9
dtype: int64
100    5
200    5
300    5
dtype: int64
2    a
3    b
dtype: object


###  2 DataFrame对象

如果将Series比作带灵活索引的一维数组，DataFrame可以看做一种既有灵活行索引，也有灵活列名的二维数组

In [42]:
population = pd.Series({'California':38332521,'Texas':26448193})
area = pd.Series({'California':423967,'Texas':695662})
states = pd.DataFrame({'population':population,'area':area})
# dataframe有两个行标签和列标签对象
print(states)
# 行标签
print(states.index)
# 列标签
print(states.columns)

# 创建DataFrame的几种方式

# 1 单个Series创建
pd.DataFrame(population,columns=['population'])

# 2 通过字典列表创建
data = [{'a':i,'b':2*i} for i in range(3)]
pd.DataFrame(data)

# 3 通过Series对象字典创建，像之前那样
states = pd.DataFrame({'population':population,'area':area})

# 4 numpy二维数组创建
pd.DataFrame(np.random.rand(3,2),columns=['foo','bar'],index=['a','b','c'])

# 5 numpy 结构化数组创建

              area  population
California  423967    38332521
Texas       695662    26448193
Index(['California', 'Texas'], dtype='object')
Index(['area', 'population'], dtype='object')


Unnamed: 0,foo,bar
a,0.547937,0.822852
b,0.503197,0.368418
c,0.402269,0.542773


### 2 index对象
pandas 的index 对象是一个很有趣的数据结构，不可变数组或有序集合

In [44]:
indA = pd.Index([1,3,5,7,9])
indB = pd.Index([2,3,5,7,11])

print(indA & indB)
print(indA | indB)
print(indA ^ indB)

Int64Index([3, 5, 7], dtype='int64')
Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')
Int64Index([1, 2, 9, 11], dtype='int64')


### 3 Series数据选择方法 

In [13]:
import pandas as pd
data = pd.Series([0.25,0.5,0.75,1.0],index=['a','b','c','d'])

# 字典方法
print(data['b'])
print('a' in data)
print(list(data.items()))

# 数组方法 需要注意显示索引包含最后一个元素，隐式所以不包括
# 显示索引
print(data['a':'c'])
# 隐式索引
print(data[2])
print(data[(data>0.3)&(data<0.7)])

# 使用索引器（indexer）
print(data.loc['a'])
print(data.iloc[1])

0.5
True
[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]
a    0.25
b    0.50
c    0.75
dtype: float64
0.75
b    0.5
dtype: float64
0.25
0.5


### 3 DataFrame数据选择方法

In [26]:
area = pd.Series({'California':423967,'Texas':695662,'New York':141297,'Florida':170312,'Illinois':149995})
population = pd.Series({'California':38332521,'Texas':26448193,'New York':19651127,'Florida':19552860,'Illinois':12882135})
states = pd.DataFrame({'population':population,'area':area})
states['density'] = states['population'] / states['area']
# 字典方法、数组方法
print(states['area'])
print(states[1:3])
# 使用loc iloc函数
print(states.iloc[:3,:2])

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Name: area, dtype: int64
            area  population     density
Florida   170312    19552860  114.806121
Illinois  149995    12882135   85.883763
              area  population
California  423967    38332521
Florida     170312    19552860
Illinois    149995    12882135


## 4 保留索引和索引对齐

In [41]:
# 保留索引
rng = np.random.RandomState(42)
df = pd.DataFrame(rng.randint(0,10,(5,4)),columns=['A','B','C','D'])
print(np.sin(df * np.pi / 4))

# 索引对齐
A = pd.DataFrame(rng.randint(0,10,(2,3)),columns=['A','B','C'])
B = pd.DataFrame(rng.randint(0,10,(5,4)),columns=['A','B','C','D'])
print(A+B)

# 用A的均值去填充缺失值
fill = A.stack().mean()
print(A.add(B,fill_value=fill))

A.stack()

          A             B         C             D
0 -1.000000  7.071068e-01 -0.707107  1.224647e-16
1 -1.000000  7.071068e-01  1.000000 -1.000000e+00
2 -0.707107  1.224647e-16  0.707107 -7.071068e-01
3 -0.707107  1.000000e+00 -0.707107  1.224647e-16
4  0.707107 -7.071068e-01 -0.707107  7.071068e-01
      A     B     C   D
0  13.0   2.0  15.0 NaN
1  13.0  10.0   4.0 NaN
2   NaN   NaN   NaN NaN
3   NaN   NaN   NaN NaN
4   NaN   NaN   NaN NaN
           A          B          C          D
0  13.000000   2.000000  15.000000   7.333333
1  13.000000  10.000000   4.000000   6.333333
2  10.333333   8.333333  12.333333  10.333333
3   5.333333   7.333333  12.333333   5.333333
4  13.333333  12.333333  13.333333   8.333333


0  A    4
   B    0
   C    9
1  A    5
   B    8
   C    0
dtype: int32