Pandas构造于Numpy基础之上，兼具Numpy高性能的数组计算功能以及电子表格和关系型数据灵活的数据处理能力。
- Pandas提供了复杂精细的索引功能，可以更为便捷的完成索引、切片、组合以及选取数据子集等数据整理的操作。
- Pandas包含了`Series`(序列)和`DataFrame`（数据框或数据帧）两种最为常用的数据结构类型，使得Python进行数据处理变得菲常快速和简单。
- Pandas最初由AQR Capital Management于2008年4月开发，并于2009年底开源出来，目前由专注于Python数据包开发的PyData开发小组继续开发和维护，属于PyData项自的一部分。
- Pandas最初被作为金融数据分析工具而开发出来，因此，Pandas为时间序列分析提供了很好的支持。Pandas的名称来自于面板数据（ paneldata ）和Python数据分析( data analysis )。


In [1]:
import pandas as pd
import numpy as np

In [2]:
# 创建Series对象
s1=pd.Series([2,5,8,6])
s1

0    2
1    5
2    8
3    6
dtype: int64

In [3]:
# 索引长度与数据长度相同，也可不同
s2=pd.Series(np.random.randn(4),index=['a','b','wasd','rrrr'])
s2

a       0.697340
b       0.431347
wasd    1.356902
rrrr   -1.091930
dtype: float64

In [4]:
s3=pd.Series(np.linspace(0,10,4),index=['a','b','c','d'])
print(s3)

a     0.000000
b     3.333333
c     6.666667
d    10.000000
dtype: float64


In [5]:
type(s3)

pandas.core.series.Series

In [6]:
s3[:2]

a    0.000000
b    3.333333
dtype: float64

In [7]:
s3[[0,3]]

a     0.0
d    10.0
dtype: float64

In [8]:
s3[s3<s3.mean()]

a    0.000000
b    3.333333
dtype: float64

In [9]:
s2+s3

a       0.69734
b       3.76468
c           NaN
d           NaN
rrrr        NaN
wasd        NaN
dtype: float64

In [10]:
# 去除重复元素
s=pd.Series(['a','a','c','d'])
s.unique()

array(['a', 'c', 'd'], dtype=object)

In [11]:
# 统计元素出现次数
s.value_counts()

a    2
d    1
c    1
dtype: int64

In [12]:
s=pd.Series(['1.3','1.4','2.6','3.5'])
print(s.dtype)
s=s.astype('float64')
print(s.dtype)

object
float64


Pandas的数据元素包含以下几种类型:

|类型|说明|
|:---|:---|
|object|字符串或混合类型|
|int|整型|
|float|浮点型|
|datetime|时间类型|
|bool|布尔型|


## 创建DataFrame对象

基本的方式为∶`pd.DataFrame(data, index, columns)`

与Series不同，DataFrame包括索引index和表头columns

data允许输入以下一些格式︰
- 包含列表，字典或Series的字典
- 二维数组
- 一个Series对象
- 另一个DataFrame对象

In [13]:
d={'one':pd.Series([1,2,3],index=['a','b','c']),
   'two':pd.Series([1,2,4],index=['a','b','d'])}
df=pd.DataFrame(d)
df

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,
d,,4.0


In [14]:
# 在后边添加列
df['three']=df['one']+df['two']
df['flag']=df['one']>1
df

Unnamed: 0,one,two,three,flag
a,1.0,1.0,2.0,False
b,2.0,2.0,4.0,True
c,3.0,,,True
d,,4.0,,False


In [15]:
# 插入
df.insert(1,'bar',df['one'])
df

Unnamed: 0,one,bar,two,three,flag
a,1.0,1.0,1.0,2.0,False
b,2.0,2.0,2.0,4.0,True
c,3.0,3.0,,,True
d,,,4.0,,False


In [16]:
# 删除列
del df['flag']
df

Unnamed: 0,one,bar,two,three
a,1.0,1.0,1.0,2.0
b,2.0,2.0,2.0,4.0
c,3.0,3.0,,
d,,,4.0,


In [17]:
# pop弹出一列
bar=df.pop('bar')
bar

a    1.0
b    2.0
c    3.0
d    NaN
Name: bar, dtype: float64

In [18]:
df

Unnamed: 0,one,two,three
a,1.0,1.0,2.0
b,2.0,2.0,4.0
c,3.0,,
d,,4.0,


In [19]:
# 修改列名
d={'one':'first'}
df.rename(columns=d)

Unnamed: 0,first,two,three
a,1.0,1.0,2.0
b,2.0,2.0,4.0
c,3.0,,
d,,4.0,


In [20]:
# 修改行名
d={'a':'A'}
df.rename(index=d)

Unnamed: 0,one,two,three
A,1.0,1.0,2.0
b,2.0,2.0,4.0
c,3.0,,
d,,4.0,


In [21]:
df.loc[:,'one']

a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64

In [22]:
df.loc[:,'one']

a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64

In [23]:
# 第三行
df.iloc[2]

one      3.0
two      NaN
three    NaN
Name: c, dtype: float64

In [24]:
df.iloc[:2,2]

a    2.0
b    4.0
Name: three, dtype: float64

In [25]:
df['one']==3.0

a    False
b    False
c     True
d    False
Name: one, dtype: bool

In [26]:
df['one'].isin([3.0,2.0])

a    False
b     True
c     True
d    False
Name: one, dtype: bool

In [27]:
df

Unnamed: 0,one,two,three
a,1.0,1.0,2.0
b,2.0,2.0,4.0
c,3.0,,
d,,4.0,


In [28]:
df.iloc[0,0]
# df.loc['a','one']

1.0

参考案例：[Pokemon宠物小精灵数据初步探索](http://cookdata.cn/note/view_static_note/03dab88654b1f87387a59b21445f86ad/)

参考课程：[Pandas数据分析(图文)](http://cookdata.cn/course/course_introduction/9/)