Pandas是Python的一个数据分析包。于2009年底开源面市。Pandas最初是被作为金融数据分析工具而开发出来的。 
因此，Pandas为时间序列分析提供了很好的支持。Pandas的名称来自于面板数据(PanelData)和Python数据分析(DataAnalysis)。
PanelData是经济学中关于多维数据集的一个术语,在Pandas中也提供了PanelData的数据类型。

# Pandas的数据结构

Pandas中的数据结构 ：数据结构是指相互之间存在的一种或多种特定关系的数据类型的集合。 

Pandas中除了Panel数据结构，还引入了两种新的数据结构一Series和DataFrame，这两种数据结构都建立在Numpy的基础之上。 

(1)Series：一维数组系列，也称序列，与Numpy中的一维array类似。二者与Python基本的数据结构list也很相近。 

(2)DataFrame：二维的表格型数据结构。可以将DataFrame理解为Series的容器。  

(3)Panel：三维数组,可以理解为DataFrame的容器。



## Series数据结构

Series(系列,也称序列)用于存储一行或一列的数据,以及与之相关的索引。用法：

Series([数据l,数据2,...],index=[索引1,索引2,...])
例如：

In [1]:
from pandas import Series
x=Series(['f',2,'螃蟹'],index=['a','b','c'])  #行标签
x

a     f
b     2
c    螃蟹
dtype: object

Series的index如果省略,索引号默认从0开始,也可以指定索引名。
为了方便后面的使用和说明,此处赋值给定的index,我们称为索引名,有时也称为行标签。


### Series使用：
不能追加单个元素,但可以追加系列


In [50]:
x.append('3') #不允许

TypeError: cannot concatenate object of type "<class 'str'>"; only pd.Series, pd.DataFrame, and pd.Panel (deprecated) objs are valid

In [51]:
#追加一个系列
n=Series(['3'])
x.append(n)

a     f
b     2
c    螃蟹
0     3
dtype: object

In [52]:
x

a     f
b     2
c    螃蟹
dtype: object

In [53]:
#要使用一个变量来承载变化,即x.append(n)返回的是一个新序列
y=x.append(n)
x.values

array(['f', 2, '螃蟹'], dtype=object)

In [54]:
#判断值是否存在,数字和逻辑型(True/False)是不需要加引号的
2 in x.values

True

In [55]:
x.values

array(['f', 2, '螃蟹'], dtype=object)

In [56]:
'2'in x.values

False

In [57]:
#切片
x[1:3]

b     2
c    螃蟹
dtype: object

In [60]:
x['a']

'f'

In [59]:
#定位获取,这个方法经常用于随机抽样(花样索引之一)
x[[0,2,1]]

a     f
c    螃蟹
b     2
dtype: object

In [10]:
#根据index删除
x.drop('a') #按索引名


b     2
c    螃蟹
dtype: object

In [8]:
x

a     f
b     2
c    螃蟹
dtype: object

In [14]:
x[0]

'f'

In [12]:
#按索引号找出对应的索引名
x.index[2]

'c'

In [26]:
#根据位置(索引号)删除,返回新的序列
x.drop(x.index[2])

KeyError: '[2] not found in axis'

In [15]:
x

a     f
b     2
c    螃蟹
dtype: object

In [13]:
2!=x.values

array([ True, False,  True])

In [14]:
#根据值删除,显示值不等于2的系列,即删除2,返回新序列,用bool数组(花样索引之二)
x[2!=x.values]

a     f
c    螃蟹
dtype: object

In [17]:
x

a     f
b     2
c    螃蟹
dtype: object

In [18]:
True==x.values

array([False, False, False])

In [19]:
x=x.append(Series([1],index=['d']))
x

a     f
b     2
c    螃蟹
d     1
dtype: object

In [20]:
True==x.values

array([False, False, False,  True])

In [21]:
#修改序列的值。将True值改为k,先找到True的索引：
x.index[True==x.values]

Index(['d'], dtype='object')

In [22]:
x[x.index[x.values==True]]='k'  #注意显示结果,这里把值为1当作True处理了

In [23]:
x

a     f
b     2
c    螃蟹
d     k
dtype: object

In [24]:
x.index[x.values=='f']   #通过值访问系列index

Index(['a'], dtype='object')

In [25]:
#修改series中的index：可以通过赋值更改,也可以通过reindex方法
x.index=[1,2,3,4]

In [26]:
x

1     f
2     2
3    螃蟹
4     k
dtype: object

In [27]:
#可将字典转化为Series
s=Series({'a':x.index[x.values=='a'],'b':2,'c':3})
s


a    Int64Index([], dtype='int64')
b                                2
c                                3
dtype: object

### Series总结
Series对象本质上是一个numpy的数组(矩阵),因此numpy的数组处理函数可以直接对Series进行处理。

每个Series对象实际上都由下面两个数组组成。

	index：它是从numpy数组继承的index对象,保存标签信息。
	values：保存值的numpy数组。
注意以下四点： 

(1)Series是一种类似于一维数组(数组：ndarray)的对象。

(2)Series的数据类型没有限制(各种numpy数据类型)。 

(3)Series有索引,把索引当做数据的标签(Key)看待,类似于字典(只是类似,实质上是数组)。 

(4)Series同时具有数组和字典的功能,因此也支持一些字典的方法。


## DataFrame

DataFrame数据框是用于存储多行和多列的数据集合，是Series的容器，类似于Excel的二维表格。对于DataFrame的操作无外乎“增、删、改、查”。DataFrame使用方法如下： 

Dataframe(columnsMap) 

数据框的访问方式如图所示：
![访问方式](./png/DataFrame-access.png)

则用代码表示为： 

In [1]:
from pandas import Series
from pandas import DataFrame
df=DataFrame({'age':Series([26,29,24]),'name':Series(['Ken','Jerry','Ben'])})	#索引可以省略
df

Unnamed: 0,age,name
0,26,Ken
1,29,Jerry
2,24,Ben


In [2]:
from pandas import DataFrame
df1=DataFrame({'age':[21,22,23],'name':['KEN','John','JIM']});
df1.index

RangeIndex(start=0, stop=3, step=1)

In [3]:
df1.index=['A','B','C'] #设置索引
df1.index.name='行号'   #设置索引名
df1

Unnamed: 0_level_0,age,name
行号,Unnamed: 1_level_1,Unnamed: 2_level_1
A,21,KEN
B,22,John
C,23,JIM


In [6]:
#增加一行
import pandas as pd
s=pd.Series({'age':50,'name':'Mike'})
s.name='D'
dd=df1.append(s)
dd

Unnamed: 0_level_0,age,name
行号,Unnamed: 1_level_1,Unnamed: 2_level_1
A,21,KEN
B,22,John
C,23,JIM
D,50,Mike


In [7]:
dd.drop(['D']) #删除行

Unnamed: 0_level_0,age,name
行号,Unnamed: 1_level_1,Unnamed: 2_level_1
A,21,KEN
B,22,John
C,23,JIM


In [10]:
dd['height']=180  ##增加一列
dd

Unnamed: 0_level_0,age,name,height
行号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,21,KEN,180
B,22,John,180
C,23,JIM,180
D,50,Mike,180


In [12]:
dd['heigh']=[180,181,182,183]
dd

Unnamed: 0_level_0,age,name,height,heigh
行号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,21,KEN,180,180
B,22,John,180,181
C,23,JIM,180,182
D,50,Mike,180,183


In [15]:
dd.drop(['heigh'],axis=1,inplace=True) #删除一列
#axis=1表示列，axis=0表示行，inplace=True 表示替换dd
dd


Unnamed: 0_level_0,age,name,height
行号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,21,KEN,180
B,22,John,180
C,23,JIM,180
D,50,Mike,180


In [16]:
df2=DataFrame(data={'age':[21,22,23],'name':['KEN','John','JIM']},index=['first','second','third']);
df2

Unnamed: 0,age,name
first,21,KEN
second,22,John
third,23,JIM


In [19]:
#访问行
df1[1:2]#显示index=l及其以后的99行数据,不包括index=l00

Unnamed: 0_level_0,age,name
行号,Unnamed: 1_level_1,Unnamed: 2_level_1
B,22,John


In [51]:
df1[1]

KeyError: 1

In [20]:
df1

Unnamed: 0_level_0,age,name
行号,Unnamed: 1_level_1,Unnamed: 2_level_1
A,21,KEN
B,22,John
C,23,JIM


In [21]:
df1[1:2]

Unnamed: 0_level_0,age,name
行号,Unnamed: 1_level_1,Unnamed: 2_level_1
B,22,John


注意:

- 访问某一行的时候，不能仅用行的index来访问，如要访问df的index=l的行，不能写成df[l]，而要写成df[l:2]。 
- DataFrame的index可以是任意的，出错时会显示“EmptyDataFrame”，并列出Columns:[列名]。执行下面的代码并看运行结果。


In [22]:
df1[2:2]#显示空

Unnamed: 0_level_0,age,name
行号,Unnamed: 1_level_1,Unnamed: 2_level_1


In [23]:
df1[4:1]#显示空

Unnamed: 0_level_0,age,name
行号,Unnamed: 1_level_1,Unnamed: 2_level_1


In [24]:
df2

Unnamed: 0,age,name
first,21,KEN
second,22,John
third,23,JIM


In [25]:
df2["third":"third"]#按索引名访问某一行,与用索引号不同

Unnamed: 0,age,name
third,23,JIM


In [26]:
df2["first":"third"]#按索引名访问多行

Unnamed: 0,age,name
first,21,KEN
second,22,John
third,23,JIM


In [27]:
#访问列
df1['age'] #按列名访问

行号
A    21
B    22
C    23
Name: age, dtype: int64

In [31]:
df1[df1.columns[1]] #按索引号访问

行号
A     KEN
B    John
C     JIM
Name: name, dtype: object

In [32]:
df1

Unnamed: 0_level_0,age,name
行号,Unnamed: 1_level_1,Unnamed: 2_level_1
A,21,KEN
B,22,John
C,23,JIM


In [36]:
#访问块
df1.loc[['B','C'],'age':'name']	#按行列索引号访问

Unnamed: 0_level_0,age,name
行号,Unnamed: 1_level_1,Unnamed: 2_level_1
B,22,John
C,23,JIM


In [39]:
#访问位置
df1.at['B','age'] 

22

In [40]:
df2

Unnamed: 0,age,name
first,21,KEN
second,22,John
third,23,JIM


In [41]:
df2.at['second','name']#这里的second是索引名

'John'

In [13]:
df2.at[1,'name'] #如果这里用索引号就会报错,当有索引名时,不能用索引号

ValueError: At based indexing on an non-integer index can only have non-integer indexers

In [46]:
df1[df1.age>20]

Unnamed: 0_level_0,age,name
行号,Unnamed: 1_level_1,Unnamed: 2_level_1
A,21,KEN
B,22,John
C,23,JIM


In [47]:
df2[df2['name']=='John']

Unnamed: 0,age,name
second,22,John


In [48]:
df1.columns=['年龄','姓名']
df1

Unnamed: 0_level_0,年龄,姓名
行号,Unnamed: 1_level_1,Unnamed: 2_level_1
A,21,KEN
B,22,John
C,23,JIM
