pandas是python环境下最有名的数据统计包，而DataFrame翻译为数据框，是一种数据组织方式，这么说你可能无法从感性上认识它，举个例子，你大概用过Excel，而它也是一种数据组织和呈现的方式，简单说就是表格，而在在pandas中用DataFrame组织数据，如果你不print DataFrame，你看不到这些数据，下面我们来看看DataFrame是如何使用的。  
首先是引入pandas和numpy，这是经常配合使用的两个包，pandas依赖于numpy，引入以后我们可以直接使用np/pd来表示这个两个模块

In [1]:
import numpy as np
import pandas as pd

先创建一个时间索引，所谓的索引（index)就是每一行数据的id，可以标识每一行的唯一值

In [2]:
dates = pd.date_range('20170823',periods=7)

In [3]:
dates

DatetimeIndex(['2017-08-23', '2017-08-24', '2017-08-25', '2017-08-26',
               '2017-08-27', '2017-08-28', '2017-08-29'],
              dtype='datetime64[ns]', freq='D')

创建一个6X4的数据：  
* randn函数用于创建随机数，参数表示行数和列数 
* dates是上一步创建的索引列,index
* columns表示的是列名

In [4]:
df = pd.DataFrame(np.random.randn(7,4),index=dates,columns=list('ABCD'))

In [5]:
df

Unnamed: 0,A,B,C,D
2017-08-23,-1.179758,-1.975209,1.781481,0.896413
2017-08-24,-0.468752,-1.936746,0.122988,1.679976
2017-08-25,1.088146,0.356577,0.951485,0.8942
2017-08-26,-1.093107,0.443347,-0.08495,0.009099
2017-08-27,0.086822,-0.166413,1.747171,-0.666878
2017-08-28,0.497399,0.760761,1.516186,0.298896
2017-08-29,0.665618,0.424883,1.181782,-0.015924


还可以使用字典来创建数据框，例如创建一个列名为A的数据框，索引是自动创建的整数

In [6]:
df = pd.DataFrame({'A':np.random.randn(7)})

In [7]:
df

Unnamed: 0,A
0,-1.11897
1,-0.199893
2,-0.709025
3,-1.186943
4,-0.485267
5,-1.906984
6,-0.7919


字典创建DataFrame的例子，字典包含的数据>=2
* pd.Timestamp创建一个时间戳  
* pd.Series

In [8]:
df = pd.DataFrame({'A':pd.Timestamp('20170823'),'B':pd.Series(1)})

In [9]:
df

Unnamed: 0,A,B
0,2017-08-23,1


字典内的数据长度不同，以最长的数据为准，比如B列有4行
* 创建一个字典包含A是一个时间戳，B是一个值1，索引4

In [10]:
df = pd.DataFrame({'A':pd.Timestamp('20170823'),'B':pd.Series(1,index=range(4))})

In [11]:
df

Unnamed: 0,A,B
0,2017-08-23,1
1,2017-08-23,1
2,2017-08-23,1
3,2017-08-23,1


使用dtypes来查看各行的数据格式

In [12]:
df.dtypes

A    datetime64[ns]
B             int64
dtype: object

In [13]:
# 看一下如何查看数据框中的数据，看一下所有的数据
df

Unnamed: 0,A,B
0,2017-08-23,1
1,2017-08-23,1
2,2017-08-23,1
3,2017-08-23,1


使用head查看前几行数据（默认是前5行），不过你可以指定前几行

In [14]:
df.head()

Unnamed: 0,A,B
0,2017-08-23,1
1,2017-08-23,1
2,2017-08-23,1
3,2017-08-23,1


In [15]:
# 查看前三行数据
df.head(3)

Unnamed: 0,A,B
0,2017-08-23,1
1,2017-08-23,1
2,2017-08-23,1


In [16]:
# 使用tail查看后5行数据
df.tail()

Unnamed: 0,A,B
0,2017-08-23,1
1,2017-08-23,1
2,2017-08-23,1
3,2017-08-23,1


In [17]:
# 查看数据框的索引
df.index

Int64Index([0, 1, 2, 3], dtype='int64')

In [19]:
# 查看列名用columns
df.columns

Index([u'A', u'B'], dtype='object')

In [20]:
# 查看数据值，用values
df.values

array([[Timestamp('2017-08-23 00:00:00'), 1L],
       [Timestamp('2017-08-23 00:00:00'), 1L],
       [Timestamp('2017-08-23 00:00:00'), 1L],
       [Timestamp('2017-08-23 00:00:00'), 1L]], dtype=object)

In [25]:
# 查看描述性统计，用describe
data = df.describe()

In [26]:
data

Unnamed: 0,B
count,4.0
mean,1.0
std,0.0
min,1.0
25%,1.0
50%,1.0
75%,1.0
max,1.0


查看描述性统计，用describe  
使用type看一下输出的描述性统计是什么样的数据类型——DataFrame数据  

In [27]:
Ser = pd.Series(data['B'])

In [28]:
Ser

count    4.0
mean     1.0
std      0.0
min      1.0
25%      1.0
50%      1.0
75%      1.0
max      1.0
Name: B, dtype: float64

In [29]:
Ser['count']

4.0

In [31]:
# 使用T来转置数据，也就是行列转换
df.T

Unnamed: 0,0,1,2,3
A,2017-08-23 00:00:00,2017-08-23 00:00:00,2017-08-23 00:00:00,2017-08-23 00:00:00
B,1,1,1,1


In [33]:
# 对数据进行排序，用到了sort，参数可以指定根据哪一列数据进行排序。
data.sort(columns='B')

  


Unnamed: 0,B
std,0.0
mean,1.0
min,1.0
25%,1.0
50%,1.0
75%,1.0
max,1.0
count,4.0


In [34]:
data

Unnamed: 0,B
count,4.0
mean,1.0
std,0.0
min,1.0
25%,1.0
50%,1.0
75%,1.0
max,1.0
