# Pandas 基本介绍

## pandas中主要有两种数据结构：Series和DataFrame

In [1]:
import pandas as pd
import numpy as np

## Series的创建 

Series是一种类似于一维数组的对象，可以通过一维数组创建

In [2]:
s = pd.Series([1,3,6,np.nan,44,1])
print(s)

0     1.0
1     3.0
2     6.0
3     NaN
4    44.0
5     1.0
dtype: float64


## 创建时间序列

In [3]:
dates = pd.date_range('20180101',periods=6)
print(dates)

DatetimeIndex(['2018-01-01', '2018-01-02', '2018-01-03', '2018-01-04',
               '2018-01-05', '2018-01-06'],
              dtype='datetime64[ns]', freq='D')


## 创建DataFrame 

numpy.random.randn(d0,d1,…,dn)，randn函数返回n个样本，具有标准正态分布。

将上面的时间索引作为行索引

In [4]:
df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])

In [5]:
print(df)

                   a         b         c         d
2018-01-01  0.231071  0.896837 -0.517114  0.868251
2018-01-02  0.307540  0.072038 -0.009853  0.409196
2018-01-03 -1.805671  1.225798 -0.212354 -0.780811
2018-01-04 -0.888285  0.344511 -0.032032 -1.611475
2018-01-05 -0.159192  1.462479  1.084832  1.780355
2018-01-06 -0.826594  0.059058 -0.601562 -2.225949


通过打印结果，可以看出index是行索引，columns是列索引。

如果不传入index和columns参数 

In [6]:
df1 = pd.DataFrame(np.arange(12).reshape((3,4)))
print(df1)

   0  1   2   3
0  0  1   2   3
1  4  5   6   7
2  8  9  10  11


## 字典创建DataFrame

In [7]:
df2 = pd.DataFrame({'A':pd.Timestamp('20181013'),'B':pd.Series(1),})
print(df2)

           A  B
0 2018-10-13  1


如果字典内的数据长度不同，就以最长的数据为准，比如B列有4行，其余的自动补齐

In [8]:
df2 = pd.DataFrame({'A':pd.Timestamp('20181031'),
                    'B':pd.Series(1,index=list(range(4))),
                     })
print(df2)

           A  B
0 2018-10-31  1
1 2018-10-31  1
2 2018-10-31  1
3 2018-10-31  1


## 查看DataFrame的数据类型 

In [10]:
print(df2.dtypes)

A    datetime64[ns]
B             int64
dtype: object


打印的结果是每一列的数据类型

## 输出DataFrame的行索引 

In [11]:
print(df2.index)

Int64Index([0, 1, 2, 3], dtype='int64')


## 输出DataFrame的列索引 

In [12]:
print(df2.columns)

Index(['A', 'B'], dtype='object')


这里index和columns后面不加括号,因为这是属性

## 输出DataFrame的所有值

In [13]:
print(df2.values)

[[Timestamp('2018-10-31 00:00:00') 1]
 [Timestamp('2018-10-31 00:00:00') 1]
 [Timestamp('2018-10-31 00:00:00') 1]
 [Timestamp('2018-10-31 00:00:00') 1]]


## 查看描述性统计 

In [14]:
print(df2.describe())

         B
count  4.0
mean   1.0
std    0.0
min    1.0
25%    1.0
50%    1.0
75%    1.0
max    1.0


对于数值数据，结果的索引将包括计数，平均值，标准差，最小值，最大值以及较低的百分位数

## 数据转置 

In [15]:
print(df2.T)

                     0                    1                    2  \
A  2018-10-31 00:00:00  2018-10-31 00:00:00  2018-10-31 00:00:00   
B                    1                    1                    1   

                     3  
A  2018-10-31 00:00:00  
B                    1  


## 按index排序 

In [16]:
df2.sort_index(axis=1,ascending=False)

Unnamed: 0,B,A
0,1,2018-10-31
1,1,2018-10-31
2,1,2018-10-31
3,1,2018-10-31


ascending=False就是按降序排列

## 按columns排序

In [18]:
df2.sort_index(axis=0,ascending=False)

Unnamed: 0,A,B
3,2018-10-31,1
2,2018-10-31,1
1,2018-10-31,1
0,2018-10-31,1


## 按值排序 

In [19]:
df2.sort_values(by='B')

Unnamed: 0,A,B
0,2018-10-31,1
1,2018-10-31,1
2,2018-10-31,1
3,2018-10-31,1
