## pandas
---

In [1]:
import pandas as pd
import numpy as np

### 基本介绍
---
+ `pd.DataFrame`格式：
    ```python
    pd.DataFrame(data, index, columns, dtype=None, copy=None)
    ```
    其中如果data传入的是`dict`，则`dict`中的key为columns,value为data（一般都是numpy ndarray格式，此时不需要指定index）；如果`dict`中的value格式为常量，则需要指定index
+ pandas的会自动为每个元素添加序号
+ `pd.Series`相当于numpy中的一维向量，`pd.DataFrame`相当于二维表
+ 默认情况下pandas添加序列的方式是从0开始递增添加。序列可以自己设置
+ `df.dtypes`可以按`column`打印数据类型
+ '`df.index`可以输出`index`名称
+ `df.columns`可以输出`columns`名称
+ `df.values`可以输出所有值
+ `df.describe()`输出一些基本的数学运算结果（如min, mean, count等）
+ `df.T`：转置DataFrame
+ `df.sort_index(axis=0, ascending=True)`可以按DataFrame的行标题或列标题进行排序，通过axis设置（axis=0按行标题排序，axis=1按列标题排序），ascending设置排序方式，True表示正序，False表示倒序
+ `df.sort_values(by=columns_name, ascending=True)`按值排序，by设置根据哪一列数据进行排序

In [19]:
s = pd.Series([1, 3, 6, np.nan, 45, 1])
print(s)

dates = pd.date_range('20160101', periods=6)
print(dates)

df_default = pd.DataFrame(np.arange(12).reshape((3, 4)))
print(df_default)

df = pd.DataFrame(np.random.rand(6, 4), index=dates, columns=['a', 'b', 'c', 'd'])
print(df)

df2 = pd.DataFrame({'a':1., 'b':2., 'c':3.}, index=['l1', 'l2', 'l3'])
print(df2)
print(df2.dtypes)
print(df2.index)
print(df2.columns)
print(df2.values)

df2.describe()
print(df2.T)

# 按标题排序
df2.sort_index(axis=0, ascending=False)

# 按值排序
df2.sort_values(by='a')

0     1.0
1     3.0
2     6.0
3     NaN
4    45.0
5     1.0
dtype: float64
DatetimeIndex(['2016-01-01', '2016-01-02', '2016-01-03', '2016-01-04',
               '2016-01-05', '2016-01-06'],
              dtype='datetime64[ns]', freq='D')
   0  1   2   3
0  0  1   2   3
1  4  5   6   7
2  8  9  10  11
                   a         b         c         d
2016-01-01  0.394209  0.731865  0.107845  0.991531
2016-01-02  0.325947  0.378729  0.452202  0.674323
2016-01-03  0.988314  0.383703  0.491281  0.669768
2016-01-04  0.712872  0.279514  0.467297  0.267758
2016-01-05  0.303817  0.507810  0.213291  0.516227
2016-01-06  0.209319  0.762045  0.911064  0.609089
      a    b    c
l1  1.0  2.0  3.0
l2  1.0  2.0  3.0
l3  1.0  2.0  3.0
a    float64
b    float64
c    float64
dtype: object
Index(['l1', 'l2', 'l3'], dtype='object')
Index(['a', 'b', 'c'], dtype='object')
[[ 1.  2.  3.]
 [ 1.  2.  3.]
 [ 1.  2.  3.]]
    l1   l2   l3
a  1.0  1.0  1.0
b  2.0  2.0  2.0
c  3.0  3.0  3.0


Unnamed: 0,a,b,c
l1,1.0,2.0,3.0
l2,1.0,2.0,3.0
l3,1.0,2.0,3.0
