## 初识pandas

首先，pandas重点提供了两种数据结构：
- Series

  序列，一维数据，是对NumPy的一维数组的封装，但是相较于NumPy使用整型下标，它使用自定义(比如有意义的字符串)的索引(index)
- DataFrame

  数据框，二维数据，是对NumPy的二维数组的封装，但是相较于NumPy使用整型下标，它可以使用自定义的索引(index)和列名(column)

在使用index,column之外，这两个封装额外还附带了更多趁手的方法，比如：
- describe ——— 快速计算数据的各种描述性统计值(均值、总和、中位数、四分位数等等)
- unique ——— 数据的独立值列表(比如想知道某个特征的所有取值可能)
- value_count ——— 各个值的计数
- hist ——— 直接绘制直方图
- plot ———— 对matplotlib进行了简单的封装，可以快速地进行简单的数据绘图

其次，pandas还提供了很多非常有用的处理数据时的小工具，比如:
- 便捷的Ｉ/O ——— 提供了直接读取Excel、CSV等常见的数据文件工具
- SQL的功能 ——— 提供了groupby，join等功能
- Excel的功能 ——— 透视表(pivot table)功能
- 日期相关功能 ——— 直观到像自然语言，不必费劲地去理解Python自带的日期库

接下来，我们大致领略一下pandas的核心功能
首先导入需要用的模块:

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

# 创建对象(Object Creation)
通过传入一个列表数据，pandas可以创建一个使用默认整型作为索引的Series对象

In [None]:
s = pd.Series([1,2,3,4,np.nan,6,7,8])
s

可以构建一个使用日期和标签作为索引的DataFrame对象

In [None]:
dates = pd.date_range('20190819', periods = 6)
dates

In [None]:
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=tuple('ABCD')) # tuple('ABCD') is short for ('A','B','C','D')
df

也可以使用一个字典(dict)来创建一个DataFrame对象，而且它会自动应用NumPy的广播

In [None]:
df2 = pd.DataFrame({'A' : 1.,
                    'B' : pd.Timestamp('20171026'),
                    'C' : pd.Series(1, index=list(range(4)),dtype='float32'),
                    'D' : np.array([3] * 4, dtype = 'int32'),
                    'E' : pd.Categorical(["test", "train", "test", "train"]),
                    'F' : 'foo'})
df2

In [None]:
df2.dtypes

In [None]:
df2.C # 直接使用标签来选择列，等价于df2['C']

## 查看数据(viewing data)
比如想看看一个DataFrame的头部和尾部：

In [None]:
df.head() #head默认参数为5，前5行

In [None]:
df.tail(3)

我们也可以看看索引、列名、以及底层的numpy数据都是什么样

In [None]:
df.index

In [None]:
df.columns

In [None]:
df.values

而且我们可以通过describe()方法来快速地看看数据的概括统计：
- count:统计数量
- mean: 均值
- std: 标准差
- min: 最小值
- 25%: 四分位数
- 50%: 中位数
- 75%: 四分之三位数
- max: 最大值

In [None]:
df.describe()

In [None]:
df.T # 转置

以某一个轴排序，注意这是按照轴自己的值来排序，比如按照列名来排序：

In [None]:
df.sort_index(axis = 1, ascending = False)

In [None]:
df.sort_index(axis = 0, ascending = True)

也可以按照数据的值来排序：

In [None]:
df.sort_values(by = 'B')

## 选择数据(Selection)
pandas数据访问方法，如：.at, .iat, .loc, .iloc以及.ix

https://www.cnblogs.com/anliux/p/10805103.html

这里给出索引(index/selection)方法的概览：

操作             |语法                       | 结果类型
---------------:|--------------------------:|--------------:
选择列           |df[col]                    | Series
选择行           |df.loc[label]              | Series
选择列、行        |df.loc[index,column]      |  DataFrame
使用位置选择行    |df.iloc[loc]               |  Series
使用位置选择行、列 |df.iloc[v_loc, h_loc]      |  DataFrame
行切片           |df[5:10]/df[index1:index2] |  DataFrame
使用布尔向量选择行 |df[bool_vec]               |  DataFrame

## 访问数据(Getting)
选择某一列，会返回一个Series对象，等价与df.A

In [None]:
df['A']

使用切片的方式获得某些行：

In [None]:
df[0:3]

这种方法和NumPy的二维数组没有什么区别，但是在pandas中我们可以直接使用索引的值，更加自然：

In [None]:
df['20190819':'20190821'] # 注意这种索引值，结束值也会被返回，因为它们不是整型数字

## 使用标签选择数据
loc方法使用索引或者列标签来选择数据：

In [None]:
df.loc[dates[0]]

In [None]:
df.loc[:, ['A', 'B']] # 指定要A,B两列

In [None]:
df.loc['20190819':'20190824', ['A', 'B']] # index是可以被切片的

In [None]:
df.loc['20190819':'20190824', 'A' : 'B'] # columns也可以被切片

In [None]:
df.loc[dates[0], 'A'] # 获取特定位置的数据

In [None]:
df.at[dates[0], 'A'] # 和上面一行等价