> 学习来源：
> https://www.pypandas.cn/docs/
> https://pandas.pydata.org/docs/user_guide

# Pandas
## 适用环境
Pandas 适用于处理以下类型的数据：

- 与 SQL 或 Excel 表类似的，含异构列的表格数据;
- 有序和无序（非固定频率）的时间序列数据;
- 带行列标签的矩阵数据，包括同构或异构型数据;
- 任意其它形式的观测、统计数据集, 数据转入 Pandas 数据结构时不必事先标记。

Pandas 的主要数据结构是 Series（一维数据）与 DataFrame（二维数据）

Pandas 基于 NumPy 开发，速度快（基于 Cython），有成熟的 IO，它有很多优势：
- 处理浮点与非浮点数据里的缺失数据，表示为 NaN
- 插入或删除 DataFrame 等多维对象的列
- 时间序列：支持日期范围生成、频率转换、移动窗口统计、移动窗口线性回归、日期位移等时间序列功能。

## 关于数据处理
数据处理一般分为三个阶段
1. 数据整理与清洗
2. 数据分析与建模
3. 数据可视化与制表

## 数据结构
Series	    带标签的一维同构数组
DataFrame	带标签的，大小可变的，二维异构表格

Series 的长度不可改变，但 DataFrame 可以插入列
绝大多数方法都不改变原始的输入数据，而是复制数据，生成新的对象
所以原始输入数据不变更加 **稳妥**


## 生成对象
### 生成 Series 对象
1. 使用列表生成 Series 对象
   pandas 会自动生成整数索引
2. 。。。

In [1]:
import numpy as np
import pandas as pd

s = pd.Series([1, 3, 5, np.nan, 6, 8])
print(s)

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64


### 生成 Dataframe 对象
用含日期时间索引与标签的 NumPy 数组生成 DataFrame

In [2]:
dates = pd.date_range('20130101', periods=6)
print(dates)

df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))
print(df)

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')
                   A         B         C         D
2013-01-01  1.059362  0.751469  0.078883 -0.806659
2013-01-02  0.260722  2.346246 -1.612758  1.738178
2013-01-03 -1.606565  0.873889  0.883242 -0.687996
2013-01-04  1.407583 -0.730689 -0.363608 -1.673330
2013-01-05  0.268099  0.141772 -1.067307 -1.139146
2013-01-06  1.179258  0.649520 -1.251690 -0.443313


### 生成 Dataframe 对象
用 Series 字典对象生成 Dataframe

Dataframe 不同的列有不同的数据结构

In [4]:
df2 = pd.DataFrame({'A': 1.,
                    'B': pd.Timestamp('20130102'),
                    'C': pd.Series(1, index=list(range(4)), dtype='float32'),
                    'D': np.array([3] * 4, dtype='int32'),
                    'E': pd.Categorical(["test", "train", "test", "train"]),
                    'F': 'foo'})

print(df2)
print(df2.dtypes)

     A          B    C  D      E    F
0  1.0 2013-01-02  1.0  3   test  foo
1  1.0 2013-01-02  1.0  3  train  foo
2  1.0 2013-01-02  1.0  3   test  foo
3  1.0 2013-01-02  1.0  3  train  foo
A          float64
B    datetime64[s]
C          float32
D            int32
E         category
F           object
dtype: object


## 查看 Dataframe 数据
- head()
- tail()
- index 显示索引
- columns 列名

In [6]:
print(df.head(4))
print(df.tail(3))
print(df.index)
print(df.columns)

                   A         B         C         D
2013-01-01  1.059362  0.751469  0.078883 -0.806659
2013-01-02  0.260722  2.346246 -1.612758  1.738178
2013-01-03 -1.606565  0.873889  0.883242 -0.687996
2013-01-04  1.407583 -0.730689 -0.363608 -1.673330
                   A         B         C         D
2013-01-04  1.407583 -0.730689 -0.363608 -1.673330
2013-01-05  0.268099  0.141772 -1.067307 -1.139146
2013-01-06  1.179258  0.649520 -1.251690 -0.443313
DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')
Index(['A', 'B', 'C', 'D'], dtype='object')


## Dataframe 数据的统计和处理
- describe() 统计摘要
  - std Standard deviation 标准差
- 转置数据
- 按轴排序
- 按值排序

In [8]:
print(df.describe())
print(df.T)
print(df.sort_index(axis=1, ascending=False)) # acending=False 降序，按第一行降序
print(df.sort_index(axis=0, ascending=False)) # 按第一列降序
print(df.sort_values(by='B'))

              A         B         C         D
count  6.000000  6.000000  6.000000  6.000000
mean   0.428076  0.672034 -0.555540 -0.502044
std    1.105947  1.009887  0.935272  1.177049
min   -1.606565 -0.730689 -1.612758 -1.673330
25%    0.262566  0.268709 -1.205594 -1.056024
50%    0.663730  0.700494 -0.715458 -0.747328
75%    1.149284  0.843284 -0.031740 -0.504484
max    1.407583  2.346246  0.883242  1.738178
   2013-01-01  2013-01-02  2013-01-03  2013-01-04  2013-01-05  2013-01-06
A    1.059362    0.260722   -1.606565    1.407583    0.268099    1.179258
B    0.751469    2.346246    0.873889   -0.730689    0.141772    0.649520
C    0.078883   -1.612758    0.883242   -0.363608   -1.067307   -1.251690
D   -0.806659    1.738178   -0.687996   -1.673330   -1.139146   -0.443313
                   D         C         B         A
2013-01-01 -0.806659  0.078883  0.751469  1.059362
2013-01-02  1.738178 -1.612758  2.346246  0.260722
2013-01-03 -0.687996  0.883242  0.873889 -1.606565
2013-01-04 -

## Dataframe 的索引和切片