In [None]:
import pandas as pd
import numpy as np
import os

In [None]:
# 创建临时数据目录
os.path.exists('temp') or os.mkdir('temp');  # 末尾的;表示不打印输出

# Pandas案例导入(二维数组显示)

In [None]:
stock_change = np.random.normal(loc=0, scale=1, size=(8, 5))

## numpy显示

In [None]:
stock_change

## pandas显示
- pd.DataFrame(**ndarray**) - 必须传入 ndarray

### 原始Table

In [None]:
pd.DataFrame(stock_change)  # ndarray方式创建 DataFrame

### 添加行索引

In [None]:
row_labels = ['股票{}'.format(i + 1) for i in range(stock_change.shape[0])]

In [None]:
row_labels

In [None]:
pd.DataFrame(stock_change, index=row_labels)

### 添加列索引

In [None]:
# start:   开始时间
# periods: 要生成时间的个数
# freq:    递增单位，默认'D'（1天），'B'（跳过周末）
#
col_labels = pd.date_range(start='20210416', periods=stock_change.shape[1], freq='B')

In [None]:
col_labels

In [None]:
# index:   行索引
# columns: 列索引
pd.DataFrame(stock_change, index=row_labels, columns=col_labels)

# Pandas数据结构

## 一维Series

### 创建
- pandas.Series(data, index, dtype, name)
```
参数说明：
    data：一维数组或列表
    index：索引，如果不指定，默认从 0 开始
    dtype：数据类型
    name：设置名称
```

#### 只指定数据

In [None]:
pd.Series([11, 22, 33])

#### 指定数据+索引

In [None]:
pd.Series(['Google', 'Runoob', 'Wiki'], index=['x', 'y', 'z'])

#### 使用key/value创建

In [None]:
pd.Series({'g': 'Google', 2: 'Runoob', 'w': 3333})

#### 使用key/value中的一部分数据创建Series

In [None]:
pd.Series({'g': 'Google', 2: 'Runoob', 'w': 3333}, index=['w', 2])

### 通过索引访问数据

In [None]:
s = pd.Series({'g': 'Google', 2: 'Runoob', 'w': 33.33})

In [None]:
s

In [None]:
s['g'], s[2], s['w']    # 元组!!!!!

### Series 转 DataFrame

In [None]:
pd.DataFrame(s)

## 二维DataFrame

### 创建
- pandas.DataFrame(data, index, columns, dtype)
```
参数说明：
    data：一维数组或列表
    index：行索引
    columns：列索引
    dtype：数据类型
```

#### 只指定数据

In [None]:
pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
pd.DataFrame()

#### 指定数据+行列索引

In [None]:
data = np.arange(1, 10).reshape(3, 3)
index = [f'第{i}行' for i in data[0]]
columns = [f'第{i}列' for i in data[0]]
pd.DataFrame(data, index=index, columns=columns)

#### 使用key/value创建

In [None]:
data = {
  'Site': ['Google', 'Runoob', 'Wiki'],
   'Age': [10, 12, 13]
}
pd.DataFrame(data)

#### 使用key/value中的一部分数据创建

In [None]:
data = {
  'Site': ['Google', 'Runoob', 'Wiki'],
   'Age': [10, 12, 13]
}
pd.DataFrame(data, columns=['Site'])           # 指定 Site 列

#### 使用key/value列表指定每一行创建

In [None]:
data = [
  {'a': 1, 'b': 2},             # 没有对应的部分数据为 NaN
  {'a': 5, 'b': 10, 'c': 20}
]
pd.DataFrame(data)

#### 使用key/value创建，并指定行索引

In [None]:
data = {
  'Site': ['Google', 'Runoob', 'Wiki'],
   'Age': [10, 12, 13]
}
pd.DataFrame(data, index=['第1行', '第2行', '第3行'])

### 属性

In [None]:
stock_frame = pd.DataFrame(stock_change, index=row_labels, columns=col_labels)

#### shape

In [None]:
stock_frame.shape  # 维度组成的元组

#### dtypes

In [None]:
stock_frame.dtypes  # 每一列的数据类型

#### index

In [None]:
stock_frame.index  # 行索引

#### columns

In [None]:
stock_frame.columns # 列索引

#### values

In [None]:
stock_frame.values  # ndarray

#### T

In [None]:
stock_frame.T  # 转置

#### head(n)

In [None]:
stock_frame.head(3)  # 查看前 n 行，默认 n=5

#### tail(n)

In [None]:
stock_frame.tail(3)  # 查看后 n 行，默认 n=5

### 索引设置

#### 修改索引值

In [None]:
# stock_frame.index[0] = '股票_1'      # 无法通过这种方式修改某个索引值，必须整行或整列去修改

row_labels = ['股票_{}'.format(i + 1) for i in range(stock_frame.shape[0])]

stock_frame.index = row_labels

In [None]:
stock_frame

#### 重设行索引

In [None]:
stock_frame.reset_index()  # 保留原行索引

In [None]:
stock_frame.reset_index(drop=True)  # 删除原行索引

#### 以某列值设置为新的索引

In [None]:
# 以字典方式创建 DataFrame
df = pd.DataFrame({'month': [1, 4, 7, 10],
                    'year': [2012, 2013, 2014, 2015],
                    'sale': [55, 40, 84, 31]})

In [None]:
df

In [None]:
df.set_index(keys='year')

In [None]:
df.set_index(keys=['year', 'month'])  # MultiIndex

## 多层次索引MultiIndex

### 示例demo

In [None]:
data = pd.Series(
    np.random.randint(10, size=10),
    index=[
        ['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'd', 'd'],
        [1, 2, 3, 1, 2, 3, 1, 2, 1, 2]
    ]
)

In [None]:
data

In [None]:
data.index

In [None]:
data.index.levels  # 每个等级上轴标签的唯一值

### 创建方式

#### index=多维数组

In [None]:
pd.Series([1, 2, 3], index=['第1行', '第2行', '第3行'])  # 单层索引

In [None]:
pd.Series([1, 2, 3, 4], index=[
    ['a', 'a', 'b', 'b'],  # 第1层
    ['c', 'd', 'e', 'f'],  # 第2层
    ['m', 'm', 'n', 'k']   # 第3层
])

In [None]:
pd.DataFrame(
    np.random.random((4, 4)),
    index=[
        ['上半年', '上半年', '下半年', '下半年'],
        ['第一季度', '第二季度', '第三季度', '第四季度']
    ],
    columns=[
        ['水果', '水果', '蔬菜', '蔬菜'],
        ['苹果', '葡萄', '白菜', '萝卜']
    ]    
)

#### index=MultiIndex对象

In [None]:
# 构建行索引
row_index = pd.MultiIndex.from_arrays([  # 数组列表
    ['上半年', '上半年', '下半年', '下半年'],
    ['第一季度', '第二季度', '第三季度', '第四季度']
])

# 构建列索引
col_index = pd.MultiIndex.from_arrays([
    ['水果', '水果', '蔬菜', '蔬菜'],
    ['苹果', '葡萄', '白菜', '萝卜']
])

# 生成
pd.DataFrame(np.random.random((4, 4)), index=row_index, columns=col_index)

In [None]:
# 构建行索引
row_index = pd.MultiIndex.from_tuples([  # 元组列表
    ('上半年', '第一季度'),
    ('上半年', '第二季度'),
    ('下半年', '第三季度'),
    ('下半年', '第四季度'),
])

# 构建列索引
col_index = pd.MultiIndex.from_tuples([
    ('水果', '苹果'),
    ('水果', '葡萄'),
    ('蔬菜', '白菜'),
    ('蔬菜', '萝卜'),
])

# 生成
pd.DataFrame(np.random.random((4, 4)), index=row_index, columns=col_index)

In [None]:
# 构建行索引
row_index_1 = pd.MultiIndex.from_product([  # 笛卡尔积
    ['上半年'],
    ['第一季度', '第二季度']
]) #, names=['outer', 'inner'])

row_index_2 = pd.MultiIndex.from_product([
    ['下半年'],
    ['第三季度', '第四季度']
])

row_index = pd.MultiIndex.from_tuples(list(row_index_1) + list(row_index_2))

# 构建列索引
col_index_1 = pd.MultiIndex.from_product([
    ['水果'],
    ['苹果', '葡萄']
])

col_index_2 = pd.MultiIndex.from_product([
    ['蔬菜'],
    ['白菜', '萝卜']
])

col_index = pd.MultiIndex.from_tuples(list(col_index_1) + list(col_index_2))

# 生成
pd.DataFrame(np.random.random((4, 4)), index=row_index, columns=col_index)

# Pabdas基本操作

In [None]:
## 索引

In [None]:
# value
value = np.arange(1, 41).reshape(8, 5)

# index
index = ['第{}行'.format(i+1) for i in range(value.shape[0])]

# columns
columns = ['第{}列'.format(i+1) for i in range(value.shape[1])]

# 生成
df = pd.DataFrame(value, index=index, columns=columns)

In [None]:
df

## 索引

### loc[行索引, 列索引]

In [None]:
df.loc['第1行', '第3列']

### iloc[行索引下标, 列索引下标]

In [None]:
df.iloc[0, 2]

### get_indexer()获取索引值下标

#### 获取行索引下标

In [None]:
df.index.get_indexer(['第1行', '第2行'])

#### 获取列索引下标

In [None]:
df.columns.get_indexer(['第4列', '第5列'])

### 组合索引

In [None]:
df.loc[df.index[::-1], ['第4列', '第3列', '第2列']]

In [None]:
df.iloc[::-1, df.columns.get_indexer(['第4列', '第3列', '第2列'])]

In [None]:
df.iloc[df.index.get_indexer(['第2行', '第1行']), df.columns.get_indexer(['第4列', '第3列', '第2列'])]

## 切片

### 访问行

#### 单行

In [None]:
df.loc['第1行']

#### 连续行

In [None]:
df.loc['第2行': '第6行']

In [None]:
df[1:6]                                    # 注意: 这种方式获取到的是行，不是列!!!!!!!

#### 不连续行

In [None]:
df.loc[['第2行', '第5行', '第6行']]

### 访问列

#### 单列

In [None]:
print(df['第1列'])
print(df.loc[::, '第1列'])

#### 连续列

In [None]:
df.loc[::, '第1列': '第4列']    # df['第1列': '第4列'] ---- Error!!!!!

#### 不连续列

In [None]:
df[['第1列', '第4列', '第5列']]

### 访问元素

#### 直接使用行列索引名字(先列后行)

In [None]:
df['第3列']['第1行']

#### 使用loc

In [None]:
df.loc['第1行', '第3列']

#### 使用iloc

In [None]:
df.iloc[0, 2]

## 赋值操作

### df['列索引']=值

In [None]:
df['第1列'] = 100

In [None]:
df

### df.列索引=值

In [None]:
df.第3列 = 1000

In [None]:
df

## 排序

In [None]:
df.sort_values(by='第2列', ascending=False)

In [None]:
df.loc['第7行', '第4列'] = 11
df.loc['第8行', '第4列'] = 11

df.sort_values(['第4列', '第5列'], ascending=False)    # col_1 相等，按 col_2 排序

In [None]:
df.sort_index(axis=0, ascending=True)

## 算术运算

In [None]:
df['第2列'].add(100)

In [None]:
(df['第2列'] + 100) * 100

## 逻辑运算
### 逻辑运算符(&、|)

In [None]:
df['第2列'] > 12

In [None]:
df[df['第2列'] > 12] = 12

In [None]:
df

In [None]:
df[(df['第2列'] > 2) & (df['第2列'] <= 7)]

### 逻辑运算函数

### query(查询字符串)

In [None]:
df.query('第2列 > 2 & 第2列 <= 7')

### isin(列表)-指定的值是否包含在列表中

In [None]:
df[df['第5列'].isin([1, 10, 100])]

## 统计运算

### 统计函数

In [None]:
df.describe()

In [None]:
df.idxmax(axis=0)         # 最大值索引（非下标）

In [None]:
df.values.argmax(axis=0)  # 最大值下标

### 累计统计函数

In [None]:
stock_frame

In [None]:
# 行排序
all_data = stock_frame.sort_index()

# 获取指定列
col_data = all_data['2021-04-20']

# 计算累计和
stock_rise = col_data.cumsum()

# 绘制曲线
stock_rise.plot()

col_data, stock_rise

## 自定义运算

In [None]:
df

In [None]:
df['第2列']                    # Series

In [None]:
df[['第2列']]                  # DataFrame

In [None]:
df[['第2列', '第1列']].apply(lambda x: x.max()-x.min(), axis=0)

# Pandas画图
- 对象.plot(x, y, kind)

In [None]:
df.plot(kind='barh')

# 文件读取与保存

## CSV文件
- 读取数据`pd.read_csv(path)`
  - mode: 模式
  - usecols: 读取那几列
- 保存数据`df.to_csv(path)`
  - columns: 保存那几列
  - index: 是否保存行索引

In [None]:
df

In [None]:
df.to_csv('./temp/df.csv', columns=['第1列', '第2列', '第3列'], index=False)

In [None]:
df2 = pd.read_csv('./temp/df.csv', usecols=['第1列', '第3列'])

In [None]:
df2

## HDF5文件
- 读取数据`pd.read_hdf(path, key)`
  - mode: 模式
  - key: 标识数据，不能省略
- 保存数据`df.to_hdf(path, key)`
  - key: 要读取数据的表示。如果只有一个数据，可以省略

In [None]:
df.to_hdf('./temp/df.h5', key='df-obj-key', mode='w')

In [None]:
df2 = pd.read_hdf('./temp/df.h5', key='df-obj-key')

In [None]:
df2

## JSON文件
- 读取数据`pd.read_hdf(path, key)`
  - orient: 读取方式，一般使用'records'
  - lines: 每个record，占一行
- 保存数据`df.to_json(path)`
  - orient: 保存方式，一般使用'records'
  - lines: 每个record，占一行
  - force_ascii: 当设置成True，数据中的非ASCII字符，以\uXXXX方式显示；否则原样显示

In [None]:
df.to_json('./temp/df.json', orient='records', lines=True, force_ascii=False)

In [None]:
df2 = pd.read_json('./temp/df.json', orient='records', lines=True)

In [None]:
df2

# 高级处理
## 缺失值处理

In [None]:
# numpy 缺失值 np.nan
print(np.nan, type(np.nan))  # np.nan 为 float 类型

In [None]:
a = np.arange(25, dtype=float).reshape(5, 5)
a[1, 2] = np.nan
a[3, 4] = np.nan
a

In [None]:
df = pd.DataFrame(a, index=[f'第{i+1}行' for i in range(5)], columns=['1', '2', '第3列', '4', '第5列'])
df

### 判断缺失值是否存在

In [None]:
pd.isnull(df)

In [None]:
np.any(pd.isnull(df))              # 如果有一个缺失值，就返回True

In [None]:
pd.notnull(df)

In [None]:
np.all(pd.notnull(df))            # 如果有一个缺失值，就返回 False

### 处理np.nan
#### 删除缺失值

In [None]:
df.dropna()

#### 替换缺失值

In [None]:
df['第3列'].fillna(value=df['第3列'].mean(), inplace=False)   # inplace=False 表示不修改原来的 DataFrame

In [None]:
for i in df.columns:
#     print(i)
    if np.any(df[i].isna()):
        df[i].fillna(value=9999, inplace=True)
df

### 处理非np.nan
 - 先替换为np.nan
 - 再按np.nan处理

In [None]:
df.iloc[0, 0] = '?'    # 缺失值用 ?、* 等非数组符号表示
df.iloc[1, 1] = '*'
df

In [None]:
df.replace(to_replace='?', value=np.nan, inplace=True)  # 替换 ? -> np.nan
df.replace(to_replace='*', value=np.NAN, inplace=True)  # 替换 * -> np.nan
df.replace(to_replace=np.nan, value=999, inplace=True)  # 替换 np.nan -> 999

## 数据离散化

### 区间分割

In [None]:
pd.qcut(df['第3列'], q=2)

In [None]:
pd.cut(df['第3列'], bins=2)

In [None]:
df_parts = pd.cut(df['第3列'], bins=[0, 20, 50, 1000])             # 指定分割区间
df_parts

### 区间统计

In [None]:
df_parts.value_counts()                                          # 统计每个区间的样本个数

### one-hot编码
- 以0-1编码的方式，统计每个样本落在哪个区间

In [None]:
pd.get_dummies(df_parts)

## 数据合并
### concat
- axis: 沿哪个轴拼接

In [None]:
df_1 = df
df_2 = pd.get_dummies(df_parts)

In [None]:
df_1

In [None]:
df_2

In [None]:
pd.concat([df_1, df_2])

In [None]:
pd.concat([df_1, df_2], axis=1)

### merge
- left: 左表
- right: 右表
- on: 指定键
- how: 拼接方式

In [None]:
left = pd.DataFrame({'A'   : ['A0', 'A1', 'A2', 'A3'],
                     'B'   : ['B0', 'B1', 'B2', 'B3'],
                     'key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1']})

right = pd.DataFrame({'C'   : ['C0', 'C1', 'C2', 'C3'],
                      'D'   : ['D0', 'D1', 'D2', 'D3'],
                      'key1': ['K0', 'K1', 'K1', 'K2'],
                      'key2': ['K0', 'K0', 'K0', 'K0']
                      })

In [None]:
left

In [None]:
right

In [None]:
pd.merge(left, right, on=['key1', 'key2'], how='inner')       # 内连接 - 交集

In [None]:
pd.merge(left, right, on=['key1', 'key2'], how='outer')       # 外连接 - 并集

In [None]:
pd.merge(left, right, on=['key1', 'key2'], how='left')       # 左连接 - 并集（保留左边 key 存在的）

In [None]:
pd.merge(left, right, on=['key1', 'key2'], how='right')       # 右连接- 并集（保留右边 key 存在的）

## 交叉表和透视表-探索两列数据间的关系

In [None]:
index = pd.date_range(start='20210416', periods=20, freq='B')
columns = ['open', 'close', 'change']

d = np.random.rand(20, 3)
d[:, 2] = d[:, 1] - d[:, 0]

data = pd.DataFrame(d, index=index, columns=columns)

In [None]:
data

- **日期属性**

In [None]:
print(data.index.year)
print(data.index.month)
print(data.index.day)
print(data.index.weekday)  # 星期几
print(data.index.week)     # 第几周

- **交叉表: 寻找股票和星期的关系**

In [None]:
# 1.先找到日期对应的星期
date = pd.to_datetime(data.index).weekday
data['week'] = date                                        # 添加 week 列

# 2.获取股票涨跌
data['posi_neg'] = np.where(data['change'] > 0, 1, 0)      # 添加 posi_neg 列

# 3.通过交叉表查找两列数据的关系
count = pd.crosstab(data['week'], data['posi_neg'])        # 交叉 week、posi_neg 两列，得出数量

# 4.统计涨跌比例
sum = count.sum(axis=1).astype(np.float32)
per = count.div(sum, axis=0)

# 5.绘制
per.plot(kind='bar', stacked=True)                         # 堆积图

- **透视表**

In [None]:
data

In [None]:
count

In [None]:
per

In [None]:
data.pivot_table(['posi_neg'], index='week')

In [None]:
result = data.pivot_table(['posi_neg'], index='week')
result['下跌'] = 1 - v['posi_neg']
result

## 分组与聚合

In [None]:
color_array  = ['red', 'green', 'blue', 'white', 'yellow', 'orange', 'black']
object_array = ['pen', 'pencil']
price_range  = 10
n            = 20

data = pd.DataFrame({
    'color' : [color_array[np.random.randint(len(color_array))] for i in range(n)],
    'object': [object_array[np.random.randint(len(object_array))] for i in range(n)],
    'price' : np.random.uniform(price_range, size=n)
})

In [None]:
data

In [None]:
data_mean = data.groupby('color', as_index=False)['price'].mean()       # 先分组再聚合
data_mean.plot(kind='bar')

In [None]:
data_top5 = data_mean.sort_values('price', ascending=False).head(5)
data_top5.plot(kind='bar')