# pandas

In [1]:
import numpy as np
import pandas as pd
# pandas 加速库
# numexpr
# bottleneck
pd.set_option('compute.use_bottleneck', False)
pd.set_option('compute.use_numexpr', False)

## 创建

In [None]:
# 创建series
s = pd.Series()
# 创建dataframe
df = pd.DataFrame()
# 增加一列
df['A'] = list('abcd')

dates = pd.date_range('1/1/2000', periods=8)
df = pd.DataFrame(np.random.randn(8, 4), index=dates, columns=['A', 'B', 'C', 'D'])

## 属性

In [None]:
# 数据类型
s.dtype
df.dtypes
# 索引
df.index
s.index
# 列名
df.columns
# 转置
df.T
# 判断是否为空
df.empty
# 对象的轴维度
df.shape
# 获取数据
s.values
df.values
s.index.values
df.index.name
df.index.names  # 多重索引
# 注意： .array 属性获得的是pandas的扩展array，不是numpy的ndarray
s.index.array
s.array  # 推荐使用
s.to_numpy()
df.to_numpy()
# name
s.name
s.rename("new_name")
# del
del df['a']
# 
df.to_string()

## 常见方法

In [None]:
df.head()
df.tail()
# 转为ndarray
df.to_numpy()  # 推荐使用
s.to_numpy(dtype=object)  # 可以指定类型
# 等价于
np.asarray(s)
np.asarray(df)
# 统计
df.describe()  # include/exclude 指定统计要包含或排除的数据类型
df.copy()
# 求每列的所有行的平均值，排除缺失值
df.mean()
# 求每行的所有列的平均值，排除缺失值
df.mean(1)
df.count()
df.max()
df.sum()
df.cumsum()
# 比较运算
df1.gt(df2)
df1.ge(df2)
df1.lt(df2)
df1.le(df2)
df1.eq(df2)
df1.ne(df2)
# 设置数据类型
df.astype()
# 弹出一列
df.pop('a')
# 在指定列的后面插入新的一列
df.insert(1, 'b', df['a'])
# 利用现有列生产新的列 assign
df.assign(c=df['a'] / df['b'])
df.assign(c=lambda x: x['a'] / x['b'])
# query 条件筛选
df.query('a > 0').assign(d=lambda x: x['a'] + 1, e=lambda x: x.a * x.d)

In [None]:
# 对应numpy中的 argmin() argmax()
s.idxmin()  # 获取最小值索引
s.idxmax()  # 获取最大值索引
# 多行或多列中存在多个最大值或最小值时,只返回匹配到的第一个值的

In [None]:
df.select_dtypes(include=['number', 'bool'], exclude=['unsignedinteger'])  # 基于数据类型选择列

### 逻辑

- and &
- or |
- not ~

In [None]:
s[(s < -1) | (s > 0.5)]
s[~(s < 0)]

## 数据选取 query()

In [None]:
df[(df.a < df.b) & (df.b < df.c)]
# 等价于
df.query('(a < b) & (b < c)')
df.query('a < b & b < c')
df.query('a < b and b < c')
df.query('a in b') == df[df.a.isin(df.b)]

In [None]:
s.get('a')
s.get('x', default=-1)
df.get('a')

## 布尔简化

In [None]:
df.all()
df.any()
df.empty()  # 验证 pandas 对象是否为空
df.bool()

In [None]:
np.nan == np.nan  # 结果是 False

## 重复数据

- duplicated()
- drop_duplicates()

In [None]:
df.duplicated('a')

df.drop_duplicates('a', keep='first')


In [None]:
- keep='first' （默认值）：标记/删除重复项，第一次出现除外。
- keep='last'：标记/删除重复项，除了最后一次出现。
- keep=False：标记/删除所有重复项。

### 比较Series或DataFrame对象是否相等

In [None]:
s1.equals(s2)
df1.equals(df2)

### 标量于Series或DataFrame比较

In [None]:
pd.Series(['a', 'b', 'c']) == 'a'  # True, False, False
# 比较等长数组
pd.Series(['foo', 'bar', 'baz']) == pd.Index(['foo', 'bar', 'qux'])  # True, True, False
pd.Series(['foo', 'bar', 'baz']) == np.array(['foo', 'bar', 'qux'])  # True, True, False
# 不等长报错

## 数据选取

- __loc__
- __iloc__

In [None]:
# 取一列
df.A  # 相当于Series
df['A']  # 等同于df.A，得到Sereis
df[['A']]  # 得到只有一列的DataFrame

# 取几行
df[0:3]
# 取几列
df['A': 'B']

# 根据标签取数据
df.loc[10]  # 取标签为10的行
df.loc[0: 5, ['A', 'C']]  # 根据标签在多个轴上取数据 注意： 标签包头又包尾
df.loc[[0, 5], ['B': 'C']]
df.at[:, ['A', 'B']]
s.loc[:]

# 根据位置取数据
df.iloc[10]  # 获取在第11行的数据
dfiloc[3: 5, 0: 2]
df.iloc[[1, 2, 4], [0, 2]]
df.iloc[1:3, :]
s.iloc[:]

# 交换列
df[['B', 'A']] = df[['A', 'B']]
df.loc[:, ['B', 'A']] = df[['A', 'B']].to_numpy()

# bool index
df.loc['a'] > 0
df1.loc[:, df1.loc['a'] > 0]

df1.loc[lambda df: df.A > 0, :]
df1.loc[:, lambda df: ['A', 'B']]
s.loc[lambda s: s > 0]

df.groupby(['year', 'team']).sum().loc[lambda df: df.r > 100]

# 快速获取标量
s.at['a']
s.iat[0]
df.at[dates[5], 'A']
df.iat[3, 0]

## 布尔索引

In [None]:
# 使用单个列的值来选择数据
df[df['A'] > 0]
# 从满足布尔条件的DataFrame中选择值
df[df > 0]

In [None]:
isin()  # 判断是否在某个范围内
s.isin([2, 4, 6])
s[s.isin([2, 4, 6])]
s[s.index.isin([2, 4, 6])]

## 索引

In [None]:
df.reindex(index=[0:10], columns=['a', 'b', 'x'])  # 本质是从原df上切取指定部分，原df上如果不存在则为np.nan
s.reindex(df.index)  # s 的数据与 df 对齐

df.set_index(on='B')  # 将B行设为索引
df.reset_index()  # 恢复索引, 索引值传输到DataFrame的列中并设置一个简单的整数索引

In [None]:
df.set_index(['a', 'b'], append=True)  # append关键字选项让你保持现有索引并追加给列一个多指标
df.set_index('c', drop=False)
df.reset_index(level=1)  # level 关键字，删除索引那一级，变为列
df.reset_index(drop=True)  # 只丢弃索引，不添加新的列

In [None]:
# 多重索引取值
df['one']['second']
# 没有以下方法好
df.loc[:, ('one', 'second')]  # 直接传递符合索引元组

In [None]:
# 两个对象对齐
df.align(
    df2,
    join='outer',  # 使用两个对象索引的合集，默认值, 外连接
    join='left',  # 使用左侧对象的索引， 左连接
    join='right',  # 使用右侧对象的索引， 右连接
    join='inner',  # 使用两个对象索引的交集, 内连接
)

## 多重索引 MultiIndex

In [None]:
# 构建多重索引
multi_index = MultiIndex.from_array([['1', '1', '2', '2'], ['a', 'b', 'a', 'b']], names=['first', 'second'])  # names 指定索引名称
multi_index = MultiIndex.from_tuple([('1', 'a'), ('1', 'b'), ('2', 'a'), ('2', 'b')])
multi_index = MultiIndex.from_product([['1', '2'], ['a', 'b']], names=['first', 'second'])
df = pd.DataFrame([['1', 'a'], ['1', 'b'], ['2', 'a'], ['2', 'b']], columns=['first', 'second'])
multi_index = MultiIndex.from_frame(df)

In [None]:
ss = pd.Series(np.random.randn(4), index=multi_index)
df = pd.DataFrame(np.random.randn(4, 2), index=multi_index, columns=['A', 'B'])
df1 = pd.DataFrame(np.random.randn(2, 4), index=['A', 'B'], columns=multi_index)
df2 = pd.DataFrame(np.random.randn(4, 4), index=multi_index, columns=multi_index)

In [None]:
# 获取不同级别的索引
multi_index.get_index_value(0) == multi_index.get_index_value('first')
multi_index.get_index_value(1) == multi_index.get_index_value('second')

In [None]:
# 通过索引选取数据
df1['1']
df1['1', 'a'] == df1['1']['a']
df1[['1', 'a']]

### 索引的层级 levels

In [None]:
df.index.levels  # 获取索引层级内容

In [None]:
ss.reindex(multi_index[:3])
df.reindex([('1', 'a'), ('2', 'b')])

__具体的某个特定多层索引是元组__, 如：('1', 'a')

In [None]:
df.loc[('1', 'a')]
df.loc[('bar', 'two'), 'A']
df.loc['1']
# 下面写法容易引起歧义， 不推荐
df.loc['1', 'a']

In [None]:
df.loc['1':'2']
df.loc[('1', 'a'): ('2', 'a')]
df.loc[('1', 'b'): '2']

Tips:

在pandas中，元组和列表，在索引时，是有区别的。一个元组会被识别为一个多层级的索引值（key），而列表被用于表明多个不同的索引值（several keys）。换句话说，元组是按照横向展开的，即水平层级（trasvering levels），而列表是纵向的，即扫描层级（scanning levels）

tuple ---- 特定的某个多层索引
list  ---- 索引的多个值，某个层级中的多个索引

In [None]:
s = pd.Series([1, 2, 3, 4, 5, 6], index=pd.MultiIndex.from_product([["A", "B"], ["c", "d", "e"]]))
# 比较二者区别
s.loc[[("A", "c"), ("B", "d")]]
>>> 
A  c    1
B  d    5
dtype: int64

s.loc[(["A", "B"], ["c", "d"])]
>>>
A  c    1
   d    2
B  c    4
   d    5
dtype: int64

#### xs('a', level='second')  在某个指定层级索引中选取数据

In [None]:
df.xs('a', level='second')
df.xs(('a', '1'), level=('second', 'first'), axis=1)
df.xs('a', level='second', axis=1, drop_level=False)  # drop_level=False, 保留已经选取的层级

In [None]:
df2.reindex(df.index, level=0)  # level 参数，指定选取索引的哪一层级

### swaplevel  交换索引层级

In [None]:
df.swaplevel(0, 1, axis=0)

### reorder_levels 层级重排序

In [None]:
df.reorder_levels([1, 0], axis=0)  # 等价与上面的swaplevel

### 设置索引名称

In [None]:
ss.index.name = 'first'
ss.index.names = ['first', 'second']

ss.index.set_names(['L1', 'L2'], inplace=True)

### 索引重命名 rename

In [None]:
df.rename(index={"1": "one", "a": "A"})  # 对特定的索引重命名
df.rename_axis(index=['abc', 'def'])  # 重命名索引的层级名称，不再是 'first', 'second'
df.rename_axis(index={'abc': '123', 'def': '456'})  # 再次更改索引名称

# 列的名称也可以更改
df.rename_axis(columns="Cols")
df.rename_axis(columns="Cols").columns

### 索引排序sort_index()

In [None]:
ss.sort_index()
ss.sort_index(0)  
ss.sort_index(1)

ss.sort_index(level='L1')

# 如果列是多重索引也可以排序
df.T.sort_index(level=1, axis=1)

## 索引类型

- 分类索引
- 日期索引
- 时间索引
- PeriodIndex
- IntervalIndex

### 分类索引 CategoricalIndex

In [None]:
df['b'] = df['b'].astype('category')
df.b.cat.categories
df.set_index('b')

### 间隔索引 IntervalIndex

In [None]:
df = pd.DataFrame({'A': [1, 2, 3, 4]}, index=pd.IntervalIndex.from_breaks([0, 1, 2, 3, 4]))
>>>
        A
(0, 1]  1
(1, 2]  2
(2, 3]  3
(3, 4]  4

### 去掉轴上的标签

In [None]:
df.drop([0, 1], axis=0)  # 删除行
df.drop(['a'], axis=1)  # 删除列

### 重命名

In [None]:
df.rename(columns={'one': 'foo', 'two': 'bar'}, index={'a': 'apple', 'b': 'banana', 'd': 'durian'})

In [None]:
df.rename_axis(index={'0': 'a'})  # 重命名多重索引

### 随机采样

In [None]:
s.sample()

## take() 选取元素

In [None]:
df.take([1, 4, 3])
df.take([0, 2], axis=1)

## 缺失值

### 删除缺失值

In [None]:
df.dropna()
df.dropna(how='any')  # 删除任何带有缺失值的行

### 填充缺失值

In [None]:
df.fillna()
df.fillna(method='ffill')  # 利用上面的数据填充下面的缺失值
df.fillna(method='pad')  # 利用上面的数据填充下面的缺失值
df.fillna(method='bfill')  # 利用下面的数据填充上面的缺失值
df.fillna(method='backfill')  # 利用下面的数据填充上面的缺失值
df.fillna(method='nearest')  # 用最近的索引的值填充
df.fiilna(value=0)  # 用0填充缺失值

### 判断是否为nan，获取掩码

In [None]:
pd.isna(df)
pd.isnull(df)
pd.notnull(df)
pd.notnull(df)

## 移动

In [None]:
shift(1)  # 下移
shift(-2)  # 上移

## 排序

In [None]:
# 按轴排序
df.sort_index(axis=0, ascending=True)
# 按列排序
df.sort_values(by='b')
df.sort_values(by=['b', 'c'])
# na_position 参数，指定处理空值的方法

## 排名

In [None]:
df.rank(method='min')  # 同名称取最小

### 返回n个最大最小值

In [None]:
s.nsmallest(1)
s.nlargest(2)

## 函数应用

- pipe 表级
- apply 行级
- map / applymap 元素级
- agg / transform 聚合

- pipe()  表级函数

In [None]:
# df为函数参数
func1(fun2(df), x=1)
# 上一种写法不好
df.pipe(func2).pipe(func1, x=1)

- apply() 行级函数

In [None]:
df.apply(np.cumsum)  # df的每列的所有行从上至下累加
df.apply(lambda x: x.max() - x.min())  # df的每列的最大值最小值之差
df.apply(np.mean)
df.apply(np.mean, axis=1)

- agg() 聚合

In [None]:
df.agg(np.sum)
df.agg('sum')  # 因为应用的是一个函数，与 df.sum() 等效

df.agg(['sum', 'mean'])
df.agg(['sum', lambda x: x + 1])

df.agg({'A': 'mean', 'B': 'sum'})  # A 列求平均，B 列求和
df.agg({'A': ['mean', 'min'], 'B': 'sum'})

- transform() 聚合

In [None]:
df.transform(np.abs)

df.transform([np.abs, lambda x: x + 1])

df.transform({'A': np.abs, 'B': lambda x: x + 1})

- s.map() / df.applymap() 元素级的操作，不是矢量化的操作

In [None]:
# Series 的 map()
# DataFrame 的 applymap()
s.map(func)
df.applymap(func)

### 计数

In [None]:
s.value_counts()  # 计算每个值出现的次数

## 字符串方法 str

In [None]:
df['A'].str.split(',')[0]

## 日期时间方法 datetime

In [None]:
df['date'].datetime.to_str()

In [None]:
df['date'].to_datetime()  # 可以将日期字符串转为pandas的日期时间

In [None]:
pd.date_range('2000-01-01', periods=1000)  # 生成时间序列

### .dt

In [None]:
s = pd.Series(pd.date_range('20130101 09:10:12', periods=4))
s.dt.hour
s.dt.month
s[s.dt.day == 2]
s.dt.tz_localize('US/Eastern')  # 时区转换
s.dt.tz_localize('UTC').dt.tz_convert('US/Eastern')

s.dt.strftime('%Y/%m/%d')

In [None]:
s = pd.Series(pd.period_range('20130101', periods=4))
s.dt.strftime('%Y/%m/%d')
s = pd.Series(pd.timedelta_range('1 day 00:00:05', periods=4, freq='s'))

## 合并

### 连接 concat

In [None]:
pd.concat([df1, df2])

### merge

类似于数据库表中的join，内连接，左连接，右连接等

In [None]:
pd.merge(df1, df2, on='key', how='inner')  # 默认内连接
# 只连接key相同的，把两边key设置为完全一样，则本质上让各自余下的列排列组合

## 追加

In [None]:
df.append(s)  # 追加一行

## 分组 groupby

__分组 --> 独自操作 --> 重组__

In [None]:
df.groupby('code')
# 分组后得到的结果
[
    # (索引，df)
    ('001', df1),
    ('002', df2),
    ...
    ('00n', dfn)
]

### 分组后对每组独立进行操作

In [None]:
df.groupby('code').sum()

### 按多列分组形成多重索引

In [None]:
df.groupby(['A', 'B']).sum()
# 分组后得到结果
[
    # (多重索引，df)
    (('001', 'xx1'), df1),
    (('001', 'xx2'), df2),
    (('002', 'xx1'), df3),
    (('002', 'xx2'), df4),
    ...
]

In [None]:
df.groupby(['A', 'B']).sort_values('C').reset_index(droplevel=True)

In [None]:
# 可以按照索引某一层级分组
df.groupby(level=0).sum()

## 重塑 reshape

### 堆叠 stack

将columns加到原索引中变成多重索引

In [None]:
df.stack()
# 取消压缩
df.unstack()  # 默认取消多重索引中最后加入的级别
df.unstack(0)  # 等同于 df.unstack()
df.unstack(1)  # 取消倒数多重索引第二个级别

### 数据透视表 PivotTables

In [None]:
pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'])
# 将AB两列的值作为多重索引，将C列的值作为列名，取D列的数据查看

## 分类 category

对category的理解，就是枚举

In [None]:
df['grade'] = df["grade"].astype("category")  # 依据可以枚举的列的值生成数据类型为category的列

### cat 方法

In [None]:
df['grade'].cat.categories  # 获取category类型的值
df['grade'].cat.set_categories(['very_good', 'good', 'medium', 'bad', 'very_bad'])  # 重新设定枚举类的取值
df.sort_values(by='grade')  # 排序是按照categories中的顺序排序，而不是词汇顺序
df.groupby('grade').size()  # 按分好的类分组

## 广播机制

两个数组的相加、相减以及相乘都是对应元素之间的操作。当两个数组的形状并不相同的时候，我们可以通过扩展数组的方法来实现相加、相减、相乘等操作，这种机制叫做广播。

广播的原则：如果两个数组的后缘维度（trailing dimension，即从末尾开始算起的维度）的轴长度相符，或其中的一方的长度为1，则认为它们是广播兼容的。广播会在缺失和（或）长度为1的维度上进行。

简而言之，自动对齐和填充一遍运算

In [None]:
df.add()
df.sub()
df.mul()
df.div()
# 支持通过 axis 关键字，匹配 index 或 columns
axis = 0 # 等价于 axis = 'index', 默认值
axis = 1 # 等价于 axis = 'columns'

# 参数skipna
skipna = True  # 默认，将nan排除在外

In [None]:
df.sub(row, axis='columns')
df.add(column, axis=0)
# row 和 column 都是Series，依据axis的取值，决定与df的行或列对齐， 它们甚至可以于df的多重索引对齐
df.sub(df['A'], axis=0)

- 描述性统计

In [None]:
df.count()  # 统计非空值数量
df.min()
df.max()
df.sum()
df.mean()
df.mode()  # 众数
df.mid()  # 中位数
df.abs()
df.prod  # 乘积
df.std()  # 求标准差
df.var()  # 方差
df.quantile()  # 四分位点

df.cumsum()
df.cumprod()
df.cummax()  # 累计最大值
df.cuminx()  # 累计最小值
# 以上方法都接受axis参数

In [None]:
s.nunique()  # 返回Series里所有非空值的唯一值

### where

In [None]:
s.where(condition, other=np.nan, axis=0, inplace=True, level=0)  # 条件满足保持原有值不变，条件不满足则用指定值替换
s.where(s > 0, 0)
df.where(df > 0)  # other 默认为nan

In [None]:
# 在numpy中
np.where(condition, 1, 0)  # 条件，条件满足的取值，条件不满足的取值

df.where(df < 0, -df) == np.where(df < 0, df, -df)

In [None]:
# where 等效于bool索引赋值
s.where(s > 0, 0)
# 等效于
s[s < 0] = 0

### mask()

与where正好相反

In [None]:
s.mask(condition, other=np.nan, axis=0, inplace=True, level=0)  # 条件满足用指定值替换，条件不满足则保持原有值不变
df.mask(df >= 0)

## IO

In [None]:
pd.read_csv()
df.to_csv()

In [None]:
from sqlalchemy import create_engine
import pymysql

engine = create_engine('mysql+pymysql://root:123456@127.0.0.1:3306/testdb')
conn = engine.connect()

sql = 'select * from test'
pd.read_sql(sql, conn)
df.to_sql('test', engine)

from sqlalchemy.types import String
df.to_sql('test', engine, dtype={'name': String})  # 指定数据库中的类型

pd.read_sql_table(
    'test',  # 表名
    engine,  # 引擎
    index_col='student_id',  # 可以指定将那列作为索引
    columns=['name', 'age'],  # 还可以选定读取哪些列
    parse_dates=['Date']  # 将哪些列转为日期时间
    # 指定日期格式的两种方法
    parse_dates={'Date': '%Y-%m-%d'},
    parse_dates={'Date': {'format': '%Y-%m-%d %H:%M:%S'}}
)

pd.has_table()  # 检查某张表是否存在


for chunk in pd.read_sql_query('SELECT * FROM test', engine, chunksize=5):  # 返回迭代对象，每次读5条数据
    print(chunk)
    
    
# 只执行sql语句，不返回df对象
from pandas.io import sql
sql.execute('SELECT * FROM table_name', engine)
sql.execute('INSERT INTO table_name VALUES(?, ?, ?)', engine, params=[('id', 1, 12.2, True)])
