# pandas

In [1]:
import numpy as np
import pandas as pd
# pandas 加速库
# numexpr
# bottleneck
pd.set_option('compute.use_bottleneck', False)
pd.set_option('compute.use_numexpr', False)

## 创建

In [None]:
# 创建series
s = pd.Series()
# 创建dataframe
df = pd.DataFrame()
# 增加一列
df['A'] = list('abcd')

## 属性

In [None]:
# 数据类型
s.dtype
df.dtypes
# 索引
df.index
s.index
# 列名
df.columns
# 转置
df.T
# 判断是否为空
df.empty
# 对象的轴维度
df.shape
# 获取数据
s.values
df.values
s.index.values
# 注意： .array 属性获得的是pandas的扩展array，不是numpy的ndarray
s.index.array
s.array  # 推荐使用
s.to_numpy()
df.to_numpy()
# name
s.name
s.rename("new_name")
# del
del df['a']
# 
df.to_string()

## 常见方法

In [1]:
df.head()
df.tail()
# 转为ndarray
df.to_numpy()  # 推荐使用
s.to_numpy(dtype=object)  # 可以指定类型
# 等价于
np.asarray(s)
np.asarray(df)
# 统计
df.describe()  # include/exclude 指定统计要包含或排除的数据类型
df.copy()
# 求每列的所有行的平均值，排除缺失值
df.mean()
# 求每行的所有列的平均值，排除缺失值
df.mean(1)
df.count()
df.max()
df.sum()
df.cumsum()
# 比较运算
df1.gt(df2)
df1.ge(df2)
df1.lt(df2)
df1.le(df2)
df1.eq(df2)
df1.ne(df2)
# 设置数据类型
df.astype()
# 弹出一列
df.pop('a')
# 在指定列的后面插入新的一列
df.insert(1, 'b', df['a'])
# 利用现有列生产新的列 assign
df.assign(c=df['a'] / df['b'])
df.assign(c=lambda x: x['a'] / x['b'])
# query 条件筛选
df.query('a > 0').assign(d=lambda x: x['a'] + 1, e=lambda x: x.a * x.d)

NameError: name 'df' is not defined

In [None]:
# 对应numpy中的 argmin() argmax()
s.idxmin()  # 获取最小值索引
s.idxmax()  # 获取最大值索引
# 多行或多列中存在多个最大值或最小值时,只返回匹配到的第一个值的

In [None]:
df.select_dtypes(include=['number', 'bool'], exclude=['unsignedinteger'])  # 基于数据类型选择列

## 布尔简化

In [None]:
df.all()
df.any()
df.empty()  # 验证 pandas 对象是否为空
df.bool()

In [2]:
np.nan == np.nan  # 结果是 False

NameError: name 'np' is not defined

### 比较Series或DataFrame对象是否相等

In [None]:
s1.equals(s2)
df1.equals(df2)

### 标量于Series或DataFrame比较

In [None]:
pd.Series(['a', 'b', 'c']) == 'a'  # True, False, False
# 比较等长数组
pd.Series(['foo', 'bar', 'baz']) == pd.Index(['foo', 'bar', 'qux'])  # True, True, False
pd.Series(['foo', 'bar', 'baz']) == np.array(['foo', 'bar', 'qux'])  # True, True, False
# 不等长报错

## 切片

In [None]:
# 取一列
df.A  # 相当于Series
df['A']  # 等同于df.A，得到Sereis
df[['A']]  # 得到只有一列的DataFrame
# 取几行
df[0:3]
# 取几列
df['A': 'B']
# 根据标签取数据
df.loc[10]  # 取标签为10的行
df.loc[0: 5, ['A', 'C']]  # 根据标签在多个轴上取数据 注意： 标签包头又包尾
df.loc[[0, 5], ['B': 'C']]
df.at[:, ['A', 'B']]
# 根据位置取数据
df.iloc[10]  # 获取在第11行的数据
dfiloc[3: 5, 0: 2]
df.iloc[[1, 2, 4], [0, 2]]
df.iloc[1:3, :]

## 布尔索引

In [None]:
# 使用单个列的值来选择数据
df[df['A'] > 0]
# 从满足布尔条件的DataFrame中选择值
df[df > 0]

In [None]:
isin()  # 判断是否在某个范围内

## 索引

In [None]:
df.reindex(index=[0:10], columns=['a', 'b', 'x'])  # 本质是从原df上切取指定部分，原df上如果不存在则为np.nan
s.reindex(df.index)  # s 的数据与 df 对齐

df.set_index(on='B')  # 将B行设为索引
df.reset_index()  # 恢复索引

In [None]:
# 两个对象对齐
df.align(
    df2,
    join='outer',  # 使用两个对象索引的合集，默认值, 外连接
    join='left',  # 使用左侧对象的索引， 左连接
    join='right',  # 使用右侧对象的索引， 右连接
    join='inner',  # 使用两个对象索引的交集, 内连接
)

### 去掉轴上的标签

In [None]:
df.drop([0, 1], axis=0)  # 删除行
df.drop(['a'], axis=1)  # 删除列

### 重命名

In [None]:
df.rename(columns={'one': 'foo', 'two': 'bar'}, index={'a': 'apple', 'b': 'banana', 'd': 'durian'})

In [None]:
df.rename_axis(index={'0': 'a'})  # 重命名多重索引

## 缺失值

### 删除缺失值

In [None]:
df.dropna()
df.dropna(how='any')  # 删除任何带有缺失值的行

### 填充缺失值

In [None]:
df.fillna()
df.fillna(method='ffill')  # 利用上面的数据填充下面的缺失值
df.fillna(method='pad')  # 利用上面的数据填充下面的缺失值
df.fillna(method='bfill')  # 利用下面的数据填充上面的缺失值
df.fillna(method='backfill')  # 利用下面的数据填充上面的缺失值
df.fillna(method='nearest')  # 用最近的索引的值填充
df.fiilna(value=0)  # 用0填充缺失值

### 判断是否为nan，获取掩码

In [None]:
pd.isna(df)
pd.isnull(df)
pd.notnull(df)
pd.notnull(df)

## 移动

In [None]:
shift(1)  # 下移
shift(-2)  # 上移

## 排序

In [None]:
# 按轴排序
df.sort_index(axis=0, ascending=True)
# 按列排序
df.sort_values(by='b')
df.sort_values(by=['b', 'c'])
# na_position 参数，指定处理空值的方法

## 排名

In [None]:
df.rank(method='min')  # 同名称取最小

### 返回n个最大最小值

In [None]:
s.nsmallest(1)
s.nlargest(2)

## 函数应用

- pipe 表级
- apply 行级
- map / applymap 元素级
- agg / transform 聚合

- pipe()  表级函数

In [None]:
# df为函数参数
func1(fun2(df), x=1)
# 上一种写法不好
df.pipe(func2).pipe(func1, x=1)

- apply() 行级函数

In [None]:
df.apply(np.cumsum)  # df的每列的所有行从上至下累加
df.apply(lambda x: x.max() - x.min())  # df的每列的最大值最小值之差
df.apply(np.mean)
df.apply(np.mean, axis=1)

- agg() 聚合

In [None]:
df.agg(np.sum)
df.agg('sum')  # 因为应用的是一个函数，与 df.sum() 等效

df.agg(['sum', 'mean'])
df.agg(['sum', lambda x: x + 1])

df.agg({'A': 'mean', 'B': 'sum'})  # A 列求平均，B 列求和
df.agg({'A': ['mean', 'min'], 'B': 'sum'})

- transform() 聚合

In [None]:
df.transform(np.abs)

df.transform([np.abs, lambda x: x + 1])

df.transform({'A': np.abs, 'B': lambda x: x + 1})

- s.map() / df.applymap() 元素级的操作，不是矢量化的操作

In [None]:
# Series 的 map()
# DataFrame 的 applymap()
s.map(func)
df.applymap(func)

### 计数

In [None]:
s.value_counts()  # 计算每个值出现的次数

## 字符串方法 str

In [None]:
df['A'].str.split(',')[0]

## 日期时间方法 datetime

In [None]:
df['date'].datetime.to_str()

In [None]:
df['date'].to_datetime()  # 可以将日期字符串转为pandas的日期时间

In [None]:
pd.date_range('2000-01-01', periods=1000)  # 生成时间序列

### .dt

In [None]:
s = pd.Series(pd.date_range('20130101 09:10:12', periods=4))
s.dt.hour
s.dt.month
s[s.dt.day == 2]
s.dt.tz_localize('US/Eastern')  # 时区转换
s.dt.tz_localize('UTC').dt.tz_convert('US/Eastern')

s.dt.strftime('%Y/%m/%d')

In [None]:
s = pd.Series(pd.period_range('20130101', periods=4))
s.dt.strftime('%Y/%m/%d')
s = pd.Series(pd.timedelta_range('1 day 00:00:05', periods=4, freq='s'))

## 合并

### 连接 concat

In [3]:
pd.concat([df1, df2])

NameError: name 'df1' is not defined

### merge

类似于数据库表中的join，内连接，左连接，右连接等

In [None]:
pd.merge(df1, df2, on='key', how='inner')  # 默认内连接
# 只连接key相同的，把两边key设置为完全一样，则本质上让各自余下的列排列组合

## 追加

In [None]:
df.append(s)  # 追加一行

## 分组 groupby

__分组 --> 独自操作 --> 重组__

In [None]:
df.groupby('code')
# 分组后得到的结果
[
    # (索引，df)
    ('001', df1),
    ('002', df2),
    ...
    ('00n', dfn)
]

### 分组后对每组独立进行操作

In [4]:
df.groupby('code').sum()

NameError: name 'df' is not defined

### 按多列分组形成多重索引

In [None]:
df.groupby(['A', 'B']).sum()
# 分组后得到结果
[
    # (多重索引，df)
    (('001', 'xx1'), df1),
    (('001', 'xx2'), df2),
    (('002', 'xx1'), df3),
    (('002', 'xx2'), df4),
    ...
]

In [None]:
df.groupby(['A', 'B']).sort_values('C').reset_index(droplevel=True)

## 重塑 reshape

### 堆叠 stack

将columns加到原索引中变成多重索引

In [None]:
df.stack()
# 取消压缩
df.unstack()  # 默认取消多重索引中最后加入的级别
df.unstack(0)  # 等同于 df.unstack()
df.unstack(1)  # 取消倒数多重索引第二个级别

### 数据透视表 PivotTables

In [None]:
pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'])
# 将AB两列的值作为多重索引，将C列的值作为列名，取D列的数据查看

## 分类 category

对category的理解，就是枚举

In [None]:
df['grade'] = df["grade"].astype("category")  # 依据可以枚举的列的值生成数据类型为category的列

### cat 方法

In [None]:
df['grade'].cat.categories  # 获取category类型的值
df['grade'].cat.set_categories(['very_good', 'good', 'medium', 'bad', 'very_bad'])  # 重新设定枚举类的取值
df.sort_values(by='grade')  # 排序是按照categories中的顺序排序，而不是词汇顺序
df.groupby('grade').size()  # 按分好的类分组

## 广播机制

两个数组的相加、相减以及相乘都是对应元素之间的操作。当两个数组的形状并不相同的时候，我们可以通过扩展数组的方法来实现相加、相减、相乘等操作，这种机制叫做广播。

广播的原则：如果两个数组的后缘维度（trailing dimension，即从末尾开始算起的维度）的轴长度相符，或其中的一方的长度为1，则认为它们是广播兼容的。广播会在缺失和（或）长度为1的维度上进行。

简而言之，自动对齐和填充一遍运算

In [None]:
df.add()
df.sub()
df.mul()
df.div()
# 支持通过 axis 关键字，匹配 index 或 columns
axis = 0 # 等价于 axis = 'index', 默认值
axis = 1 # 等价于 axis = 'columns'

# 参数skipna
skipna = True  # 默认，将nan排除在外

In [None]:
df.sub(row, axis='columns')
df.add(column, axis=0)
# row 和 column 都是Series，依据axis的取值，决定与df的行或列对齐， 它们甚至可以于df的多重索引对齐
df.sub(df['A'], axis=0)

- 描述性统计

In [None]:
df.count()  # 统计非空值数量
df.min()
df.max()
df.sum()
df.mean()
df.mode()  # 众数
df.mid()  # 中位数
df.abs()
df.prod  # 乘积
df.std()  # 求标准差
df.var()  # 方差
df.quantile()  # 四分位点

df.cumsum()
df.cumprod()
df.cummax()  # 累计最大值
df.cuminx()  # 累计最小值
# 以上方法都接受axis参数

In [None]:
s.nunique()  # 返回Series里所有非空值的唯一值

## IO

In [None]:
pd.read_csv()
df.to_csv()

In [None]:
from sqlalchemy import create_engine
import pymysql

engine = create_engine('mysql+pymysql://root:123456@127.0.0.1:3306/testdb')
conn = engine.connect()

sql = 'select * from test'
pd.read_sql(sql, conn)
df.to_sql('test', engine)

from sqlalchemy.types import String
df.to_sql('test', engine, dtype={'name': String})  # 指定数据库中的类型

pd.read_sql_table(
    'test',  # 表名
    engine,  # 引擎
    index_col='student_id',  # 可以指定将那列作为索引
    columns=['name', 'age'],  # 还可以选定读取哪些列
    parse_dates=['Date']  # 将哪些列转为日期时间
    # 指定日期格式的两种方法
    parse_dates={'Date': '%Y-%m-%d'},
    parse_dates={'Date': {'format': '%Y-%m-%d %H:%M:%S'}}
)

pd.has_table()  # 检查某张表是否存在


for chunk in pd.read_sql_query('SELECT * FROM test', engine, chunksize=5):  # 返回迭代对象，每次读5条数据
    print(chunk)
    
    
# 只执行sql语句，不返回df对象
from pandas.io import sql
sql.execute('SELECT * FROM table_name', engine)
sql.execute('INSERT INTO table_name VALUES(?, ?, ?)', engine,
            params=[('id', 1, 12.2, True)])
