# pandas

In [1]:
import numpy as np
import pandas as pd

## 创建

In [None]:
# 创建series
s = pd.Series()
# 创建dataframe
df = pd.DataFrame()
# 增加一列
df['A'] = list('abcd')

## 属性

In [None]:
# 数据类型
df.dtypes
# 索引
df.index
# 列名
df.columns
# 转置
df.T
# 判断是否为空
df.empty

## 常见方法

In [None]:
df.head()
df.tail()
# 转为ndarray
df.to_numpy()
# 统计
df.describe()
df.copy()
# 求每列的所有行的平均值，排除缺失值
df.mean()
# 求每行的所有列的平均值，排除缺失值
df.mean(1)
df.count()
df.max()
df.sum()
df.cumsum()
# 设置数据类型
df.astype()

## 切片

In [None]:
# 取一列
df.A  # 相当于Series
df['A']  # 等同于df.A，得到Sereis
df[['A']]  # 得到只有一列的DataFrame
# 取几行
df[0:3]
# 取几列
df['A': 'B']
# 根据标签取数据
df.loc[10]  # 取标签为10的行
df.loc[0: 5, ['A', 'C']]  # 根据标签在多个轴上取数据 注意： 标签包头又包尾
df.loc[[0, 5], ['B': 'C']]
df.at[:, ['A', 'B']]
# 根据位置取数据
df.iloc[10]  # 获取在第11行的数据
dfiloc[3: 5, 0: 2]
df.iloc[[1, 2, 4], [0, 2]]
df.iloc[1:3, :]

## 布尔索引

In [None]:
# 使用单个列的值来选择数据
df[df['A'] > 0]
# 从满足布尔条件的DataFrame中选择值
df[df > 0]

In [None]:
isin()  # 判断是否在某个范围内

## 索引

In [None]:
df.reindex(index=[0:10], columns=['a', 'b', 'x'])  # 本质是从原df上切取指定部分，原df上如果不存在则为np.nan
df.set_index(on='B')  # 将B行设为索引
df.reset_index()  # 恢复索引

## 缺失值

### 删除缺失值

In [None]:
df.dropna()
df.dropna(how='any')  # 删除任何带有缺失值的行

### 填充缺失值

In [None]:
df.fillna()
df.fillna(method='ffill')  # 利用上面的数据填充下面的缺失值
df.fillna(method='bfill')  # 利用下面的数据填充上面的缺失值
df.fiilna(value=0)  # 用0填充缺失值

### 判断是否为nan，获取掩码

In [None]:
pd.isna(df)
pd.isnull(df)
pd.notnull(df)
pd.notnull(df)

## 移动

In [None]:
shift(1)  # 下移
shift(-2)  # 上移

## 排序

In [None]:
# 按轴排序
df.sort_index(axis=0, ascending=True)
# 按列排序
df.sort_values(by='b')

## 排名

In [None]:
df.rank()

## 应用函数 apply

In [None]:
df.apply(np.cumsum)  # df的每列的所有行从上至下累加
df.apply(lambda x: x.max() - x.min())  # df的每列的最大值最小值之差

### 计数

In [None]:
s.value_counts()  # 计算每个值出现的次数

## 字符串方法 str

In [None]:
df['A'].str.split(',')[0]

## 日期时间方法 datetime

In [None]:
df['date'].datetime.to_str()

In [None]:
df['date'].to_datetime()  # 可以将日期字符串转为pandas的日期时间

In [None]:
pd.date_range('2000-01-01', periods=1000)  # 生成时间序列

## 合并

### 连接 concat

In [3]:
pd.concat([df1, df2])

NameError: name 'df1' is not defined

### merge

类似于数据库表中的join，内连接，左连接，右连接等

In [None]:
pd.merge(df1, df2, on='key', how='inner')  # 默认内连接
# 只连接key相同的，把两边key设置为完全一样，则本质上让各自余下的列排列组合

## 追加

In [None]:
df.append(s)  # 追加一行

## 分组 groupby

__分组 --> 独自操作 --> 重组__

In [None]:
df.groupby('code')
# 分组后得到的结果
[
    # (索引，df)
    ('001', df1),
    ('002', df2),
    ...
    ('00n', dfn)
]

### 分组后对每组独立进行操作

In [4]:
df.groupby('code').sum()

NameError: name 'df' is not defined

### 按多列分组形成多重索引

In [None]:
df.groupby(['A', 'B']).sum()
# 分组后得到结果
[
    # (多重索引，df)
    (('001', 'xx1'), df1),
    (('001', 'xx2'), df2),
    (('002', 'xx1'), df3),
    (('002', 'xx2'), df4),
    ...
]

In [None]:
df.groupby(['A', 'B']).sort_values('C').reset_index(droplevel=True)

## 重塑 reshape

### 堆叠 stack

将columns加到原索引中变成多重索引

In [None]:
df.stack()
# 取消压缩
df.unstack()  # 默认取消多重索引中最后加入的级别
df.unstack(0)  # 等同于 df.unstack()
df.unstack(1)  # 取消倒数多重索引第二个级别

### 数据透视表 PivotTables

In [None]:
pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'])
# 将AB两列的值作为多重索引，将C列的值作为列名，取D列的数据查看

## 分类 category

对category的理解，就是枚举

In [None]:
df['grade'] = df["grade"].astype("category")  # 依据可以枚举的列的值生成数据类型为category的列

### cat 方法

In [None]:
df['grade'].cat.categories  # 获取category类型的值
df['grade'].cat.set_categories(['very_good', 'good', 'medium', 'bad', 'very_bad'])  # 重新设定枚举类的取值
df.sort_values(by='grade')  # 排序是按照categories中的顺序排序，而不是词汇顺序
df.groupby('grade').size()  # 按分好的类分组

In [None]:
pd.read_csv()
df.to_csv()

In [None]:
from sqlalchemy import create_engine
import pymysql

engine = create_engine('mysql+pymysql://root:123456@127.0.0.1:3306/testdb')
conn = engine.connect()

sql = 'select * from test'
pd.read_sql(sql, conn)
df.to_sql('test', engine)

from sqlalchemy.types import String
df.to_sql('test', engine, dtype={'name': String})  # 指定数据库中的类型

pd.read_sql_table(
    'test',  # 表名
    engine,  # 引擎
    index_col='student_id',  # 可以指定将那列作为索引
    columns=['name', 'age'],  # 还可以选定读取哪些列
    parse_dates=['Date']  # 将哪些列转为日期时间
    # 指定日期格式的两种方法
    parse_dates={'Date': '%Y-%m-%d'},
    parse_dates={'Date': {'format': '%Y-%m-%d %H:%M:%S'}}
)

pd.has_table()  # 检查某张表是否存在


for chunk in pd.read_sql_query('SELECT * FROM test', engine, chunksize=5):  # 返回迭代对象，每次读5条数据
    print(chunk)
    
    
# 只执行sql语句，不返回df对象
from pandas.io import sql
sql.execute('SELECT * FROM table_name', engine)
sql.execute('INSERT INTO table_name VALUES(?, ?, ?)', engine,
            params=[('id', 1, 12.2, True)])
