# pandas链接数据库



In [None]:
from pandas import read_sql
from sqlalchemy import create_engine

engine = create_engine(
    'mssql+pyodbc://sa:CgSqlServerRoot2012@172.17.18.110/cgyypt?driver=ODBC+Driver+17+for+SQL+Server')
with engine.connect() as db:
    data = read_sql('select * from ccp_gp_gjz', db)

# pandas的查看Series方法 loc[<查找行索引>]

## pandas 查询数据方法

- df.loc (更具行、列的标签值查询)
- df.iloc (更具行、列的数字位置查询)
- df.where
- df.query

### df.loc[<索引(可切片)>, <查询字段可以是列表查询多行>]

- 使用单个label值查询数据
- 使用值列表批量查询
- 使用数值曲靖进行范围查询
- 使用条件表达式查询
- 使用函数查询

In [None]:
# 设置索引为数据库表的id inplace参数为直接改变DataFrame
data.set_index('jlrq', inplace=True)

In [None]:
# 改变数据中ygdm的类型
data.loc[:, 'xgczydm'] = data['xgczydm'].fillna('')
data.loc[:, 'xgczymc'] = data['xgczydm'].fillna('')

1. 使用单个label的值查询数据

In [None]:
data.head()

In [None]:
# 查询单个值
data.loc['2023-06-19', 'id']

In [None]:
# 查询多个,得到Series
data.loc['2023-03-17', ['id', 'scbm_id']]

2. 使用值列表批量查询

In [None]:
# 得到Series
data.loc[['2023-03-17 11:53:09.950', '2023-03-17 14:22:30.080'], 'id']

In [None]:
# 得到DataFrame
data.loc[['2023-03-17 11:53:09.950', '2023-03-17 14:22:30.080'], ['id', 'scbc']]

3. 使用数值区间进行范围查询(包括开始,也包括结束)

In [None]:
# 行index按区间
data.sort_index().loc['2023-03-17': '2023-03-20', 'id']

In [None]:
# 列index 按区间
data.loc['2023-03-17', 'id':'gpzl']

In [None]:
# 行和列都按区间查询
data.sort_index().loc['2023-03-17':'2023-03-21', 'id':'gpzs']

4. 使用条件表达式查询

In [None]:
data['gpzl'] < 10

In [None]:
# 查询数据gpzl小于5.4的数据
data.loc[data['gpzl'] < 5.4, 'id': 'gpzl']

In [None]:
# 查询gpzl大于3 小于20的数据
data.loc[(data['gpzl'] > 3) & (data['gpzl'] < 20), 'id':'gpzl']

In [None]:
(data['gpzl'] > 3) & (data['gpzl'] < 20)

5. 调用函数查询

In [None]:
# 直接写lambda表达式
data.loc[lambda data: (data['gpzl'] > 3) & (data['gpzl'] < 20), 'id':'gpzl']

In [None]:
from pandas import DataFrame


# 使用自定义函数
def query_data(data: DataFrame):
    data.index = data.index.astype(str)
    return (data.index.str.startswith('2023-03')) & (data['gpzs'] == 10)


data_copy = data.copy(True)
data_copy.loc[query_data, 'id': 'gpzs']

# pandas新增数据列

## 使用loc新增列

In [None]:
data_copy1 = data.copy(True)
data_copy1.loc[:, 'scbm_bc'] = data_copy['scbmmc'] + '_' + data_copy['scbc']
data_copy1

## 使用DataFrame.apply
apply中的axis=0表示使用行的index(DataFrame.index) axis=1(columns.index)表示使用列的index

In [None]:
# 插入新的一行新的生产部门名称 如果是A班则为甲 如果是B班则为乙
def get_new_scbm_bc(data: DataFrame):
    if data['scbc'] == 'A班':
        return '甲'
    elif data['scbc'] == 'B班':
        return '乙'
    else:
        return '丙'


data_copy2 = data.copy(True)
data_copy2.loc[:, 'new_scbm'] = data_copy1.apply(get_new_scbm_bc, axis=1)
data_copy2

In [None]:
# 查看生产班次的统计数
data_copy2['new_scbm'].value_counts()

## DataFrame.assign
添加新的列到DataFrame中并返回一个新的DataFrame, 可以同时添加多个新的列

In [None]:
new_data = data.assign(
    new_scbc1=lambda df: df['scbc'] + '--' + df['scbmmc'],
    new_scbc2=lambda df: df['scbmmc'] + '==' + df['scbc']
)
new_data

In [None]:
data

## 按条件选择分组分别赋值
按条件先选择数据, 然后对这部分数据赋值新列

In [None]:
data_copy3 = data.copy(True)
# 这里可以给DataFrame所有列加上这一行
data_copy3['钢坯比重'] = ''
data_copy3

In [None]:
data_copy3.loc[data_copy3['gpzl'] / data_copy3['gpzs'] / data_copy3['gpzl'] > 0.05, '钢坯比重'] = '小比重'
data_copy3.loc[data_copy3['gpzl'] / data_copy3['gpzs'] / data_copy3['gpzl'] <= 0.05, '钢坯比重'] = '大比重'
data_copy3

In [None]:
data_copy3['钢坯比重'].value_counts()

# pandas数据统计函数
1. 汇总类统计
2. 唯一去重和按值计数
3. 相关系数和协方差

## 1. 汇总类统计

In [None]:
# 提取所有数字列统计结果 mean(平均值) std(标准差)
d = data.describe()

In [None]:
# 查看最大值
data['scbm_id'].max()

In [None]:
# 查看最小值
data['scbm_id'].min()

In [None]:
# 查看平均值
data['scbm_id'].mean()

In [None]:
# 查看标准差
d['scbm_id'].std()

## 2.非数字类型存在唯一去重和按值计数

2.1 唯一去重
一般不用于数值列,而是枚举、分类列

In [None]:
data['scbmmc'].unique()

In [None]:
data['scbc'].unique()

2.2 按值计数

In [None]:
data['scbmmc'].value_counts()

In [None]:
data['scbc'].value_counts()

## 3. 相关系数和协方差

用途:


1. 两只股票, 是不是同涨同跌. 程度多大. 正相关还是负相关
2. 产品销量的波动, 跟那些因素正相关、负相关, 程度多大


对于两个变量X、Y:

1. 协方差: 衡量同向反向程度, 如果协方差为正, 说明X、Y同向变化, 协方差越大说明同向程度越高; 如果协方差为负, 说明X、Y反向运动, 协方差越小说明反向程度越高.
2. 相关系数: 衡量相似程度, 当他们的相关系数为1时, 说明两个比哪里变化时的正向相似都最大, 当相关系数为-1时, 说明两个变量变化的反向相似度最大.

In [None]:
# 协方差矩阵
data_copy4 = data.copy(True)
# data_copy4.loc[:, 'id':'gpzl'].cov()
data_copy4[['id', 'ccp_gp_zlzks_fjmx_id']].cov()

In [None]:
# 相关系数矩阵
# data_copy4.loc[:, 'id': 'gpzl'].corr()
data_copy4[['id', 'ccp_gp_zlzks_fjmx_id']].corr()

In [None]:
# 单独查看id和ccp_gp_zlzks_fjmx_id相关系数
data_copy4['id'].corr(data_copy4['ccp_gp_zlzks_fjmx_id'])

In [None]:
data_copy4['id'].cov(data_copy4['scbm_id'] - data_copy4['ccp_gp_zlzks_fjmx_id'])

In [None]:
data_copy4['id'].corr(data_copy4['scbm_id'] - data_copy4['ccp_gp_zlzks_fjmx_id'])

# 机器学习特征工程就是比较两个数据之间的相关系数, 越大说明越能代表数据是属于特征越是明显