# CheEMBL化合物数据采集 
## 网址
https://www.ebi.ac.uk/chembl/
## 简介
ChEMBL是由欧洲核生物研究组织（European Bioinformatics Institute, EBI）开发的化合物数据库，其包含了超过100万条化合物的结构、活性、活性指标、注释等信息。ChEMBL的目标是成为一个开放、公开、全面的化合物数据库，为全人类提供有效的化学信息。ChEMBL的开发始于2000年，目前已成为欧洲核生物研究组织（EBI）的重要组成部分。

ChEMBL的化合物数据采集主要包括以下几个方面：
1. 化合物结构采集：ChEMBL提供的化合物结构数据包括分子式、二维结构图、三维结构图、分子量等信息。
2. 化合物活性数据采集：ChEMBL提供的化合物活性数据包括分子活性数据、化学反应数据、化学反应物质数据等。
3. 化合物注释数据采集：ChEMBL提供的化合物注释数据包括化学家注释、结构注释、活性注释等。
4. 化合物相互作用数据采集：ChEMBL提供的化合物相互作用数据包括化合物相互作用数据、化合物相互作用网络数据等。
5. 化合物药物数据采集：ChEMBL提供的化合物药物数据包括药物结构、药物活性数据、药物相互作用数据等。

ChEMBL化合物数据采集的主要流程如下：
1. 注册ChEMBL账号：首先需要注册ChEMBL账号，注册地址为https://www.ebi.ac.uk/chembl/user_signup。
2. 选择化合物数据类型：选择需要采集的化合物数据类型，如化合物结构数据、化合物活性数据、化合物注释数据等。
3. 选择采集目标：选择需要采集的化合物数据目标，如特定分子、特定类型化合物、特定药物等。
4. 选择采集方式：选择采集方式，如API、Web界面、Excel文件等。
5. 采集数据：根据选择的采集方式，采集化合物数据。

ChEMBL化合物数据采集的优点有：
1. 全面性：ChEMBL提供的化合物数据覆盖了化学、生物、药物领域，涵盖了各个领域的最新研究成果。
2. 准确性：ChEMBL的化合物数据采集是基于结构、活性、注释等多方面信息，具有较高的准确性。
3. 开放性：ChEMBL的化合物数据采集是开放的，任何人都可以免费使用。

## 目标
本次项目的目标是利用ChEMBL数据库，采集化合物结构、活性、注释数据，并进行数据分析。
了解 ChEMBL 数据库以及如何从 ChEMBL 中提取数据，即感兴趣目标的（化合物、活性数据）对。这些数据集可用于许多化学信息学任务，例如相似性搜索、聚类或机器学习。

## 理论内容
1. 化学信息学基础
2. ChEMBL 数据库
    ChEMBL 网络服务
    ChEMBL 网络资源客户端
3. 化合物结构数据
4. 化合物活性数据
    复合活性测量
     IC50测量
     pIC50值
5. 化合物注释数据
6. 化合物相互作用数据
7. 化合物药物数据
8. 数据分析方法

## 实践内容
目标：获取具有给定目标的生物活性数据的化合物列表
- 连接到 ChEMBL 数据库
- 获取目标数据（例如：VEGFR 激酶）
    - 获取并下载目标数据
    - 选择目标 ChEMBL ID

- 获取生物活性数据
    - 获取并下载目标的生物活性数据
    - 预处理和过滤生物活性数据

- 获取化合物数据
    - 获取并下载化合物数据
    - 预处理和过滤化合物数据

- 输出生物活性化合物数据
    - 并生物活性和化合物数据，并添加 pIC50 值
    - 绘制具有最高 pIC50 的分子



####  pIC50 值

- 为了便于比较 IC50 值，IC50 值具有较大的值范围并以不同的单位（M、nM、...）给出，通常使用 pIC50 值
- pIC50 是转换为摩尔单位时 IC50 值的负对数： pIC50=−log10(IC50) ， 在哪里 IC50 以 M 为单位指定
- pIC50 值越高表明药物的效力呈指数级增长
- 请注意，转换可以适应相应的 IC50 单位，例如对于纳米： pIC50=−log10(IC50∗10−9)=9−log10(IC50)

 其他活动措施：
此外，IC50和pIC50，还使用其他生物活性测量，例如平衡常数[KI]和半最大有效浓度[EC50]

In [None]:
# 连接到 ChEMBL 数据库
# 首先，导入 ChEMBL Web 资源客户端以及其他 Python 库。

import math
from pathlib import Path
from zipfile import ZipFile
from tempfile import TemporaryDirectory

import numpy as np
import pandas as pd
from rdkit.Chem import PandasTools
from chembl_webresource_client.new_client import new_client
from tqdm.auto import tqdm

In [None]:
from pathlib import Path
import os

# 获取当前工作目录
HERE = Path(os.getcwd())
DATA = HERE / 'data'
if not DATA.exists():
    DATA.mkdir(parents=True, exist_ok=True)
print(DATA)

In [None]:
# 接下来，我们创建用于 API 访问的资源对象。
targets_api = new_client.target
compounds_api = new_client.molecule
bioactivities_api = new_client.activity

In [None]:
# 查看类型
type(targets_api)

In [None]:
'''
获取目标数据（VEGFR 激酶） 
从UniProt 网站获取感兴趣靶点的 UniProt ID（VEGFR 激酶： xxxxx ）
使用UniProt ID获取目标信息
如果您对其他目标感兴趣，请选择不同的 UniProt ID。
'''

