SPARK数据库

Spark 2023.01 database

目前发布的SPARK数据库来自于商业化的筛选化合物(eMolecules screen compound1)、文献报道(ChEMBL2)、专利(SureChEMBL2)、商业试剂(eMolecules building block3)、小分子晶体结构(Crystallography Open Database4与Cambridge Structural Database5)和理论环系(VEHICLe6)。

请按照Spark的手册将数据库更新到最新版本,简单来说鼠标点击:File | New project | Update Database。

源于筛选化合物(screening compounds)的片段

Spark的商业数据库基于eMolecules的筛选化合物,并根据片段出现的频率进行拆分。

  • VeryCommon (477 MB) – 在725个以上分子里出现过的片段
  • Common (961 MB) – 在215-724个分子里出现过的片段
  • LessCommon (1.95 GB) – 在65-214个分子里出现过的片段
  • Rare (2.68 GB) – 在25-64个分子里出现过的片段
  • VeryRare (5.3 GB) – 在9-24个分子里出现过的片段
  • ExtremelyRare (5.8 GB) – 在5-8个分子里出现过的片段
  • UltraRare (8.1 GB) – 在3-4个分子里出现过的片段

总的来说,来自VeryCommon或Common数据库的片段更可能容易合成,因为它们出现在许多不同的商品可供购买的分子中。VeryRare、ExtremelyRare和Ultrare数据库中的片段更可能并不类药或者难以制备。数据库已过滤处理以去除潜在的毒性或反应性片段(如卤代烷或亚硝基官能团)。此外,由于含磷官能团场的计算仍在开发中,因此所有含磷的片段都被去除。有关这些数据库的详细分析,请参见下文

还有两个非标配片段的数据库可供使用:

  • Doubleton (2个文件, 每个5.7GB) – 在2个分子里出现过的片段
  • Singleton (3个文件, 每个9.3GB) – 在1个分子里出现过的片段

通常,我们建议只安装那些在原始数据库中至少出现3-4次片段的数据库。低频片段的数据库非常大,可能包含有原始数据库中不现实/错误结构的片段。如果您想下载这些非标配数据库,请与技术支持联系。

源于ChEMBL的片段

当前版本的ChEMBL Spark数据库是基于ChEMBL 30发行版,并根据片段出现的频次进行拆分:

  • ChEMBL_common (1.8 GB) – 在12个以上的分子里出现过的片段
  • ChEMBL_rare (2.6 GB) – 在4-12个分子里出现过的片段
  • ChEMBL_veryrare (3.4 GB) – 在2-3个分子里出现过的片段

还有一个非标配的片段库,若需要请联系Cresset技术支持:

  • ChEMBL_extremelyrare (6.6 GB) – 在1个分子里出现过的片段

源于SureChEMBL的片段

当前版本的SureChEMBL Spark数据库是基于SureChEMBL化合物库,并根据片段出现的频次进行拆分:

  • SureChEMBL_verycommon (4.1 GB) – 在45个以上的分子里出现过的片段
  • SureChEMBL_common (7.0 GB) – 在14-44个分子里出现过的片段
  • SureChEMBL_uncommon (5.0 GB) – 在8-13个分子里出现过的片段

还有5个非标配(可选)的片段库,若需要请联系Cresset技术支持:

  • SureChEMBL_rare (8.8 GB) – 在5-7个分子里出现过的片段
  • SureChEMBL_veryrare (7.0 GB) – 在4个分子里出现过的片段
  • SureChEMBL_extremelyrare (9.2 GB) – 在3个分子里出现过的片段
  • SureChEMBL_doubleton (3 files, each of 8.2 GB) – 在2个分子里出现过的片段
  • SureChEMBL_singleton (3 files, each of 24 GB) – 在1个分子里出现过的片段

试剂

Spark试剂数据库来源于eMolecules砌块(building block), 用Cresset的Reagent importer将用到的试剂转化为对应的R基团。比如,以eMolecules_acid数据库为例,所有含有一个C(=O)OH或C(=O)Cl的eMolecules砌块都被处理作为R基团添加到数据库里。

使用有商品可供购买的试剂数据库可以确保Spark实验结果的分子具有良好的合成可行性。该数据库每月更新一次以确保试剂有可靠地供货保障。

当前版本的Spark试剂数据库包含了23个常见的化学转化,详见后面的相关数据库分析

源于小分子晶体结构的片段

该数据库的片段构象为晶体构象,源于小分子晶体结构。SPARK COD数据库的片段源于Crystallography Open Database,所有的Spark用户均可下载。Spark CSD片段数据库源于剑桥结构数据库(Cambridge Structural Database,CSD),需要有效的CSD-系统授权才能使用该数据库。如果您想用CSD片段数据库,请联系CCDC

理论环系

理论环系源于VEHICLe6数据库。

创建自己的数据库

Spark片段和试剂数据库为你提供了优秀的生物等排体来源。如果你想将自己专有的化合物、试剂或者库存试剂创建自己的片段库以增加Spark实验价值,那么你可以使用数据库生成器(Spark中用来创建自定义数据库的用户界面)或使用命令行中的等效功能,可以轻松创建自定义数据库。如果您需要Spark数据库生成器方面的帮助,请联系Cresset技术支持。

自定义数据库教程:SPARK教程 | 分子碎片化创建自己的可搜索数据库

自定义数据库教程:SPARK教程 | 如何导入试剂创建自己的可搜索数据库

片段数据库的分析

ChEMBL数据库重合(片段同时在两个数据库出现的数量)

ChEMBL与SureChEMBL数据库的重合(片段同时在两个数据库出现的数量)

片段与连接点的数量

分子量的分布

原子数的分布

可旋转键数的分布

构象数的分布

试剂数据库的分析

特定分子量范围的片段数

下表的数据是粗略的,试剂数据库精确的片段数随着每月的更新而更新。请确保您的试剂数据库得到更新。

分子量范围分布

文献

  1. https://www.emolecules.com/info/products-screening-compounds
  2. https://www.ebi.ac.uk/chembl
  3. https://www.emolecules.com/info/products-building-blocks
  4. http://www.crystallography.net/cod
  5. https://www.ccdc.cam.ac.uk/solutions/csd-system/components/csd
  6. Pitt, W. R.; Parry, D. M.; Perry, B. G.; Groom, C. R. Heteroaromatic Rings of the Future. J. Med. Chem. 2009, 52 (9), 2952–2963 ftp://ftp.ebi.ac.uk/pub/databases/chembl/VEHICLe

SPARK footer

SPARK™

进一步探索SPARK如何为您的项目产生高度创新的创意