【Nature子刊】郑明月团队揭示AI模型在胰腺癌药物研发中的应用
导读 | 人工智能改变了药物发现,基于表型的方法成为基于靶点的方法的有前途的替代方案,克服了缺乏明确定义的靶点等局限性。本研究重点介绍 TranSiGen的发展,及其在药物研发中的应用。 |
2024年6月25日,中国科学院上海药物研究所原创新药研究全国重点实验室郑明月团队在《Nature Communications》杂志发表了题为"Deep representation learning of chemical-induced transcriptional profile for phenotype-based drug discovery"的研究论文,该团队认为,将TranSiGen整合到药物研发中,对于推进生物医学具有重大前景。
TranSiGen 可分析基底细胞基因表达和分子结构,以高精度重建化学诱导的转录谱。通过捕获细胞和化合物信息,TranSiGen 衍生的表征在各种下游任务中表现出疗效,例如,基于配体的虚拟筛选、药物反应预测和基于表型的药物再利用。值得注意的是,TranSiGen在胰腺癌药物研发中的应用,凸显了其识别有效化合物的潜力。
研究背景
01
药物研发领域正在经历由人工智能 (AI) 驱动的革新。虽然基于靶点的方法,长期以来一直主导着该领域,但它们的局限性:包括缺乏明确的靶点、脱靶效应和不太令人满意的治疗反馈,推动了基于表型的方法的兴起。这些方法侧重于对候选药物的全面细胞反应,提供对疾病机制更全面的理解,并可能揭示新的药物靶点和治疗途径。
转录组学数据分析在药物研发和理解疾病机制方面,起着至关重要的作用。通过捕捉不同生物学背景下的全球基因表达情况,它提供了对细胞和生物状态的丰富见解。高通量RNA测序(RNA-seq)技术,促进了大规模基因表达图谱的生成,这些基因表达图谱为细胞如何对各种破坏做出反应,提供了宝贵的信息。对这些特征的探索,在药物研发中起着核心作用,有助于阐明药物的作用机制 (MOA)。
尽管基因表达图谱具有巨大价值,但类药物分子和细胞系的组合复杂性,限制了通过高通量实验进行详尽的探索。这一挑战加速了深度学习模型的发展,该模型能够使用公开数据预测新型化学品的转录谱。DLEPS 是一种深度神经网络,旨在预测对新化学物质的基因表达反应,而没有细胞类型特异性。此外,DeepCE14和 CIGER15利用单热编码来区分细胞类型,从不同的图谱中进行学习。MultiDCP通过结合细胞背景来预测环境依赖性基因表达和细胞活力,从而能够对新型细胞系,进行特定环境的预测。
然而,直接拟合基因表达值的监督学习模型,可能难以将真正的扰动信号与混杂因素,以及表达谱中的固有噪声区分开来。为了解决数据的局限性,并生成新的图谱,本研究提出了TranSiGen,这是一个基于VAE的框架,利用自监督学习,来降噪和重建转录图谱,从而能够推断新图谱的模型。TranSiGen同时学习3个关键分布:无扰动的基础分布、化学诱导的扰动分布,以及它们之间的映射关系。这种自监督学习的方法,有效地减轻了数据中的噪声,并揭示了潜在的扰动信号。TranSiGen 具有几个关键优势:(1) 改进转录谱的推断:通过与基线模型的比较,证明了 TranSiGen在推断基础谱、化学扰动谱和相应的差异表达基因 (DEG) 方面的卓越性能。(2)细胞和化合物特征的统一表示:TranSiGen生成的扰动图谱有效地捕获了细胞和化合物特征,这可以通过区分细胞系和药物MOA的可视化分析来证明。(3) 在下游任务中的多功能应用:TranSiGen 衍生的表征已被证明在各种任务中有效,包括基于配体的虚拟筛选、药物反应预测和基于表型的药物再利用。它在筛选胰腺癌化合物中的应用,以及随后的体外验证和高命中率,证明了TranSiGen基于表型的方法,在识别有效化合物方面的强大功能。重要的是,TranSiGen与基于表型的药物研发管线的整合,有望显著提高研发效率并降低成本。
https://www.nature.com/articles/s41467-024-49620-3
研究进展
02
基于表型的药物再利用治疗胰腺癌
将化学诱导的转录谱与疾病相关联,有助于确定治疗特定疾病的潜在化合物。TranSiGen衍生的转录谱,可以与来自化学处理和未处理疾病状态的谱一起使用,以筛选用于疾病治疗的候选化合物。
在本研究中,团队将TranSiGen整合到基于表型的胰腺癌药物再利用管线中,评估其从 PRISM Reutilposing 数据集的 1,625 种化合物池中,优先筛选 YAPC 胰腺癌细胞系敏感化合物的能力。团队使用了两种基于表型的策略,并将它们与传统的基于结构相似性的方案进行了比较。TranSiGen_DRUG使用已批准的胰腺癌药物的真实DEG,来识别具有类似扰动效应的化合物。相反,TranSiGen_DISEASE寻找可以逆转胰腺癌DEGs的化合物。
三种方法的筛选性能如下图所示。ECFP4_DRUG 产生最差的预测分类性能,其次是 TranSiGen_DISEASE,最好的是TranSiGen_DRUG。值得注意的是,TranSiGen_DISEASE方法不需要任何化学处理的配置文件,模拟疾病缺乏已知治疗药物的场景。这是基于结构相似性的策略,无法解决的挑战。
总体而言,TranSiGen 扩展了可通过预测的扰动曲线进行筛选的化合物范围。它可以很容易地集成到基于表型的药物再利用管线中,从而提高药物研发效率并最大限度地降低成本。
a 药物再利用战略的流程图。b 基于表型的策略和基于结构相似性的策略的筛选性能。C TranSiGen_DISEASE筛选出能够抑制胰腺癌细胞的化合物,以及它们与已批准药物的最大结构相似性。d 不同筛选策略中硫代霉素和resibufogenin的排名。e 通过TranSiGen_DISEASE筛选的前 50 种化合物,及其各自的细胞增殖抑制活性。f 通过TranSiGen_DRUG筛选的前50种化合物,及其相应的细胞增殖抑制活性。
研究结论
03
本研究证明,TranSiGen 在推断基础剖面、化学诱导的扰动剖面和相应的 DEG 方面,优于现有的模型。此功能为扩展和增强现有药物研发数据集,开辟了新的途径。TranSiGen的核心优势,在于它能够克服基因表达谱中固有的干扰和混杂因素,提供一种标准化的方法,来表征与细胞背景和化合物效应相关的表型信息。这种标准化有助于各种下游任务的集成和效率提高,包括基于配体的虚拟筛选、药物反应预测和基于表型的药物再利用。值得注意的是,它在基于表型的胰腺癌药物再利用中的应用,以及随后的体外验证,展示了其在真实世界药物研发场景中的前景。
TranSiGen为药物研发中,基于VAE的模型和自监督学习方法的持续探索,奠定了基础。团队未来的工作,将集中在解决TranSiGen中不同来源的数据的异质性,并增强模型相对于其他平台的基础配置文件的泛化性能,以拓宽其应用领域。此外,团队计划通过整合之前的生物学知识(例如,通路和基因本体),来提高模型的精确度和可解释性。除了目前在药物研发中的应用,团队还渴望研究TranSiGen在精准医学和疾病建模方面的潜在作用,并揭示这些领域的巨大前景。该领域的最终目标,是创建一个真正全面的框架,以有效利用高维基因表达数据。这将加速药物研发,并揭示疾病机制的复杂性。TranSiGen凭借其独特的优势和可扩展性,标志着朝着实现这一目标,迈出了宝贵的一步。
还没有人评论,赶快抢个沙发