基于机器学习算法的药物预测模型的构建与新药发现

发布时间:2022-06-08 11:01:06    来源:

 

题目名称

基于机器学习算法的药物预测模型的构建与新药发现

作品形式

论文报告

赛题简介

机器学习是一种专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,并重新组织已有的知识结构使之不断改善自身性能的方法。通过内部比较复杂的算法实现对经验数据的学习并推而广之。

机器学习包括无监督学习和有监督学习。对于无监督学习,当系统在得到输入量后,学习的目的就是建立数据的表达。常见的无监督学习方法有Kohonen网络和概念聚类方法。对于有监督学习,是指在提供正确数值前提下,学习从输入到输出的映射关系,并试图使系统得到的输出与正确输出之间的误差最小化。常见的无监督学习方法有支持向量机(SVM)、朴素贝叶斯、递归分割(决策树)、人工神经网络(ANN)、K最邻近法(KNN)以及随机森林(RF)等。

利用机器学习方法对药物某些属性进行评价的本质是一个数学问题,因此需要将化学问题转化为数学问题,具体来说就是需要将小分子转化为数学工具可以识别的形式。通常的方法是计算分子描述符和/或分子指纹,将分子的结构用一个包含分子描述符和/或分子指纹的多维向量表征,利用机器学习算法进行数据建模,以揭示化合物结构与生物活性之间的规律。

模型的预测能力可以用一些参数进行衡量,如通过计算训练集以及测试集的接受者操作特征(receiver operating characteristic, ROC)曲线的曲线下面积(area under the curve, AUC)或通过马修斯相关系数(matthews correlation coefficient, MCC)来衡量模型的预测准确度, AUC MCC越接近1越好。

利用可靠的预测模型,对新药发现资源数据库(219.238.229.194:8081/ui/#/)或其他数据库中的化合物进行活性预测。在此基础上,对潜在活性化合物进行生物实验验证,也可以进行文献验证。

关联数据资源

新药发现资源数据库 (219.238.229.194:8081/ui/#/)等国家人口健康科学数据中心的数据资源,用于预测模型的应用与新药发现

是否为往届题目

出题单位

中国医学科学院药物研究所

联系人

刘艾林

联系电话

010-83150885

联系邮箱

liuailin@imm.ac.cn

 


 

 

评审标准——论文报告类

分类

具体要求

分值

规范性

20)

按照研究论文的格式进行撰写

10

语言流畅,逻辑性强

10

科学性

40分)

针对某一疾病的某一类活性化合物(如针对药物靶点活性化合物),构建化合物预测模,并进行模型可靠性评价

20

利用预测模型,预测未知活性化合物的活性,并对预测结果中的潜在活性化合物进行活性评价。

20

创新性

40分)

阐明本研究涉及机器学习算法和预测模型的优势

20

通过预测模型的应用和实验评价,发现新的活性化合物

20

合计

100分)

 

100