蛋白质翻译后修饰位点的预测:综述
梅赫迪·哈桑博士1*和Mst。沙米玛·哈顿2.
1.九州理工学院生物科学与生物信息学系,日本福冈市食冢市河津680-4
2.孟加拉拉贾沙希大学RaSaHi大学生物信息学实验室
*通信地址:Mehedi Hasan医学博士,九州理工学院生物科学与生物信息学系,680-4 Kawazu, Iizuka, Fukuoka 820-8502, Japan, Email: mehedicau@hotmail.com
日期:提交:2018年2月27日;经核准的:2018年3月1日;出版:2018年3月2日
如何引用这篇文章:Hasan MM,Khatun MS.蛋白质翻译后修饰位点的预测:综述。安蛋白质组学生物信息学。2018; 2: 049-057. 内政部:10.29328/journal.apb.1005
版权:©2018 Hasan MM等人。这是一篇根据知识共享署名许可证发行的必威体育西汉姆联开放获取文章,允许在任何媒体中不受限制地使用、发行和复制,前提是正确引用了原始作品。
介绍
翻译后修饰(PTM)是指在蛋白质生物合成过程中或之后对蛋白质进行共价和酶修饰。在蛋白质生物合成过程中,核糖体mRNA被翻译成多肽链,这些肽链可能进一步经过PTM形成成熟蛋白质的产物[1]。PTM是真核生物和原核生物的共同生物学机制,它调节蛋白质功能、调节亚单位的蛋白水解裂解或整个蛋白质的降解,并影响细胞生活的各个方面。蛋白质的PTM还可以确定细胞信号状态、转换、定位以及与其他蛋白质的相互作用[2]。因此,蛋白质及其PTM的分析对于心脏病、癌症、神经退行性疾病和糖尿病的研究尤为重要[3,4]。尽管PTMs的特征对于病因过程中的细胞功能有着非常宝贵的见解,但仍然存在挑战。从技术上讲,研究PTM的主要挑战是开发特定的检测和纯化方法。
蛋白质的PTM已通过多种实验技术进行检测,包括质谱(MS)[5,6]、液相色谱[7]、放射性化学方法[8]、染色质免疫沉淀(芯片)[9]、蛋白质印迹[10]和东方印迹[7]。MS技术是以高通量方式检测PTM的主要途径之一。新的MS和毛细管液相色谱仪器在我们对各种PTM不断增长的知识中,在富集策略方面取得了革命性的进步[11]。在过去的十年中,通过不同的技术,许多PTM复杂性的实际描述已经出现,现在可以高度自信地识别数千个精确的修饰位点[12-20]。用于PTM识别的类似碎裂策略是束型碰撞诱导离解,也称为高能碰撞离解[21]。这些类型的碎片具有较高的活化能。大多数前体离子的裂解方法都基于自由基阴离子或热电子[22]。这些方法在检测不稳定PTM(例如O-GlcNAc和磷酸化)方面优于碰撞激活解离方法,因为肽载体裂解方法有效地独立于氨基酸序列[23-25]。迄今为止,已经通过实验发现了350多种类型的PTM体内[26]. 常见的PTM有磷酸化、泛素化、琥珀酰化、乙酰化、蛹化、磺酰化、糖基化等。此外,用原核泛素样蛋白(即Pup)修饰赖氨酸残基的蛹化是细菌中的另一种PTM。
通常,PTM的实验分析通常需要劳动密集型样品制剂和危险或昂贵的化学试剂。例如,在基于激酶的方法中的放射性测定中通常通过激酶测定与非放射性ATP分离,并产生放射性废物[8]。由于大多数放射性物质达到了短的半衰期,因此必须经常需要新的试剂来识别PTM。有时,测定的底物浓度通常远高于预期的底物浓度[27]。总之,通过实验技术识别PTMS是费力,耗时的,通常是昂贵的。作为替代方案,计算方法更有效地识别大规模新型PTM基板。
近几十年来,在蛋白质中PTMs的鉴定和功能分析方面取得了显著进展。PTMs在蛋白质折叠、蛋白质功能以及与其他蛋白质的相互作用中发挥着重要作用[28,29]。由于蛋白质经颅磁刺激具有重要的生物学功能,因此分析和了解经颅磁刺激的功能十分重要。与传统的实验方法相比,PTMs的计算分析由于其准确性、成本效益和高速而成为一种有吸引力的替代方法。计算工具可以缩小潜在候选的数量,并迅速生成有用的信息,以研究进一步的实验方法。迄今为止,蛋白质PTMs的预测是蛋白质生物信息学领域的一个重要研究课题。虽然采用多种特征表示和统计学习方法,利用大量的特征向量,已经取得了很大的进展,但问题仍远未解决。蛋白PTM位点预测概述见图1。
图1:计算预测PTM站点的简要流程图模板。首先,从已发布的数据库中收集数据集。其次,需要对收集到的数据集进行预处理,以获得合适的阳性和阴性样本。第三,将得到的编码特征向量独立地放入统计学习模型中,以产生独立的预测分数。最后,通过交叉验证和参数优化计算最佳性能分数,考虑确定PTM位置的置信截止点。
特征表示
特征表示是预测PTM位点的最重要步骤之一。预测模型中的适当特征允许精确预测蛋白质PTM。一般来说,这些特征是指对这些蛋白质功能位点周围的序列和局部结构的描述。理想情况下,这些特征可以清楚地区分PTM位点和随机修饰残基。然而,在现实世界中,蛋白质功能位点的特征也可以存在于蛋白质的非功能位点上。在预测PTM站点中,由于序列多样性,这一特定问题尤为突出。例如,有些基序非常弱,有些基序在没有序列进化信息的情况下是不可用的[30-35]。为了解决这个问题,我们可以根据NCBI NR数据库搜索PSI-BLAST[36-38],以生成一个配置文件(即职位特定评分矩阵(PSSM))。这种序列图谱通过进化信息反映了蛋白质序列之间的保守性和变异性[39-42]。
还提出了许多蛋白质结构特征。例如,可以检查PTM位点的氨基酸溶剂可及性。检查维持蛋白质结构稳定性的残基相互作用(包括静电相互作用、疏水相互作用、范德华相互作用、二硫键、氢键等)也可能有帮助[43,44]。此外,残留物的结构柔度信息,如均方根偏差和B因子,有时也很有用。最后但并非最不重要的是,一些残余接触网络参数(介数、贴近度、度和聚类系数)被用作蛋白质PTM预测的特征[45]。在实际的预测任务中,请注意,科学家通常使用集成的特征集来识别蛋白质PTM位点。
PTM站点预测的统计算法
在确定适当的特征后,下一步的工作是使用适当的机器学习算法来集成这些特征以预测蛋白质PTM位点。如果预测算法合适,将提高预测的准确性。PTM站点的预测算法可分为两类,即统计概率算法和机器学习算法。下面,我们将讨论其中的一些算法。
天真的贝叶斯
Naïve贝叶斯是一种基于贝叶斯定理统计学习理论的预测算法。优点是,这种算法简单易于计算。在贝叶斯定理中,随机事件的后验概率是条件概率,在考虑相关证据后分配。贝叶斯假设给定值的属性受其他值的影响。该假设通常不会在模型上建立,因此可以拒绝其准确性,以拒绝类预测模型的其他属性,例如线性回归和逻辑回归模型。大多数生物学家认为,为了分析生物数据幼稚贝斯是一种重要的算法[46]。虽然,这些方法受许多异常影响并且不处理噪声模型[47]。在生物信息学研究中,Naïve贝叶斯算法被广泛应用[48-50]。
从20多年前开始,机器学习算法已被广泛应用于跨学科领域。有相关的概率论、近似论、凸分析、复杂性理论等学科。为了预测未知数据,它们被广泛应用(http://en.wikipedia.org/wiki/Machine_learning). 由于机器学习算法具有高度自动化、精确性和预测性,因此在数据挖掘、计算机视觉、自然语言处理和生物特征识别等领域有着非常广泛的应用。尽管机器学习模型的性能显示出很好的准确性,但它们不能帮助研究人员理解其深层机制和生物学意义[51]。因此,有时机器学习方法被批评为“黑箱”学习。
1959年初,亚瑟·李·塞缪尔(Arthur Lee Samuel)将机器学习定义为“赋予计算机学习能力而无需明确编程的研究领域”[52]。在蛋白质PTMs的预测中,一些常用的机器学习算法得到了广泛的应用,如支持向量机(SVM)、人工神经网络(ANN)和随机森林(RF)。随后,我们将讨论这三种常见的机器学习算法。
随机森林
RF是一个合奏监督学习算法[53]。它可以集成多个分类器以改善预测的性能[54-56]。众所周知,对于监督分类器,模型分类误差部分归因于训练与未知样本之间的不同分布(图2a)。相比之下,如果设置对训练集包含一定程度的干扰,这可以确定更一般的预测,并且它还可以去除单个分类器的偏差[57-58]。RF的几个优点如下:1)对于可靠的个体特性,RF可以产生高精度的分类器。2)它可以处理大量的输入变量。3)它可以从给定的类变量产生变量的重要性。4)在森林的建设中,它不会产生任何偏见结果。5)它包含估计数据丢失或缺失的好方法,如果丢失的大部分信息,它仍然可以保持准确性。6)对于不平衡的分类问题,它可以余额错误。 7) It can calculate the degree of intimacy in each case, such as in data mining for detecting the deviations (outlier) and it is also very useful for data visualization. 8) It can also be used in the extended unlabeled dataset, such as non-supervised or supervised clustering. 9) The learning process is very fast than other algorithms. It has a high predictive accuracy, good tolerance of outliers and noise. It has been widely used in the field of bioinformatics research [59-63].
支持向量机
1995年,Corinna和Vapnik首先提出支持向量机[64],它可以解决非线性多维模式识别问题。它采用非线性变换方法,将低维数据转换为高维特征空间。它可以在高维空间中寻找超平面,以最大化两类数据之间的边界(图2B)。也就是说,只要合适的核函数,支持向量机就可以解决高维分类问题。在支持向量机理论中,不同核函数的支持向量机产生了不同的算法。最常用的支持向量机是径向基函数核。到目前为止,已经开发了多种类型的支持向量机软件包,如SVM- light (http://svmlight.joachims.org/)、LIBSVM[65]、Gist[66]、Weka[67]等。
近年来,在生物信息学研究中,支持向量机被广泛应用于各种主题,包括蛋白质PTM预测[38,68,69],蛋白质残基接触预测[70],蛋白质折叠识别[71],蛋白质二级结构预测[72]等。
人工神经网络
1969年,在Marvin和Seymour出版机器学习研究之后,神经网络研究蓬勃发展[73];他们最初发现了计算机器学习神经网络的两个关键问题。第一种是用于处理电路区域的单层神经网络。第二个问题是计算机处理能力的重大问题,通过大型神经网络有效处理长期运行时间。
在机器学习和认知科学方法中,ANN是一系列统计学习模型,其灵感来自生物神经网络(动物的中枢神经系统,尤其是大脑)。该学习算法用于估计输入样本的近似函数。人工神经网络也被描述为相互连接的“神经元”系统,可以在彼此之间交换信息。连接通常是数字加权的,可以根据内部经验进行调整。通常,ANN由三层组成:输入层、隐藏层和输出层(图2C)。分析ANN中的自变量和因变量时需要势定律,它可以计算新的输入数据[74]。
图2:用于PTMS预测的机器学习算法。(a)随机森林分类器。在这里,红颜色表示训练样本,而绿色表示测试样本,每个节点代表树。(b)SVM分类器和(C)人工神经网络。这里,每个圆节点表示人造网络,而箭头表示从一个网络的输出到另一个网络的连接到另一个网络的连接。
在生物信息学领域,人工神经网络也有广泛的应用,如蛋白质功能位点预测[75-77],蛋白质二级结构预测[78,79]和三级结构预测[80]。ANN软件的常见实现是FANN(http://leenissen.dk/Fann/WP/)和SNN(http://www.ra.cs.uni-tuebingen.de/SNNS/).
总之,机器学习算法是计算机科学和统计学的一个分支领域,是人工智能中模式识别和计算学习理论研究的发展。对于PTM预测,机器学习算法是测试模型性能的必要步骤。
结论
PTM位点预测是蛋白质生物信息学研究中一个很有前景的领域。高通量组学技术已广泛应用于PTMs的研究。为了更好地理解PTMs的功能,需要更精确的计算分析。结合实验和计算方案,对PTMs数据集的分析必将加速我们的知识积累。
确认
这项工作得到了JSPS KAKENHI资助项目(编号为17K20009)的挑战性探索性研究补助金的支持。
工具书类
- Knorre DG,Kudryashova NV,Godovikova TS.蛋白质翻译后修饰的化学和功能方面。自然学报。2009; 1: 29-51.裁判。:https://goo.gl/bHviVJ
- 谢磊,刘伟,李Q,陈S,徐敏,等。首次对广泛耐药结核分枝杆菌的琥珀酰蛋白质组分析显示琥珀酰化参与细胞生理。《蛋白质组研究》2015;14: 107-119.裁判。:https://goo.gl/7jwqld.
- 杨敏,杨军,张勇,张伟。琥珀酰化对牦牛酪蛋白胶束理化性质的影响。食品化学,2016;190: 836 - 842。裁判。:https://goo.gl/eqErGv
- 罗赫拉广告,陈赛,小艾伦,约翰逊。Maf1蛋白的共价小泛素样修饰物(SUMO)修饰控制RNA聚合酶III依赖性转录抑制。生物化学杂志。2013; 288: 19288-19295.裁判。:https://goo.gl/WG8vq3
- Medzihradszky KF。肽序列分析。方法酶法。2005; 402: 209-244.裁判。:https://goo.gl/9kfp94
- 吉隆坡阿加瓦尔,肯纳GW,谢泼德RC。猫胃泌素。质谱肽序列分析的一个例子。美国化学学会。1969; 91: 3096-3097.裁判。:https://goo.gl/tck65Z
- 韦尔希DJ,内尔斯图恩GL。氨基末端丙氨酸在凝血酶原片段1与膜结合所必需的钙特异性过程中发挥作用。生物化学1988; 27: 4939-4945.裁判。:https://goo.gl/FwgX1a
- Slade DJ,Subramanian V,Fuhrmann J,Thompson PR.检测精氨酸翻译后修饰的化学和生物学方法。生物聚合物。2014; 101: 133-143.裁判。:https://goo.gl/qw8uz.
- Umlauf D,Goto Y,Feil R.组蛋白甲基化和乙酰化的位点特异性分析。方法Mol Biol,2004;287: 99-120.裁判。:https://goo.gl/zjNS6r
- SR Jaffrey,Erdjument Bromage H,Ferris CD,Tempst P,Snyder SH.蛋白质S-亚硝基化:神经元一氧化氮的生理信号。Nat细胞生物学。2001; 3: 193-197.裁判。:https://goo.gl/q2hteS
- Doll S,Burlingame等。基于质谱的蛋白质翻译后修饰的检测和分配。ACS化学生物。2015; 10: 63-71...裁判。:https://goo.gl/fZ5uQy
- Richards等,Hebert AS,Ulbrich A,Bailey DJ,Coughlin EE等。酵母一小时蛋白质组分析。natprotoc。2015; 10: 701-714.裁判。:https://goo.gl/NjFpTb
- Hebert AS,Richards等,Bailey DJ,Ulbrich A,Coughlin EE等。一小时酵母蛋白质组。摩尔细胞蛋白质组学。2014; 13: 339-347.裁判。:https://goo.gl/WsZKTg
- Imamura H,Sugiyama N,Wakabayashi M,Ishihama Y.大规模鉴定分析蛋白激酶选择性的磷酸化位点。《蛋白质组研究》2014;13: 3410-3419.裁判。:https://goo.gl/1uM654
- Masuda T,Sugiyama N,Tomita M,Ishihama Y.来自人类癌细胞系的10000个细胞的微尺度磷酸蛋白质组分析。肛门化学。2011; 83: 7698-7703.裁判。:https://goo.gl/3dc9dM
- 特立尼达JC,Barkan DT,Gulledge BF,Thalhammer A,Sali A,等。小鼠突触O-GlcN酰化和磷酸化的整体鉴定和表征。摩尔细胞蛋白质组学。2012; 11: 215-229.裁判。:https://goo.gl/ceuTj1
- Olsen JV、Vermeulen M、Santamaria A、Kumar C、Miller ML等。定量磷酸化蛋白质组学揭示了有丝分裂过程中广泛存在的完全磷酸化位点。Sci信号。2010; 3:ra3。裁判。:https://goo.gl/L9ss6F
- Choudhary C、Kumar C、Gnad F、Nielsen ML、Rehman M等。赖氨酸乙酰化作用靶向蛋白质复合物并共同调节主要细胞功能。科学2009; 325: 834-840.裁判。:https://goo.gl/Aju8io
- Kim W,Bennett EJ,Huttlin EL,Guo A,Li J,等。泛素修饰蛋白质组的系统和定量评估。摩尔细胞。2011; 44: 325-340.裁判。:https://goo.gl/a4ADaR
- 杨斌,王志强,王志强,等。以特定位点的方式发现全局SUMOylation信号网络。Nat Struct Mol Biol. 2014;21日:927 - 936。裁判。:https://goo.gl/HZn2sq
- Syka Je,Coon Jj,Schroeder MJ,Shabanowitz J,Hunt DF。通过电子传递解离质谱法分析肽和蛋白质序列分析。Proc Natl Acad SCI U S A. 2004; 101:9528-9533。裁判。:https://goo.gl/wSMjGt
- Myers SA,Daou S,Affar el B,Burlingame A.电子转移离解(ETD):对O-GlcNAc蛋白位点分配至关重要的质谱突破——O-GlcNAcylated蛋白宿主细胞因子C1的研究。蛋白质组学。2013; 13: 982-991.裁判。:https://goo.gl/nm45xC
- Ramstrom M,Sandberg H.通过碰撞诱导离解和电子转移离解质谱对γ羧基化胰蛋白酶肽的表征。欧洲质谱学杂志(英国奇切斯特)。2011; 17: 497-506.裁判。:https://goo.gl/XouSno
- 摩尔门KW,蒂梅耶M,奈恩大道。脊椎动物蛋白质糖基化:多样性、合成和功能。Nat Rev摩尔细胞生物学。2012; 13: 448-462.裁判。:https://goo.gl/qxaWhh
- 韩X,杨K,毛RW。基于多维质谱的鸟枪式脂质组学和脂质组学分析的新策略。质谱修订版。2012; 31: 134-178.裁判。:https://goo.gl/fkerks.
- Tan M,Peng C,Anderson KA,Chhoy P,Xie Z,等。赖氨酸戊二酰化是一种受SIRT5调节的蛋白质翻译后修饰。细胞代谢。2014; 19: 605-617.裁判。:https://goo.gl/jYHNdT
- Basu A,Rose KL,Zhang J,Beavis RC,Ueberheide B,等。乙酰化底物的蛋白质组预测。2009年美国科学院学报;106: 13785-13790.裁判。:https://goo.gl/iRi8D7
- Striebel F, Imkamp F, Sutter M, Steiner M, Mamedov A,等。细菌泛素类修饰剂Pup被不同的同源酶脱酰胺并与底物结合。国立结构生物学研究所,2009;16: 647 - 651。裁判。:https://goo.gl/YD2Y8P
- 德马尔蒂诺。蛹化:一些旧的,一些新的,一些借来的,一些谷氨酸。趋势生物化学科学。2009; 34: 155-158.裁判。:https://goo.gl/XGN8T3
- Passerini A,Punta M,Ceroni A,Rost B,Frasconi P.使用支持向量机和神经网络识别过渡金属结合位点中的半胱氨酸和组氨酸。蛋白质。2006; 65: 305-316.裁判。:https://goo.gl/BnZ38n
- Youn E、Peters B、Radivojac P、Mooney SD。评价新褶皱中催化残留物预测的特征。蛋白质Sci。2007; 16: 216-226.裁判。:https://goo.gl/Xrxuto
- Sharma A,Rastogi T,Bhartiya M,Shasany AK,Khanuja SP.2型糖尿病:预测蛋白质功能位点的系统发育基序。J Biosci。2007; 32: 999-1004.裁判。:https://goo.gl/KhffLS
- Vandermarrie E,Martens L.《蛋白质结构作为分类拟定PTM位点的方法》。蛋白质组学。2013; 13: 1028-1035.裁判。:https://goo.gl/npNYGF
- 任杰,文立,高X,金聪,薛Y,等。CSS Palm 2.0:棕榈酰化位点预测的更新软件。蛋白质工程。2008; 21: 639-644.裁判。:https://goo.gl/8qJhj2
- 刘志,曹军,马Q,高X,任军,等。GPS-YNO2:蛋白质中酪氨酸硝化位点的计算预测。摩尔生物系统。2011; 7: 1197-1204.裁判。:https://goo.gl/h1nSr8
- Altschul SF,Madden TL,Schaffer AA,Zhang J,Zhang Z,等。间隙BLAST和PSI-BLAST:新一代蛋白质数据库搜索程序。核酸研究,1997年;25: 3389-3402.裁判。:https://goo.gl/QDHQR3
- Hasan MM,Khatun MS.蛋白质蛹化位点预测的最新进展和挑战。EC蛋白质组学和生物信息学。2017; 2.1: 36-45.
- 李建平,宋建军,周勇,等。利用k-间隔氨基酸对的谱线组成对蛋白质pupyylation位点的计算鉴定。《公共科学图书馆•综合》。2015;10: e0129635。裁判。:https://goo.gl/nENNxR
- Gobel U,Sander C,Schneider R,Valencia A.蛋白质中的相关突变和残基接触。蛋白质。1994;18: 309-317.裁判。:https://goo.gl/7nnsc4
- 无锁SW,Ranganathan R.蛋白质家族中能量连接的进化保守途径。科学1999; 286: 295-299.裁判。:https://goo.gl/gkajNd
- Dekker JP, Fodor A, Aldrich RW, Yellen G.一种基于扰动的计算多序列比对中进化协方差显式似然的方法。生物信息学。2004;20: 1565 - 1572。裁判。:https://goo.gl/vpaeS8
- 郭德成,陈志强,陈志强,等。基于联合元件特征信息的植物物种特异性蛋白琥珀酰化位点的系统鉴定。国际纳米医学杂志。2017;12: 6303 - 6315。裁判。:https://goo.gl/KP5B9P
- 哈尔佩林一世,格雷泽DS,吴S,奥特曼RB。蛋白质功能注释的功能框架:建模新功能,提高性能,并扩展到新的应用。BMC基因组学。2008; 9附录2:S2。裁判。:https://goo.gl/QJMzEc
- 穆尼SD,梁MH,德科德R,奥特曼RB。利用残基环境对蛋白质进行结构表征。蛋白质。2005; 61: 741-747.裁判。:https://goo.gl/okAL7j
- Amitai G,Shemesh A,Sitbon E,Shklar M,Netanely D等。蛋白质结构的网络分析识别功能残基。摩尔生物学杂志。2004; 344: 1135-1146.裁判。:https://goo.gl/sTTkh1
- Rani P,Pudi V.RBNBC:基于重复的生物序列朴素贝叶斯分类器。Icdm 2008:第八届Ieee数据挖掘国际会议,2008年;会议记录:989-994。
- 大卫·J·汉德·肯塔基。白痴贝叶斯:毕竟没那么蠢吧?国际统计评论/国际统计评论,2001年;69: 385-398.
- 邵杰,徐德,蔡锡,王毅,倪山。通过双谱贝叶斯特征提取计算识别蛋白质甲基化位点。公共科学图书馆一号。2009; 4:e4920。裁判。:https://goo.gl/KPoSNi
- 张世伟,潘Q,张慧聪,邵智聪,史杰。利用伪氨基酸组成预测蛋白质同源寡聚体类型:采用改进的特征提取和朴素贝叶斯特征融合方法。氨基酸。2006; 30: 461-468.裁判。:https://goo.gl/o9AG12
- 谢泼德S,劳森ND,朱LJ。使用朴素贝叶斯分类器从3'端深度测序中准确识别多聚腺苷酸化位点。生物信息学。2013; 29: 2564-2571.裁判。:https://goo.gl/tNVeZn
- 杨平,Humphrey SJ,Fazakerley DJ,Prior MJ,Yang G,等。Re-fraction:基于大规模质谱的蛋白质组学中蛋白质同系物和剪接变体确定性鉴定的机器学习方法。蛋白质组研究杂志,2012年;11: 3035-3045.裁判。:https://goo.gl/MyCAHJ
- Simon P.太大而无法忽视:大数据的商业案例。Wiley,2013;89。
- 布雷曼L.随机森林。机器学习,2001年;45: 5-32.裁判。:https://goo.gl/9rqw7o
- 流行的集成方法:一项实证研究。人工智能研究杂志。1..999; 11: 169-198. 裁判。:https://goo.gl/ugm7T4
- Polikar R.基于组合的决策系统。电路和系统杂志,IEEE。2006;6:21-45。裁判。:https://goo.gl/GAnEij
- Rokach L.基于集合的分类器。人工智能评论。2010; 33: 1-39.裁判。:https://goo.gl/naMCA5
- 布朗G,怀亚特J,哈里斯R,姚X。多样性创造方法:调查和分类。信息融合。2005; 6: 5-20.裁判。:https://goo.gl/ABKNwa
- Adeva JJG,Beresi U,Calvo R.文本分类集合的准确性和多样性。CLEI电子杂志。2005; 9: 1-12.裁判。:https://goo.gl/c3vzuR
- 刘志平,吴莉,王颖,张晓思,陈磊。结合特征的随机森林方法预测蛋白质RNA结合位点。生物信息学。2010; 26: 1616-1622.裁判。:https://goo.gl/TQHQRE
- Kumar KK,Pugalenthi G,Suganthan PN。DNA保护:使用随机森林从蛋白质序列信息中识别DNA结合蛋白。生物分子结构动力学杂志。2009; 26: 679-686.裁判。:https://goo.gl/gXLBHT
- Qi Y,Klein Seetharaman J,Bar Joseph Z.从多个来源预测蛋白质相互作用的随机森林相似性。Pac联合生物计算机。2005; 531-542.裁判。:https://goo.gl/kU7VD1
- Hasan MM,Guo D,Kurata H.结合多序列特征信息对蛋白质S-磺基化位点的计算识别。摩尔生物系统。2017; 13: 2545-2550.裁判。:https://goo.gl/jhmkee.
- 关键词:蛋白质,琥珀酰化位点,氨基酸模式,蛋白质摩尔Biosyst, 2016;12: 786 - 795。裁判。:https://goo.gl/Zezfm1
- Cornia C,Vapnik诉支持向量网络。机器学习。1995; 20: 273-297.裁判。:https://goo.gl/RE4bJo
- 张CC。LIBSVM:支持向量机库。关于智能系统和技术的ACM交易。2011; 2.裁判。:https://goo.gl/Jx29pP
- 帕夫利迪斯P,瓦平斯基一世,诺布尔WS。基于web的支持向量机分类。生物信息学。2004; 20: 586-587.裁判。:https://goo.gl/guqAUu
- 弗兰克·E,霍尔·M,特里格·L,霍姆斯·G,维滕·H。使用Weka进行生物信息学中的数据挖掘。生物信息学。2004; 20: 2479-2481.裁判。:https://goo.gl/QQdQtq
- 陈旭,邱义德,施SP,索SB,梁RP。原核蛋白中蛹化位点的系统分析和预测。公共科学图书馆一号。2013; 8:e74002.裁判。:https://goo.gl/h8t9mH
- 董建华。利用k间隔氨基酸对的组成预测蛹化位点。J Theor Biol。2013; 336: 11-17.裁判。:https://goo.gl/AhZmz8
- Wu S,Zhang Y.基于序列和基于模板的蛋白质接触预测方法的综合评估。生物信息学。2008; 24: 924-931.裁判。:https://goo.gl/BsZmRP
- 闫瑞霞,司金金,王超,张志强。基于web服务器的蛋白质折叠识别。BMC生物信息学。2009;10: 416。裁判。:https://goo.gl/NaWMFM
- 郭继,陈H,太阳Z,林Y.一种使用双层SVM和型材的蛋白质二级结构预测的新方法。蛋白质。2004;54:738-743。裁判。:https://goo.gl/hNVe7r
- 明斯基MSP。《计算几何导论》1969;ISBN 0-262-63022-2。
- 福岛K.Cognitron:一种自组织多层神经网络。Biol Cybern,1975年;20: 121-136.裁判。:https://goo.gl/hzsy1e
- 唐yr,陈yz,Canchaya Ca,张Z.Gannphos:一种基于遗传算法集成神经网络的新型磷酸化位点预测因子。蛋白质ENG DES SEL。2007;20:405-412。裁判。:https://goo.gl/GJH3G8
- Blom N,Sicheritz Ponten T,Gupta R,Gammeltoft S,Brunak S.从氨基酸序列预测蛋白质的翻译后糖基化和磷酸化。蛋白质组学。2004; 4: 1633-1649.裁判。:https://goo.gl/dGmYaQ
- Dehouck Y,Grosfils A,Folch B,Gilis D,Bogaerts P,等。利用统计电位和神经网络快速准确地预测突变后的蛋白质稳定性变化:PoPMuSiC-2.0。生物信息学。2009; 25: 2537-2543.裁判。:https://goo.gl/BhKBfr
- 琼斯博士。基于位置特异性评分矩阵的蛋白质二级结构预测。摩尔生物学杂志。1999; 292: 195-202.裁判。:https://goo.gl/nUkouC
- 麦高芬LJ,布莱森K,琼斯DT。PSIPRED蛋白质结构预测服务器。生物信息学。2000; 16: 404-405.裁判。:https://goo.gl/UW6fu4
- Bienkowska JR,Dalgin GS,Batlivalla F,Allaire N,Roubenoff R等。收敛随机森林预测因子:从应用于抗TNF反应的基因组规模数据预测药物反应的方法学。基因组学。2009; 94: 423-432.裁判。:https://goo.gl/55hyK