1ELIXIR-IIB,国家研究理事会,意大利
2博洛尼亚生物运算集团、意大利博洛尼亚大学
*通信地址:丽塔Casadio博士,博洛尼亚生物运算集团、意大利博洛尼亚大学电话:+ 39 3495577461;电子邮件:casadio@biocomp.unibo.it
日期:提交:2017年6月6日;批准:2017年6月21日;发表:2017年6月23日
本文引用:马特利Profiti G, PL Casadio r函数预测蛋白质序列与酒吧3.0。安Proteom Bioinform。2017;1:001 - 005。DOI:10.29328 / journal.hpbr.1001001
版权许可:©2017 Profiti G, et al。这是一个开放存取物品在知识必威体育西汉姆联共享归属许可下发布的,它允许无限制的使用,分布,在任何介质,和繁殖提供了最初的工作是正确引用。
蛋白质功能注释需要时间和努力,虽然测序技术是快速和便宜。出于这个原因,开发的软件工具,旨在从序列预测蛋白质功能注释可以帮助蛋白质。
在本文中,我们描述了如何使用我们最近实施博洛尼亚注释资源(BAR) 3.0版本,工具基于超过3000万个蛋白质序列的蛋白质结构和功能注释。在酒吧3.0中,在相似图序列排列,然后聚在一起分享时至少40%序列身份超过90%的序列比对,总共1361773集群。
蛋白质序列与已知功能将其注释传输给其他序列统计验证后在同一集群。序列未知函数和新的序列进入集群中的继承其统计验证注解。
该方法与其他技术在蛋白质功能注释的关键评估算法(中央)。中央美院实验测试数据集上的表现不同的预测,随着时间的推移积累注释。酒吧的预测已经提交给这些年来中央美院的所有实例(栏加在中央美院,栏CAFA3 CAFA2和酒吧3.0 + +)。测试表明,该领域的改善仍然是可能的,我们的酒吧得分在前执行的方法。
这项工作侧重于工具如何转移显著特性差注释或新序列来自transcrptomics或蛋白质组学实验。
廉价和快速测序技术普遍存在,他们不断地产生大量的biosequence数据(DNA、RNA、蛋白质)。蛋白质序列存储在数据库引用UniProtKB [1]。然后,结构和功能特性的归因蛋白质序列(注释过程)开始。结构和功能特性是评估使用的实验技术,需要时间和不同的可用的技术。这是促进蛋白质序列的数量之间的巨大差距的生化和结构特点是记录和绝大多数的沉积序列(目前一些85)。值得考虑,超过6000万个蛋白质序列贴上“预测”UniprotKB (http://www.uniprot.org/statistics/TrEMBL)。为了克服差距,序列是过滤与生物信息学工具特别适合预测功能和结构特点。可用的工具利用知识来推断新序列的属性,使用机器学习等不同的方法和相似性搜索[2,3]。
我们开发的系统对蛋白质功能注释是博洛尼亚注释资源(BAR) [4 - 7]。转移的方法统计验证注释由于集群机制,基于严格的相似性要求。酒吧是建立在一个图形表示的序列空间从UniprotKB:每个蛋白质序列是一个节点,边代表成对相似性。只有边缘代表序列的身份至少40%长度超过90%的对齐。然后分成相同的连接节点集群。
识别集群后,基因本体论(去)[8],并包含了(包含)[9],注解UniprotKB中相关的蛋白质,在统计上验证识别常见术语。统计验证是通过Bonferroni-corrected费舍尔测试,执行和验证条件成为集群特定传播到集群中所有的序列。蛋白质数据库(PDB)[10],结构相关的蛋白质在一个集群中,结构调整后,建立结构模型用于序列在一个给定的集群。
酒吧(酒吧+)的2011年版本,证实了预测蛋白质功能注释的关键评估算法(中央),达到最高分数相比,50岁以上的最先进的方法[2]。2013版(+ +)表现出良好的性能对于一些目标,强调需要更新[3]。目前的版本(3.0条)既是更新和改善系统的功能。预测质量测试CAFA2数据集[3]:3.0酒吧表演相比之前的版本和最先进的技术[7]。新版本执行在所有国家艺术基因本体分支。
此外,系统的新功能包括信息KEGG途径[11],和cross-cluster链接,从完整的[12],蛋白质-蛋白质之间的关系和物理的相互作用蛋白复合物。另一个改进是可能不仅查询序列,而且通过注释。我们想建议栏3.0作为一个有用的工具trascriptomics注释的蛋白质和蛋白质组学实验。
酒吧3.0[7],包含32268689个序列分组在集群或孤立的单例。1361773年有28869663个序列簇,而3399026是单例。集群SwissProt序列下降的97%,允许注释的转移。
统计的验证注释导致674431集群有一些注释进行验证。这些集群包含25447079序列,大约88%的所有集群序列在酒吧3.0。
大约39%的序列与统计验证集群方面,包含了家庭和PDB结构。真正重要的是,11206902年UniprotKB序列得到统计验证注释之前他们没有。
单例,另一方面,主要是缺乏任何类型的注释:43%的人甚至不相关电子转移注释和可能提供蛋白质,值得关注的一个子集的实验方法。
在表演之前的酒吧版本已经被中央美院和CAFA2实验基准测试(2、3);酒吧3.0预测CAFA3委员会仍在评估中。我们测试了酒吧3.0 CAFA2目标积累实验注释2014年1月至2014年9月,发现这组栏3.0分数相似或优于其他国家的艺术方法[7]。正确预测的数量(真阳性),错误地分配(假阳性)和错误未赋值的(假阴性)条件如表1所示。比较与最近的一篇论文中列出的最先进的方法[7]。
表1:预测基因本体方面的统计数据。 | ||||
去分公司 | 真阳性(TP) | 假阳性(FP) | 假阴性(FN) | F1的分数 |
生物过程 | 7790年 | 26156年 | 12465年 | 0.35 |
蜂窝组件 | 4063年 | 8381年 | 3364年 | 0.43 |
分子功能 | 2099年 | 3449年 | 840年 | 0.54 |
当一个新的序列粘贴在查询页面(bar.biocomp.unibo.it),对齐方式向酒吧数据库允许(或不)进入一个带注释的集群。进入由对齐结果约束与集群中的一个序列(至少40%的身份在对齐覆盖的90%)。在集群中插入,继承了所有的统计验证序列注释(图1)。
3.0条的用户可以使用不同的方法访问注释。最常见的一个是寻找UniprotKB saccession FASTA格式的或进入一个序列。在这种情况下,查询序列一致反对的系统中已经存在。集群或单包含匹配的序列或序列,股价至少40%序列的身份返回超过90%的序列比对,如果任何。关于集群的信息页面包含统计数据:的组合数,平均长度和分类领域。结构信息显示为一个PDB列表,当礼物,到集群中的序列有关。对于每一个PDB链,配体/ s /也指定。隐马尔科夫模型(HMM)来源于集群中的结构可以从这部分下载,采用模型的蛋白质结构。查询的对齐序列对集群嗯有PIR格式,使用与常见的建模工具。当PDB链形成一个复杂的与另一个落在不同的集群中,这样的物理相互作用表明,允许导航在不同的集群。
交互和cross-cluster信息来自完整的蛋白质相互作用。当集群中的序列标记为与另一个互动,两者都是“蛋白质-蛋白质之间的关系”一节中列出,连同各自的集群。相同的部分显示查询的生物序列存在于集群包含交互序列。
基因本体论注释包含三个主要的分支:生物过程,分子功能和细胞组件。对于每个术语,它的假定值和距离从本体根计算。域也包含了相关的假定值。
集群中的信息通路包括序列提出了“KEGG通路”部分。作为一个例子(图1),我们可以考虑在UniprotKB人类很方便序列,与“证据”在蛋白质水平,提交的名字“Medium-chain-specific酰coa脱氢酶、线粒体”(B7Z9I1)。它分为酒吧集群# 6075,其中包含32355序列,其中68来自SwissProt。序列在这个集群从超过4000种不同的物种,包括176年古菌504真核生物和3755个细菌。PDB的集群包含57序列结构,形成复合物的四个PDB关联到其他集群。也有从这个集群6已知蛋白质的相互作用。的条款,有132个验证生物过程,29个分子功能和32个细胞组件。3.0酒吧转让一个更具体的生物过程术语去对一个电子InterPro交办(:0033539,脂肪酸机会使用酰coa脱氢酶),这表明可能的新脱氢酶活动的特定的分子功能方面。细胞实验组件分配匹配预测栏3.0(线粒体)。与集群嗯,是可能的序列的三维结构模型。 One of the known interactions is associated to Q92947, also a human dehydrogenase, suggesting possible interactions also for the query sequence.
除了提供一个统计验证注释系统,酒吧3.0提供了一个独特的机会为用户查询特定注释术语(包含,PDB),配体和生物。这些搜索返回一个列表的所有集群包含查询词。条款和包含,集群的相关统计验证的方式列出。PDB,配体和生物相关的集群包含一个序列显示的查询词。结果给出了一个表格,每一行包含一个集群信息:数量的序列,PDB的数量,数量的验证条件(每部门),包含了验证。如果查询术语是一个走或包含,也相关的假定值是可用的。
导致集群的列表可以进一步缩小通过输入分类标识符:通过这种方式,用户可以寻找集群包含一个特定的术语和序列从特定的有机体。从列表中,注释页可以达到每个集群。
酒吧赞美其他序列的注释页如果可用,特别是缺乏注释和预测序列,在不同的集群的链接信息的可能性和完全理解的角色在细胞复杂的景观序列。
由于将资金开放获取的博洛尼亚大学(RFO)送到PLM和RC。必威体育西汉姆联他感谢ELIXIR-IIB和灵丹妙药欧洲支持他的研究。