一、什么是开放式阅读框?
开放阅读框开放阅读框是基因序列的一部分,包含一段可以编码蛋白的碱基序列,不能被终止子打断。 当一个新基因被识别,其DNA序列被解读,人们仍旧无法搞清相应的蛋白序列是什麽。这是 因为在没有其它信息的前提下,DNA序列可以按六种框架阅读和翻译(每条链三种,对应三 种不同的起始密码子)。ORF识别包括检测这六个阅读框架并决定哪一个包含以启动子和终 止子为界限的DNA序列而其内部不包含启动子或密码子,符合这些条件的序列有可能对应一 个真正的单一的基因产物。ORF的识别是证明一个新的DNA序列为特定的蛋白质编码基因的 部分或全部的先决条件。 An open reading frame (ORF) is a portion of a gene’s sequence that contains a sequence of bases, uninterrupted by stop sequences, that could potentially encode a protein. When a new gene is identified and its DNA sequence deciphered, it is still unclear what its corresponding protein sequence is. This is because, in the absence of any other knowledge, the DNA sequence can be translated or read in six possible reading frames (three for each strand, corresponding to three different start positions for the first codon). ORF identification involves scanning each of the six reading frames and determining which one(s) contains a stretch of DNA sequence bounded by a start and stop codon, yet containing no start or stop codons within it; a sequence meeting these conditions could correspond to the actual single product of the gene. The identification of an ORF provides the first evidence that a new sequence of DNA is part or all of a gene encoding for a particular protein. 在构成基因的核苷酸序列中存在着一些最终翻译成蛋白的碱基段,每三个连续 碱基(即三联“ 密码子”) 编码相应的氨基酸。其中有一个起始“密码子”--AUG/ATG和 三个终止“ 密码子”,终止“ 密码子”提供 终止信号。当细胞机器沿着核酸合成蛋白链 并使其不断延伸的过程中遇到终密码子时,蛋白的延伸反应终止,一个成熟(或提前终止 的突变)蛋白产生。因此开放阅读框是基因序列的一部分,包含一段可以编码蛋白的 碱基 序列。由于拥有特殊的起始密码子和直到可以从该段碱基序列产生合适大小蛋白才出现的 终止密码子,该段碱基序列编码一个蛋白。 现在有很多找ORF的软件,包括在线的,如: ORF Finding的功能 ORF Finding 被用来预测已存在的编码区的小基因序列。它较早应于序列设计 ,应用优于长片断、高质量的匹配。进而,它提供了比用标准基因编码查询更有用的信息 。ORF Finding 把提交序列分成六个亚区,并对这六个阅读框分别进行默认,赋予每个亚 区一个确定其编码内容的度量, 如果可能,将对每一亚区进行进一步分析。每个亚区按照 已有的分类结果,被随机提交给查找它们是否编码 蛋白质的特定测试收集器。最后只有那 些具有编码潜能的重要区域才被报导。ORF Finding 识别是证明一个新的DNA序列编码特定的蛋白质的部分或全部的先决条件,可用于大规模的开放式阅读框寻找
二、什么是开放阅读框
开放阅读框 是结构基因的正常核苷酸序列,从起始密码子到终止密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。
三、开放阅读框(open reading frames, ORFs)是什么?
ORF是分子生物学和生物信息学中的一个基础概念。ORFs的检测是在基因组序列中发现特定蛋白质编码基因的重要一步。orf中的o,或者说open,是指完整基因中用于蛋白质翻译的“开放”区域;而rf,也即reading frame,是指双链基因序列翻译至氨基酸时的6种可能性之一。
定义1 :一个ORF是指一段能够被3整除的序列,并且包含起始密码子和1个终止密码子(start/stop)。
定义2 :一个ORF是指一段能够被3整除的序列,以终止密码子为头尾(stop/stop)。
定义3 :一个ORF是指一段被受体和供体的剪切位点所分隔的序列。
至于为何要选择定义2作为生信领域的最佳选择,请移步文末所列的参考文献[1],有详细的解释。
orf与基因的关系
orf是完整基因序列的一部分,一个完整基因包括orf序列以及非编码序列。orf可作为一个潜在蛋白质编码基因的指示器,但是预测的orf并不一定是基因。例如,一个典型的细菌基因组中已注释基因的数目远低于ORFs数目,前者约10 3 至10 4 ,而后者可达到10 4 至10 5 [2]。很好理解,毕竟ORFs的数目只是统计的潜在的编码基因数目,stop codon与stop codon所包含的区域并不一定能对应已知基因,因此ORFs相较于已知注释基因会更多。
参考文献
[1] Sieber, P., Platzer, M., Schuster, S. 2018. The Definition of Open Reading Frame Revisited. Trends in Genetics, 34(3), 167-170.
[2] Mir, K., Neuhaus, K., Scherer, S., Bossert, M., Schober, S. 2012. Predicting Statistical Properties of Open Reading Frames in Bacterial Genomes. Plos One, 7(9)
四、什么是开放阅读框(Open Reading Frame,ORF)
在构成基因的核苷酸序列中存在着一些最终翻译成蛋白的碱基段,每三个连续碱基(即三联“ 密码子”) 编码相应的氨基酸.其中有一个起始“密码子”--AUG/ATG和三个终止“ 密码子”,终止“ 密码子”提供 终止信号.当细胞机器沿着核酸合成蛋白链并使其不断延伸的过程中遇到终密码子时,蛋白的延伸反应终止,一个成熟(或提前终止的突变)蛋白产生.因此开放阅读框是基因序列的一部分,包含一段可以编码蛋白的 碱基序列.由于拥有特殊的起始密码子和直到可以从该段碱基序列产生合适大小蛋白才出现的终止密码子,该段碱基序列编码一个蛋白.\x0d现在有很多找ORF的软件,包括在线的,如:\x0dORF Finding的功能\x0dORF Finding 被用来预测已存在的编码区的小基因序列.它较早应于序列设计,应用优于长片断、高质量的匹配.进而,它提供了比用标准基因编码查询更有用的信息.ORF Finding 把提交序列分成六个亚区,并对这六个阅读框分别进行默认,赋予每个亚区一个确定其编码内容的度量,如果可能,将对每一亚区进行进一步分析.每个亚区按照已有的分类结果,被随机提交给查找它们是否编码 蛋白质的特定测试收集器.最后只有那些具有编码潜能的重要区域才被报导.ORF Finding 识别是证明一个新的DNA序列编码特定的蛋白质的部分或全部的先决条件,可用于大规模的开放式阅读框寻找.\x0d使用说明测试过程:当一个基因被识别、其DNA序列被解读时,人们往往仍然无法 弄清相应的蛋白序列是什么.这是因为在没有其它信息的前提下,DNA序列可以按六种框架阅读和翻译 (每条链三种,对应三种不同的起始密码子).ORF Finding 针对小基因序列,搜索并报导可能的蛋白质编码区,它检测这六个阅读框架,并寻找以启动子和 终止子为界限的DNA序列,符合这些条件的序列有可能对应一个真正的单一的基因产物.\x0dORF Finding 通过如下方式处理您的序列:\x0d·定位六个阅读框上的ORF候选区域\x0d·对每个候选区域的编码可能性进行评估\x0d·如果可能性很高,就把该区域作为可能的蛋白质编码区进行报导 编码可能性:是通过从物种训练模拟器收集来的统计数据确定的用.ORF Finding 进行蛋白质编码区的预测,有三步程序.\x0d第一步:延伸无终止密码子的序列,把延伸的片断定位在六个阅读框上;它们是下一步进行 开放式阅读框研究的候选序列.\x0d第二步:用物种hexamer统计表来估算ORF候选区域上蛋白质编码部分编码蛋白质的最大可能性.\x0d第三步:根据序列结构和区域最可能成分来计算蛋白质编码的可能性.\x0d这种测试利用物种的统计学原理把编码区从非编码区区分出来,其中包括编码蛋白质的最大可能性的估算、3 个过程的测试 和 ORF片断大小的确定.这种测试应用于物种的二次形式,得到一个三个自由度的 chi-square统计量,被称为候选ORF的二次判别式.这个判别式对于编码区趋向于取大值,对于非编码区 趋向于小值,并被固定化,所以非编码区获取的值趋向于小于1.一般通过第一步和第二步,大约61%的非编码区域产生值小于1的二次判别式.89%的区域的期望值小于2.经多次应用发现,5.0的结果很理想,它是介于正、误之间的阈值.\x0d使用方法:首先选择你测试的序列的来源(物种),然后直接在输入 框内填写您的DNA序列,进行提交即可.但输入序列的长度不得小于50bp.\x0d结果说明:提供最优的潜在开放阅读框位置.通常,ORF Finding 会把您提交的序列进行检测,然后根据阅读框的次序(+1,+2,+3,-1,-2,-3),给出各阅读框架的蛋白质编码区域的 详细信息.如果同一个阅读框包含几个蛋白质编码区域的话,则这一开放式阅读框中蛋白质编码区域 会按照它们的起始核苷酸在该阅读框上的碱基位置依次给出.编码区域的详细信息包括:\x0d·Numb x:编码区编号.从1依次增加,从此您可以知道各编码区的相对序号和您提交的序列的总编码区数目.\x0d·Predicted start、Predicted end:预测的基因编码区的开始、结束.是指该阅读框的该编码区上编码蛋白质的核苷酸的起始和结束位置.\x0d·Reading frame:阅读框.六种框架(每条链三种,对应三种不同的起始密码子)中的哪一种.\x0d·Type:类型.说明这一蛋白质编码区是预测出来的还是存在的.\x0d·ORF start、ORF end:开放式阅读开始、结束.即这一编码区的起始和结束.它除包括编码蛋白质的核酸序列外,还包括调控基因、起始密码子、终止密码子等.\x0d·Spectral:吸收光谱.该段核苷酸的吸收光谱数.\x0d·ORF length:ORF长度.\x0d·Max likelihood:最大可能性.请参考 中的 编码可能性.\x0dMLE length score:最大可能性估量长度评估.即该编码区上编码部分占整个ORF区的比例.\x0d·Quadratic discriminant:二次判别式的值.对于编码区趋向于取大值,非编码区趋向于取小值
五、什么是开放式阅读框?
开放阅读框开放阅读框是基因序列的一部分,包含一段可以编码蛋白的碱基序列,不能被终止子打断.当一个新基因被识别,其DNA序列被解读,人们仍旧无法搞清相应的蛋白序列是什麽.这是因为在没有其它信息的前提...
六、什么是开放式阅读框
开放阅读框是基因序列的一部分,包含一段可以编码蛋白的碱基序列,不能被终止子打断。当一个新基因被识别,其DNA序列被解读,人们仍旧无法搞清相应的蛋白序列是什麽。这是因为在没有其它信息的前提下,DNA序列可以按六种框架阅读和翻译(每条链三种,对应三种不同的起始密码子)。ORF识别包括检测这六个阅读框架并决定哪一个包含以启动子和终止子为界限的DNA序列而其内部不包含启动子或密码子,符合这些条件的序列有可能对应一个真正的单一的基因产物。ORF的识别是证明一个新的DNA序列为特定的蛋白质编码基因的部分或全部的先决条件。