生物信息学


OliverKung OliverKung.top

碱基编码

个人认为,碱基的数量,编码方式,密码表等其实是相互依赖的关系,很难从中间选取出一个进行单独的分析.
首先对为什么是4个碱基的问题,我们知道在DNA当中的碱基为AGCT,而在RNA当中碱基为AGCU.这是我们之前一直有的想法也是一定程度上的事实.
但是研究表明,DNA当中也可能出现少量的U,而RNA当中也会出现少量的T1.这个就是与曾经的知识相悖的部分.
现在回到为什么是4个碱基的问题.个人经过研究认为,4个碱基是一个比较合适的数值,首先我们看一个碱基的情况,在这种情况下,单碱基组成的碱基链不可能传递任何信息,唯一带有的信息只有长度,因此不可能用于复杂的遗传信息的传递.
2个碱基的情况的话可以实现2进制的编码,但是在这种情况下如果我们需要表达所谓的20种氨基酸,就需要至少5个碱基来实现目的.这会大大增加整套系统的能量负担.
而3种碱基有误码的可能,如果组成双链的话就意味着有一种碱基会与其他两种碱基配对,这就意味着密码表当中的同样的编码可能对应着两种不同的情况,进而会使得表达出现问题.
4种碱基每位可以表示四进制的一个数字,而四进制数理论上说只需要3位就可以覆盖所有的二进制数目了.
这里我尝试通过数学的方法去间接证明为啥4种碱基是比较靠谱的一个遗传方案.
首先我们设碱基种类为n,表达的氨基酸数目为k,那么我们可以通过简单的计算算出所需要的最短链的长度L

n^L\geq k\Rightarrow L\ln(n)\geq\ln(k)\Rightarrow L\geq log_{n}k

接着我们假设生物传递所需要的能量E有如下性质

E\propto L\times n

那么我们可以得到

E\propto ([log_n k]+1)\times n

k=20的情况,我们可以计算得到

E=an([log_n 20]+1)

画出函数图像

能量函数

可以发现4时并不是一个很好的能量最低点,事实上,可以证明的是对任意长度的串,e进制是最优解,但是难以非人工的实现.而4进制可以看作是综合了能量和稳定性的一个结果,因为我们知道的是,越长的链可以获得越高的热稳定性.
三联体编码的问题在上面同样可以解决,在4碱基的情况下,三联体编码是表示所有氨基酸的最小值.
密码表的排列方式其实很有意思,尽量的保证了转移相同的氨基酸的密码子的差异尽可能的小,这点可以保证在遗传表达的过程中做到稳定的遗传表达.
值得一提的是,新的研究表明碱基远远不止这四种可以只用,人为引入第三对碱基的生物也是可以进行生命活动的2,而同样的,密码子的编码也不一定是三联体的编码方式,4-6的编码也可以被核糖体通读3.

基因组

首先,由于人与人的基因的微小差异使得蛋白质的表达有所不同,最终引起了性状的差别.垃圾DNA的话个人分析有两种可能,首先是垃圾DNA的引入使得整条链更为稳定,从而降低了遗传产生不可逆的毁灭性变异的可能.另外就是这些看似无用的垃圾DNA,可能只是对现在来说无用.当出现了免疫反应等等的情况时,这些无用的DNA就可以作为抗体合成的基本材料对抗体进行合成,同时在自然选择当中,这些DNA也可以作为性状表达的材料4.
其实很有意思的是我一直思考的一个问题,如果说免疫系统可以对所有的外来病原体进行免疫表达产生抗体,这就说明这些DNA一直在我们身体当中存在着,这样就会带来两个问题:

  1. 如果一直存在这些DNA,为什么我们不在病原体侵入之前就表达这种蛋白来抵抗病原体的侵入呢?
  2. 为什么我们体内的DNA会存有应对所有病毒的抗体信息呢?

那么我们可以逐渐的理解第一个问题,如果我们无脑的表达所有的抗体类蛋白,会引发的问题首先是对自身的影响,也就是所谓的自身免疫病,其次的一点是能够表达所有的蛋白质需要大量的营养物质和能量,所以我个人的猜测是那些能够出生即表达所有的抗体蛋白的人要么死于自身免疫病,要么就死于能量和营养物质的确实,最终使得这个性状没有遗传下来,表现出了应激性的免疫特征.
第二个问题,个人认为可以用生物进化的同源性来分析,生物的本身是同源的一个进化状态,也就是说我们的DNA或者RNA会存在大量的相同点,而病原体也不例外,由于这些类似的遗传物质产生的性状也就自然会出现准备好的抗体DNA进行表达.也就是病原体和生物其实是协调发展进化的.
那么到了最后一个问题,人和鼠的基因差别较小,但性状表达差异巨大.
这个其实个人感觉比较好解释,首先人和鼠都是哺乳动物,这意味着有大部分的遗传物质可能是可以通用的.然后的是,DNA当中本身表达性状的长度仅有总长度的1.5%左右,在这样的基础上两种生物的DNA差异达到0.5%就非常可观了,因此会出现生物的巨大差别.

蛋白质

这一部分我将排着回答老师提出的问题

  1. 相同的氨基酸序列有相同的结果么?
    并不,蛋白质并不是简单的氨基酸线性链,而是三维的折叠结构,实际上蛋白质合成在转译表达合成之后,还需要进行相应的折叠才可能得到可以实用的蛋白质,而这样的一个过程就是相同的氨基酸序列表达出不同蛋白质的过程.
  2. 每个氨基酸在蛋白质中的贡献都是相同的么?
    也并不,氨基酸在蛋白质当中都有自己不同的作用,有的是作为蛋白质折叠的连接点,有的是作为对外部的作用点,各有各不同的作用,有的就是作为简单的氨基酸连接点的形式存在,因此自然贡献不同.
  3. 蛋白质算不算遗传物质呢?
    个人认为可以算作遗传物质.
    我们从遗传物质的定义入手,遗传物质是生物用来储存遗传讯息的物质5,那么能够用来储存遗传信息的物质就是所谓的遗传物质.在以下的两种情况下,蛋白质可以作为遗传物质:

    • 朊病毒:本身只有蛋白质的生物,自然所有的遗传物质就是蛋白质
    • 卵细胞当中的蛋白质.比如线粒体的缺陷可以进行遗传,线粒体内部的蛋白质就自然起到了遗传物质的作用.同时,卵细胞当中有着大量的蛋白质,也可以起到遗传物质的作用.
  4. 为什么蛋白质在生物学中是这样的重要?蛋白质是怎样运动的呢?
    蛋白质如此重要的原因是蛋白质绝定了性状的表达,而生物的研究很大程度上就是对生物性状的研究.蛋白质是如何运动的?这个有两种可能,有一些蛋白质较小,并且移动不依靠ATP->ADP产生的能量,而有一些蛋白的工作需要ATP所带有的能量来实现逆自然的转运功能,比如膜上的转运蛋白等.

网络

表型与蛋白的关系如何?
蛋白一定程度上绝定了表型,但是蛋白的种类可能基本相同,但是却并不意味着就完全相同,含量也影响了性状的表达.
同样,这样就可以解释为什么会两个人的蛋白质种类几乎一样但是性状不同,因为他们控制基因表达的基因不同,也就是可能表达的量有较大的区别.

Reference

1.分子生物学(第二版),杨荣武,p23
2.https://www.sandiegouniontribune.com/business/biotech/sdut-romesberg-dna-scripps-d5sicstp-2014may07-htmlstory.html
3.https://www.ncbi.nlm.nih.gov/pubmed/11880038
4.https://www.zhihu.com/question/36314540
5.https://zh.wikipedia.org/wiki/%E9%81%BA%E5%82%B3%E7%89%A9%E8%B3%AA
最后修改日期:2021年12月7日