一、回忆
2020年1月22日,我从北京踏上了回家的火车,暂时松一口气的同时,心里也盘算着春节过后,即将要开展的工作。那个时候的我,想法非常简单,2020年前半年完成COPD数据库的录入工作和多黏菌素B回顾性临床研究的全部工作,后半年开始进行下一步多黏菌素B前瞻性研究的设计以及准备工作。然而不曾想,一场突如其来的疫情改变了我的全部设想。
1月25号,大年初一,各个学生交流群中不断弹出大家略有点惊慌失措的言论,“学校现在禁止返校了,你们听说了吗?”,“学校现在严禁回京,如果擅自回京,后果自负!”。当时我看到这些讯息,心里对能否顺利回京也产生了一丝焦虑,因为我订的车票是在5天后,彼时的我,还尚未收到来自学校和所在院系的正式通知,理论上还是可以名正言顺的回京的,但如果这2天内通知下来了,我就彻底回不去了。果不其然,1月26号,也就是大年初二,学校和学院的群里均正式下达了禁止返京的通知。“各位,目前不在京的研究生一律不返京,返程时间等教育处通知。在京研究生一律正常值班、工作。任何人有发热等身体异常,及时私信我。祝大家平安度过特殊时期。”“这下我是彻底回不去了”,看到这则消息后,我对我的老婆孩子说。“回不去了不是挺好的,现在外面疫情这么厉害,你要是回去了,我还不放心呢”。我媳妇反而很淡定,不仅淡定,而且高兴。相比之下,我儿子奶油的失望之情,就直接就写到了他的脸上,那表情都快把我给逗乐了,这可能是因为我在家老是揍他的缘故。比起哥哥,女儿奶糖就很开心,因为爸爸又能在家陪她了。看到这两个孩子的反差,我心里也是一阵无奈:人果然都是偏心的啊,即使是一个爹妈的子女,我对奶糖也会不由自主的更宽容一些,可能是因为我对奶油报的期望更大吧。“等奶油长大了,他就不会恨我了”,我这样安慰我自己。
那个时候,我并没有因为突如其来的疫情假期而焦虑。因为这种经历对我来说,是第二次。
非典那一年,我高二,正值学业最紧张的时候。我清楚的记得阜阳市作为重灾区,全市学校放了近4个月的假。在3月中旬的某一天下午,物理老师神色凝重的走进教室,跟我们说了一下大致的情况,发了好多好多张试卷,说了很多很多话,然后宣布放假回家,很多话我现在已经记不清了,但最后一句我至今仍记得清清楚楚----“希望大家平安归来。”那个时候,我尚不清楚这句话背后的含义,直到今年,经历了这场至今仍不知何时才能彻底结束的新冠疫情,让我彻底明白了这句话的意义。
由于有过第一次的经历,所以从一开始我就估计这次假期不会短。“从最开始疫情传播的速度来看,这次疫情就比当年的非典要严重的多,也难控制的多,所以保守估计,5月以后才能回去。”我是这样对我媳妇说的。后来也证实了确实是这样,只不过由于期间疫情反复的缘故,最终,这场假期持续到8月上旬。这是我没有预料到的。
二、假期生活
总体来说,我的假期生活还算比较充实,基本是按照既定的目标做的。虽然大部分目标没有完成。
从2月到8月,整整半年的时间,我在家主要做了2件事情。
第一件事就是完成多黏菌素B回顾性临床研究的病例收集工作和大部分数据核查工作。这项工作比较琐碎,基本贯穿了我的整个假期,因为我的主要工作是核查和督促,并反复的和分中心的老师沟通。
得益于前期病历录入工作进展还算迅速,在疫情开始之前,本项目已经完成了原计划80%的入组,但仍遗留有武汉中南医院一家的30例病历没有录入。因为这家医院刚好位于此次疫情最严重的地区,入组在当时已经成为了一件不可能完成的事情。所以最开始,我通过邮件向曹老师申请能否取消该中心的入组,立即着手分析。曹老师同意了我的申请,要求我加快速度。
按照我原本的计划,我是想立刻提交数据库,并马上着手分析数据,然后尽快写好文章的。结果数据核查的繁琐程度和时间花费严重超出了我的想象。2月初,在我和制作EDC系统的北京大学临床研究所的老师沟通之后,就开始了一轮又一轮的数据核查工作。第一轮是对数据漏填,错填的部分进行核查,第二轮是对是否存在不符合入排标准的信息进行核查,第三轮是对数据前后之间的逻辑关系部分进行核查,第四轮是对系统自行判定的可能存在错误的数据进行核查。总共核查出了有问题的字段超过5000个,需要补充的漏填或错填的字段超过2000条。期间跟北医临研所的老师前后进行了数10次的文件反馈。然后就是漫长的等待过程。等待什么呢?等待的内容就是各个分中心的老师的反馈。
从发现问题字段到解决问题字段所花的时间,主要取决于分中心老师的反馈速度。2月-5月是国内新冠疫情最严重的时候。由于短时间内患者激增,医护人员的严重不足,全国各地纷纷派出精英骨干,驰援武汉。这其中就包括了很多参与我们这项研究的临床大夫。即使未被选中驰援武汉,留下来的医生也因为科室人手不足,从而承担了很多额外的工作。因此反馈的速度慢也是情理之中的事情。直到5月份,武汉的疫情基本控制住了以后,字段修改补充的速度才逐渐有了起色。这个时候,我心想:“反正看这样子离数据核查完全结束还有一段时间,现在疫情也基本控制住了,武汉中南医院的那30份病历也有条件录入了,干脆把那30份录完吧,同时继续原本的数据核查工作,这样对于时间的利用也会更充分一些。”于是在和中南医院的老师沟通之后,在5月中旬,又开了最后30份病历的录入,并最终于7月上旬录入完成。
整个研究数据的录入工作到7月份才算正式结束,但是数据的核查仍然在继续。因为又录入的新的字段,因此针对这些字段,前面的4轮核查又重新做了一遍,同时原本数据的核查也尚未完成。直到假期结束,核查工作仍然在继续,因此我最初想在假期结束时把文章写出来的想法也成了泡影,不过这也是没办法的事情。因为数据的核查工作其实在整个临床研究中占的比重是非常大的,往往从数据录入时就开始,并一直贯穿整个研究过程中。由于这是我所参与的第一项临床研究,存在经验不足、经费不足等客观情况,因此数据核查的时间滞后了,这是一个深刻的教训,在今后我所参与的临床研究中,数据核查一定要提前,而且一定要严格保质保量,因为对于临床研究来说,最重要的不是结果是否符合你的预期,而是结果是否准确的反应了真实世界的情况。这也是我从这项研究中得到的一个收获。
截止我写这篇文章的时间,数据核查工作仍未完成,不过已经完成了99%,希望能尽快结束吧。
我在假期做的第二个工作与“细菌和病毒感染对慢阻肺急性加重的影响和机制研究”这个课题有关。第二个工作我花的时间最多,保守估计有4个月以上。
我对基因测序和生物信息学的相关研究一直十分感兴趣。COPD这个课题和16S-rRNA测序以及宏基因组测序有关,因此反正疫情在家闲来无事,所以我打算把相关的基础知识系统的学习一遍。对于生物信息学这一个学科,最重要的其实是掌握算法和统计学知识,对文献照葫芦画瓢固然是新手入门的捷径,但是真正理解并学会处理数据、分析数据的算法和统计学知识才是生物信息学学习过程中的核心内容,因为它们才是你分析数据的方法。掌握这些内容,你才能确保你在分析数据过程中的每一步都是合理且正确的,这个我认为至关重要。因此我的学习方法就是:初级阶段看大量教科书以及少量的文献,等具备一定的基础之后,再精读领域内的经典文献。虽然师兄师姐,包括老师都说要多看文献。我也看了几篇,但是我发现对于我来说,光看文献远远不够。具体表现就是看完一篇甚至几篇文献以后,我仍然不清楚这些文献里的这些数据,为什么作者用这个方法,为什么选择这个数据库,为什么进行这个分析,这个分析结果为什么能够解释你的这个问题。而这些知识,文献里往往介绍的并不清楚。文献往往只是告诉你,我用了这个方法,并且解决了这个问题,但是为什么选择这个方法而不选择其他的方法,这个方法为什么能解决你提出的这个问题,它并没有告诉你,或者告诉你了,但你看不懂。
我想尽可能的把基础打的牢固一些,也为了能够理解这些方法原理,因此我的学习是从教科书开始的。
通过互联网以及一些公众号里生物信息学大神的经验,我对生物信息学和基因组学有了一个初步的概念,并制定了我的学习计划。
生物信息学的内容很多,其实包含了基因组学。我初步归结为3个重点:通过生物学技术获取信息,运用数学知识和计算机知识去解释这些信息,然后将解释结果以一种相对简单的方法可视化。因此我给我制定的学习的内容也就是上述三个部分:计算机知识、数学知识和生物学技术。
关于计算机知识方面的学习:
因为对基因数据的分析,绝大多数情况下是在Linux环境下进行,因此对它有一定的了解是必须的。3月初,我在淘宝上购买了《Linux鸟叔私房菜 基础学习篇》这本书,学到了第200多页(因为我也没打算当程序员,所以后面还有300多页,就暂时不学了),大概了解了Linux这个操作系统的工作原理以及一些基本的概念。我学习这个并不是因为我想改行当程序员,而是为了将来使用一些Linux命令的时候,我脑海可以大概有一个来龙去脉,并且可以准确从书中找到。我在家用自己的家用电脑安装了Linux虚拟机VMware,安装了虚拟Linux操作系统,在上面的学习过程大概花了20天左右。但也只是做到了初步的了解。
因为生物信息学的本质就是研究者根据自己的需求,通过操作计算机去执行,因此它离不开程序设计,所以掌握一门编程语言也是很必要的。因为我假期的时间有限,短时间内想要熟练一门语言是不可能的,但是我觉得至少应该做一个了解,因为毕竟学习是一辈子的事情,现在打一点基础,总没有坏处。因此我选择学习两门语言,一个是Python,另一个是R。为什么选择这两门呢,因为Python相比其他编程语言,很容易上手,被誉为数据科学的第一语言,适用性很广,还可以进行统计分析,机器学习等。因此我选择Python作为我的入门编程语言进行学习。至于R,其实它不算编程语言,它更像是作图工具,一门天生为数据可视化而服务的语言。确定学习的内容后,我大概4月上旬下载了两本电子书用于学习Python,一本是《Python编程,从入门到实践》,另一本是《跟老齐学Python+从入门到精通》。第一本书学习了大概三分之二的内容,第二本看了个开头,觉得没第一本好。关于R语言,我买了两本教材:《R语言初学者指南》和《ggplot2:数据分析与图形艺术》。前者是教科书,看了三分之二,后者是关于ggplot2这个软件包的具体应用,暂时还没看。整个的学习效果其实也仅仅只是对这些内容有了初步的了解,距离掌握还比较遥远,但总算开了个头,我还是蛮开心的。
关于生物学技术以及数学知识方面的学习:
关于这部分的学习我仍然是以教科书为主,毕竟是在家,要充分利用现有的资源。
我先是购买了《新一代基因组测序技术》这本书,结果发现读起来比较困难,因为这本书不涉及任何讲解部分,通篇都只是告诉你具体的步骤,适合一定水平的读者,我现在的水平不够,因此读了一半被迫放弃。后又购买了《基因克隆和DNA分析》这本书,这本书我读的津津有味,觉得写的非常好(我发现此类书籍均是国外著作的译本比国内教材写的更好)。它对于基因克隆和DNA分析过程的原理和步骤讲解的非常详细,我当时读的时候,有一种相见恨晚的感觉。这本书我读了大部分的内容,并且以后也可以作为工具书随时翻阅。除此之外,我还下载了一些电子书,比如杨焕明院士主编的《基因组学》,但实话实说,这本书我读了一部分,觉得很空洞,很乏味,实在没什么营养,当然也可能是我水平有限,不能做到慧眼识珠的缘故,但至少这本书目前阶段并不适合我。
我买的最贵的一本书是《生物信息学与功能基因组学》(第三版),这本书是生物信息学领域非常著名而且经典的一本教材,而且很难。这本书最大的特点就是对基因序列的各个分析方法进行了非常深入的讲解,涉及到了大量的算法和统计学知识。生物信息学,本质就是用大量的算法和统计学知识,对生物学信息进行可视化的过程,所以我个人觉得,如果想深入的学习生物信息学,那么仔细学习这本书是非常必要的。因为假期时间有限,所以我很多内容只能学个大概,剩下的只能留待以后慢慢探索了。
以上就是我在这6个月的假期生活主要做的事情,还有一些其他的比较琐碎的事情,比如初步设计了关于多黏菌素B前瞻性研究的方案(有了大致的方向,但很多细节还没有完善),阅读了一些文献,写了一篇关于宏基因组的文章(写的实在是不好,目前在让晓辉师兄帮我修改),还有陪两个孩子玩耍,上辅导班等等。总体来说,是充实、幸福且疲惫的。但是仔细一想,也没做出什么成果出来,跟很多师兄师姐比起来,我还是太菜了,仍然需要继续努力才行。
三、对未来的期许
希望现有的课题顺利的完成,顺利的发几篇文章,将来如果有可能,我希望自己能够除了当大夫,从事临床研究之外,还可以开展一些生信方面的工作。“每一个不曾起舞的日子,都是对生命的辜负。”希望未来的我,能够做到不辜负自己,不辜负期望,不辜负岁月吧。
常康
2020.8.27