随着高通量测序行业的高速发展,测序价格大幅下降,单价的下降促成了转录组数据的爆发式增长,随之而来的突出矛盾是模板化分析无法满足发表文章的需求,需要对测序数据进行深入的挖掘!另外一方面是许多科研君并不具有数据挖掘经验和思路,也不具有生信分析基础,不知道怎么选取数据挖掘工具,摸索周期长,数据转化慢,文章发表周期长! 为了解决上述的问题,我们公司重磅推出“云次账号”这一产品。简单来说就是我们开发了集成生物信息分析软件、数据库以及云计算为一体的生物数据信息分析平台。而“云次账号”是在传统的科技服务的基础上利用百迈客云集成的标准分析流程及个性化分析工具,为广大科研君提供从建库测序到文章发表的一站式服务!     丰度的数据挖掘工具     可提交给美观、个性化的分析结果     百迈客转录调控研究云次账号已全面开启,蓄势待发!期待与您的精诚合作,早日实现高分文章发表。 点击按钮,即可免费试用!   申请免费试用 名额有限,先到先得!...

炎炎夏日,各位坚守在科研第一线的老师们辛苦啦!为了感谢广大老客户对百迈客的支持,百迈客现推出“百迈客白条”服务,您可以先做项目,再付款,不用担心项目经费的限制,更快拿到自己的科研成果。 “百迈客白条”助您更快更好发文章!   增值赠送: 百迈客云个性化分析工具使用权1年   活动时间:8.1-9.15 活动内容:百迈客转录调控全线产品   名额有限,先到先得!   详情请咨询当地销售!   马上打白条...

分析思路1          共表达分析中,整合大量相关公共样本测序数据,可构建出相较于常规样本量下可靠度更高的基因共表达网络,从而基于该网络进行更加准确的后续分析:a)预测目标转录因子的下游调控基因、目标调控网络中的关键转录因子;b)预测ncRNA与mRNA之间的靶向关系;c)基于网络中已知功能基因推测同网络中其他功能未知基因功能;e) 将每个共表达模块分别作为一个整体,计算其与各组织或各发育时间点之间的相关性,建立各组织相关或各时期相关基因表达网络...

大豆研究套餐: 整个多个大豆RNA-seq公共数据,分析SWEET基因家族在大豆生殖组织与营养组织间表达变化规律 文章思路 Patil G.  et al. Soybean (Glycine max) SWEET gene family: insights through comparative genomics, transcriptome profiling and whole genome re-sequence analysis. BMC Genomics. 2015 1. 大豆中SWEET基因鉴定 SWEET基因家族在植物体内的糖运输、免疫及生殖组织发育过程中发挥着非常重要的作用。研究者使用拟南芥、水稻中的SWEET家族基因序列,通过BLAST比对,鉴定到了大豆中的52个SWEET基因。 该步骤可非常方便的调用部署于百迈客云平台上的BLAST小工具来完成。 2. 大豆中SWEET基因与其它物种的序列比较分析 为了了解不同物种中SWEET家族基因的进化关系,研究者对大豆中的SWEET家族基因与其他13个物种(包括水稻、拟南芥、玉米在内)中的SWEET基因构建系统进化树。 该步骤可调用部署于百迈客云的MEGA小工具来完成。 3. 大豆中SWEET基因上游调控转录因子分析 研究者提取了52个转录因子的启动子序列,预测了这些启动子序列中存在的motif序列,并在转录因子数据库中注释到了可与上述motif序列结合的转录因子,这些数据为之后研究SWEET基因转录调控网络提供了数据基础。 该步骤中的motif序列提取可调用部署于百迈客云的motif_prediction小工具来完成。 百迈客云motif_prediction小工具运行结果 4. 大豆中SWEET基因不同组织中表达量变化规律分析 1)下载大豆RNA-seq公共数据集: 数据集1 SRA数据库编号:PRJNA140081. 包含14个样本,其中11个样本为生殖组织来 源(花、豆荚、种子),3个为营养组织来源(叶、根、根瘤) 数据集2 GEO数据库编号: GSE29163. 包含10个样本,其中6个样本为生殖组织来源(花、花芽、种子),4个样本为营养组织来源(根、茎、叶、幼苗) 该步骤可进入BMKCloud_数据库模块按数据编号完成数据检索及一键保存,保存后的数据可直接调用百迈云平台的分析模块BMKCloud_APP进行后续分析。 2)对大豆所有基因进行转录了水平定量,并从中筛选SWEET基因家族,分析该家族基因在大豆的生殖组织与营养组织见的表达量变化规律。 该步骤可直接将上步保存于百迈客云的公共数据导入BMKCloud_APP模块中的 “有参转录组分析平台”进行分析,运行后便可得到文章所需的结果。 分析结果: 1)GmSWEET21、GmSWEET24在所有样本中均高表达 2)有23个SWEET基因在所有样本转录水平非常低或者未检测到,这些基因或许为假基因,或者需要再特殊组织特殊时期表达 3)其余的SWEET基因均在花或者种子等生殖相关组织中高表达,说明SWEET基因在生殖相关组织发育过程中发挥重要作用,与之前的相关的研究结论一致。 立即体验...

研究背景: 杏(P.armeniaca)属于蔷薇科中常见的一种核果,全世界范围内分布广泛,具有较高的营养价值,富含膳食纤维、有机酸、维生素C、胡萝卜素、微量元素等。 木质化的内果皮(endocarp)在包括杏在内的许多具有较高经济价值的核果(drupe fruits)种子发育过程中发挥着非常重要的作用,为种子提供了安全的发育环境,避免了直接暴露于各类害虫与病原菌。 内果皮木质化是核果成熟的一个重要标志,木质化的过程本质上是植物次生细胞壁形成与木质素积累的过程,在以往其他核果中的研究发现,一些与植物生长发育相关的重要转录因子,比如MYB、NAC、MADs-box,在核果内果皮的发育调控网络中扮演着重要的角色。 本研究以两种不同内果皮表型的两种杏作为实验材料,借助高通量测序来揭示杏内果皮发育背后的分子调控机制。 材料与方法: 测序材料: LE品种杏 内果皮薄、柔软、韧性高 JG品种杏 内果皮厚、坚硬、韧性低 取样部位: 去核果实 测序平台: Illumina HiSeq™ 2500 PE125测序 技术路线: 结果--LE、JG品种杏内果皮表型观察比较 a)如图2所示,两种品种杏的果实具有相似的发育模式,a1、b1、c1是以开花后时间(DAFB)为横坐标,分别以果实重量、果实长度、果实宽度为纵坐标做图,两种杏的果实均呈现出了“双S曲线”生长模式,图a2、b2、c2是分别对a1、b1、c1一阶导数作图,两种果实同样也表现出相似的趋势。 根据生长曲线,研究者将果实的发育划分为4个时期:第一次指数生长期(before 30DAFB)、缓慢生长期(30-49DAFB)、第二次指数生长期(49-83DAFB)、成熟期(after 83DAFB)。 b)图3展示了两种品种杏的内果皮在果实发育的不同阶段各项指标的比较,包括内果皮木质素含量(图3d)、内果皮厚度(图3e)、内果皮界面面积(图3c)、内果皮木质素积累直观观察(图3b)、内果皮显微镜直观观察结果(图3a)。 图3a显示,LE品种与JG品种的内果皮在15DAFB之前形态上基本无差异,15DAFB之后,LE品种的内果皮开始出现破裂缺失,随着发育阶段往后推移,破裂程度越来越大。 图3e显示,LE品种与JG品种的内果皮在30DAFB之前厚度上并无差异,之后在厚度上,两种品种出现显著差异。 图3d显示,LE品种与JG品种的内果皮中木质素含量也在24DAFB之后出现显著差异。 综合以上表型观察结果得出,LE品种与JG品种的内果皮发育过程以及内果皮木质素含量存在显著差异。   结果--mRNA测序与转录本组装 a)测序取样部位 : 去核后的果实,每个品种两个生物学重复 测序取样时间点 : 根据上一部分的表型观察结果,LE品种内果核在15DAFB时出现裂缝,在24DAFB时,裂缝程度开始快速增大,因此,该mRNA测序项目选择了15DAFB和24DAFB两个时间点样本 b)转录本组装:测序共得到~20Gbase clean data,使用Trinity软件组装得到63,170条unigene,unigene N50大小1689bp,详细组装结果参见表1。 结果--unigene功能注释 a)基于blast比对,63,170条unigene中有25,356可比对到日本杏(Japanese apricot)与桃(peach)基因组数据库。 b)使用BLASTx(e-value阈值设为10e-5)将上述25,356条unigene比对到NR, Swiss-Port, GO, COG, KOG ,kegg数据库以进行功能注释,每条unigene均有多条注释,详细的注释结果统计信息请参见表3. c)GO数据库注释过程中,16,506条unigene被注释到,其中, ‘metabolic process’ (8408 genes, 50.93%)是被注释到最多的GO 条目;KEGG数据库注释过程中,4830条unigene被注释到了118个代谢通路。大部分的unigene被注释到了‘carbohydrate metabolism’...

Differentially expressed immune-related genes in hemocytes of the pearl oyster Pinctada fucata against allograft identified by transcriptome analysis 杂志:Fish & Shellfish Immunology 影响因子:3.148 PMID: 28126621 研究背景:合浦珠母贝是在中国普遍养殖的海洋珍珠贝,占海洋珍珠产业90%以上的比例。为了培养珍珠,需要将供体珍珠牡蛎的地幔片用细胞核移植到受体中,但是移植后的免疫抑制反应会使成功率降低。加强了解宿主牡蛎对移植体的免疫反应有利于提高珍珠培养技术的效率。然而,当前的研究中关于珍珠贝对同种异体移植的免疫抑制报道却很少。本文拟通过对移植的合浦珠母血细胞转录组动态变化进行研究,获得移植反应过程相关基因。   研究材料:  生长1.5年的健康合浦珠母贝(P. fucata) 将和浦珠母贝进行同种地幔片移植手术,分别收集手术后0h和48h血淋巴,每个时期选取6-7只牡蛎的样本进行混合,分别提取两个样本的total RNA。   研究方法:在本研究中,对同种异体移植后0小时和48小时的珍珠贝的血细胞免疫反应进行了转录组分析。与合浦珠母贝的参考基因组进行了比对,为了鉴定所有与免疫相关的差异表达基因,本研究进行了GO注释和KEGG通路分析。最后,随机筛选免疫相关差异表达基因进行qRT-PCR验证,以确保研究的准确性。 测序平台:Illumina Hiseq 2500 platform 测序数据量:测序得到92.5M的clean reads   技术路线: 结果 结果 1.测序结果 两个样本Raw reads经过去接头和去低质量的reads后分别得到6.1Gb(0h)和6.2Gb(48h)的数据量。且每个样本的Q30值都大于92%,GC含量分别是44.73%(0h)和42.19%(48h),与合浦珠母贝参考基因组比对率分别是58.95%(0h)和60.27%(48h),如表1所示。 表1.转录组测序数据统计分析 2.基因注释结果 与合浦珠母贝参考基因组比对,共获得1912个新基因,通过与NR/Swiss-Prot/ GO/ COG和KEGG数据库比对,其中1579个基因找到注释信息,另外333个基因没有在数据库中找到注释信息,如表2所示 表2.新基因注释信息统计 3.两组之间差异表达分析结果 比对0h和48h基因表达量,共获得798个差异表达基因(其中410个上调基因,388个下调基因)。在这些差异表达基因中其中有226个与编码热休克蛋白家族的基因在0h高表达,其中314个与编码丝氨酸/苏氨酸蛋白激酶和EF-hand 钙离子结合蛋白的相关基因在48h高表达,这些基因都与免疫防护有关。 图1.0h/48h每个基因表达水平火上图 4.差异表达基因功能注释结果 为了进一步研究这些差异表达基因的生物学价值,对这798个差异表达基因按照功能进行GO富集分析,共产生45个GO terms。所有的基因都归到cellular component(17个terms),molecular function(11个terms)和biological processes(17个terms)三个功能类别,其中与免疫相关的差异表达基因主要富集在“biological process”一类,且这一类别中有9个差异表达基因富集在免疫系统过程子分类,有67个差异表达基因富集在刺激反应子分类。 图2.差异表达基因GO分类 5.免疫反应相关差异表达基因的鉴定结果 为了在这些差异表达基因中更进一步的挖掘免疫相关基因,研究人员将免疫反应相关差异表达基因按照不同功能进行分类,获得64个GO terms,其中包含51个差异表达基因,有刺激反应(8个基因)、抗菌体液反应(5个基因)、对压力的响应(8个基因)。其他的GO terms主要与这些子分类相关:受体介导的胞吞、真菌反应、饥饿反应以及损伤修复。鉴定了一些参与细胞凋亡和死亡的基因,包含金属蛋白酶-19基质、丝氨酸/苏氨酸激酶、Kr-h1、酪氨酸蛋白激酶Abl、和ATP结合转运蛋白。另外,有24个差异表达基因属于刺激、压力和温性反应的GO类别。这些基因跟移植免疫反应相关(其中6个上调,18个下调),包括TLR 和HSP。 研究人员将以上获得的所有的差异表达基因比对到KEGG数据库去寻找与免疫反应相关的基因。在798个差异表达基因中,有122个基因对应到64个KEGG通路。其中,19个免疫相关基因对应到16个通路,包括内吞作用(5个)、NOD-like受体信号通路(1个)、泛素介导蛋白质水解(4个)和其他路径。研究人员主要关注抵御病原体入侵相关的toll-like受体信号通路和溶酶体。这一路径有四个主要的基因家族,分别有TLRs、 IRFs、Ils和 TNFs。共鉴定了1个与TLR信号通路相关的unigene,2个与溶酶体相关的unigene 。 图3.Unigene的KEGG通路分布图 该研究通过基因注释、聚类分析和通路分析的方法,最终鉴定了72个典型的免疫基因(其中25个上调基因,47个下调基因)。随后,研究人员将这些免疫相关差异表达基因按照不同时期进行分层聚类分析,在0h和48h两个时期的免疫相关差异表达基因有明显不同,说明移植前后牡蛎中免疫相关变化明显。 图4. 分层聚类分析 6.qRT-PCR验证 研究者随机对其中18个免疫相关的差异表达基因进行qRT-PCR实验。结果显示用qRT-PCR检测到的倍性变化与RNA-Seq的表达模式相比,结果基本一致,且RNA-Seq检测更敏感。 图4.qRT-PCR验证 研究结论 该转录组研究共发现了1912个新基因,移植和非移植组比对后共有798个差异表达基因,通过GO富集和KEGG通路分析等方式最终鉴定出了72个典型的免疫相关基因,包括TLRs、细胞因子、HSPs、细胞凋亡和抗氧化剂等。另外,通过qRT-PCR对其中18个免疫相关的差异表达基因进行验证,实验结果与RNA-Seq的结果基本一致表明该实验结果准确可信。     创新点 首次通过合浦珠母贝转录组测序研究寻找到与同种异体移植免疫相关的基因,为进一步分析合浦珠母贝同种异体移植的免疫抑制提供了依据,为同种异体移植牡蛎存活率的提高提供了有价值的信息。...

Genome-Wide Analysis of lncRNA and mRNA Expression During Differentiation of Abdominal Preadipocytes in the Chicken PMID: 28108554 杂志:G3 (Bethesda) 影响因子:2.861   研究背景:腹部脂肪是肉鸡的重要胴体性状。选育过程中对鸡快速生长率的过分强调导致了过多的脂肪堆积,过量的脂肪沉积导致饲料转化率、胴体产量、产蛋率、受精率和孵化率降低。因此,腹部脂肪含量较低成为肉鸡的主要育种目标。脂肪细胞生成是受多种转录事件调节的一个复杂过程,近期的一些研究通过全基因组范围内的mRNA (Ji et al. 2012;Regassa and Kim 2015)和microRNA (Wang et al. 2015)分析,探索了鸡脂肪生成的相关调节机制。但是目前对脂肪生成的调节机制知之甚少。此外,长链非编码RNA(lncRNA)调节脂肪形成和其他与代谢组织发育和功能相关的过程,但是鸡体内前脂肪细胞分化期间lncRNAs的功能和特征尚不清楚。 材料方法: 1.实验材料: 取14日龄京海黄鸡,无菌条件下分离4g腹部脂肪组织。剪碎组织、胶原酶I消化并分离基质血管组分后,利用DMEM/F12培养基(含10%胎牛血清),在35℃和5% CO2的条件下培养至90%汇合度。分别诱导分化0、48、96和144 小时后取样进行RNA-seq,每个时间点做三个生物学重复。 2.测序方法及数据量: RNA-seq,Illumina XTen. 从12个样本总共获得了1,300,074,528 clean reads (195.02 Gb)。 技术路线: 实验结果: 测序结果和质量控制 分离培养腹部前脂肪细胞,诱导分化48小时、96小时和144个小时后取样进行RNA-seq,未诱导分化的细胞(0小时)作为对照。对12个样本的文库进行测序得到1,300,074,582 (195.02 Gb) clean reads。每个样本的Q30都在92.81%以上,平均GC含量为52.51%,12个样本的比对率在79.40和84.30%之间。 前脂肪细胞lncRNA及其功能预测 经筛选获得了27,023个新的lncRNA。基于lncRNA顺式作用功能鉴定了4915个靶基因。进一步通过GO分析发现总共有1746、1544和2174个基因分别被富集到生物过程、细胞组成和分子功能三个GO条目内。KEGG富集分析显示917个基因被显著富集到包括Wnt、MAPK和血管平滑肌收缩通路中。 腹部前脂肪细胞分化相关的差异表达lncRNAs和mRNAs分析及功能注释 将分化0、2、4、6天的前脂肪细胞样本进行两两比较(A0 vs. A2;A0 vs. A4;A0 vs. A6;A2 vs. A4;A2 vs. A6和A4 vs....

习惯了正向思维不如来个反向思维;                                    恶性癌组织研究多了不如研究下良性病变组织 文献:Ye L, Zhou X, Huang F, et al. The genetic landscape of benign thyroid nodules revealed by whole exome and transcriptome sequencing[J]. Nature Communications, 2017, 8.  研究背景: 乳头状甲状腺癌(papillary thyroid carcinoma,PTC):是最常见的甲状腺癌,其发病率约占甲状腺癌发病率的70-80%, 每10万人中有5.7个人患有PTC,女性约为8.8人,男性约为2.7人,属于低度恶性肿瘤,分化程度高,预后良好。甲状腺癌发病的第一症状是在颈部的甲状腺区出现结节,结节常为无痛性,甲状腺结节发生率很高,这些结节中约有5%的结节可能会出现癌变。已经有诸如TCGA等研究机构对PTC的肿瘤相关变异进行了鉴定(BRAF和RAS基因突变等),但是对于良性结节的基因组特征所知甚少。良性增生性甲状腺结节,尤其是腺瘤样结节,尚未研究过。 新颖点/研究目的:1.甲状腺癌组织研究的很多,良性结节的遗传和表达景观如何? 传统认为PTC和良性结节具有独立起源,是否可以提供基因组层面证据? 传统的基因检测技术通过检测恶性癌组织相关突变标志提供纳入标准(rule-in)辅助诊断,是否可以鉴定良性组织相关突变标志提供排除标准(rule-out)? 实验材料:共计28例患者的经过手术获得的127个样本的癌组织(PTC)或结节组织、正常组织及配对的germline外周血液样本。患者根据有无PTC癌组织分成2组,TB和SB(只有良性结节,且持续2年)。 研究结果: 1.良性腺瘤样甲状腺结节相比于乳头状甲状腺癌具有独特的变异 外显子组测序(平均161X)结果显示,相比于外周血,在正常组织、良性结节组织和乳头状甲状腺癌组织中共计检测到了528个基因中的688个体细胞突变,肿瘤组织和结节组织中体细胞突变数目(/Mb)明显高于正常组织,但肿瘤组织和结节组织的突变特征(6种类型的碱基替换及其上下文)却明显不同。 经过高频突变基因(significantly mutated genes,SMGs)分析,乳头状甲状腺癌中以BRAF突变为主(80%样本中携带),最主要的是BRAFV600E突变,这与TCGA的研究是一致的。而良性结节(TB和SB两组)组织中与癌组织中完全不同,检测到了互相排斥的ZNF148 (21.4%)、SPOP (14.3%) 和EZH1 (10.7%)。   高频突变基因频谱   在额外的231例良性结节中对上述三个基因中主要的体细胞突变进行了验证,ZNF148基因突变频率有所下降(5.4%),其他2个基因突变保持相似水平(SPOP P94R 11.2%,EZH1 Q571R 9.3%)。55例滤泡状甲状腺癌(follicular thyroid carcinomas,FTC)中未检测到上述3个基因突变,表明特异存在于良性结节中。 SPOP,EZH1和ZNF148体细胞突变示意图 利用人正常甲状腺细胞系Nthy,构建突变体进行功能实验发现,EZH1 Q571R突变细胞系相比于野生型细胞系,细胞增殖能力轻微增加,侵袭能力降低。EZH1体细胞突变可能是甲状腺肿的早期刺激因素之一。 细胞增殖和侵袭实验 对外显子数据进行CNV分析,只在癌组织中检测到了已知的PTC相关的22号染色体长臂arm水平拷贝数缺失,而良性结节中没有发现重现性的CNV。转录组数据分析后,也没有发现重现性或者功能性的基因融合。 TB组来自相同PTC患者配对的癌组织和良性结节间相同的突变很少 PTC癌组织-良性结节pairs间的共有突变频率展示 PTC癌组织和良性结节的重叠突变频率最低(0-21.4%,中位数7.7%)。 当考虑匹配的正常组织时,只有9个PTC癌组织和良性结节对显示重叠的突变(1.7-7.4%)。共有突变少与纯度没有显著相关性。TB组20个PTC患者的配对组织间体细胞突变变异等位基因频率(variant...

Transcriptome analysis of the immune reaction of the pearl oyster Pinctada fucata to  xenograft from Pinctada maxima 杂志:Fish & Shellfish Immunology 影响因子:3.148 PMID: 28606863 研究背景 大珠母贝(P. maxima)通过同种异体移植的方法进行培养面临很大的困难,而对于合浦珠母贝(P. fucata)而言,同种异体移植培养较容易实现。如果合浦珠母贝可以作为孕育受体去培养大珠母贝珍珠,将有益于大珍珠培养产业的发展。移植后的免疫抑制反应是阻碍该产业前行的一大障碍。据前期的研究统计,珠母贝通过异种异体移植的存活率约在6.3%-15.4%之间。人体器官异种异体移植的免疫反应已有相关报道;在软体动物中,异种异体移植的免疫抑制反应也有报道;但是在珠母贝免疫反应研究中,仅有一项通过转录组技术对珠母贝同种异体移植免疫抑制反应的研究。 研究目的 此项研究希望通过转录组技术对合浦珠母贝异种异体移植后免疫分子变化进行探索,寻找对抗宿主珠母贝免疫抑制反应的策略。 材料方法  3.1实验材料 大珠母贝,合浦珠母贝 实验组: 同种组:合浦珠母贝植入合浦珠母贝地幔片 异种组:合浦珠母贝植入大珠母贝地幔片 对照组:合浦珠母贝 实验组分别取手术后不同时期的宿主珠母贝(0 h, 6 h, 12 h, 24 h, 48 h, 72 h和 96 h)血淋巴, Control组收集宿主珠母贝的血淋巴(0h),共15个样本,分别进行RNA提取。  3.2测序方法和数据量 测序平台:Illumina Hiseq 2500 platform 总计得到107.93Gb的clean reads,平均每个样本7.1Gb的数据。 3.3分析方法 所有分析在百迈客云平台完成(BMK Cloud :https://www.biocloud.net/)。 主要分析: a.数据质控 (去接头,去低质量的序列); b.利用合浦珠母贝参考基因组进行组装; c.与数据库比对(NR、Swiss-Prot 、GO...

近年来,随着测序技术的不断升级,测序通量越来越高,同时测序成本直线下降,高通量测序技术逐渐应用在科研、医疗、健康等各个研究领域。伴随着大数据处理关键技术的突破和数据共享等契机的发展,大数据将在促进生物学发展中发挥重要的作用。 测序技术在生物学研究中的发展分成三个阶段: 第一个阶段:Genome Center唱独角戏。在这个方向刚兴起的初期,人才储备较少,产出数据的成本也很大,只有少量的国家支持的Genome Center可以从事这方面的系统研究,做生物信息开发的目的也比较明确,就是为了完成基因组中心所承担的一些重大国家科研课题。 第二个阶段:高通量测序技术的进步和基因科技服务公司的崛起。当很多科学家看到了有那么多空白的山头待开发,同时数据产出的成本也大幅降低情况下,科学家们对组学研究都跃跃欲试,科技服务的市场需求就出现了,同时经过多年的人才储备,也有了一定数量的技术人员,为科技服务公司的出现打下了人力基础。这个阶段生物信息开发注重的是“pipeline”,这样能提高服务的效率,让公司能更好的发展。 第三个阶段:大数据的积累和丰富多样的个性化分析需求。随着NGS技术的不断发展,测序成本不断降低,数据积累也越来越快,同时随着科学家对数据理解的深入,科学家的思路大大开拓,各种个性化的数据分析想法大量涌入脑海,“personalized”成为了这个阶段的生物信息开发要满足的关键需求。目前,测序技术在生物学研究中的应用已经逐渐进入了第三个阶段,基因大数据的价值已经在很多方面超越了自己新测序项目的产出,同时传统基因科技服务公司提供的“pipeline”的分析结果已越来越难满足科研工作者的需求,一方面是分析工具和个性化的分析需求得不到满足;另一方面,孤立的单个项目的数据分析形式越来越不能满足科研的需要。能不能利用可视化的分析工具进行基因大数据的深入挖掘成为了能否在基因研究2.0时代成为佼佼者的关键因素。 测序数据量呈指数级增长 Nature Reviews Genetics报道称,目前已发表的高通量测序数据利用率不足20%,很多有价值的信息被研究者所忽略,基于公共数据挖掘和分析将成为科学研究发展的趋势。例如,2015年 Nature Genetics发表的文章通过分析正常组织和各种常见类型癌症组织7256个转录组测序样本,43T转录组数据中鉴定得到58000个lncRNA;发现上千种lncRNAs 在癌症组织中特异表达,可以作为新的肿瘤标记物。2014年 Genome Biology 发表的文章通过研究13种组织和30个玉米转录组数据中LncRNAs的表达,鉴定出了20163个推测的LncRNAs, 并对LncRNAs的组织特异性的表达调控网络进行了解析。最有代表性的是最大的癌症基因信息的数据库,Cancer Genome Atlas/TCGA蕴藏着难以想象的宝贵信息,围绕TCGA已经有很多重量级文章出现,PubMed收录的利用其进行数据挖掘发表的文章已经超过1500篇,而且对它的使用必然愈发重要。可以说,已经公开的高通量测序数据如同“金矿”一般,具有极高的学术价值。然而,科研工作者一方面不方便获取符合自己需求的数据,数据的整合、分类、下载也会耗费较多的精力;另一个方面,缺少一个高效、易用的数据分析平台,自主搭建一个大数据分析平台,无论是硬件、软件,还是人力、财力都是巨大的挑战。这两个因素导致大量的基因数据沉睡在哪里,不能很好的挖掘出其中的价值。 图1. 整合6503个来源18个器官的人类RNA-seq公共数据集,分开组装->混合组装(Meta-assembly)->merge后得到384,066个高可信度人类转录本,用于后续功能分析。 Iyer MK et al. The landscape of long noncoding RNAs in the human transcriptome.   Nat Genet.  2015 图2. 整合171个棉属RNA-seq公共数据集,基于海岛棉基因组进行棉属转录本重构,基于重构的转录本序列信息,从中鉴定得到35,268个lncRNA,用于后续棉纤维发育相关lncRNA鉴定。 Wang M et al.  Long noncoding RNAs and their proposed functions in fibre development of cotton (Gossypium...