高通量测序技术的出现,使全世界产出的测序数据出现了爆炸式增长,这些数据存放在或大或小的数据库中,区域性的大数据库包括NCBI、ENA/EBI、DDBJ等,今天我们重点给大家介绍下NCBI的SRA数据库。  

Part 1 | SRA数据库介绍

SRA(Sequence Read Archive)是NCBI中专门用于存放原始高通量测序数据的一个子库,收录了各种二代、三代测序仪产生的数据,与ENA/EBI、DDBJ间共享原始测序数据。

INSDC(International Nucleotide Sequence Database Collaboration)成员间共享测序数据

有过数据上传经历的童鞋应该对SRA并不陌生,上传数据前我们一般要创建BioProject、BioSample,用于详细说明项目信息、样品信息;并通过SRA的Experiment、RUN描述建库测序相关信息,如建库类型、测序仪器、单双端等;下图概括出了几者之间的关系。

https://www.ncbi.nlm.nih.gov/sra/docs/submitmeta/

SRA上传和检索数据时,我们会遇到各种各样的编号,这些编号间的对应关系通过下表我们可以理清。项目和样品信息首先会存放在BioProject和BioSample数据库中,得到类似PRJNA和SAMN的编号;在SRA数据库中也会对项目和样品进行编号,分别以SRP和SRS作为前缀,并与BioProject和BioSample中对应;其余SR开头的编号都属于SRA数据库。

SRA数据库中各种编号对应表

SRA数据库中存储的是高度压缩后的sra格式数据,截止到目前,SRA中已经累计存储了超过20P碱基数据,而且每年仍在以极快的速度增长。

SRA数据量增长图(纵坐标代表sra格式文件大小,单位TB;横坐标代表年;蓝线代表总数据量)

Part 2 | SRA数据库中疾病相关数据统计

在SRA数据库的愿景中,除了进行原始测序数据的保存之外,还有一个目的就是希望这些数据可以被再次利用,得出新的发现。但是目前这些数据就像宇宙中无法被探测的暗物质,无人问津。

https://www.ncbi.nlm.nih.gov/sra/docs/

既然已经有如此多的公共数据,我们应该充分挖掘,不仅可以产出新发现,也可以有效降低科研成本。俗话说的好,知己知彼,百战不殆。要想充分利用这些公共数据,我们首先需要对这些数据有更加深刻的认识,于是我们针对热点研究疾病,统计了不同测序类型的数据量,以及项目数和样品数,想了解其他疾病数据量情况的童鞋可以文末留言,我们统计好之后发送给您。

热点研究疾病数据统计(单位:Gbase)

热点癌症数据统计(单位:Gbase)

Part 3 | 公共数据使用策略

如此多的数据,该怎样去利用,我们整理了一些思路,供大家参考。 策略一:数据整合,增大样本量 以研究疾病相关基因表达为例,可以整合多个项目中的RNA-Seq数据(也可以结合自己的数据,增大样本量),计算基因表达量,并筛选疾病组织和正常组织间差异表达的基因; 再针对差异表达基因进行共表达分析,获得共表达基因集;然后进一步对这些基因的功能、所属通路进行分析,从而更完整的描述出疾病发生的机理。 策略二:多种疾病间横向比较 以研究肺癌患者中S100A4基因的差异表达为例,通过下载其他类型癌症如:胸腺癌、恶性间皮瘤的RNA-Seq数据,并分析该基因在这两种癌症中的差异表达情况,如果与肺癌中有相同的差异表达趋势,则可以增强我们结论的说服力。 策略三:不同水平间横向比较 分析不同水平的数据,如:细胞水平、组织水平、动物模型上目标基因的差异表达情况,增强分析结论的说服力。 策略四:不同类型数据间联合分析 我们只自测了mRNA数据,但是想了解miRNA对于mRNA的调控,那我们可以下载对应疾病的miRNA类型的数据,通过两者的联合分析,更深入的了解疾病发生的机理。

Part 4 | 结语

公共数据使用看似很困难,需要下载、转换格式、生信分析,目前百迈客云(www.biocloud.net)已经集成了SRA数据检索、下载、转换和分析,我们录制了一个短视频,展示了如何通过简单的鼠标点击高效完成以上所有工作,详情:http://live.biocloud.net/open/course/10  

聚类热图是以热图的形式来进行聚类结果的展示,可以直观的从图上分析哪些数据具有相似性,哪些数据差异较大。百迈客云(BMKCloud)免费推出的聚类热图小工具主要针对矩阵文件(如不同样品的基因表达量、样本相关系数矩阵等)进行聚类分析及图片绘制,并且可以根据研究情况对绘图结果进行交互式操作(如筛选数据,调整图片配色等)。 应用场景: 使用矩阵数据文件进行热图绘制,通常可以对矩阵数据进行筛选,归一化和聚类等处理,多用于不同样品间基因表达水平聚类分析。主要应用在真核有参转录组、真核无参转录组、微生物多样性等数据分析中。 操作步骤: 登录百迈客云首页(www.biocloud.net)——分析——工具——绘图工具——热图 操作方法: 1. 输入文件 (1)文件要求:文件内容应为制表符隔开的文本文件,且大小不可超过 10M。默认首行、首列为表头,一般每列表示一个样品,每行表示一个基因,也可统计其他含义的数据矩阵。除表头外,参与统计绘图的内容应为纯数字,文件范例如下: (2) 指定作图列:可对指定列绘图,如只对第 2 到第 5 列和第 10 列作图,可输入:“2-5,10”。若想按特定顺序绘图,需用逗号将绘图列按序列出,并在下方参数中取消按列聚类,如“6,3,2,5,4”。 (3) 指定基因:可输入基因列表文件,系统会自动过滤空行或以#开头的行并提取第一列作为指定基因,结合上方输入的矩阵文件进行统计绘图。 2. 参数设置 (1)配色方案:设置绘图所采用的配色。可以选择预制方案,也可以根据实际实际需要自定义配色方案。 (2) 对数取值:对文件数据取对数后再绘图。取对数可以有效解决数据取值范围过大导致的配色问题。 (3) 归一化:对行或列进行归一化处理。可最大程度地呈现每行或每列的变化信息,避免超高值掩盖其他数据的变化。绘制基因表达量热图时,常按基因归一化。 (4) 聚类方案:可选择是否按行、列聚类。若按特定样本顺序绘制热图,可取消按列聚类。 a行列显示:可选择是否显示行、列 ID。 b 样品、基因字号:可调节行、列 ID 的字体大小。 3 注意事项 (1) 聚类分析涉及运算分析,当分析的基因数或样品数较多时,绘图时间可能较长,请待任务完成后点击预览查看、调整图片。 (2)如果选择对数据取对数,会自动将取值为 0 的数据转化为接近于 0 的小数。 4. 结果展示 (1) 绘图结果:绘图结果展示区为您展示初始或调整后的绘图结果,同时,可通过图片区域的交互操作查看对应的数据信息,如: a 鼠标悬停于图中相应数据格,可显示其对应的行名、列名和数值。 b 点击图中相应的行名或列名,在“查看原数据”页会高亮显示对应行或列。 c 选中行聚类树某分枝后,可在“查看原数据”也筛选出对应行并下载。 (2)全屏预览:点击图片右上角的缩放按钮,可全屏预览绘图结果。选中聚类树某分枝后点击缩放按钮,可在全屏预览时高亮对应的分枝,以便尽快找到目标区域。 (3)图片下载:点击预览区右上角的“下载”按钮,可保存 SVG 或 PNG 格式的绘图结果 (4)调整图片 a 配色方案:设置绘图所采用的配色。可以选择预制方案,也可以根据实际实际需要自定义配色方案。 b 对数取值:对文件数据取对数后再绘图。取对数可以有效解决数据取值范围过大导致的配色问题。 c 归一化:对行或列进行归一化处理。可最大程度地呈现每行或每列的变化信息,避免超高值掩盖其他数据的变化。绘制基因表达量热图时,常按基因归一化。 d 聚类方案:可选择是否按行、列聚类。若按特定样本顺序绘制热图,可取消按列聚类。 e 行列显示:可选择是否显示行、列 ID。 f 样品、基因字号:可调节行、列 ID 的字体大小。 (5)查看数据 a聚类数据:显示聚类后数据矩阵的前100行,样品和基因顺序均与左侧图中一致。 b 搜索基因:可在搜索栏中输入关键词,搜索相应基因或基因集。 5.案例展示 2017年,中国水产科学院喻达辉老师在百迈客云平台上对合浦珠母贝免疫相关数据进行分析,2篇文章先后分别发表于同一个杂志《Fish &...

GO、KEGG分类富集图绘制工具对给定的基因集结合注释信息绘制GO分类富集图、KEGG分类富集及通路富集图。GO分类富集图是通过对基因进行GO terms 富集度统计学的分析,计算出基因的P_value和Corrected_P-value,定位基因最可能相关的GO term。KEGG分类富集图是可以把显著的pathway进行富集,有助于找到实验条件下显著性变化的生物学调控通路。 适用数据类型:转录组研究数据和基因组研究数据 软件:R包(ggplot2) 操作步骤 登录百迈客云首页(www.biocloud.net)——分析——工具——绘制GO和KEGG富集图。 操作方法 1.输入文件 Anno: 是所有基因功能注释的结果总表,一般百迈客的有参、无参项目中会有这个数据,通常的命名为All_Database_annotation.xls。 Genes_id: 指需要进行分析的基因集文件,txt文本格式,每一行是一个基因的名字。 GO_top_lines:指定前多少行用于GO富集绘图,在进行GO富集分析的时候,会将结果按P值进行排序,然后挑选前n行进行绘图,默认为20。 2.注意事项 (1)注释总表(All_Database_annotation.xls),该文件包含Integrated_Function.anno、Function_anno.stat、GO.list、GO_tree.stat、Kegg.pathway、Kegg.ko等6个工作表,其中GO.list、GO_tree.stat、Kegg.pathway、Kegg.ko这四个必须包含,且命名完全一致。 (2)Genes_id和注释总表的基因ID相对应; (3)文件名称:包含字母数字以及下划线,不能以数字开头,不能有空格,不能有特殊字符等。 (4)如果是在百迈客云上分析的结果,只需要在项目结果中找到All_Database_annotation.xls文件输入即可。如果不是在百迈客做的项目,没有这个文件,您需要先将FASTA格式的文件在云平台的“基因功能注释”小工具中得到All_Database_annotation.xls,如下示意图。 3.结果说明 该结果包含两个文件GO和KEGG GO包含以下文件: 其中go_enrichment.png是GO富集结果图,选择置信度Pvalue最高的20个绘制通路富集图;GO.Classification.png是GO分类图。 KEGG包含以下文件: KEGG.Classification.png是KEGG分类图。 案例展示 百迈客云平台的GO、KEGG分类富集图绘制小工具得到了许多老师的认可,目前已经有一些老师运用这款小工具发表了文章,比如郑州大学安秀丽老师课题组对四倍体与二倍体芜菁转录组比较分析的研究中运用了GO、KEGG分类富集图绘制工具,文章发表在《Frontiers in Plant Science》杂志上。 此外,中国农业科学院油料作物研究所的胡琼老师课题组对参与油菜分蘖调控相关信号通路的研究中也运用了GO、KEGG分类富集图绘制工具,文章发表在《Int J Mol Sci》杂志上。 百迈客云平台是由北京百迈客生物科技有限公司开发,集生物信息分析软件、数据库以及云计算为一体的生物大数据分析平台。GO、KEGG分类富集图绘制小工具就介绍到这里了,请关注百迈客云微信公众号,后期会有更多小工具的介绍和操作指引,如果您在操作过程中遇到任何问题都可以联系咱们的云客服,欢迎点击屏幕右下方客服图像进入咨询环节。 参考文献: 1. Zhao R, Feng J, Yin X, et al. Antibiotic resistome in landfill leachate from different cities of China deciphered by metagenomic analysis.[J]. Water Research, 2018, 134:126–139. 2. Cheng H, Hao M, Wang W, et al. Integrative RNA-...

今天小编要给大家分享的是一个神奇的网站。 随着测序成本越来越低,一些重要物种数据呈指数级积累,其中蕴含着巨大价值。物种数据研究能为解答基因组进化学、系统发育学问题提供参考,有利于指导育种工作及保护物种多样性。因此构建物种数据库具有重要意义: 01物种数据库可作为系统性的展示、查询、分析的平台:实现物种多组学数据的高效检索、保存、调用、分析及深度挖掘。 02一些具备创新特性的数据库也可单独作为一项研究成果在SCI论文中进行展示。 03通过共享云用户的访问,可提升第三方数据库的知名度,部分重要物种信息、重要分析结果可以收费下载,为进一步维护数据库和科研工作提供资金。 04共享研究成果,促进业内交流:数据库可作为研究论文的补充,展示研究细节,也便于其他研究者基于数据库的数据进行进一步的探索,从而提升国内相关领域整体研究水平。   1.百迈客云物种数据库概述 百迈客作为一家拥有深厚基因组学数据分析行业背景的大数据挖掘分析公司,致力于为用户设计更贴合使用习惯的基因组学数据库系统,在2017年正式推出搭建百迈客云物种数据库的服务。 简单来说,百迈客云物种数据库是针对物种基因组学数据的存储、管理、查询、分析的数据库系统。用户基于Web操作界面即可实现数据的增删改查等操作,还可以利用数据库部署的简单分析工具或结合百迈客云账号进行数据挖掘分析。 说了那么多是不是有些心动了呢? 跟随小编一起看下百迈客云物种数据库核心优势有哪些。 2.百迈客云物种数据库优势 多维度部署:多组学数据(转录组、基因组、重测序数据)高度整合与部署 快捷部署:模块化的数据库底层设计,可基于需求抽取底层库标准化数据存储检索模块及页面样式模块,快速完成在本地服务器或百迈客云数据库用户服务集群上的部署 操作更简单:后台管理权限,甲方无需配备专业IT运维和美工,在乙方培训后,即可完成后期的数据增加、删除等更新操作 查询调用更高效:代替原始的硬盘存储+手动查找的传统数据管理模式,引入互联网领域的数据库技术,可将各时间点、各空间点、各类型数据结构化地存储于统一的数据库框架中,借助数据库自动查询语言与web2.0网页界面即可实现基因组学数据的高效查询和调用。避免了传统数据管理模式下数据丢失率高及检索困难等问题 数据挖掘更轻松:强大的云平台支持,可连接百迈客云其他数据库(八大数据库,如功能基因库、参考文献数据库等),并可使用百迈客云分析工具(如几十款分析APP、一百多款小工具),基于APP和小工具完成数据的深度挖掘   3.百迈客共建数据库的成功案例 那么我们看下百迈客有哪些成功案例吧! 中国农科院大豆数据库(www.soybean-resources.cn) 包含了约1500种大豆种质资源,382个品种的重测序,7套泛基因数据。     中科院植物所构树数据库(papyrifera.biocloud.net) 包含了构树基因组序列及注释信息,可进行数据的浏览、使用、下载。 4.数据库搭建流程 01需求论证(2~4周) 用户设定模块组合及各模块对外权限,可选择部署到本地服务器或托管于百迈客云数据库专用集群; 乙方完成原型设计,并与甲方确认后核算搭建成本并报价,乙方核算报价,甲方支付20%的预付款。 02开发(3个月) 基于数据库原型,制定出数据标准化格式、文本需求信息,协助用户数据准备工作; 依次完成UI设计、前端架构、后端完成底层数据的存储与页面相关交付;进行测试验收。 03交付 双方共同完成测试后,甲方需在验收合格10个工作日内支付80%尾款,乙方交付数据库并协助甲方进行日常维护更新。 04日常维护与更新 每日巡检,检查机房用电、温湿度,服务器硬件报警及维修; 服务器操作系统状态监控与报警、日常维护、操作系统及软件版本更新; 服务器生产服务与软件的状态监控与报警、版本更新; 数据库服务状态监控与报警,数据定期检查与备份; 甲方在乙方协助下自主完成增删改等操作。 ...

今天小编带大家看一看百迈客云物种数据库的核心功能模块。 百迈客云物种数据库采用模块化设计,标准功能模块主要有三大类   1.存储&查询模块         存储&查询模块设置了种质资源、突变体信息、性状座位信息、分子标记、基因功能信息、基因组数据、转录组数据的存储和查询模块 01物种种质资源存储&查询模块 种质资源是一种遗传资源。种质系指农作物亲代传递给子代的遗传物质,它往往存在于特定品种之中。如古老的地方品种、新培育的推广品种、重要的遗传材料以及野生近缘植物,都属于种质资源的范围。用户可在该模块中按照物种的名称、编号、父母本、省份、地理位置、表型查询相关材料品种概况。   02物种突变体信息存储&查询模块 用户在该模块通过突变体名称或表型检索相关突变体,搜索结果可展示出突变体名称、编号、突变基因信息等。其中,点击突变基因可链接至“基因查询模块”查询基因功能、序列、基因组位置等详细信息。   03物种性状座位信息存储&查询模块 在该模块用户通过输入表型数据查询该性状控制座位在基因组上的定位结果,该结果整合自不同研究不同定位方法定位结果,并可视化展示相应性状座位对于于最新版本基因组上的位置及相关基因。其中,相关基因也可链接至“基因查询模块”查询基因功能、序列、基因组位置等详细信息。   04分子标记存储&查询模块 用户可按照精确编号、模糊编号(正则匹配)、或连锁性状搜索分子标记,搜索结果含有标记序列信息、标记扩增引物序列、标记上下游基因(可链接至“基因查询模块”)、标记相关性状等。   05基因功能信息存储&查询模块 在该模块中,用户可以基因名称、基因ID、功能关键词、物种基因组起始位置、转录本序列、是否定位、是否克隆为条件检索目标基因,检索结果包括基因转录本序列(核苷酸or氨基酸序列)、染色体、起止位置、各功能数据库注释结果、相关文献、相关性状(可链接至“物种性状座位信息存储&查询模块”)。   06基因组数据存储&查询模块 1)使用基因组版本号检索相关基因组信息,检索结果包括该基因组序列组装、结构注释、功能注释、测序数据等,所有结果均支持本地下载; 2)可按照物种名检索相关泛基因组信息,检索结果包括各品种基因组序列组装、结构注释、功能注释、变异位点、测序数据等,所有结果均支持本地下载; 3)按品种名检索该品种全基因组重测序、简化基因组重测序测序数据及变异位点检测结果。   07物种转录组数据存储&查询模块 1)用户可通过基因ID与基因name检索相关基因下转录本序列、项目中的转录水平、差异表达、共表达、互作信息等,检索结果支持本地下载。 2)按项目名称检索相关转录组学项目测序数据及完整分析结果,检索结果支持本地下载。   2.分析工具模块 分析工具均可从网页调用,无需用户掌握任何编程基础。包含数据库自带分析工具,比如 blast、blat、引物设计、转录因子、metaQTL等;当然也可调用部署在百迈客公有云计算平台(www.biocloud.net)的分析流程(APP)与生信软件(Tools。APP包括有参/无参转录组分析APP、lncRNA分析APP、microRNA分析APP、circleRNA分析APP、重测序分析APP、GWAS个性化分析APP、BSA个性化分析APP、遗传图谱个性化分析APP、微生多样性分析APP等;Tools模块包含100余款各类生信分析软件,涵盖比对、注释、绘图、统计等;  BMKCloud个性化分析示例 3.公共数据库模块 包含7大模块: 01高通量测序数据库 • 该公共数据库模块同步NCBI维护的SRA、GEO两大高通量测序数据库,目前该模块12PBase,1100个属的高通量测序数据,数据类型涵盖RNA-seq、全基因组重测序、WES、基因组denovo组装、甲基化、ChIP-seq等。 • 用户可按物种名称、数据编号、研究方向检索相关高通量测序公共数据,检索结果无需下载,一键导入数据库自带分析工具或百迈客公有云计算平台(www.biocloud.net)分析工具即可进行数据分析。   02功能基因数据库 该公共数据库模块整合包括GO、KEGG、miRbase、lncRNAdb、MiRTarBase、UniProt、genbank等在内的30多个基因功能&序列类数据库,目前收录了约1700万条基因相关信息,用户输入基因名称、ID、功能关键词后,一键即可获取基因的功能、序列、同源基因、表达、相关ncRNA、变异、相关文献等信息。   03功能定位数据库 该数据库收录了所有公共的性状相关数据,目前已收录11个物种347个性状相关的QTL位点数据,如QTL、eQTL、候选基因、关联数据等信息,QTL性状位置可视化展示以及物种间的比较,为各个物种间定位信息的比较提供重要的数据。   04文献数据库 该公共数据库模块同步NCBI维护的PubMed文献索引数据库,目前收录2600万+文献信息,该模块支持按照发表日期、影响因子、文章类型、信息完整度(有无测序数据、有无全文等)进行精确检索,检索结果包括文献题目、摘要、全文链接、文献所涉及测序数据等。   05其他公共数据库模块 • 参考基因组数据库:包含有826个物种的924套参考基因组信息; • 变异数据库:整合了dbSNP库中的数据信息,目前收录了8亿+变异数据,支持通过rs、ss号进行信息的检索,并且支持筛选特定物种的、特定染色体、特定区域的变异信息; • 互作网络数据库:整合了PPI、StarBase、LncRNADisease三个数据库中的4类互作网络信息,目前共收录了306万互作网络关系,包含了lncRNA、miRNA、mRNA、circRNA四类数据。 ...

手头测序数据已分析多次, 挖掘的深度仍然不够, 距离发文章一步之遥, 与生信人员沟通起来费时费力! 01.工具集简介 百迈客云平台工具集共包含104款工具,覆盖12大功能类别,适合多种组学分析,让数据挖掘轻而易举;可快速添加示例,智能筛选文件,一键上传本地文件,使用更简便;平台设有详细的参数说明,以及界面点选式设置,参数呈现更透明; 02.热门工具 绘图工具(聚类热图、6元韦恩图、GO图、KEGG图)、差异组和分析、表格文件转tab文件、BLAST、FASTA工具集、WGCNA、基因功能注释、PCA分析、保守序列预测、蛋白互作网络图、原始数据污染程度预估工具、microRNA靶基因预测、Annovar变异注释、GATK突变检测和注释等; 03.成功案例 使用百迈客云平台可视化小工具的用户有13000+,一年内使用各种小工具分析或绘图超过10次的用户有1000+,利用各款小工具发表文章数已有20余篇。 ...

百迈客云作为针对生命科学家的“Turn-key BioCloud”,2015年初出茅庐,2016年开始全国推广,一路走来得到了像中科院陈润生院士等生信领域权威专家的大力支持和帮助。百迈客云日臻完善,集成式的计算资源和工具、交互性的操作界面、开放性的公共数据库、实用的培训讲堂、专业的开发支持团队、一站式体验模式,成为广大科研工作者生信分析智囊团,极大地加速了科研创新孵化进程,仅2017年一年内基于BMKCloud分析发表的SCI可谓是层出不穷,捷报频传。 研究热点揭秘 截止到11月3日,已发SCI数达到19篇,研究对象涵盖了粮食作物、经济作物、人、家禽家畜、水产、林木、花卉、瓜果等类型。植物类占比52.63%,动物类占比42.11%,医学类占比5.26%。发表的杂志有Archives of Toxicology(IF=5.905)、Frontiers in Plant Science(IF=4.298)、Scientific Reports (IF=4.259)等。累计影响因子为65.3。 云平台对这些文章都做了详尽梳理解析,点击即可查看: OsbZIP46、SAPK6基因共同过表达提升水稻抗旱能力Frontiers in Plant Science IF:4.298 通过转录组分析揭示马杜霉素在原代鸡心肌细胞中的毒性Archives of Toxicology  IF:5.905  小麦与禾谷胞囊线虫在侵染初始阶段的转录组响应 Scientific Reports IF:4.259 芜菁花芽转录组比较分析解析多倍体异常减数分裂过程Frontiers in Plant Science IF:4.298 单侧眼组织缺损和视网膜裂症的家族遗传原因Sci Rep .IF:4.259 图1 2017年基于BMKCloud分析发表的部分SCI文章 产出单位分布 从通讯作者所属地域来看的话,这些云平台的用户主要分布在全国12个省、直辖市,其中产出最多的单位是南京农业大学,17年基于BMKCloud发表了3篇SCI(累计IF 13.23),短期连发多篇文章的老师也不少,南海水产所喻达辉老师4个月内连发两篇(累计IF 6.298),南京农业大学的张艳丽老师更是在短短2个月内连发两篇(累计IF 7.329) 图2 部分科研单位的地理分布 分析平台热度排行 百迈客BMKCloud已推出25款分析平台,包括真核生物有参转录组、真核生物无参转录组、小RNA、长链非编码RNA、微生物多样性、重测序、ChIP-Seq、CircRNA、全转录组联合分析等多个平台,覆盖转录调控、微生物多样性、个体重测序、群体个性化分析等多种组学分析项目,可满足所有分析高通量测序数据整合分析及深度挖掘的需求。 从2017年已发表的SCI文章来看,使用频率最高的是有参转录组分析平台,占比63%,lncRNA分析平台和小RNA分析平台占比11%,另外医学外显子分析平台、微生物多样性分析平台、甲基化分析平台各占比5%。 图3 百迈客分析平台使用热度一览 云课程 让生物信息更简单 BMKCloud部署了185+课时的线上培训,囊括RNA系列、DNA系列、生物信息软件使用和大家讲坛等课程,每款APP(分析平台)都有详细说明及步骤提示,无论有没有生物信息学基础,用户都能够在短期内玩转各类分析。这些作者中有42.86%的老师是完全不懂生信的,约有50%的老师略知一二,仅7.14%对生信分析较了解。 BMKCloud热门个性化分析 除了主流程APP之外呢,BMKCloud上也部署了104个分析工具、3款工具集。涵盖12大功能类别(基因分析、遗传进化、ncRNA、质控、组装、比对、数据提取、突变、统计、表格处理、绘图、序列分析等)。基本上可满足所有转录组学分析的需求。图4展示了19篇文章中热门的个性化分析 图4 BMKCloud个性化分析示例 仅从这19篇SCI内相关分析内容来看的话,使用次数最高的分析依次是GO分析、热图、KEGG分析、韦恩图和COG分析。其中热图和GO分析使用率最高,均达到52.63%(图5);此外共表达趋势分析,蛋白互作分析等分析也应用较多。 图5 BMKCloud个性化分析热度一览   BMKCloud的便捷度 BMKCloud使用便捷,助您多角度进行分析挖掘,随时随地抓住分析灵感。 这些研究者中有35.71%的老师选择在8:00-19:00进行分析,选择晚上进行分析的老师占比21.43%,凌晨进行分析的占比7.14%。 这些研究者中所有拥有BMKCloud年账号的用户会对同一批样本进行2-4次分析和挖掘,而实现这些仅需要修改参数、阈值或更换参考基因组等后重新投递任务即可。避免了传统科技服务模式中多环节沟通,多次收费,出错率高的问题。 BMKCloud的速度 几乎所有的研究者从拿到数据到分析完成所需周期都在3个月内。35.7%的研究者1个月内就完成了文章内的全部分析内容,其他的研究者拿到数据到发表文章的周期都控制在6个月内。其中,中国农科院油料研究所胡琼老师项目组使用有参转录组分析平台投递了200G数据,7天就完成了整个主流程及个性化分析。 BMKCloud的口碑 云平台分析和文章转化的高效赢得了15000+用户以及广泛的认可度,所有研究者都对我们的演示、售后及便捷度做出了很高的评价,并表示愿意推荐给身边的科研同事及圈内朋友。2017年借助BMKCloud取得累累硕果的研究者们对云平台评价如下: (1)简单方便(流程标准化,图形化,操作简单,使用快捷,节省时间); (2)灵活自由(参数设置可随意更改,可随时随地分析以及查看进度); (3)可重复(可多次分析,分析工具种类多样,可以帮助挖掘出新的分析点); (4)云课堂以及文献资源很实用; (5)数据储存空间大; (6)公共数据库是大亮点。 广大科研用户的肯定,科研探索的累累硕果是对我们最好的肯定与鼓励。百迈客将一如既往地秉承“成就客户”的服务理念,持续迭代开发“云模式”,继续引领科技服务2.0时代,更好地服务于广大科研工作者。也希望越来越多的课题组能够享受到云平台的便捷与高效,发表更多更优质的文章!   年末福利 年底我们对老客户发文有感恩活动,如果您基于平台分析发表了SCI文章并引用了BMKCloud或www.biocloud.net,即可获赠1个月现有账号使用权限!   BMKCloud有别于传统的“服务器+命令行”的生信分析模式,是一种人人都可以分析的新型分析模式。百迈客云平台代表了科技服务的新趋势,我们已步入云端可视化自主分析的基因科技服务2.0时代了! 为感恩回馈各位新老用户对百迈客云的支持与关注,百迈客云现推出72款生物信息分析小工具供免费使用,希望在科研路上助您一臂之力!注册百迈客云平台即可免费使用。...

随着高通量测序在功能基因组学领域的广泛使用,转录组测序已经是常规的技术手段之一。通过调查近几年高通量测序转录调控相关文献发现,文献数目呈指数增长,但是绝大多数发表的文章水平普遍较低。进一步分析发现,大样本转录组数据的深入挖掘、结合非编码RNA进行联合分析是高分文章的常用手段。百迈客现推出大样本(全)转录组产品系列,目标直指转录调控高分文章。 1、配套针对性的实验设计和分析方案   2、个性化项目分析内容和数据挖掘思路   3、优化、美观、直接用于文章发表的图表   4、数据分析、文章图表绘制培训班   5、百迈客云APP个性化分析至文章发表   6、结合公共数据进行百迈客云分析   7、搭建物种研究方向的转录调控数据库   立即体验...

随着高通量测序行业的高速发展,测序价格大幅下降,单价的下降促成了转录组数据的爆发式增长,随之而来的突出矛盾是模板化分析无法满足发表文章的需求,需要对测序数据进行深入的挖掘!另外一方面是许多科研君并不具有数据挖掘经验和思路,也不具有生信分析基础,不知道怎么选取数据挖掘工具,摸索周期长,数据转化慢,文章发表周期长! 为了解决上述的问题,我们公司重磅推出“云次账号”这一产品。简单来说就是我们开发了集成生物信息分析软件、数据库以及云计算为一体的生物数据信息分析平台。而“云次账号”是在传统的科技服务的基础上利用百迈客云集成的标准分析流程及个性化分析工具,为广大科研君提供从建库测序到文章发表的一站式服务!     丰度的数据挖掘工具     可提交给美观、个性化的分析结果     百迈客转录调控研究云次账号已全面开启,蓄势待发!期待与您的精诚合作,早日实现高分文章发表。 点击按钮,即可免费试用!   申请免费试用 名额有限,先到先得!...

近年来,随着测序技术的不断升级,测序通量越来越高,同时测序成本直线下降,高通量测序技术逐渐应用在科研、医疗、健康等各个研究领域。伴随着大数据处理关键技术的突破和数据共享等契机的发展,大数据将在促进生物学发展中发挥重要的作用。 测序技术在生物学研究中的发展分成三个阶段: 第一个阶段:Genome Center唱独角戏。在这个方向刚兴起的初期,人才储备较少,产出数据的成本也很大,只有少量的国家支持的Genome Center可以从事这方面的系统研究,做生物信息开发的目的也比较明确,就是为了完成基因组中心所承担的一些重大国家科研课题。 第二个阶段:高通量测序技术的进步和基因科技服务公司的崛起。当很多科学家看到了有那么多空白的山头待开发,同时数据产出的成本也大幅降低情况下,科学家们对组学研究都跃跃欲试,科技服务的市场需求就出现了,同时经过多年的人才储备,也有了一定数量的技术人员,为科技服务公司的出现打下了人力基础。这个阶段生物信息开发注重的是“pipeline”,这样能提高服务的效率,让公司能更好的发展。 第三个阶段:大数据的积累和丰富多样的个性化分析需求。随着NGS技术的不断发展,测序成本不断降低,数据积累也越来越快,同时随着科学家对数据理解的深入,科学家的思路大大开拓,各种个性化的数据分析想法大量涌入脑海,“personalized”成为了这个阶段的生物信息开发要满足的关键需求。目前,测序技术在生物学研究中的应用已经逐渐进入了第三个阶段,基因大数据的价值已经在很多方面超越了自己新测序项目的产出,同时传统基因科技服务公司提供的“pipeline”的分析结果已越来越难满足科研工作者的需求,一方面是分析工具和个性化的分析需求得不到满足;另一方面,孤立的单个项目的数据分析形式越来越不能满足科研的需要。能不能利用可视化的分析工具进行基因大数据的深入挖掘成为了能否在基因研究2.0时代成为佼佼者的关键因素。 测序数据量呈指数级增长 Nature Reviews Genetics报道称,目前已发表的高通量测序数据利用率不足20%,很多有价值的信息被研究者所忽略,基于公共数据挖掘和分析将成为科学研究发展的趋势。例如,2015年 Nature Genetics发表的文章通过分析正常组织和各种常见类型癌症组织7256个转录组测序样本,43T转录组数据中鉴定得到58000个lncRNA;发现上千种lncRNAs 在癌症组织中特异表达,可以作为新的肿瘤标记物。2014年 Genome Biology 发表的文章通过研究13种组织和30个玉米转录组数据中LncRNAs的表达,鉴定出了20163个推测的LncRNAs, 并对LncRNAs的组织特异性的表达调控网络进行了解析。最有代表性的是最大的癌症基因信息的数据库,Cancer Genome Atlas/TCGA蕴藏着难以想象的宝贵信息,围绕TCGA已经有很多重量级文章出现,PubMed收录的利用其进行数据挖掘发表的文章已经超过1500篇,而且对它的使用必然愈发重要。可以说,已经公开的高通量测序数据如同“金矿”一般,具有极高的学术价值。然而,科研工作者一方面不方便获取符合自己需求的数据,数据的整合、分类、下载也会耗费较多的精力;另一个方面,缺少一个高效、易用的数据分析平台,自主搭建一个大数据分析平台,无论是硬件、软件,还是人力、财力都是巨大的挑战。这两个因素导致大量的基因数据沉睡在哪里,不能很好的挖掘出其中的价值。 图1. 整合6503个来源18个器官的人类RNA-seq公共数据集,分开组装->混合组装(Meta-assembly)->merge后得到384,066个高可信度人类转录本,用于后续功能分析。 Iyer MK et al. The landscape of long noncoding RNAs in the human transcriptome.   Nat Genet.  2015 图2. 整合171个棉属RNA-seq公共数据集,基于海岛棉基因组进行棉属转录本重构,基于重构的转录本序列信息,从中鉴定得到35,268个lncRNA,用于后续棉纤维发育相关lncRNA鉴定。 Wang M et al.  Long noncoding RNAs and their proposed functions in fibre development of cotton (Gossypium...