对于刚接触高通量测序的小硕小博来说,海量的测序数据和难于上青天的分析结果让每一个初次接触它的老师们都望而生畏。同样的测序数据在生信大神的手里妙笔生花,开出一朵朵美丽而迷人的SCI论文。同为科研人的你,甚至自己想要的结果文件都不知道在哪里找。而这个研究小麦课题的老师,做到了什么才能在短短两年之内发6篇测序相关的文章呢? 作为一个科技服务工作者,自然能够明白每一位老师的痛处和难点,不过现在都2020年了,再也不是一个转录组1万元的天价了,那么现在从原始的测序数据到数据挖掘直至最后完美的SCI论文图表,究竟是怎么出来呢? 虽然君子远庖厨,不过今天小编将为您带进后厨,为您娓娓道来。   1、首先我们需要原始数据 这部分数据一般来自于两种渠道:一种是老师做的建库测序后拿到的原始数据,这部分数据可以直接保存在百迈客云账号下;另一种来自于已发表的转录组文章中的原始数据,关于这部分数据,老师可以在NCBI上根据文章的链接查找下载,然后直接将数据保存在自己的账号下,然后进行后续分析。 2、一分钟的分析任务投递 选择合适的分析APP   命名和选择数据     选择参考基因组及设置差异分组   任务提交后,根据样本数据量,一般24-48h左右大家就可以看到一份完整的分析结题报告和分析数据了。 讲到这里可能有人会问:难道就这么简单?那人家好几篇文章里面那些高大上的图片都是大神用小工具做的吗,小编可以负责任的告诉你们,不是的!我们还有很多隐藏功能: 第一:基因检索。(小编选的蛋白是PPR蛋白,从4万多基因里面筛选出来60个PPR蛋白相关的基因,然后根据60个基因做GO分类图)。   第二:WGCNA分析。这个分析主要是将基因模块与表型数据或者表型样本进行关联,从而快速的锁定一批候选基因。     运行后打开是下图这样的,对此图有疑惑的可以点击图片左侧的摄像头。     第三:最近很火的差异基因表达趋势分析     第四:108款分析绘图工具(73款常用工具免费使用)。   具体这些工具如何使用?百迈客云还有哪些隐藏功能呢?欢迎大家持续关注,小编会定期为大家进行分享。        ...

一、登录百迈客云平台 下载谷歌浏览器,输入网址https://international.biocloud.net/zh/user/login ,进入百迈客云平台登录界面,输入账号密码登录。账号为手机号或者是邮箱,初始密码为123.bmk.   二、选择合适的分析平台 百迈客云包含农学和医学两大类分析平台,医学分析平台主要针对人、鼠数据的分析,包含:转录组、非编码RNA、单基因病外显子、肿瘤外显子、重测序等数据分析,以及全转录组联合分析;农学分析平台可以应用到更多的物种,涵盖转录组、非编码RNA、微生物、蛋白、代谢等数据的分析,以及全转录组联合分析等。点击左侧导航分析->农学或者医学打开分析平台列表页面,点击选择您想要使用的分析平台,打开其详细介绍页面,该页面可以看到该平台的应用领域``平台介绍``技术背景``案例``课堂``版本记录,点击打开软件即可进入到参数页面。     三、创建项目名称 为了方便数据、任务和报告的管理,我们将同属于一个项目的内容会放到一个项目中,因此进行基本分析时需要先选择一个项目,如果没有项目也可以点击+新建先创建一个项目,见下图。     四、数据导入 针对FASTQ测序数据,选择文件夹批量导入,双端测序数据必须分别以_1.fq和_2.fq结尾,系统便会自动对数据进行配对,而且多个目录中的文件可以分多次导入进来一起进行分析。(在本公司进行测序的数据会自动推送到您的账户下,数据所在文件夹名称为合同编号) 导入数据之后,可以根据自己的需要修改样品ID,由于此处设置的ID会体现在分析报告和分析结果中,因此请慎重考虑后再设置,分析完成后不可再次修改。如果平台上还没有您自己的数据,请参考数据上传先将您的数据传到云平台上。     四、基本参数设置 一般在这里选择生信流程版本、设置报告名称等基本参数,如果对于参数设置没有特殊要求,推荐使用默认参数。   五、选择参考基因组(有参) 对于依赖参考基因组序列进行分析的平台,一定要选择和分析数据对应的参考物种及组装版本,不同版本的参考基因组的详细信息可以点击基因组版本详情进行查看。(一个项目只能使用一个版本的参考基因组进行分析)     六、基因功能注释(无参) 组装方式: 转录组组装方式决定了后续Unigenes库的构建和表达定量的策略以及分析结果的可靠性.根据实际情况选择转录组组装方式。分开组装是对每个样品数据单 独组装;合并组装是将所有样品放在一起组装;分组组装适合于不同品种(或者是变异种)的组装,将相同品种的样品合并组装,然后将每组的组装结果 进行合并去冗余。合并组装获得的Unigene库更完整、冗余度更低,因此Trinity官方亦推荐使用合并组装,以便进行后续的表达定量和差异表达分析. 注释物种 为了提高注释分析的效率(缩短比对比对时间)以及获得有效的注释信息,在选择注释物种时,应尽量选择包含物种最确切的数据库.(如果分析物种为真菌类,一定要选择真菌选项,否则会影响组装效果)     七、差异分组设置 根据实验方案设计以及样品信息,进行分组的设置,流程据此进行差异比较分析,此处只支持两组间比较,可添加多个差异分组。FDR值一般推荐选择0.01,差异倍数阈值一般推荐选择(此处的参数和差异分组在后期报告个性化中可再次进行修改)   八、生成标准分析报告 参数设置完成之后,可以点击保存参数,方便之后进行重新分析或者基于本次参数进行修改后再次分析;一切准备就绪后,点击提交将任务提交到百迈客云计算集群上,根据不同分析平台、不同数据量等待大概2小时到3周的时间完成项目分析,获取到标准分析报告。 报告查看,点击项目(管理) -> 我的项目打开项目列表,找到之前提交任务时选择的项目,点击项目名称打开该项目,即可看到新生成的分析报告记录,点击报告名称查看详细报告。 点击报告右上角的项目结果下载,可以选择下载HTML报告、PDF报告和结果数据(尾款结清后)。HTML报告只包括分析报告的html文件及一个src文件夹,展示了部分结果;PDF报告是根据HTML报告转换而来,方便您进行报告打印;结果数据包含了项目中所有结果文件,一般比较大,会通过FTP进行下载,请耐心等待下载。   ...

一、登录百迈客云平台 下载谷歌浏览器,输入网址https://international.biocloud.net/zh/user/login ,进入百迈客云平台登录界面,输入账号密码登录。账号为手机号或者是邮箱,初始密码为123.bmk.   二、选择合适的分析平台 百迈客云包含农学和医学两大类分析平台,医学分析平台主要针对人、鼠数据的分析,包含:转录组、非编码RNA、单基因病外显子、肿瘤外显子、重测序等数据分析,以及全转录组联合分析;农学分析平台可以应用到更多的物种,涵盖转录组、非编码RNA、微生物、蛋白、代谢等数据的分析,以及全转录组联合分析等。点击左侧导航分析->农学或者医学打开分析平台列表页面,点击选择您想要使用的分析平台,打开其详细介绍页面,该页面可以看到该平台的应用领域``平台介绍``技术背景``案例``课堂``版本记录,点击打开软件即可进入到参数页面。   三、创建项目名称 为了方便数据、任务和报告的管理,我们将同属于一个项目的内容会放到一个项目中,因此进行基本分析时需要先选择一个项目,如果没有项目也可以点击+新建先创建一个项目,见下图。   四、数据导入 针对FASTQ测序数据,选择文件夹批量导入,双端测序数据必须分别以_1.fq和_2.fq结尾,系统便会自动对数据进行配对,而且多个目录中的文件可以分多次导入进来一起进行分析。(在本公司进行测序的数据会自动推送到您的账户下,数据所在文件夹名称为合同编号) 导入数据之后,可以根据自己的需要修改样品ID,由于此处设置的ID会体现在分析报告和分析结果中,因此请慎重考虑后再设置,分析完成后不可再次修改。如果平台上还没有您自己的数据,请参考数据上传先将您的数据传到云平台上。 !注:1.各组学导入数据样本个数要一致     2.circRNA数据选择去核糖体建库则与lncRNA共用一套数据,无需单独导入(百迈客建库方法为去核糖体建库);选择去线性建库则需要单独导入数据     五、选择样本对应关系 为了方便后面的联合分析内容,需要将各RNA项目里的数据按照对应关系统一编号,有几组对应关系则在左侧添加几组,再从右侧的lncRNA样品池和miRNA样品池中选择对应的样本添加到分组。其中默认按钮可以按照数字的顺序快速添加对应关系。     六、选择参考基因组 对于依赖参考基因组序列进行分析的平台,一定要选择和分析数据对应的参考物种及组装版本,不同版本的参考基因组的详细信息可以点击基因组版本详情进行查看。如果云上没有您需要的参考基因组,您可以联系对应的运营将您提供的基因组文件部署到云平台上,供您使用。(注:一个项目只能使用一个版本的参考基因组进行分析)     七、参数设置 流程版本号可以选择默认的最新版本 Lib_type为窗体顶端 Lib_type :lncRNA建库方式,fr-firststrand表示测序数据中,reads2方向与转录本方向一致;fr-unstranded为非链特异性建库;fr-secondstrand 表示read1方向与转录本方向一致(百迈客lncRNA的建库方式为fr-firststrand) lncRNA分析中反式靶基因预测方法: 样本少的时候可以选择基于序列方法,样本数较多(大于5)推荐使用基于共表达分析方法。 miRNA的长度范围和接头序列可根据实际情况进行填写,主要是为了过滤原始数据中的街头,默认参数为百迈客使用的序列 circRNA预测软件:给出三种预测方法,CIRI和find_circ是两个不同的预测软件,可以分别选择其中一个软件进行预测,CIRI+find_circ是将两个软件预测的结果取交集作为最终的结果,(此选项可能会导致预测结果偏少) 八、差异分组设置 根据实验方案设计以及样品信息,进行分组的设置,流程据此进行差异比较分析,此处只支持两组间比较,可添加多个差异分组。 DEseq2软件适用于有生物学重复的项目,edgeR适用于无生物学重复的项目,选择第一个,系统会自动识别项目类型选择对应的软件 FDR值一般推荐选择0.01,差异倍数阈值一般推荐选择2.(此处设置的的参数和差异分组在后期报告个性化中可再次进行修改)   九、联合分析参数 构建共表达网络的筛选条件为共表达相关性阈值和共表达相关性分析中显著性阈值两个参数,其中共表达相关性阈值越大,显著性阈值越小,则条件越严格。 构建ceRNA网络的关系对的筛选条件为ceRNA超几何检验fdr值、ceRNA超几何检验p值、ceRNA共享的miRNA数目三个参数,其中fdr值和P值越小,共享miRNA数目越大则筛选条件越严格。 图中参数为推荐参数   十、生成标准分析报告 参数设置完成之后,可以点击保存参数,方便之后进行重新分析或者基于本次参数进行修改后再次分析;一切准备就绪后,点击提交将任务提交到百迈客云计算集群上,根据不同分析平台、不同数据量等待大概2小时到3周的时间完成项目分析,获取到标准分析报告。 报告查看,点击项目(管理) -> 我的项目打开项目列表,找到之前提交任务时选择的项目,点击项目名称打开该项目,即可看到新生成的分析报告记录,点击报告名称查看详细报告。 点击报告右上角的项目结果下载,可以选择下载HTML报告、PDF报告和结果数据(尾款结清后)。HTML报告只包括分析报告的html文件及一个src文件夹,展示了部分结果;PDF报告是根据HTML报告转换而来,方便您进行报告打印;结果数据包含了项目中所有结果文件,一般比较大,会通过FTP进行下载   ...

一、登录百迈客云平台 下载谷歌浏览器,输入网址https://international.biocloud.net/zh/user/login ,进入百迈客云平台登录界面,输入账号密码登录。账号为手机号或者是邮箱,初始密码为123.bmk. 二、选择合适的分析平台 百迈客云包含农学和医学两大类分析平台,医学分析平台主要针对人、鼠数据的分析,包含:转录组、非编码RNA、单基因病外显子、肿瘤外显子、重测序等数据分析,以及全转录组联合分析;农学分析平台可以应用到更多的物种,涵盖转录组、非编码RNA、微生物、蛋白、代谢等数据的分析,以及全转录组联合分析等。点击左侧导航分析->农学或者医学打开分析平台列表页面,点击选择您想要使用的分析平台,打开其详细介绍页面,该页面可以看到该平台的应用领域``平台介绍``技术背景``案例``课堂``版本记录,点击打开软件即可进入到参数页面。     三、创建项目名称 为了方便数据、任务和报告的管理,我们将同属于一个项目的内容会放到一个项目中,因此进行基本分析时需要先选择一个项目,如果没有项目也可以点击+新建先创建一个项目,见下图。   四、选择输入文件 蛋白鉴定表格:蛋白质质谱鉴定的结果表格。制表符分隔的文本文件,第一列为蛋白ID,其他列为样品的表达量。对格式不清楚的可点击查看示例下载示例文件。(百迈客项目的结果文件会直接推送到客户账号下,文件夹名称为合同编号,可直接导入使用) 蛋白数据库:蛋白质质谱鉴定所用的数据库。不同数据库得到的蛋白ID格式不同。这里给出了常用的uniport数据库和转录组数据库。如果需要和转录组联合分析,建议使用转录组数据库,并且可以输入转录组的注释信息文件,百迈客的转录组项目会自动生成此文件,也可以下载示例查看具体的格式)。 五、综合选项 流程版本:选择最新的版本(目前为0) Kegg注释物种分类:点击下拉框选择KEGG注释所用的物种类别 报告名称:可以自定义方便区分的报告名称,可以使用默认名称 物种名称:支持自定义物种名称,与后期生成的任务名称相关联 标准化方式:否:不进行标准化;总峰面积:表示每个样本中的每个蛋白除以该样本总的峰面积;加和方法:先计算单个样本所有蛋白的sum值, 再用sum值除以几个样本sum值中最大的,得到偏差系数,最后用蛋白/样本的偏差系数得到标准化后的值。此处iTRAQ项目数据已经进行过归一化,可以选择否,lable-free项目推荐总峰面积   六、差异分组设置 根据实验方案设计以及样品信息,进行分组的设置,流程据此进行差异比较分析,此处只支持两组间比较,可添加多个差异分组。 pvalue值一般推荐选择0.01,差异倍数阈值一般推荐选择2.(此处设置的的参数和差异分组在后期报告个性化中可再次进行修改) 分组设置:有几组生物学重复就在左侧的分组池中添加相应数量的分组,再从右侧的样品池中选样本加入相应的分组中,1个样本只能属于一个分组且一个分组的样本数目不少于2个(这里需要修改分组名称,分析完成后不可修改) 差异分组设置 根据实验方案设计以及样品信息,进行分组的设置,流程据此进行差异比较分析,此处只支持两组间比较,可添加多个差异分组。(此处的参数和差异分组在后期报告个性化中可再次进行修改)     七、生成标准分析报告 参数设置完成之后,可以点击保存参数,方便之后进行重新分析或者基于本次参数进行修改后再次分析;一切准备就绪后,点击提交将任务提交到百迈客云计算集群上,根据不同分析平台、不同数据量等待大概2小时到3周的时间完成项目分析,获取到标准分析报告。 报告查看,点击项目(管理) -> 我的项目打开项目列表,找到之前提交任务时选择的项目,点击项目名称打开该项目,即可看到新生成的分析报告记录,点击报告名称查看详细报告。 点击报告右上角的项目结果下载,可以选择下载HTML报告、PDF报告和结果数据(尾款结清后)。HTML报告只包括分析报告的html文件及一个src文件夹,展示了部分结果;PDF报告是根据HTML报告转换而来,方便您进行报告打印;结果数据包含了项目中所有结果文件,一般比较大,会通过FTP进行下载,请耐心等待下载。  ...

一、登录百迈客云平台 下载谷歌浏览器,输入网址https://international.biocloud.net/zh/user/login ,进入百迈客云平台登录界面,输入账号密码登录。账号为手机号或者是邮箱,初始密码为123.bmk. 二、选择合适的分析平台 百迈客云包含农学和医学两大类分析平台,医学分析平台主要针对人、鼠数据的分析,包含:转录组、非编码RNA、单基因病外显子、肿瘤外显子、重测序等数据分析,以及全转录组联合分析;农学分析平台可以应用到更多的物种,涵盖转录组、非编码RNA、微生物、蛋白、代谢等数据的分析,以及全转录组联合分析等。点击左侧导航分析->农学或者医学打开分析平台列表页面,点击选择您想要使用的分析平台,打开其详细介绍页面,该页面可以看到该平台的应用领域``平台介绍``技术背景``案例``课堂``版本记录,点击打开软件即可进入到参数页面。   三、创建项目名称 为了方便数据、任务和报告的管理,我们将同属于一个项目的内容会放到一个项目中,因此进行基本分析时需要先选择一个项目,如果没有项目也可以点击+新建先创建一个项目,见下图。     四、选择输入文件 代谢定量文件:针对鉴定到的代谢物进行定量的结果表格。制表符分隔的文本文件,第一列为代谢物ID,其他列为样品的表达量。对格式不清楚的可点击查看示例下载示例文件。(百迈客项目的结果文件会直接推送到客户账号下,文件夹名称为合同编号,可直接导入使用)   五、综合选项 流程版本:选择最新的版本(目前为0) Kegg注释物种分类:点击下拉框选择KEGG注释所用的物种类别 报告名称:可以自定义方便区分的报告名称,可以使用默认名称 物种名称:支持自定义物种名称,与后期生成的任务名称相关联 标准化方式:否表示不使用归一化,总峰面积归一化表示每个样本中的每个代谢物除以该样本总的峰面积,内标则是每个代谢物除以内标代谢物的峰面积且默认内标的代谢物定性名称为IS,内标不参与后续的分析。(LC推荐使用总峰面积,GC推荐使用内标) 六、差异分组设置 根据实验方案设计以及样品信息,进行分组的设置,流程据此进行差异比较分析,此处只支持两组间比较,可添加多个差异分组。 推荐阈值选择:(1)差异倍数阈值1、T检验p值0.05、VIP值1 (2)差异倍数阈值2、T检验p值1、VIP值1 (其中vip值采用了正交偏最小二乘法判别分析(OPLS-DA),该分析会给每个代谢物一个变量投影重要度VIP值,值越大说明代谢物的差异越显著) 分组设置:有几组生物学重复就在左侧的分组池中添加相应数量的分组,再从右侧的样品池中选样本加入相应的分组中,1个样本只能属于一个分组且一个分组的样本数目不少于2个。(这里需要修改分组名称,分析完成后不可修改) 差异分组设置:根据实验方案设计以及样品信息,进行分组的设置,流程据此进行差异比较分析,此处只支持两组间比较,可添加多个差异分组。(此处的参数和差异分组在后期报告个性化中可再次进行修改)   七、生成标准分析报告 参数设置完成之后,可以点击保存参数,方便之后进行重新分析或者基于本次参数进行修改后再次分析;一切准备就绪后,点击提交将任务提交到百迈客云计算集群上,根据不同分析平台、不同数据量等待大概2小时到3周的时间完成项目分析,获取到标准分析报告。 报告查看,点击项目(管理) -> 我的项目打开项目列表,找到之前提交任务时选择的项目,点击项目名称打开该项目,即可看到新生成的分析报告记录,点击报告名称查看详细报告。 点击报告右上角的项目结果下载,可以选择下载HTML报告、PDF报告和结果数据(尾款结清后)。HTML报告只包括分析报告的html文件及一个src文件夹,展示了部分结果;PDF报告是根据HTML报告转换而来,方便您进行报告打印;结果数据包含了项目中所有结果文件,一般比较大,会通过FTP进行下载,请耐心等待下载。...

高通量测序技术的出现,使全世界产出的测序数据出现了爆炸式增长,这些数据存放在或大或小的数据库中,区域性的大数据库包括NCBI、ENA/EBI、DDBJ等,今天我们重点给大家介绍下NCBI的SRA数据库。  

Part 1 | SRA数据库介绍

SRA(Sequence Read Archive)是NCBI中专门用于存放原始高通量测序数据的一个子库,收录了各种二代、三代测序仪产生的数据,与ENA/EBI、DDBJ间共享原始测序数据。

INSDC(International Nucleotide Sequence Database Collaboration)成员间共享测序数据

有过数据上传经历的童鞋应该对SRA并不陌生,上传数据前我们一般要创建BioProject、BioSample,用于详细说明项目信息、样品信息;并通过SRA的Experiment、RUN描述建库测序相关信息,如建库类型、测序仪器、单双端等;下图概括出了几者之间的关系。

https://www.ncbi.nlm.nih.gov/sra/docs/submitmeta/

SRA上传和检索数据时,我们会遇到各种各样的编号,这些编号间的对应关系通过下表我们可以理清。项目和样品信息首先会存放在BioProject和BioSample数据库中,得到类似PRJNA和SAMN的编号;在SRA数据库中也会对项目和样品进行编号,分别以SRP和SRS作为前缀,并与BioProject和BioSample中对应;其余SR开头的编号都属于SRA数据库。

SRA数据库中各种编号对应表

SRA数据库中存储的是高度压缩后的sra格式数据,截止到目前,SRA中已经累计存储了超过20P碱基数据,而且每年仍在以极快的速度增长。

SRA数据量增长图(纵坐标代表sra格式文件大小,单位TB;横坐标代表年;蓝线代表总数据量)

Part 2 | SRA数据库中疾病相关数据统计

在SRA数据库的愿景中,除了进行原始测序数据的保存之外,还有一个目的就是希望这些数据可以被再次利用,得出新的发现。但是目前这些数据就像宇宙中无法被探测的暗物质,无人问津。

https://www.ncbi.nlm.nih.gov/sra/docs/

既然已经有如此多的公共数据,我们应该充分挖掘,不仅可以产出新发现,也可以有效降低科研成本。俗话说的好,知己知彼,百战不殆。要想充分利用这些公共数据,我们首先需要对这些数据有更加深刻的认识,于是我们针对热点研究疾病,统计了不同测序类型的数据量,以及项目数和样品数,想了解其他疾病数据量情况的童鞋可以文末留言,我们统计好之后发送给您。

热点研究疾病数据统计(单位:Gbase)

热点癌症数据统计(单位:Gbase)

Part 3 | 公共数据使用策略

如此多的数据,该怎样去利用,我们整理了一些思路,供大家参考。 策略一:数据整合,增大样本量 以研究疾病相关基因表达为例,可以整合多个项目中的RNA-Seq数据(也可以结合自己的数据,增大样本量),计算基因表达量,并筛选疾病组织和正常组织间差异表达的基因; 再针对差异表达基因进行共表达分析,获得共表达基因集;然后进一步对这些基因的功能、所属通路进行分析,从而更完整的描述出疾病发生的机理。 策略二:多种疾病间横向比较 以研究肺癌患者中S100A4基因的差异表达为例,通过下载其他类型癌症如:胸腺癌、恶性间皮瘤的RNA-Seq数据,并分析该基因在这两种癌症中的差异表达情况,如果与肺癌中有相同的差异表达趋势,则可以增强我们结论的说服力。 策略三:不同水平间横向比较 分析不同水平的数据,如:细胞水平、组织水平、动物模型上目标基因的差异表达情况,增强分析结论的说服力。 策略四:不同类型数据间联合分析 我们只自测了mRNA数据,但是想了解miRNA对于mRNA的调控,那我们可以下载对应疾病的miRNA类型的数据,通过两者的联合分析,更深入的了解疾病发生的机理。

Part 4 | 结语

公共数据使用看似很困难,需要下载、转换格式、生信分析,目前百迈客云(www.biocloud.net)已经集成了SRA数据检索、下载、转换和分析,我们录制了一个短视频,展示了如何通过简单的鼠标点击高效完成以上所有工作,详情:http://live.biocloud.net/open/course/10  

聚类热图是以热图的形式来进行聚类结果的展示,可以直观的从图上分析哪些数据具有相似性,哪些数据差异较大。百迈客云(BMKCloud)免费推出的聚类热图小工具主要针对矩阵文件(如不同样品的基因表达量、样本相关系数矩阵等)进行聚类分析及图片绘制,并且可以根据研究情况对绘图结果进行交互式操作(如筛选数据,调整图片配色等)。 应用场景: 使用矩阵数据文件进行热图绘制,通常可以对矩阵数据进行筛选,归一化和聚类等处理,多用于不同样品间基因表达水平聚类分析。主要应用在真核有参转录组、真核无参转录组、微生物多样性等数据分析中。 操作步骤: 登录百迈客云首页(www.biocloud.net)——分析——工具——绘图工具——热图 操作方法: 1. 输入文件 (1)文件要求:文件内容应为制表符隔开的文本文件,且大小不可超过 10M。默认首行、首列为表头,一般每列表示一个样品,每行表示一个基因,也可统计其他含义的数据矩阵。除表头外,参与统计绘图的内容应为纯数字,文件范例如下: (2) 指定作图列:可对指定列绘图,如只对第 2 到第 5 列和第 10 列作图,可输入:“2-5,10”。若想按特定顺序绘图,需用逗号将绘图列按序列出,并在下方参数中取消按列聚类,如“6,3,2,5,4”。 (3) 指定基因:可输入基因列表文件,系统会自动过滤空行或以#开头的行并提取第一列作为指定基因,结合上方输入的矩阵文件进行统计绘图。 2. 参数设置 (1)配色方案:设置绘图所采用的配色。可以选择预制方案,也可以根据实际实际需要自定义配色方案。 (2) 对数取值:对文件数据取对数后再绘图。取对数可以有效解决数据取值范围过大导致的配色问题。 (3) 归一化:对行或列进行归一化处理。可最大程度地呈现每行或每列的变化信息,避免超高值掩盖其他数据的变化。绘制基因表达量热图时,常按基因归一化。 (4) 聚类方案:可选择是否按行、列聚类。若按特定样本顺序绘制热图,可取消按列聚类。 a行列显示:可选择是否显示行、列 ID。 b 样品、基因字号:可调节行、列 ID 的字体大小。 3 注意事项 (1) 聚类分析涉及运算分析,当分析的基因数或样品数较多时,绘图时间可能较长,请待任务完成后点击预览查看、调整图片。 (2)如果选择对数据取对数,会自动将取值为 0 的数据转化为接近于 0 的小数。 4. 结果展示 (1) 绘图结果:绘图结果展示区为您展示初始或调整后的绘图结果,同时,可通过图片区域的交互操作查看对应的数据信息,如: a 鼠标悬停于图中相应数据格,可显示其对应的行名、列名和数值。 b 点击图中相应的行名或列名,在“查看原数据”页会高亮显示对应行或列。 c 选中行聚类树某分枝后,可在“查看原数据”也筛选出对应行并下载。 (2)全屏预览:点击图片右上角的缩放按钮,可全屏预览绘图结果。选中聚类树某分枝后点击缩放按钮,可在全屏预览时高亮对应的分枝,以便尽快找到目标区域。 (3)图片下载:点击预览区右上角的“下载”按钮,可保存 SVG 或 PNG 格式的绘图结果 (4)调整图片 a 配色方案:设置绘图所采用的配色。可以选择预制方案,也可以根据实际实际需要自定义配色方案。 b 对数取值:对文件数据取对数后再绘图。取对数可以有效解决数据取值范围过大导致的配色问题。 c 归一化:对行或列进行归一化处理。可最大程度地呈现每行或每列的变化信息,避免超高值掩盖其他数据的变化。绘制基因表达量热图时,常按基因归一化。 d 聚类方案:可选择是否按行、列聚类。若按特定样本顺序绘制热图,可取消按列聚类。 e 行列显示:可选择是否显示行、列 ID。 f 样品、基因字号:可调节行、列 ID 的字体大小。 (5)查看数据 a聚类数据:显示聚类后数据矩阵的前100行,样品和基因顺序均与左侧图中一致。 b 搜索基因:可在搜索栏中输入关键词,搜索相应基因或基因集。 5.案例展示 2017年,中国水产科学院喻达辉老师在百迈客云平台上对合浦珠母贝免疫相关数据进行分析,2篇文章先后分别发表于同一个杂志《Fish &...

GO、KEGG分类富集图绘制工具对给定的基因集结合注释信息绘制GO分类富集图、KEGG分类富集及通路富集图。GO分类富集图是通过对基因进行GO terms 富集度统计学的分析,计算出基因的P_value和Corrected_P-value,定位基因最可能相关的GO term。KEGG分类富集图是可以把显著的pathway进行富集,有助于找到实验条件下显著性变化的生物学调控通路。 适用数据类型:转录组研究数据和基因组研究数据 软件:R包(ggplot2) 操作步骤 登录百迈客云首页(www.biocloud.net)——分析——工具——绘制GO和KEGG富集图。 操作方法 1.输入文件 Anno: 是所有基因功能注释的结果总表,一般百迈客的有参、无参项目中会有这个数据,通常的命名为All_Database_annotation.xls。 Genes_id: 指需要进行分析的基因集文件,txt文本格式,每一行是一个基因的名字。 GO_top_lines:指定前多少行用于GO富集绘图,在进行GO富集分析的时候,会将结果按P值进行排序,然后挑选前n行进行绘图,默认为20。 2.注意事项 (1)注释总表(All_Database_annotation.xls),该文件包含Integrated_Function.anno、Function_anno.stat、GO.list、GO_tree.stat、Kegg.pathway、Kegg.ko等6个工作表,其中GO.list、GO_tree.stat、Kegg.pathway、Kegg.ko这四个必须包含,且命名完全一致。 (2)Genes_id和注释总表的基因ID相对应; (3)文件名称:包含字母数字以及下划线,不能以数字开头,不能有空格,不能有特殊字符等。 (4)如果是在百迈客云上分析的结果,只需要在项目结果中找到All_Database_annotation.xls文件输入即可。如果不是在百迈客做的项目,没有这个文件,您需要先将FASTA格式的文件在云平台的“基因功能注释”小工具中得到All_Database_annotation.xls,如下示意图。 3.结果说明 该结果包含两个文件GO和KEGG GO包含以下文件: 其中go_enrichment.png是GO富集结果图,选择置信度Pvalue最高的20个绘制通路富集图;GO.Classification.png是GO分类图。 KEGG包含以下文件: KEGG.Classification.png是KEGG分类图。 案例展示 百迈客云平台的GO、KEGG分类富集图绘制小工具得到了许多老师的认可,目前已经有一些老师运用这款小工具发表了文章,比如郑州大学安秀丽老师课题组对四倍体与二倍体芜菁转录组比较分析的研究中运用了GO、KEGG分类富集图绘制工具,文章发表在《Frontiers in Plant Science》杂志上。 此外,中国农业科学院油料作物研究所的胡琼老师课题组对参与油菜分蘖调控相关信号通路的研究中也运用了GO、KEGG分类富集图绘制工具,文章发表在《Int J Mol Sci》杂志上。 百迈客云平台是由北京百迈客生物科技有限公司开发,集生物信息分析软件、数据库以及云计算为一体的生物大数据分析平台。GO、KEGG分类富集图绘制小工具就介绍到这里了,请关注百迈客云微信公众号,后期会有更多小工具的介绍和操作指引,如果您在操作过程中遇到任何问题都可以联系咱们的云客服,欢迎点击屏幕右下方客服图像进入咨询环节。 参考文献: 1. Zhao R, Feng J, Yin X, et al. Antibiotic resistome in landfill leachate from different cities of China deciphered by metagenomic analysis.[J]. Water Research, 2018, 134:126–139. 2. Cheng H, Hao M, Wang W, et al. Integrative RNA-...

随着测序成本越来越低,一些重要物种数据呈指数级积累,其中蕴含着巨大价值。物种数据研究能为解答基因组进化学、系统发育学问题提供参考,有利于指导育种工作及保护物种多样性。因此构建物种数据库具有重要意义: 01物种数据库可作为系统性的展示、查询、分析的平台:实现物种多组学数据的高效检索、保存、调用、分析及深度挖掘。 02一些具备创新特性的数据库也可单独作为一项研究成果在SCI论文中进行展示。 03通过共享云用户的访问,可提升第三方数据库的知名度,部分重要物种信息、重要分析结果可以收费下载,为进一步维护数据库和科研工作提供资金。 04共享研究成果,促进业内交流:数据库可作为研究论文的补充,展示研究细节,也便于其他研究者基于数据库的数据进行进一步的探索,从而提升国内相关领域整体研究水平。  1.百迈客云物种数据库概述 百迈客作为一家拥有深厚基因组学数据分析行业背景的大数据挖掘分析公司,致力于为用户设计更贴合使用习惯的基因组学数据库系统,在2017年正式推出搭建百迈客云物种数据库的服务。 简单来说,百迈客云物种数据库是针对物种基因组学数据的存储、管理、查询、分析的数据库系统。用户基于Web操作界面即可实现数据的增删改查等操作,还可以利用数据库部署的简单分析工具或结合百迈客云账号进行数据挖掘分析。 说了那么多是不是有些心动了呢? 跟随小编一起看下百迈客云物种数据库核心优势有哪些。 2.百迈客云物种数据库优势 多维度部署:多组学数据(转录组、基因组、重测序数据)高度整合与部署快捷部署:模块化的数据库底层设计,可基于需求抽取底层库标准化数据存储检索模块及页面样式模块,快速完成在本地服务器或百迈客云数据库用户服务集群上的部署 操作更简单:后台管理权限,甲方无需配备专业IT运维和美工,在乙方培训后,即可完成后期的数据增加、删除等更新操作 查询调用更高效:代替原始的硬盘存储+手动查找的传统数据管理模式,引入互联网领域的数据库技术,可将各时间点、各空间点、各类型数据结构化地存储于统一的数据库框架中,借助数据库自动查询语言与web2.0网页界面即可实现基因组学数据的高效查询和调用。避免了传统数据管理模式下数据丢失率高及检索困难等问题 数据挖掘更轻松:强大的云平台支持,可连接百迈客云其他数据库(八大数据库,如功能基因库、参考文献数据库等),并可使用百迈客云分析工具(如几十款分析APP、一百多款小工具),基于APP和小工具完成数据的深度挖掘   3.百迈客共建数据库的成功案例 那么我们看下百迈客有哪些成功案例吧! 中国农科院大豆数据库(www.soybean-resources.cn) 包含了约1500种大豆种质资源,382个品种的重测序,7套泛基因数据。     中科院植物所构树数据库(papyrifera.biocloud.net) 包含了构树基因组序列及注释信息,可进行数据的浏览、使用、下载。 4.数据库搭建流程 01需求论证(2~4周) 用户设定模块组合及各模块对外权限,可选择部署到本地服务器或托管于百迈客云数据库专用集群; 乙方完成原型设计,并与甲方确认后核算搭建成本并报价,乙方核算报价,甲方支付20%的预付款。 02开发(3个月) 基于数据库原型,制定出数据标准化格式、文本需求信息,协助用户数据准备工作; 依次完成UI设计、前端架构、后端完成底层数据的存储与页面相关交付;进行测试验收。 03交付 双方共同完成测试后,甲方需在验收合格10个工作日内支付80%尾款,乙方交付数据库并协助甲方进行日常维护更新。 04日常维护与更新 每日巡检,检查机房用电、温湿度,服务器硬件报警及维修; 服务器操作系统状态监控与报警、日常维护、操作系统及软件版本更新; 服务器生产服务与软件的状态监控与报警、版本更新; 数据库服务状态监控与报警,数据定期检查与备份; 甲方在乙方协助下自主完成增删改等操作。 ...

今天小编带大家看一看百迈客云物种数据库的核心功能模块。 百迈客云物种数据库采用模块化设计,标准功能模块主要有三大类   1.存储&查询模块         存储&查询模块设置了种质资源、突变体信息、性状座位信息、分子标记、基因功能信息、基因组数据、转录组数据的存储和查询模块 01物种种质资源存储&查询模块 种质资源是一种遗传资源。种质系指农作物亲代传递给子代的遗传物质,它往往存在于特定品种之中。如古老的地方品种、新培育的推广品种、重要的遗传材料以及野生近缘植物,都属于种质资源的范围。用户可在该模块中按照物种的名称、编号、父母本、省份、地理位置、表型查询相关材料品种概况。   02物种突变体信息存储&查询模块 用户在该模块通过突变体名称或表型检索相关突变体,搜索结果可展示出突变体名称、编号、突变基因信息等。其中,点击突变基因可链接至“基因查询模块”查询基因功能、序列、基因组位置等详细信息。   03物种性状座位信息存储&查询模块 在该模块用户通过输入表型数据查询该性状控制座位在基因组上的定位结果,该结果整合自不同研究不同定位方法定位结果,并可视化展示相应性状座位对于于最新版本基因组上的位置及相关基因。其中,相关基因也可链接至“基因查询模块”查询基因功能、序列、基因组位置等详细信息。   04分子标记存储&查询模块 用户可按照精确编号、模糊编号(正则匹配)、或连锁性状搜索分子标记,搜索结果含有标记序列信息、标记扩增引物序列、标记上下游基因(可链接至“基因查询模块”)、标记相关性状等。   05基因功能信息存储&查询模块 在该模块中,用户可以基因名称、基因ID、功能关键词、物种基因组起始位置、转录本序列、是否定位、是否克隆为条件检索目标基因,检索结果包括基因转录本序列(核苷酸or氨基酸序列)、染色体、起止位置、各功能数据库注释结果、相关文献、相关性状(可链接至“物种性状座位信息存储&查询模块”)。   06基因组数据存储&查询模块 1)使用基因组版本号检索相关基因组信息,检索结果包括该基因组序列组装、结构注释、功能注释、测序数据等,所有结果均支持本地下载; 2)可按照物种名检索相关泛基因组信息,检索结果包括各品种基因组序列组装、结构注释、功能注释、变异位点、测序数据等,所有结果均支持本地下载; 3)按品种名检索该品种全基因组重测序、简化基因组重测序测序数据及变异位点检测结果。   07物种转录组数据存储&查询模块 1)用户可通过基因ID与基因name检索相关基因下转录本序列、项目中的转录水平、差异表达、共表达、互作信息等,检索结果支持本地下载。 2)按项目名称检索相关转录组学项目测序数据及完整分析结果,检索结果支持本地下载。   2.分析工具模块 分析工具均可从网页调用,无需用户掌握任何编程基础。包含数据库自带分析工具,比如 blast、blat、引物设计、转录因子、metaQTL等;当然也可调用部署在百迈客公有云计算平台(www.biocloud.net)的分析流程(APP)与生信软件(Tools。APP包括有参/无参转录组分析APP、lncRNA分析APP、microRNA分析APP、circleRNA分析APP、重测序分析APP、GWAS个性化分析APP、BSA个性化分析APP、遗传图谱个性化分析APP、微生多样性分析APP等;Tools模块包含100余款各类生信分析软件,涵盖比对、注释、绘图、统计等;  BMKCloud个性化分析示例 3.公共数据库模块 包含7大模块: 01高通量测序数据库 • 该公共数据库模块同步NCBI维护的SRA、GEO两大高通量测序数据库,目前该模块12PBase,1100个属的高通量测序数据,数据类型涵盖RNA-seq、全基因组重测序、WES、基因组denovo组装、甲基化、ChIP-seq等。 • 用户可按物种名称、数据编号、研究方向检索相关高通量测序公共数据,检索结果无需下载,一键导入数据库自带分析工具或百迈客公有云计算平台(www.biocloud.net)分析工具即可进行数据分析。   02功能基因数据库 该公共数据库模块整合包括GO、KEGG、miRbase、lncRNAdb、MiRTarBase、UniProt、genbank等在内的30多个基因功能&序列类数据库,目前收录了约1700万条基因相关信息,用户输入基因名称、ID、功能关键词后,一键即可获取基因的功能、序列、同源基因、表达、相关ncRNA、变异、相关文献等信息。   03功能定位数据库 该数据库收录了所有公共的性状相关数据,目前已收录11个物种347个性状相关的QTL位点数据,如QTL、eQTL、候选基因、关联数据等信息,QTL性状位置可视化展示以及物种间的比较,为各个物种间定位信息的比较提供重要的数据。   04文献数据库 该公共数据库模块同步NCBI维护的PubMed文献索引数据库,目前收录2600万+文献信息,该模块支持按照发表日期、影响因子、文章类型、信息完整度(有无测序数据、有无全文等)进行精确检索,检索结果包括文献题目、摘要、全文链接、文献所涉及测序数据等。   05其他公共数据库模块 • 参考基因组数据库:包含有826个物种的924套参考基因组信息; • 变异数据库:整合了dbSNP库中的数据信息,目前收录了8亿+变异数据,支持通过rs、ss号进行信息的检索,并且支持筛选特定物种的、特定染色体、特定区域的变异信息; • 互作网络数据库:整合了PPI、StarBase、LncRNADisease三个数据库中的4类互作网络信息,目前共收录了306万互作网络关系,包含了lncRNA、miRNA、mRNA、circRNA四类数据。 ...