GSA文档

GSA词条注释

GSA词条注释(version 2.1)包含有详细的各数据项描述信息,请下载 CN  US.



GSA使用指南

GSA使用指南(version 2.1)包含有提交时每一步的操作描述信息,请下载 CN  US.



辅导教程

GSA 数据模型

为确保与国际同类数据库系统的兼容性,GSA遵循INSDC联盟的数据标准,GSA元数据类别主要包括项目信息(BioProject,归档于生物项目数据库)、样本信息(BioSample,归档于生物样本数据库)、实验信息(Experiment)、以及测序反应(Run)信息。项目信息是用来描述所开展研究的目的、涉及物种、数据类型、研究思路等信息;样本信息是指本研究涉及的生物样本描述,如样本类型、样本属性等;实验信息包括实验目的、文库构建方式、测序类型等信息;测序反应信息包括测序文件和对应的校验信息。各类数据之间采用线性、一对多的模式进行关联,从而形成“金字塔”式的信息组织与管理模式(图1)。

图 1. GSA数据模型图



元数据的组织关系

以下示例说明了各元数据信息之间的关系,用户可以灵活组织这些元数据信息。

♦   三种菌株的比较基因组测序(paired-end),一个Run里放一对paired-end测序数据文件(图 2)。

图 2. 三种菌株的比较基因组测序(paired-end)



♦   技术和生物学重复:生物学重复应归类为2个不同Sample;技术重复应视为2个Experiment。

图 3. 技术和生物学重复



数据递交向导

GSA用户可通过大数据中心生物数据统一汇交入口——生物数据递交系统(BIG Sub, http://bigd.big.ac.cn/gsub/) 完成一站式数据递交,具体步骤及注意事项如下(图4):

♦   一般情况,属同一个BIOPROJECT的测序数据,务必请归档为一个GSA数据集

♦   EXPERIMENT和RUN的元数据信息直接与测序文件数据相关联。

♦   每个EXPERIMENT是针对特定样本的测序结果,如某样本同时用于转录组和表观组测序,会产生两个测序结果,即两个EXPERIMENT。

♦   RUN提交文件数请不要超过两个,即单端测序数据(Fragment)RUN文件数为一个,双端测序数据(Paired-end)RUN文件数为两个。

图 4. 数据递交到GSA的流程



数据触发机制说明

数据发布时,相关的BioProject、BioSample与GSA数据集遵循以下触发机制(图5):1. BioProject发布不会触发相关联BioSample信息与GSA数据集释放;2. GSA数据集发布,会触发相关联BioProject和BioSample信息释放。因此,请慎重填写BioProject、BioSample与GSA “发布时间”,一旦发布就代表数据或信息可供其他用户公开检索或下载。

图 5. BioProject、BioSample、GSA之间的发布策略



发布策略和免责声明

1. 用户可自行设定“发布日期”,在该日期之前,GSA保证数据不公开;

2. “发布日期”可以在GSA提交系统内进行修改:http://bigd.big.ac.cn/gsub/submit/gsa/[substitute your GSA accession number]/contents

3. 如果引用这些数据和该accession号的文章先于您设定的发布时间而发表,我们将根据文章的发表时间来发布该数据;否则GSA将根据您设定的发布日期而发布该数据;

4. 一旦文章发表,数据可以发布,请把已发表文章的全部信息--作者,题目,期刊,刊号,页数,日期信息发送到该邮箱: gsa@big.ac.cn


常见问题

此处列出了一些在GSA提交过程中咨询的高频问题
  1. 简介
    1. GSA是什么?
    2. 如何提交数据到GSA?
  2. GSA账户信息
    1. 如何注册一个GSA账户?
    2. 忘记GSA登陆密码怎么办?
  3. GSA数据递交
    1. 如何开始提交数据?
    2. 如何进行数据信息批量上传?
    3. 如何通过FTP连接到GSA的服务器?
    4. 接收什么类型和格式的数据?
    5. 提交数据文件如何命名?
    6. 什么是MD5码?如何计算MD5码?
  4. 数据发布和引用
    1. 如何共享GSA数据集?
    2. 如何发布GSA数据集?
    3. 在论文中需要引用哪个编号?
  5. 帮助和支持
    1. 联系方式
    2. 通讯地址

  1. 简介
    1. GSA是什么?

      GSA是中国科学院北京基因组研究所生命与健康大数据中心 BIG Data Center (BIGD)开发的一个服务于全球生命科学领域机构和实验室,用于存储基因组、转录组及其它组学原始序列的数据仓储。目前它归档有许多不同测序平台的测序数据,还会不断更新这些数据。


    2. 如何提交数据到GSA?

      注册用户可通过中心生物数据统一汇交入口——生物数据递交系统(BIG Submission,BIG Sub,http://bigd.big.ac.cn/gsub/)进行一站式数据递交,具体步骤请查阅GSA使用说明


  2. GSA账户信息
    1. 如何注册一个GSA账户?

      任何用户都可以创建 注册BIG Sub账户,建议使用实验室公共邮箱进行注册。注册之后请登录注册邮箱,通过Email中的链接来激活用户。


    2. 忘记GSA登陆密码怎么办?

      1)如果忘记GSA的登陆密码,请点击此链接 “Forgot password”

      2)重置密码后,邮箱会收到Reset BIGD password的邮件,里面有系统随机分配的新密码和修改新密码的链接。

      3)用户可点击邮件链接,使用系统随机分配的“新密码”登陆后,参考以下步骤重设GSA登陆密码:

      注:如果您在账号注册和使用过程中遇到任何问题,请联系  bigd-admin@big.ac.cn 。


  3. GSA数据递交
    1. 如何开始提交数据?

      账户注册完成后,您可遵循以下原则进行数据信息录入:

      1) 进入GSA数据库创建GSA

      2) 如果您之前没有创建项目(BioProject)和样本(BioSample)请分别进入 BioProject 数据库和 BioSample 数据库完成创建,详见GSA使用说明

      3) 完成 GSA数据集中Experiment和Run的元数据信息录入——实现与BioProject、BioSample和数据文件的相互关联。

      4) 通过FTP完成数据文件上传。


    2. 如何进行数据信息批量上传?

      当数据样本(Sample)数量≥10个,在完成BioProject创建后,建议您使用“离线模式”进行元数据信息批量录入,具体步骤如下:

      1) 通过BIG Sub数据统一汇交入口,进入GSA数据库:

      2) 点击“Batch Submission”进入“批量上传表格”下载页面,请根据提示信息下载相应的表格模板与例子,填好后请发送至 gsa@big.ac.cn


    3. 如何通过FTP连接到GSA的服务器?

      请使用 FTP客户端软件(比如 FileZilla Client)登录 FTP 服务器。请采用二进制模式上传,如果是用FTP软件上传,请参考软件说明进行设置;如果是用FTP指令上传,请在“mput”指令前,先运行“binary”指令。

      FTP服务器地址:

      ftp://submit.big.ac.cn

      用户账号与BIG sub账号一致。

      注意:用户登录自己的FTP路径后,先cd 到 /GSA目录下再上传文件。

      数据上传完毕后,GSA后台系统需要进行相应的审核,请耐心等待并密切关注系统和邮箱的情况反馈。


    4. 接收什么类型和格式的数据?

      在当前版本中,我们推荐提交FASTQ或BAM格式的测序文件。其中,FASTQ格式数据只接收GZIP和BZIP2两种压缩格式的文件(不接收7-ZIP、RAR、TAR格式)。


    5. 提交数据文件如何命名?

      对于提交FASTQ格式的数据,每一个RUN包含文件数请不要超过两个,即单端测序数据(Fragment)RUN文件数为一个,双端测序数据(Paired-end)RUN文件数为两个(通常单个文件不要超过10GB)。Fragment数据以单个文件上传,务必写全名称(包括文件后缀名),如:DRT_10107_1.clean.fq.gz。对于Paired-end数据,请把两个数据放在同一个Run里面,务必写全名称(包括文件后缀名),并用F和R在文件名中做标记,例如,用F和R在文件名中做标记, DRT_10107_F.clean.fq.gz;DRT_10107_R.clean.fq.gz。


    6. 什么是MD5码?如何计算MD5码?

      MD5码主要是用来校验递交的数据在网络传输过程中是否损坏或丢包,它是由数字和英文字母组成的长度为32的定长字符串。

      ♦  Linux用户请使用 $ md5sum命令计算;

      ♦  Mac用户请使用$ md5命令计算;

      ♦  Windows用户请使用第三方工具进行计算,例如 winmd5free


  4. 数据发布和引用
    1. 如何共享GSA数据集?

      1) 用户通过账号登陆BIG Sub系统,在GSA数据库列表中,找到Operation有个“Share”控件(如图所示);

      2) 点击“Share”,会生成如下图所示的分享链接,复制该链接并提供给编审,其即可以查看数据。


    2. 如何发布GSA数据集?

      1) 文章online后,点击GSA页面的列表中Operation的“Release Now”控件;

      2) 在“Confirmation Box”中点击“Yes”,即可释放GSA数据集。根据触发机制,GSA数据集释放后,BioProject 和BioSample将会被触发释放,所以不用再单独释放BioProject和BioSample。

      注:GSA数据释放后,需要几个小时归档数据,等数据归档成功后,即可在数据库中通过编号搜索到,并且可下载数据。


    3. 在论文中需要引用哪个编号?

      当您成功提交数据到GSA并通过审核后,请在您要发表的论文中添加如下语句:

      The raw sequence data reported in this paper have been deposited in the Genome Sequence Archive (Genomics, Proteomics & Bioinformatics 2017) in BIG Data Center (Nucleic Acids Res 2018), Beijing Institute of Genomics (BIG), Chinese Academy of Sciences, under accession numbers CRAxxxxxx, CRAyyyyyy that are publicly accessible at  http://bigd.big.ac.cn/gsa.

      ♦  GSA: Genome Sequence Archive. Genomics, Proteomics & Bioinformatics 2017. [PMID=28387199]

      ♦  Database Resources of the BIG Data Center in 2018. Nucleic Acids Res 2018. [ PMID=29036542]


  5. 帮助和支持
    1. 联系方式

      如果您在数据上传过程中遇到有问题,或发现任何系统报错,请随时联系我们,Email: gsa@big.ac.cn ,或者通过QQ发送信息(QQ群:548170081).


    2. 通讯地址

      我们非常欢迎您来访交流,促进科研合作、互相学习。

      地址:

            生命与健康大数据中心

            中国科学院北京基因组研究所

            北京市朝阳区北辰西路一号院104号楼

            邮编:100101

            电话: +86 (10) 8409-7340