15 Kmer Facilitated Primer Design
针对大量的基因组设计特异性的、简并性的引物仍然存在挑战。在这个方面,使用核酸数据库(如 GTDB)和 Kmer 数据库相结合的方法或许有较大的应用潜力。
15.1 认识 GTDB
GTDB(Genome Taxonomy Database)(Donovan H. Parks et al. 2020) 是一个基于基因组的微生物分类数据库,它使用一系列计算方法来构建和维护其分类体系。GTDB 数据库的分类方法主要基于以下几个步骤:
基因组质量控制:首先,对所有提交的基因组进行质量控制,以确保数据的准确性和完整性。这包括评估基因组的完整性和污染程度。
基因预测和注释:使用如 Prodigal 这样的工具对基因组进行基因预测,识别出蛋白质编码基因。然后对这些基因进行注释,以确定它们的功能。
标记基因的选择和比对:从基因组中选择一组标记基因(通常是高度保守的单拷贝基因),这些基因在不同物种间具有足够的变异,可以用于物种间的区分。然后,对这些标记基因进行比对,以构建多序列比对(MSA)。
构建参考树:使用多序列比对结果,通过系统发育分析方法(如最大似然法或贝叶斯推断法)构建参考树。这个树反映了不同物种间的进化关系。
分类群的界定:基于参考树和基因组数据,使用如 ANI(平均核苷酸一致性)和 TETRA(四重基因组比较)等方法来界定不同的分类群,如物种、属、科等。
分类群的命名和排名:根据系统发育树和分类群的界定,对每个分类群进行命名和排名。GTDB尝试使用拉丁语命名法,并确保每个分类群的命名是唯一和一致的。
分类群的验证:通过与现有的分类数据库(如 NCBI Taxonomy)进行比较,验证 GTDB 分类的准确性。此外,GTDB 还通过社区反馈和专家审核来不断改进其分类体系。
数据库的更新和维护:随着新的基因组数据的不断加入和分类方法的改进,GTDB 定期更新其数据库,以反映最新的分类学研究成果。
GTDB 的分类方法结合了基因组学、系统发育学和生物信息学的技术,旨在提供一个全面、准确和动态更新的微生物分类体系。通过这种方法,GTDB 能够为微生物学研究提供坚实的分类基础。
15.1.1 数据库结构
GTDB 数据库提供了完整的数据文件下载。根据提供的 GTDB R09-RS220 发行说明文件,以下是列出的各个文件及其作用的总结:
METHODS.txt- 描述了用于形成 GTDB 分类的方法。
RELEASE_NOTES.txt- 概述了这个 GTDB 发行版本特有的变化。
VERSION.txt- 这个 GTDB 发行版本的版本标识符。
bac120_taxonomy_r220.tsv.gz- 所有被分配到GTDB物种群的细菌基因组的 GTDB 分类。
bac120_r220.tree.gz- 通过连接 120 个蛋白质推断出的细菌参考树,覆盖每个细菌物种群的代表性基因组。这个树用于整理 GTDB 分类,以 Newick 格式提供,装饰有 GTDB 分类,并包含非参数引导支持值。
bac120_metadata_r220.gz- 包括 GTDB 和 NCBI 分类、完整性和污染估计、组装统计和基因组属性的所有细菌基因组的元数据。
ar53_taxonomy_r220.tsv.gz,ar53_r220.tree.gz,ar53_metadata_r220.gz。- 用于古菌的分类体系?
genomic_files_reps文件夹中的文件特定于 GTDB 物种代表:bac120_marker_genes_reps_r220.tar.gz- 用于推断细菌参考树的未修剪和未对齐的标记基因。基因以核苷酸和氨基酸序列的形式提供。
bac120_msa_marker_genes_reps_r220.tar.gz- 每个 120 个细菌蛋白质的 GTDB 代表性基因组的修剪和对齐的标记基因。
bac120_msa_reps_r220.faa.gz- 用于推断细菌参考树的多序列比对。
bac120_ssu_reps_r220.tar.gz- 细菌代表性基因组中识别出的 16S rRNA 基因序列。
gtdb_proteins_aa_reps_r220.tar.gz- 所有预测的蛋白质编码基因序列的氨基酸 FASTA 文件。
gtdb_proteins_nt_reps_r220.tar.gz- 所有预测的蛋白质编码基因序列的核苷酸 FASTA 文件。
gtdb_genomes_reps_r220.tar.gz- 每个 GTDB 代表性基因组的 FASTA 文件。
genomic_files_all文件夹中的文件覆盖所有通过 GTDB 质量控制标准的基因组:bac120_marker_genes_all_r220.tar.gz- 所有 GTDB 基因组的未修剪和未对齐的标记基因。
bac120_msa_marker_genes_all_r220.tar.gz- 所有 GTDB 基因组的修剪和对齐的标记基因。
ar53_marker_genes_all_r220.tar.gz,ar53_msa_marker_genes_all_r220.tar.gz。- 用于古菌分类的基因。
ssu_all_r220.fna.gz- 通过质量控制的 GTDB 基因组集合中识别的 16S rRNA 序列。
auxillary_files文件夹中的文件:bac120_r220.sp_labels.tree- 与
bac120_r220.tree同义,除了每个基因组附加了物种标签。
- 与
bac120_msa_mask_r220.txt- 指示从 120 个细菌蛋白质连接比对中修剪了哪些列的掩码。
bac120_marker_info_r220.tsv- 用于推断细菌参考树的每个 120 个细菌蛋白质的信息。
gtdb_r220.dic- GTDB 中所有带和不带等级前缀的分类群的列表,可以作为文字处理程序中的字典使用。
gtdb_vs_ncbi_r220_bacteria.xlsx- GTDB 和 NCBI 分类之间的对应关系,按多态性程度排序。
gtdbtk_package文件夹- 包含 GTDB-Tk 工具所需的参考数据。
hq_mimag_genomes_r220.tsv- 符合 MIMAG 高质量基因组标准的分离株、MAGs 和 SAGs 的列表。
metadata_field_desc.tsv- 上述元数据文件中每个字段的描述和元数据来源的指示。
ncbi_vs_gtdb_r220_bacteria.xlsx- NCBI 和 GTDB 分类之间的对应关系,按多态性程度排序。
sp_clusters_r220.tsv- 指示每个 GTDB 物种群的代表性基因组、分配给物种群的基因组集合和用于界定物种群的平均核苷酸身份半径的元数据文件。
synonyms_r220.tsv- GTDB 分类中被认为是同义词的物种列表。
gtdb_taxa_not_in_lit_r220.xlsx- GTDB 中引入的拉丁名称的家族至门级分类群列表,这些分类群没有先前的出版物,为了实现单系群和等级标准化而引入。
qc_failed.tsv- 未通过内部 GTDB 质量控制标准的基因组组装列表。
这些文件为研究人员提供了 GTDB 数据库的详细数据和元数据,包括分类、基因组数据、参考树和各种元数据信息。
15.1.2 使用方法
使用 GTDB 数据库进行微生物基因组分析通常涉及以下步骤:
- 获取数据:
- 首先,需要从 GTDB 网站下载所需的数据集,包括基因组序列、分类信息、标记基因等。
- 基因组质量控制:
- 使用质量控制工具(如 CheckM 或 QUAST)评估基因组的完整性和污染程度,确保分析的准确性。
- 基因预测和注释:
- 使用基因预测工具(如 Prodigal)来识别基因组中的蛋白质编码基因,并使用注释工具(如RAST或IMG/M)进行功能注释。
- 标记基因的提取和比对:
- 从基因组中提取GTDB使用的标记基因(如用于构建参考树的120个单拷贝核心基因)。
- 使用多序列比对工具(如 MUSCLE 或 MAFFT)对提取的标记基因进行比对。
- 构建系统发育树:
- 使用比对结果构建系统发育树,可以使用最大似然法(如 RAxML)或贝叶斯推断法(如 MrBayes)等方法。
- 分类学分析:
- 根据系统发育树和 GTDB 提供的分类信息,对基因组进行分类学分析,确定其在 GTDB 分类体系中的位置。
- 基因组比较:
- 使用基因组比较工具(如 Roary 或 Panaroo)来识别基因组间的共有和特异性基因,这有助于理解微生物的进化和功能差异。
- 基因组可视化:
- 使用可视化工具(如 Circos 或 GTDBTk)来展示基因组数据和分类信息,这有助于更直观地理解基因组结构和功能。
- 基因组进化分析:
- 利用系统发育树和基因组数据,进行进化分析,如选择压力分析、基因流分析等。
- 结果解释和报告:
- 根据分析结果,撰写科学报告或文章,解释基因组分析的发现,并与现有的科学知识进行对比。
- 使用 GTDB-Tk 工具:
- GTDB 提供了一个配套工具 GTDB-Tk,它可以帮助用户根据 GTDB 的分类体系自动对基因组进行分类和注释。
进行这些分析时,可能需要一定的生物信息学背景和编程技能。此外,GTDB 数据库和相关工具的使用方法可能会随着版本更新而变化,因此建议查看最新的用户手册和在线文档以获取详细信息和指导。
15.2 认识 GlobDB
GlobDB 基因组数据库 是一个去重复的物种代表微生物基因组集。基因组时代为微生物基因组分析提供了巨大的机会,单个(元)基因组研究可以生成成千上万的微生物基因组。尽管有多个数据库可用于存储这些数据集,但有时整合大规模研究仍然存在挑战。GlobDB 旨在整合目前尚未(完全)整合的多种资源。
截至版本 220,GlobDB 包含四个不同的数据库:
- 基因组分类数据库(GTDB)的物种代表 (Donovan H. Parks et al. 2022)
- 地球微生物基因组目录(GEM)的物种代表 (Nayfach et al. 2021)
- 可搜索的全球规模微生物资源(SPIRE)的物种代表 (Schmidt et al. 2024)
- 土壤微生物基因组目录(SMAG)的物种代表 (Ma et al. 2023)
这些数据集按照上述顺序进一步去重复,并以标准化的方式处理,生成可以用于进一步分析的综合数据集。 目前,GlobDB 在对四个源数据集进行去重复后,包含 202,601 个(部分)微生物基因组。其中 GTDB 有 113,104 个基因组,GEM 有 10,662 个,SPIRE 有 66,971 个,SMAG 有 11,864 个基因组。 对于这 202,601 个基因组的全集,anvi’o 数据库、基因组 fasta、蛋白质(氨基酸)fasta 以及 KEGG/COG/Pfam 注释均可下载。
15.2.1 Anvi’o 是什么?
Anvi’o 是一个不断发展的软件生态系统,其组件经常在多项研究中被描述 (Eren et al. 2021)。包含 anvi’o 程序和工件(artifacts,在软件开发中,artifact 通常指的是开发过程中生成的文件或成果,如程序、文档等)。
Anvi’o 使用工件和软件搭建分析流程,并通过它们的标准化来是分析结果可复现。