无患子科(Sapindaceae Juss.)归属于无患子目。该科植物包含141个属,覆盖1900多个种,大多分布在热带和亚热带地区,包括乔木、灌木,有时为草质或木质藤本。许多无患子科植物具有重要的经济价值,如荔枝、龙眼、文冠果、枫树、七叶树等。荔枝是世界上第二重要的热带和亚热带果树,特别是在南亚地区具有很大的经济价值。
近十年来,随着高通量测序技术和基因组技术的飞速发展,许多无患子科植物的全基因组序列已经得到解析,并生成了海量的组学数据。其中,华南农大园艺学院今年发表在Nature genetics上的荔枝基因组文稿引起了各界人士的关注。为了确保这些无患子科多组学数据的快速访问和最大化利用,急需一个统一的数据平台来收集、管理和共享相关的数据资源。华南农大夏瑞课题组构建了一个集数据访问、数据分析和结构可视化为一体的基因组数据库SapBase (Sapindaceae genome dataBase, www.sapindaceae.com),旨在提供:
l最全的无患子科植物基因组资源数据库;
l最便捷的无患子科植物基因表达数据库;
l最美观的无患子科基因数据可视化工具.
Fig. 1. SapBase主页
迄今为止,SapBase已经收录7种无患子科物种的基因组资源,其中涵盖了16个全基因组序列。此外,我们从公开发表的约50项研究中收集了>400个重测序数据和~1000个RNA-seq数据。所有的这些资源都通过统一标准的分析流程进行处理与存储,SapBase提供了系列用户友好的使用界面与功能,公开向广大研究人员分享,以期让所有人能够便捷且高效地使用这些数据。
Fig. 2. 收录数据与功能
SapBase不仅仅是一个数据存储与共享的中心,也是无患子科植物功能基因组学与比较基因组学的强大在线分析平台,覆盖了系列实用功能。
在线分析功能简介
Meta Search
作为一个多功能资源中心,SapBase提供了一个“Google-like”搜索引擎——Meta Search,用户可以使用任意关键词(包括但不限于:GeneID、Gene Name、功能注释、序列、保守结构域等)为基础进行检索。SapBase会自动识别输入内容,进行数据搜索,并返回最佳匹配结果。
Fig. 3. Meta Search示例
BLAST
SapBase提供了一个强大的在线Blast功能,收录了已发表所有无患子科植物的16个全基因组信息。用户可以对这些物种进行核酸序列和蛋白序列的Blast分析。
此外,考虑到果树作为非模式植物,许多基因都没有得到很好的功能注释。因此SapBase在Blast库中也收录了模式植物拟南芥的基因组信息以及SwissProt功能注释库,最大程度地方便用户对任意基因的功能进行探索。
Fig. 4. Blast示例
ID Mapping
SapBase提供了一个实用的基因转换功能,用于将无患子科植物的基因映射到国内外研究最广泛的植物物种(例如拟南芥、水稻、柑橘、番茄等)中的最佳同源基因。
Fig. 5. ID Mapping示例
基因表达功能模块
SapBase收录了目前所有公开的无患子科转录组数据,使用统一标准的分析流程对其进行表达量分析,开发了一个强大的在线基因表达分析系统,其包含三大功能模块:
1)Spatiotemporal Expression in eFP功能提供了一组可交互的图形化热图,允许用户直观地探索任意基因在不同组织中的表达模式;
Fig. 6. Spatiotemporal Expression in eFP示例
2)Multiple Experiment Comparison功能以“Study”为单位进行划分,能够让用户任意探索感兴趣的基因或者基因集在不同实验,不同处理中的表达情况。
Fig. 7. Spatiotemporal Expression in eFP示例
3)Co-Expression。SapBase基于WGCNA对收录的公共转录组数据进行共表达网络分析,同样以不同的“Study”为单位,用户可以在这些不同的研究中查询某个基因的共表达情况。
Fig. 8. Co-Expression示例
Gene Location Viewer
用户只需要选定物种并提供基因ID,便能够通过Gene Location Viewer可视化无患子科植物中任意基因或基因集在染色体上的分布图。
Fig. 9. Gene Location Viewer示例
Synteny analysis
用户能够通过输入基因ID,快速地在Synteny analysis功能中分析任意基因在无患子科物种中的共线性情况。
Fig. 10. Synteny Analysis示例
Protein Interaction Network
在Protein Interaction Network功能中,用户可以进行蛋白质互作分析。SapBase提供了两种分析模式:a)探索任意基因在选定物种中所有可能的蛋白互作关系;b)探索任意指定基因集之间的蛋白互作关系。
Fig. 11. Synteny Analysis示例
Transcription Factors
SapBase基于iTAK软件对收录的所有无患子科物种进行了大规模的转录因子家族和激酶家族鉴定。用户可以通过Transcription Factors功能浏览和检索这些信息,点击某个感兴趣的转录因子家族,便可跳转查看该家族中包含的所有基因信息以及单个基因的详细信息。
Fig. 12. Transcription Factors示例
Pathway Analysis
Pathway Analysis支持用户快速地分析任意指定基因集合的KEGG通路分析,并通过可交互的通路图进行展示。
Fig. 13. Pathway Analysis示例
Homolog Find
Homolog Find以拟南芥基因为基准,支持用户输入单个拟南芥基因或基因集,在所选定无患子科物种中进行同源基因鉴定。此外,还会进一步对拟南芥基因和鉴定得到的同源基因构建系统发育树,为用户提供可信度最高的同源基因鉴定结果。
Fig. 14. Homolog Find示例
sRNA Target Prediction
sRNA Target Prediction提供了sRNA靶基因预测功能,支持两种预测模式:a)用户以fasta格式输入sRNA序列,选定要分析的物种,然后对该物种的所有基因进行靶基因预测分析;b)用户以fasta格式输入基因序列(或者直接输入基因ID),选定物种,从而预测输入基因中所有潜在的sRNA靶位点。
Fig. 15. sRNA Target Prediction示例
Primer Design
引物设计是一个使用频率非常高的功能,SapBase提供了无患子科物种的引物设计模块,方便用户快速地进行引物设计。
Fig. 16. Primer Design示例
Download
为了方便共享SapBase收录的无患子科基因组信息,我们提供了一个用户友好的Download界面,以期用户能够便捷地获取任意感兴趣物种的基因组数据。
Fig. 17. Download示例
总结
总的来说,华南农大夏瑞课题组对公开发布的7个无患子科物种的基因组和相关组学数据进行了收集与分析,开发了无患子科基因组数据库——SapBase,为无患子科所有基因组和相关数据资源提供一站式服务,确保研究人员在日常研究中能够方便、高效地访问和使用这些资源。作为一个长期的开发项目,SapBase将持续地维护和更新。我们有信心将其打造成无患子科和相关领域研究人员的数据中心和分析平台。
目前SapBase相关文稿已经在线发表于bioRxi(https://www.biorxiv.org/content/10.1101/2022.11.25.517904v1):