Dataset Information

Gclust: A Parallel Clustering Tool for Microbial Genomic Data.

ABSTRACT: The accelerating growth of the public microbial genomic data imposes substantial burden on the research community that uses such resources. Building databases for non-redundant reference sequences from massive microbial genomic data based on clustering analysis is essential. However, existing clustering algorithms perform poorly on long genomic sequences. In this article, we present Gclust, a parallel program for clustering complete or draft genomic sequences, where clustering is accelerated with a novel parallelization strategy and a fast sequence comparison algorithm using sparse suffix arrays (SSAs). Moreover, genome identity measures between two sequences are calculated based on their maximal exact matches (MEMs). In this paper, we demonstrate the high speed and clustering quality of Gclust by examining four genome sequence datasets. Gclust is freely available for non-commercial use at https://github.com/niu-lab/gclust. We also introduce a web server for clustering user-uploaded genomes at http://niulab.scgrid.cn/gclust.

SUBMITTER: Li R

PROVIDER: S-EPMC7056916 | biostudies-literature | 2019 Oct

REPOSITORIES: biostudies-literature

ACCESS DATA

Publications

Gclust: A Parallel Clustering Tool for Microbial Genomic Data.

Li Ruilin R He Xiaoyu X Dai Chuangchuang C Zhu Haidong H Lang Xianyu X Chen Wei W Li Xiaodong X Zhao Dan D Zhang Yu Y Han Xinyin X Niu Tie T Zhao Yi Y Cao Rongqiang R He Rong R Lu Zhonghua Z Chi Xuebin X Li Weizhong W Niu Beifang B

Genomics, proteomics & bioinformatics 20191001 5

The accelerating growth of the public microbial genomic data imposes substantial burden on the research community that uses such resources. Building databases for non-redundant reference sequences from massive microbial genomic data based on clustering analysis is essential. However, existing clustering algorithms perform poorly on long genomic sequences. In this article, we present Gclust, a parallel program for clustering complete or draft genomic sequences, where clustering is accelerated wit ...[more]

PMID: 31917259

Dataset Information

Gclust: A Parallel Clustering Tool for Microbial Genomic Data.

Publications

Gclust: A Parallel Clustering Tool for Microbial Genomic Data.

Similar Datasets

OmicsDI is part of the ELIXIR infrastructure

Tweets

Similar Datasets

flowEMMi: an automated model-based clustering tool for microbial cytometric data.
| S-EPMC6902487 | biostudies-literature

Parallel clustering algorithm for large-scale biological data sets.
| S-EPMC3976248 | biostudies-literature

Modulated modularity clustering as an exploratory tool for functional genomic inference.
| S-EPMC2673040 | biostudies-literature

Massively parallel unsupervised single-particle cryo-EM data clustering via statistical manifold learning.
| S-EPMC5546606 | biostudies-literature

ClustAGE: a tool for clustering and distribution analysis of bacterial accessory genomic elements.
| S-EPMC5910555 | biostudies-literature

Clustering-independent analysis of genomic data using spectral simplicial theory.
| S-EPMC6897424 | biostudies-literature

BioCluster: tool for identification and clustering of Enterobacteriaceae based on biochemical data.
| S-EPMC4563349 | biostudies-literature

Cryfa: a secure encryption tool for genomic data.
| S-EPMC6298042 | biostudies-literature

Simultaneous deep generative modeling and clustering of single cell genomic data.
| S-EPMC8223760 | biostudies-literature

seGMM: A New Tool for Gender Determination From Massively Parallel Sequencing Data.
| S-EPMC8930203 | biostudies-literature