Dataset Information

Improving in-silico normalization using read weights.

ABSTRACT: Specialized de novo assemblers for diverse datatypes have been developed and are in widespread use for the analyses of single-cell genomics, metagenomics and RNA-seq data. However, assembly of large sequencing datasets produced by modern technologies is challenging and computationally intensive. In-silico read normalization has been suggested as a computational strategy to reduce redundancy in read datasets, which leads to significant speedups and memory savings of assembly pipelines. Previously, we presented a set multi-cover optimization based approach, ORNA, where reads are reduced without losing important k-mer connectivity information, as used in assembly graphs. Here we propose extensions to ORNA, named ORNA-Q and ORNA-K, which consider a weighted set multi-cover optimization formulation for the in-silico read normalization problem. These novel formulations make use of the base quality scores obtained from sequencers (ORNA-Q) or k-mer abundances of reads (ORNA-K) to improve normalization further. We devise efficient heuristic algorithms for solving both formulations. In applications to human RNA-seq data, ORNA-Q and ORNA-K are shown to assemble more or equally many full length transcripts compared to other normalization methods at similar or higher read reduction values. The algorithm is implemented under the latest version of ORNA (v2.0, https://github.com/SchulzLab/ORNA ).

SUBMITTER: Durai DA

PROVIDER: S-EPMC6435659 | biostudies-literature | 2019 Mar

REPOSITORIES: biostudies-literature

ACCESS DATA

Publications

Improving in-silico normalization using read weights.

Durai Dilip A DA Schulz Marcel H MH

Scientific reports 20190326 1

Specialized de novo assemblers for diverse datatypes have been developed and are in widespread use for the analyses of single-cell genomics, metagenomics and RNA-seq data. However, assembly of large sequencing datasets produced by modern technologies is challenging and computationally intensive. In-silico read normalization has been suggested as a computational strategy to reduce redundancy in read datasets, which leads to significant speedups and memory savings of assembly pipelines. Previously ...[more]

PMID: 30914698

Dataset Information

Improving in-silico normalization using read weights.

Publications

Improving in-silico normalization using read weights.

Similar Datasets

OmicsDI is part of the ELIXIR infrastructure

Tweets

Similar Datasets

In silico read normalization using set multi-cover optimization.
| S-EPMC6157080 | biostudies-literature

Improving read mapping using additional prefix grams.
| S-EPMC3927682 | biostudies-literature

Improving precision in concept normalization.
| S-EPMC5730334 | biostudies-literature

Improving North Atlantic Marine Core Chronologies Using <sup>230</sup>Th Normalization.
| S-EPMC6774303 | biostudies-literature

Improving PacBio long read accuracy by short read alignment.
| S-EPMC3464235 | biostudies-literature

Ultra-deep mutant spectrum profiling: improving sequencing accuracy using overlapping read pairs.
| S-EPMC3599684 | biostudies-literature

voom: Precision weights unlock linear model analysis tools for RNA-seq read counts.
| S-EPMC4053721 | biostudies-literature

dsRID: in silico identification of dsRNA regions using long-read RNA-seq data.
| S-EPMC10628436 | biostudies-literature

Improving Functional Connectome Fingerprinting with Degree-Normalization.
| S-EPMC8978572 | biostudies-literature

LSCplus: a fast solution for improving long read accuracy by short read alignment.
| S-EPMC5103424 | biostudies-literature