Dataset Information

Estimating disease prevalence in large datasets using genetic risk scores.

ABSTRACT: Clinical classification is essential for estimating disease prevalence but is difficult, often requiring complex investigations. The widespread availability of population level genetic data makes novel genetic stratification techniques a highly attractive alternative. We propose a generalizable mathematical framework for determining disease prevalence within a cohort using genetic risk scores. We compare and evaluate methods based on the means of genetic risk scores' distributions; the Earth Mover's Distance between distributions; a linear combination of kernel density estimates of distributions; and an Excess method. We demonstrate the performance of genetic stratification to produce robust prevalence estimates. Specifically, we show that robust estimates of prevalence are still possible even with rarer diseases, smaller cohort sizes and less discriminative genetic risk scores, highlighting the general utility of these approaches. Genetic stratification techniques offer exciting new research tools, enabling unbiased insights into disease prevalence and clinical characteristics unhampered by clinical classification criteria.

SUBMITTER: Evans BD

PROVIDER: S-EPMC8575951 | biostudies-literature | 2021 Nov

REPOSITORIES: biostudies-literature

ACCESS DATA

Publications

Estimating disease prevalence in large datasets using genetic risk scores.

Evans Benjamin D BD Słowiński Piotr P Hattersley Andrew T AT Jones Samuel E SE Sharp Seth S Kimmitt Robert A RA Weedon Michael N MN Oram Richard A RA Tsaneva-Atanasova Krasimira K Thomas Nicholas J NJ

Nature communications 20211108 1

Clinical classification is essential for estimating disease prevalence but is difficult, often requiring complex investigations. The widespread availability of population level genetic data makes novel genetic stratification techniques a highly attractive alternative. We propose a generalizable mathematical framework for determining disease prevalence within a cohort using genetic risk scores. We compare and evaluate methods based on the means of genetic risk scores' distributions; the Earth Mov ...[more]

PMID: 34750397

Dataset Information

Estimating disease prevalence in large datasets using genetic risk scores.

Publications

Estimating disease prevalence in large datasets using genetic risk scores.

Similar Datasets

OmicsDI is part of the ELIXIR infrastructure

Tweets

Similar Datasets

Calibrated rare variant genetic risk scores for complex disease prediction using large exome sequence repositories.
| S-EPMC8494733 | biostudies-literature

Estimating prevalence of human traits among populations from polygenic risk scores.
| S-EPMC8670062 | biostudies-literature

Estimating the Prevalence and Genetic Risk Mechanisms of ARFID in a Large Autism Cohort.
| S-EPMC8221394 | biostudies-literature

Estimating risk of alcohol dependence using alcohol screening scores.
| S-EPMC2835806 | biostudies-literature

Estimating heritability and genetic correlations from large health datasets in the absence of genetic data.
| S-EPMC6890770 | biostudies-literature

Genetic Risk Scores Identify Genetic Aetiology of Inflammatory Bowel Disease Phenotypes.
| S-EPMC8218708 | biostudies-literature

Genetic Risk Scores for Complex Disease Traits in Youth.
| S-EPMC7439939 | biostudies-literature

Estimating disease prevalence using relatives of case and control probands.
| S-EPMC2933418 | biostudies-literature

Population-based prevalence and mutational landscape of von Willebrand disease using large-scale genetic databases.
| S-EPMC10579253 | biostudies-literature