PHARP: справочная панель гаплотипов свиней для определения генотипа. | Гуйянская компания по производству свиней, ООО

Научные отчеты, том 12, Номер статьи: 12645 (2022) Цитировать эту статью

1595 Доступов

7 цитат

1 Альтметрика

Подробности о метриках

Авторская поправка к этой статье была опубликована 17 августа 2022 г.

Эта статья обновлена

Свиньи не только служат основным источником мяса во всем мире, но также широко используются в качестве модели животного для изучения сложных черт человека. Большая справочная панель гаплотипов использовалась для облегчения эффективного поэтапного определения и вменения относительно редких чипов микрочипов по всему геному и данных секвенирования с низким охватом. Использование вмененных генотипов в последующем анализе, таких как GWAS, TWAS, картирование eQTL и геномное предсказание (GS), полезно для получения новых результатов. Однако в настоящее время по-прежнему не хватает общедоступных и высококачественных справочных панелей по свиньям с большими размерами выборок и высоким разнообразием, что значительно ограничивает применение импутации генотипа у свиней. В ответ мы создали базу данных Справочной панели гаплотипов свиней (PHARP). PHARP предоставляет справочную панель гаплотипов свиней 2012 года, состоящую из 34 миллионов SNP, созданную с использованием данных полногеномной последовательности из более чем 49 исследований 71 породы свиней. Он также предоставляет аналитические веб-инструменты, которые позволяют исследователям последовательно и эффективно выполнять поэтапное определение и вменение данных. PHARP находится в свободном доступе по адресу http://alphaindex.zju.edu.cn/PHARP/index.php. Мы продемонстрировали его применимость для коммерческих массивов 50 K SNP свиней, точно вменив 2,6 миллиарда генотипов при значении коэффициента конкордантности 0,971 у 81 крупной белой свиньи (~ 17 × охват секвенированием). Мы также применили нашу справочную панель, чтобы сопоставить чип SNP с низкой плотностью с данными с высокой плотностью для трех GWAS, и обнаружили новые значительно связанные SNP, которые могут быть случайными вариантами.

За последнее десятилетие из-за быстрого развития высокопроизводительных технологий генотипирования, например, массивов однонуклеотидного полиморфизма (SNP)1, секвенирования с уменьшенным представлением (RRS)2,3 и полногеномного секвенирования (WGS)4, полногеномного секвенирования Ассоциативные исследования (GWAS) обнаружили тысячи локусов, связанных со сложными признаками в геномах животных5 и человека. На сегодняшний день, учитывая высокую стоимость генотипирования полногеномного секвенирования тысяч и более животных, большинство GWAS по-прежнему используют технологии генотипирования низкой плотности (в десятках тысяч сайтов), такие как массивы SNP или RRS. GWAS, основанные на панелях SNP низкой плотности, оказались успешными с точки зрения обнаружения тысяч локусов, которые были статистически связаны с рисками заболеваний и признаками, и большое количество этих локусов хорошо реплицируются, что указывает на то, что они являются истинными ассоциациями6. Однако, поскольку часто существует множество совместно наследуемых вариантов с сильным неравновесием по сцеплению (LD) с наиболее значимым вариантом, связанным с признаком (lead-SNP), ассоциация локуса с заболеванием/признаком не определяет, какой вариант в этом локусе на самом деле вызывает ассоциацию (т. е. «причинный вариант»). Как следствие, может потребоваться представление генетической области с более высоким разрешением, полученное путем добавления дополнительных вариантов, чтобы определить, какие из связанных вариантов являются функциональными. Таким образом, генотипы с высокой плотностью (не менее одного миллиона сайтов) необходимы для картирования GWAS, TWAS или eQTL, чтобы обеспечить более глубокое понимание биологии заболеваний/признаков.

Вменение генотипа - более экономичный способ получить генотип высокой плотности. Несколько методов вменения — например, BEAGLE7, IMPUTE28, Minimac49 и GLIMPSE10 — были разработаны для вывода ненаблюдаемых генотипов у одного человека на основе оцененных гаплотипов в контрольной панели, которая включает большое количество маркеров. Вменение генотипа может быть полезным11 для точного картирования, увеличивая шансы на идентификацию причинного варианта, метаанализа, облегчающего объединение результатов исследований с использованием различных массивов генотипирования, и увеличения мощности ассоциативных исследований за счет увеличения эффективного размера выборки. Поэтому он широко используется в генетических исследованиях, особенно у людей6, которые обычно включают генотипирование SNP в микрочипах для генотипирования ДНК (низкой плотности), а затем импутацию генотипов на десятках миллионов дополнительных сайтов на основе наличия большой когорты общедоступных справочные панели гаплотипов (HRP), например, Проект «1000 геномов»12 и Консорциум справочных гаплотипов (HRC)13.

0.92), suggesting high imputation accuracy. Compared to the test dataset 1, the test dataset 3 (with an average depth of 1×, Duroc pig breed) had a slightly decreased imputation accuracy (mimicking a 50 K chip, CR 0.93, r2 = 0.88), possibly caused by a low density of SNPs (sites covered by the 50 K chip that were kept after quality control were less abundant than those in test dataset 1) and false genotyping of heterozygotes resulting from low coverage. We also investigated the imputation performance for a pig breed (JXH) that is not covered in PHARP and found that, as expected, imputation accuracy decreased (mimicking a 50 K chip, CR 0.81, r2 = 0.49) because of low genetic similarity between the reference and imputed panels. To overcome this limitation, we will substantially increase the ancestral diversity of the panel by sequencing more pig breeds in the future. Second, imputation accuracy increases with an increasing SNP density in the imputed panel and grows slowly after the SNP density surpasses 60 kb per SNP (Fig. 2B), implying that the SNP density of the most popular SNP array chips with well represented SNPs (e.g., 50 K, 60 K and 80 K, with SNP densities of 1.67 ~ 2 SNP per 100 kb) might be enough to achieve high imputation accuracy for these imputed sites. Moreover, under the similar SNP density between commercial chips (e.g., 50 K SNP chip, CR 0.97 and 0.93 for LW and DU, Fig. 2A) and sparse sequencing data (CR was approximate to 0.92, 60 Kb per SNP, Fig. 2B, Supplementary Table S3), commercial chips could achieve a better imputation performance. It probably because that the representation of SNPs is better in commercial chips (well selected with prior knowledge) than that called from sparse sequencing data. Third, PHARP is able to accurately impute genotypes of rare variants. The r2 value is still high under a low MAF ((0,0.02], CR 0.996, r2 = 0.76; (0.02, 0.05], CR 0.99, r2 = 0.85; mimicking the 50 K chip, test dataset 1). Fourth, PHARP has a better imputation performance than the publicly available pig reference panel in Animal-ImputeDB. The imputation accuracy as assessed by the CR r2 value could be improved from 0.85 (Animal-ImputeDB, r2 = 0.7) to 0.93 (PHARP, r2 = 0.84) (test dataset 4, 20 Duroc pigs, 50 K), probably because of the large increase in the sample size in PHARP (n = 1006). We are planning to sequence dozens of breeds that are not included in the first release of PHARP and add more pig WGS data that are publicly available worldwide to enlarge the ancestral diversity and sample size. Therefore, we expect to be able to make future gains in imputation performance./p> 60.0, MQ < 40.0, MQRankSum < − 12.5, ReadPosRankSum < − 8.0, SOR > 3.0”; (2) a minor allele frequency (MAF) < 0.01; and (3) a call rate < 0.9 using GATK VariantFiltration. After applying these filters, in total 34,135,654 SNPs of autosomes were retained in the final site list./p> 0.4 before association testing./p>