中文

English

探秘尊龙凯时全基因组关联分析数据质控

发布时间:2025-07-30   信息来源:尊龙凯时官方编辑

在上一期中,我们分享了进行GWAS分析所需的数据格式,以及不同格式之间的转换。现在,随着表型数据和基因数据的准备就绪,您是否迫不及待想要进行关联分析呢?别着急,因为为了提高分析结果的准确性,我们需要对数据进行质控,剔除不合格的样本和变异数据。

探秘尊龙凯时全基因组关联分析数据质控

1. SNP及个体缺失过滤

人工采集的数据可能存在某些位点的基因型及个体基因数据缺失(直接去掉表型缺失的数据),这些缺失数据会影响关联分析的准确性。因此,我们需要控制缺失率在合理的标准之内。建议首先以较宽松的阈值(0.2;20%)进行初步过滤,以剔除缺失程度高的SNP和个体,随后再使用更严格的阈值(0.02;2%)进行再次过滤。

# SNP缺失过滤plink --noweb --bfile ${project}rawmark --geno 0.2 --allow-no-sex --make-bed --out ${project}filtermds1# 个体缺失过滤plink --noweb --bfile ${project}filtermds1 --mind 0.2 --allow-no-sex --make-bed --out ${project}filtermds2

注意:请确保在上述步骤中,使用更严格的参数再次过滤。

2. 性别和亲缘关系检测(可选)

性别检测基于X染色体同源性的估计。一般来说,女性受试者的F值应<0.2,男性受试者的F值应>0.8。未满足这些要求的样本将被标记为“PROBLEM”。

# 性别检测plink --noweb --bfile ${project}rawmark --check-sex

结果会保存至plinksexcheck文件中,您可以提取性别异常个体。

# 提取性别异常个体grep "PROBLEM" plinksexcheck | awk '{print $1, $2}' > sex_removelist.txt

对于亲缘关系检测,我们基于遗传信息来判断样本的亲缘关系,其指标分为状态同源(IBS)和血缘同源(IBD)。IBD通常无法直接观察,但可以通过IBS计算。

# 亲缘关系检测plink --noweb --bfile ${project}rawmark --genome

结果保存在plinkgenome文件中,您可以提取亲缘关系异常的样本。

# 提取亲缘关系异常样本sed 's/^\s\+//' plinkgenome | sed 's/\s\+/\t/g' | awk -v dst=0.85 'NR>2{if($12>dst){print $1,$2; print $3,$4}}' | sort | uniq > genome_removelist.txt

3. 哈迪-温伯格平衡过滤

哈迪-温伯格法则在群体遗传学中是一个重要原理,表明在特定条件下基因频率和基因型频率将保持不变。可以通过PLINK进行HWE的检测。

# HWE过滤plink --noweb --bfile ${project}rawmark --hwe 1e-10 --hwe-all --make-bed --out ${project}filterhaw

4. 最小等位基因频率过滤

最小等位基因频率(MAF)表示某一等位基因在特定人群中的发生频率。设置一个合理的MAF阈值,通常建议不低于0.05,以确保有足够的变异信息用于关联分析。

# MAF过滤plink --noweb --bfile ${project}rawmark --maf 0.05 --allow-no-sex --make-bed --out ${project}filtermaf

5. 群体分层

群体分层是分析差异的重要来源,代表case/control组的样本基于不同的祖先群体,可能导致不同的SNP频率,从而在关联分析中产生假阳性。为了消除这一影响,必须在分析前进行校正。

# 主成分分析plink --noweb --bfile ${project}rawmark --pca 10 --out pca

根据主成分分析的结果进行可视化,识别离群样本,并记录至pca_removelist.txt中。

# 删除离群个体(可选)plink --noweb --bfile ${project}rawmark --remove pca_removelist.txt --make-bed --out ${project}filterpc

6. 杂合性过滤

杂合性是指在一个位点上含有多种不同等位基因的状态。杂合度常被用作群体遗传多态性的度量。使用PLINK进行连锁过滤以获得不连锁的SNP,随后进行杂合性分析。

# 连锁过滤plink --noweb --bfile ${project}rawmark --indep-pairwise 50 5 0.2 --out indepSNP# 杂合性分析plink --noweb --bfile ${project}rawmark --extract indepSNP.prune.in --het --out hetSNP

接着提取杂合度较高的个体,记录至hetSNP_removelist.txt中,并考虑是否删除杂合度高的个体。

# 删除杂合度高的个体(可选)plink --noweb --bfile ${project}rawmark --remove hetSNP_removelist.txt --make-bed --out ${project}filterhet

以上便是本期的分享内容。下期我们将深入探讨尊龙凯时的GWAS关联分析,敬请期待!