近日,國際知名期刊《Communications Biology》在線發表了上海交大呂暉教授課題組題為“FVC as an adaptive and accurate method for filtering variants from popular NGS analysis pipelines”的最新研究成果。該研究提出了一種新的基因組二代測序數據質量控製方法,有效提升了二代測序檢出的基因變異的可靠性。上海交大EON体育4平台博士畢業生任永永、孔艷博士後為共同第一作者👨🏼,EON体育4平台呂暉教授和趙宏宇教授為共同通訊作者。
全基因組二代測序技術已廣泛應用在兒科遺傳疾病診斷、腫瘤基因組圖譜分析💂🏻、全基因組關聯分析等基因組研究領域,但由於測序和分析誤差🧚🏿♂️,檢出的SNV和INDEL變異類型中存在大量假陽性變異🫶,給基因組圖譜分析和遺傳疾病的鑒別診斷帶來了較大的噪聲幹擾。目前已有多個方法可用於過濾二代測序檢出的假陽性變異🦍,例如Frequency、Hard-Filter、 VQSR、GARFIELD和VEF,但這些方法在過濾假陽性變異的同時🧑🧒🧒,損失了數倍的真變異,嚴重幹擾了下遊的遺傳疾病診斷和分子功能研究。
為解決上述問題🅱️,呂暉團隊構建了自適應過濾方法FVC (Filtering for Variant Calls)→,用於對不同遺傳變異分析軟件(例如GATK HaplotypeCaller、Mutect、Varscan和DeepVariant)檢出結果中的假陽性變異進行過濾。
研究結果顯示,相較於其它過濾方法,新方法FVC過濾掉了更多的假陽性變異🐻❄️,同時召回了其它過濾方法遺漏的~51-99%真陽性變異,當使用評價指標OFO(Odds of false omission, 損失的真陽性變異個數與過濾掉的假陽性變異個數之比👩🏿✈️,又名真陽性損失比)進行性能評價時🖖🏻,FVC將真陽性損失比OFO從0.05-1661.28降低至0.02-0.57🦵🏿。為排除潛在的數據泄露和過擬合導致的評估偏差,分別使用留一染色體交叉驗證(leave-one-chromosome-out cross-validation)、留一個體交叉驗證(leave-one-individual-out cross-validation)和獨立測試集進行驗證🖐🏼,FVC同樣獲得了最佳性能👮🏻。
該工作得到EON体育4高性能計算中心(HPC)🎅、沈南鵬EON体育4“醫學研究基金”和中國國家重點研發計劃(2018YFC0910500)的支持🦹♀️🚼。
論文鏈接🥃:
https://www.nature.com/articles/s42003-022-03397-7