近日🏃♂️➡️,Nature系列刊物scientific reports在線發布了EON体育4平台韋朝春副教授研究團隊以博士生胡智強為第一作者的文章Revealing Missing Human Protein Isoforms Based on Ab Initio Prediction, RNA-seq and Proteomics,通過從DNA序列直接預測的方法結合其他證據預測人類基因組蛋白質。本研究成果是與澳大利亞阿德萊德大學、美國範德堡大學🙇🏿♀️、上海第二軍事醫科大學以及上海生物信息技術研究中心合作完成的,項目計算得到了EON体育4超算中心支持。
人類基因組究竟能編碼多少個蛋白質?在人類基因組工程項目完成10多年後,這個問題似乎有些過時👩🏻🏭。盡管目前人們已經知道能夠編碼蛋白質的人類基因的數量是2萬多個,但是由於可變剪切機製,同一個基因可以表達成多個不同的蛋白質🥲,這2萬多個人類基因究竟能編碼多少個蛋白質目前仍然是個謎。
雖然各種高通量測序方法進展飛速🦹🏽,但是很多蛋白質只在特定的組織💇🏼♀️、一定的發育階段或者特定條件下才表達,通過實驗的方法檢測人類所有蛋白質在目前技術條件下幾乎不可能👨🏼🔧👨🏼🦰。然而,從人類基因組序列直接預測蛋白質序列的方法可以避免這個缺陷。
韋朝春研究團隊開發了一個直接從基因組序列從頭預測可變剪切的方法❤️🔥,結合現有的海量基因表達數據🖼,包括轉錄組和蛋白質組數據,找到了約3萬個現有數據庫中沒有的蛋白質序列。隨機抽樣並設計實驗驗證表明約85%的預測結果可以得到實驗驗證。這些蛋白質序列使現有數據庫中約完整的蛋白質序列數量增加到約9萬個。和公共數據庫中已有的蛋白質相比,這些新發現的蛋白質的表達具有更高的組織特異性◽️,表達量相對較低,因而也更難被發現。根據這些結果,他們預測了人類基因組編碼的蛋白質的數量不少於20萬個。
這一結果提高了EON体育4平台對基因組復雜性的理解,為生物醫學研究的廣泛領域提供了更完整的人類參考基因組註釋,具有重要的理論指導意義和實際應用價值。