背景
單倍劑量不足指一個等位基因突變或者缺失后后,另一個等位基因能正常表達,但這種基因表達翻譯后的蛋白水平只有正常的50%,不足以維持正常的生理功能,導(dǎo)致特定表型出現(xiàn)。導(dǎo)致單倍劑量不足的原因有多種,比如一個基因的拷貝發(fā)生缺失,或者突變導(dǎo)致不能產(chǎn)生正常的mRNA,或者特殊情況下mRNA或蛋白質(zhì)不穩(wěn)定導(dǎo)致降解等。單倍劑量不足現(xiàn)象是導(dǎo)致遺傳病發(fā)生的一個原因。哪些基因會發(fā)生單倍劑量不足呢?目前單倍劑量不足數(shù)據(jù)來源主要有3個方面:基于疾病的研究、生信軟件預(yù)測和高通量篩查。
/
一、基于疾病的研究
最直接的數(shù)據(jù)來源便是基于疾病的研究,典型的數(shù)據(jù)庫為OMIM數(shù)據(jù)庫。研究報道中顯示,在篩選出的299個人類單倍型劑量不足的基因中,有88個基因只在OMIM數(shù)據(jù)庫中顯示;94個基因只在文獻中進行了報道;另外117個基因在OMIM與文獻中顯示了一致的結(jié)果。此外,有多個疾病數(shù)據(jù)庫都對單倍劑量不足有所記載(表1)。
表1. 搜集單倍劑量不足的數(shù)據(jù)庫
二、生信軟件預(yù)測
基于疾病的研究獲得的數(shù)據(jù)庫記錄范圍有限,為了滿足基因檢測的需要,使用一種覆蓋更全面的方法很有必要,因此從生物信息學(xué)的角度便產(chǎn)生了相應(yīng)的預(yù)測軟件。
最早單倍劑量不足預(yù)測工作的文獻發(fā)表于2010年,基本流程為:從數(shù)據(jù)庫中獲取相關(guān)基因及其特性;根據(jù)數(shù)據(jù)庫中搜集的存在單倍劑量不足的基因信息構(gòu)建訓(xùn)練模型;使用該模型掃描基因組中蛋白編碼基因預(yù)測單倍劑量不足基因(圖1)。
圖1. 單倍劑量不足基因預(yù)測模型
目前,已有多種單倍劑量不足預(yù)測方法,通過這些方法發(fā)現(xiàn)了很多潛在的相關(guān)基因(表2)。
表2. 單倍劑量不足基因預(yù)測模型
HIPred軟件的作者比較了7款相關(guān)軟件,結(jié)果顯示,該軟件各項指標都顯示了最好的性能(表3)。
表3. 七款單倍劑量不足基因預(yù)測軟件性能比較
三、高通量篩查
模型預(yù)測的方法可以發(fā)現(xiàn)一些單倍劑量不足的基因,但是也存在一定的不足:預(yù)測結(jié)果受訓(xùn)練模型數(shù)據(jù)庫信息的影響。因此,高通量篩查的方法得到了廣泛應(yīng)用,常用技術(shù)手段為CRISPR。已有研究單位通過此方法對所有人類已知的基因進行了研究。基本流程為:通過CRISPR對單倍體細胞文庫的指定基因進行敲除;敲除后的細胞文庫與另一個未進行敲除的單倍型細胞文庫融合;進行細胞培養(yǎng)并檢查細胞活性(圖2)。
圖2. 基于CRISPR的單倍劑量不足基因鑒定流程
通過篩查,共篩選出650個比較重要的單倍劑量不足基因,包含之前已有的基因與新發(fā)現(xiàn)的基因,并且用于軟件預(yù)測模型建立的基因列表也存在于650個基因中,表明此方法具有較高的可靠性(圖3)。
圖3. 基于CRISPR方法篩選出來的650個單倍劑量不足基因
結(jié)論
單倍劑量不足現(xiàn)象是導(dǎo)致遺傳病發(fā)生的一個原因,我們可以通過數(shù)據(jù)庫查找、軟件預(yù)測、高通量篩查的方法判斷基因是否為單倍劑量不足,選擇合適的方法可以對基因及其致病性進行解讀,判斷基因型對個體的影響。
參考文獻
(1) Dang, V . T., Kassahn, K. S., Marcos, A. E. & Ragan, M. A. Identification of human haploinsufficient genes and their genomic proximity to segmental duplications. Eur J Hum Genet 16, 1350–1357 (2008).
(2) Huang, N., Lee, I., Marcotte, E. M. & Hurles, M. E. Characterising and predicting haploinsufficiency in the human genome. PLoS Genet 6, e1001154 (2010).
(3) Steinberg, J., Honti, F., Meader, S. & Webber, C. Haploinsufficiency predictions without study bias. Nucleic Acids Res 43, e101 (2015).
(4) Huang, N., Lee, I., Marcotte, E. M. & Hurles, M. E. Characterising and predicting haploinsufficiency in the human genome. PLoS Genet 6, e1001154 (2010).
(5) Steinberg, J., Honti, F., Meader, S. & Webber, C. Haploinsufficiency predictions without study bias. Nucleic Acids Res 43, e101 (2015).
(6) Han X , Chen S , Flynn E D , et al. Distinct Epigenomic Patterns Are Associated with Haploinsufficiency and Predict Risk Genes of Developmental Disorders[J]. Cold Spring Harbor Laboratory, 2017(1).
(7) Shihab HA, Rogers MF, Campbell C, Gaunt TR. HIPred: an integrative approach to predicting haploinsufficient genes. Bioinformatics. 2017 Jun 15;33(12):1751-1757.
(8) Sarel-Gallily R, Golan-Lev T, Yilmaz A, Sagi I, Benvenisty N. Genome-wide analysis of haploinsufficiency in human embryonic stem cells. Cell Rep. 2022 Mar 29;38(13):110573.