1月24日,北京大學(xué)工學(xué)院教授朱懷球團(tuán)隊(duì)在bioRxiv預(yù)印版平臺(tái)發(fā)表《深度學(xué)習(xí)算法預(yù)測(cè)新型冠狀病毒的宿主和感染性》一文中指出,蝙蝠和水貂可能是新型冠狀病毒的兩個(gè)潛在宿主,水貂可能是中間宿主。
據(jù)朱懷球團(tuán)隊(duì)的研究表明,新型冠狀病毒與云南菊頭蝠中存在的RaTG13冠狀病毒一致性高達(dá)96%;另外,基于深度學(xué)習(xí)開發(fā)的VHP(病毒宿主預(yù)測(cè))方法預(yù)測(cè)的結(jié)構(gòu)化顯示,水貂的病毒的傳染性模式更接近新型冠狀病毒。
據(jù)悉,在此次研究中,該團(tuán)隊(duì)使用了基于深度學(xué)習(xí)模型的AI技術(shù)尋找病毒宿主。這可能是國(guó)內(nèi)首次在2019新型冠狀病毒的研究中使用深度學(xué)習(xí)AI取得成果。
01
AI加入抗擊疫情一線,深度學(xué)習(xí)尋找病毒宿主
一種前所未知的新型病毒出現(xiàn)后,確定病毒宿主是十分重要的。由于病毒復(fù)雜的多樣性,目前人類已知的病毒和對(duì)病毒本身的了解還遠(yuǎn)遠(yuǎn)不夠,大多數(shù)以人類為宿主的病毒,通常對(duì)人類造成生命安全威脅之后,才會(huì)進(jìn)一步引起人們的重視。
對(duì)一些本不以人類為宿主的病毒來說,其本身也可能突發(fā)變異,或者通過中間宿主也可感染至人類。因此,快速尋找鑒別未知病毒的宿主,能夠幫助人類了解病毒與宿主間的相互作用,以應(yīng)對(duì)突發(fā)變異等潛在威脅,從而有針對(duì)性的對(duì)病毒進(jìn)行預(yù)防和控制,具有重要意義。
為了檢測(cè)新病毒的潛在宿主和致病性,傳統(tǒng)的方法是基于通過建立病毒基因庫(kù),將新型病毒的DNA序列與已知病毒的基因序列做對(duì)比檢索,通過比較病毒DNA局部的相似性,從而做出對(duì)新病毒宿主的模糊預(yù)測(cè)。
北京大學(xué)朱懷球團(tuán)隊(duì)在對(duì)2019新型冠狀病毒的宿主研究和預(yù)測(cè)中,通過構(gòu)建VHP算法模型,將已經(jīng)提取的新型冠狀病毒的基因組,與已有病毒基因數(shù)據(jù)庫(kù)做數(shù)據(jù)檢索和對(duì)比。在算力的支持下,通過深度學(xué)習(xí)模型對(duì)病毒基因數(shù)據(jù)的廣域檢索,實(shí)現(xiàn)新型冠狀病毒自然宿主的尋找和預(yù)測(cè)。
02
VHP模型計(jì)算出新型冠狀病毒的感染性
朱懷球團(tuán)隊(duì)在bioRxiv預(yù)印版平臺(tái)發(fā)表的論文中稱:“為了構(gòu)建VHP模型,我們使用了一個(gè)雙路卷積神經(jīng)網(wǎng)絡(luò)用于預(yù)測(cè)病毒序列宿主;我們把病毒的宿主分為五種類型,包括植物、細(xì)菌、無脊椎動(dòng)物、脊椎動(dòng)物和人類;輸入病毒核苷酸序列,基于深度學(xué)習(xí)的VHP模型,將為每種宿主類型分別輸出5類結(jié)果,分別反映出新型冠狀病毒在每種類型中感染性。”
通過對(duì)VHP模型計(jì)算的結(jié)果分析,篩選的病毒宿主包括犬、豬、貂、龜和貓。研究人員經(jīng)過分析比較后認(rèn)為水貂的病毒的傳染性模式更接近新型冠狀病毒。
實(shí)際上,相比傳統(tǒng)的AI機(jī)器學(xué)習(xí)方法,AI深度學(xué)習(xí)的方法訓(xùn)練出的模型可以適用于多種不同類型的數(shù)據(jù),還可以結(jié)合多種來源的數(shù)據(jù),共同完成一個(gè)任務(wù)。
在基因數(shù)據(jù)中,并不是所有的數(shù)據(jù)都有準(zhǔn)確的高質(zhì)量數(shù)據(jù)標(biāo)簽,而通過深度生成模型,即使沒有高質(zhì)量標(biāo)簽的數(shù)據(jù)也能得到充分使用,從而使得模型能夠持續(xù)的提升性能。
因而,從AI深度學(xué)習(xí)的種類上來看,除了常見的有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),半監(jiān)督學(xué)習(xí)與強(qiáng)化學(xué)習(xí)更適合,也更需要醫(yī)學(xué)界、生物界更多的關(guān)注。
03
深度學(xué)習(xí)AI+醫(yī)療:應(yīng)用前景廣闊但也有局限性
在AI的應(yīng)用場(chǎng)景中,醫(yī)療行業(yè)是其應(yīng)用前景最為廣闊的行業(yè)之一。生物信息領(lǐng)域中,制藥企業(yè)的藥物研發(fā)、醫(yī)療設(shè)備收集的健康數(shù)據(jù)、病患者的診斷以及治療方案的確定都有深度學(xué)習(xí)型AI的應(yīng)用需求。
深度學(xué)習(xí)的本質(zhì),是一個(gè)復(fù)雜的AI學(xué)習(xí)算法。目前,深度學(xué)習(xí)應(yīng)用最為廣泛的是在計(jì)算機(jī)視覺以及語(yǔ)言識(shí)別領(lǐng)域。其中計(jì)算機(jī)視覺技術(shù)在醫(yī)療領(lǐng)域也有一定的應(yīng)用,如醫(yī)學(xué)影像的識(shí)別。
不過,深度學(xué)習(xí)在醫(yī)療領(lǐng)域的應(yīng)用也面臨現(xiàn)實(shí)應(yīng)用的局限性,其中之一就是分析過程缺乏解釋性。實(shí)際上,深度學(xué)習(xí)本質(zhì)上也是統(tǒng)計(jì)學(xué)習(xí)的一種,通過對(duì)已知數(shù)據(jù)的匯總和檢索,以算法的優(yōu)化達(dá)到某種結(jié)果的預(yù)測(cè)。
也就是說,深度學(xué)習(xí)算法得出的結(jié)果是概率學(xué)上對(duì)現(xiàn)有數(shù)據(jù)條件下的結(jié)果預(yù)測(cè),并不能給出“解題過程”只能給出結(jié)果。這也使得不可避免的出現(xiàn)一定的現(xiàn)實(shí)結(jié)果偏差。
以此次新型冠狀病毒宿主研究為例,在VHP模型計(jì)算給出結(jié)果后,篩選的病毒宿主包括犬、豬、貂、龜和貓,仍需要研究人員對(duì)比分析后得出進(jìn)一步的結(jié)論:水貂的病毒的傳染性模式更接近新型冠狀病毒。
04
技術(shù)之力亦需“跨越偏見”
此外,如果輸入數(shù)據(jù)樣本本身帶有“大數(shù)據(jù)偏見”,那么模型計(jì)算則會(huì)放大這種“偏見”,從而影響結(jié)果在現(xiàn)實(shí)場(chǎng)景中的準(zhǔn)確性。
對(duì)于基于深度學(xué)習(xí)的醫(yī)療AI而言,這樣的情況也很難以能夠說百分之百避免,特別是面對(duì)復(fù)雜龐大的醫(yī)療數(shù)據(jù)而言,這樣的“偏見”帶來的結(jié)果是人們難以接受的。
因而對(duì)于深度學(xué)習(xí)AI在醫(yī)療領(lǐng)域的落地,除了技術(shù)實(shí)現(xiàn)本身要解決的問題之外,由技術(shù)引發(fā)蝴蝶效應(yīng)也更應(yīng)該獲得關(guān)注。
從好的一面來看,深度學(xué)習(xí)型AI在醫(yī)療領(lǐng)域的落地,不啻為補(bǔ)充優(yōu)質(zhì)醫(yī)療資源的“良方”,同時(shí)深度學(xué)習(xí)AI以及大數(shù)據(jù)等新技術(shù)的應(yīng)用,也為人們?cè)谖磥砻鎸?duì)“新型冠狀病毒”之類的突發(fā)性傳染病給予技術(shù)的力量。
05
我們將生活在一個(gè)分析所有數(shù)據(jù)的時(shí)代
《大數(shù)據(jù)時(shí)代》作者維克托·邁爾-舍恩伯格前瞻性地預(yù)見到:“在大數(shù)據(jù)時(shí)代,我們可以分析更多的數(shù)據(jù),有時(shí)候甚至可以處理和某個(gè)特別現(xiàn)象相關(guān)的所有數(shù)據(jù),而不再依賴于隨機(jī)采樣!
在數(shù)據(jù)時(shí)代,AI深度學(xué)習(xí)與算法、大數(shù)據(jù)的進(jìn)步與發(fā)展將使得人類迎來一個(gè)全新的時(shí)代,在肆虐的病毒面前,人類并不會(huì)無動(dòng)于衷。在當(dāng)前新型冠狀病毒暴發(fā)的艱難時(shí)刻,更需要人們充滿信心,以更加頑強(qiáng)的勇氣和智慧,以面對(duì)新型病毒的挑戰(zhàn)!
科技自媒體劉志剛,訂閱號(hào):互聯(lián)網(wǎng)江湖(ID:VIPIT),轉(zhuǎn)載商務(wù)合作加微信:13124791216,轉(zhuǎn)載保留作者版權(quán)信息違者必究。