業內首個,騰訊AI Lab“云深”平臺開源藥物AI大型分布外研究框架DrugOOD
時間:2022-04-02 16:38:53 | 作者:愛科技網 | 點擊: 143 次
機器之心專欄
騰訊AI Lab
提供大規模、全面的藥物 AI 泛化數據集,覆蓋 AI 藥物輔助設計任務中發生分布偏移的各類場景。
近日,騰訊 AI Lab「云深」平臺發布業內首個藥物 AI 大型分布外研究框架 DrugOOD,包括數據集整理器(curator)和基準測試(benchmark),以推動藥化場景中的分布偏移(distribution shift) 問題研究,助力藥物研發行業發展。
項目主頁:https://drug.ai.tencent.com/drugood
開源 github 地址:https://github.com/tencent-ailab/DrugOOD
傳統機器學習算法通常假設訓練樣本和測試樣本來自同一概率分布(Independent and Identically Distributed,IID), 然而實際場景中,訓練樣本與測試樣本往往有著不一樣的分布(Out-of-Distribution,OOD),導致基于訓練樣本優化得到的模型在實際測試樣本上性能急劇下降,降低了模型在實際應用中的穩定性及可靠性。
OOD 問題同時是 AI 輔助藥物發現領域的一大挑戰,從訓練數據推廣到實際數據,模型的泛化能力面臨考驗。例如在基于分子和靶點結構的虛擬篩選中,預測模型通常在已知的靶蛋白上訓練。但是,未來極有可能遇到新的病毒靶點, 導致測試分布明顯不同于訓練分布, 此時模型性能就會急劇下降。
DrugOOD 針對藥物 AI 研究中最重要的活性預測問題,提供大規模, 全面的藥物 AI 泛化數據集,覆蓋 AI 藥物輔助設計任務中發生分布偏移的各類場景,可幫助藥物 AI 社區更便捷地開展 OOD 問題研究,未來更有望擴展到屬性預測、分子對接等問題。同時 DrugOOD 還為各類研究方法的泛化性能提供基準測試,進一步促進技術進步。
首個藥物 AI 自動化數據整理器,
96 個可重現數據集覆蓋更全面的 OOD 場景
AI 制藥領域長期存在缺少可靠數據的挑戰。過往藥物 AI 領域的公開數據往往整理自藥化領域的一些大型數據庫存網站,比如庫存網站 ChEMBL(https://www.ebi.ac.uk/chembl/)持續從公開文獻中收集整理大量的藥物活性數據。過往少數固定的公開數據集往往不可重現,主要原因在于:1)庫存網站上的藥化數據格式臟亂且持續更新,數據集無法反映最新的數據情況;2)這些數據集沒有公開具體的數據處理流程,比如如何處理不同形式的噪聲,如何處理多測量值等;3)藥化領域缺乏一些共識,比如關于如何選取活性的閾值不同專家針對不同檢驗(Assay)有不同觀點。因此,在藥物 AI 領域急需一個可定制的自動化數據整理器,以生成可重現的數據集。
針對上述問題,「云深」平臺的 DrugOOD 提供了方便用戶定制的數據整理流程,用戶只需修改配置(config)文件中的相關參數,即可重新生成新的數據集。這些數據集可充分利用庫存網站 ChEMBL 上多樣且持續更新的海量數據。
針對有噪聲的分布外學習場景(OOD Learning with Noise),DrugOOD 集成了 5 種域標定方法和 3 種噪聲標定水平。5 種域標定方法(scaffold、assay、molecule size、protein、protein family)能夠反映藥物 AI 中真實的分布偏移場景;3 種噪聲標定水平(core、refined、general)根據測量置信度,度量標準,截斷噪聲等來制定,能夠錨定數據中不同的噪聲水平。
根據上述自動化數據整理器,該研究生成了總計 96 個樣例數據集,構建了包括 Ligand Based Affinity Prediction、Structure Based Affinity Prediction 等在不同設置(偏移因素,預測目標,噪聲水平)下的評測任務,用于測試不同方法的魯棒性能。通過基準測試發現,在 DrugOOD 上現存多種 OOD 算法的分部內 - 分布外(ID-OOD)分類性能(AUC score)差異達到了 20% 以上,驗證了此數據集中域標定和噪聲標定方法的真實性和挑戰性。
為解決 OOD 問題,此前行業已提出一些藥物 AI 泛化研究方法,包括元學習、魯棒優化、遷移學習等。但由于缺乏合適的 OOD 基準及標準化任務,這些方法的泛化性能難以得到系統性的評測,不利于技術社區形成統一認知,導致技術發展受阻。
基于 DrugOOD 數據集,騰訊 AI Lab「云深」平臺同時發布了全面的評測標準(Benchmark),比較當前各類 OOD 問題研究方法的性能,這些研究包括不同的泛化方法(ERM,IRM,DeepCoral 等),以及不同網絡架構(GIN,GCN,BERT 等)。該算法開發與測試平臺已經開源:https://github.com/tencent-ailab/DrugOOD
近年來,AI 輔助藥物設計技術已在多個藥物發現任務中取得令人矚目的成效,證明了人工智能技術助力藥物研發的巨大潛力。
騰訊 AI Lab 于 2021 年發布了首個 AI 驅動的藥物發現平臺「云深」(https://drug.ai.tencent.com),整合了騰訊 AI Lab 在前沿算法、優化數據庫的深厚積累,以及騰訊云計算資源上的優勢,提供覆蓋臨床前新藥發現流程的五大模塊,包括蛋白質結構預測、虛擬篩選、分子設計 / 優化、ADMET 屬性預測及合成路線規劃。
DrugOOD 數據集是「云深」平臺虛擬篩選模塊基礎能力的一大補充。未來,「云深」平臺將繼續推動人工智能、大數據等技術與藥物研發需求的深度結合,以先進的技術能力賦能藥物研發行業,提高新藥發現效率。
? THE END
轉載請聯系本公眾號獲得授權
投稿或尋求報道:content@jiqizhixin.com
原標題:《業內首個,騰訊AI Lab「云深」平臺開源藥物AI大型分布外研究框架DrugOOD》