港大醫學院研發全球首個甲狀腺癌診斷AI模型 準確率逾90%診前準備時間減半
AI分析手寫臨床紀錄
甲狀腺癌為本港及全球常見癌症之一,現時診斷上主要依賴兩大國際標準:
- AJCC/TNM分期系統:美國癌症聯合委員會第八版,用以判斷腫瘤發展階段。
- ATA風險評級系統:由美國甲狀腺協會制定,用於預測復發風險。
現時醫護人員需手動審閱大量病理特徵,不但費時,更可能延誤關鍵治療時機。
團隊研發的AI輔助工具,該系統運用大型語言模型技術(如ChatGPT和DeepSeek),並採用四種離線開源大型語言模型,包括Mistral(Mistral AI)、Llama(Meta)、Gemma(Google)及Qwen(阿里巴巴),用於分析醫護人員書寫沒有標準格式的臨床資料或紀錄。模型訓練資料來自美國癌症基因組圖譜(TCGA)中的50宗甲狀腺癌病例,並以289宗TCGA病例及35宗模擬個案驗證模型效能。
團隊通過整合四種大型語言模型的輸出結果,成功提升AI系統的整體表現。在ATA風險評級方面,準確率介乎88.5%至100%;而在AJCC癌症分期方面,準確率亦達到92.9%至98.1%。相比傳統以人手審查文件方式,這項技術預計可以將醫護人員診前準備工作時間縮減約一半。
病例數量 | ATA風險評級準確率 | AJCC癌症分期準確率 |
---|---|---|
50宗TCGA病例(訓練集) | 100.0% | 94.1% |
289宗TCGA病例(驗證集) | 95.5% | 98.1% |
35宗模擬病例(驗證集) | 88.5% | 92.9% |
離線處理保障私隱 表現媲美頂尖AI模型
港大醫學院公共衞生學院羅旭龢基金教授兼InnoHK D24H董事總經理胡子祺教授強調該模型表現卓越∶「我們的模型在AJCC癌症分期及ATA風險評級方面,準確率超過90%。該模型的一大優勢是具備離線功能,可以在內部病人資料系統處理,無需上傳或分享病人的敏感資料,為病人私隱提供最大的保障。」胡教授補充∶「鑒於近期推出的DeepSeek,我們進一步採用『零樣本提示』方式,與DeepSeek-R1、V3以及GPT-4o最新模型進行對比測試。結果顯示,我們的模型表現與這些強大的在線大型語言模型不相上下。」
診前準備減半 助醫護專注病人溝通
港大醫學院臨床醫學學院外科學系臨床助理教授兼內分泌外科主任馮文謙醫生表示∶「除了能準確提取和解讀複雜的病理報告、手術紀錄與臨床筆記外,相比人手處理,我們的AI模型可將診前準備時間縮短近半,並同時提供國際認可的癌症分期及臨床風險評級結果。」馮醫生續稱∶「該AI模型用途廣泛,可以應用到公私營機構,以及本地和國際醫療及研究體系。我們有信心,這個AI模型可以提升前線醫護人員的效率,改善醫療質素;讓醫生有更多時間關心病人和與病人溝通。」
港大醫學院臨床醫學學院家庭醫學及基層醫療學系名譽副教授黃競浩博士闡釋∶「政府大力推動醫療AI的應用,例如醫院管理局最近推出利用大語言模型建立的醫療報告撰寫系統便是有力證明。為配合政府的倡議,我們下一步將會用大量真實病人數據評估這個AI輔助工具的表現。一旦驗證成功,這個AI模型可以迅速應用於臨床和醫院環境,幫助醫護提升運作和治療效率。」研究由港大胡子祺教授、馮文謙醫生及黃競浩博士領導,並由鄧皓文博士及吳婷婷博士擔任共同第一作者。
