PG(中國大陸)官方網站-電子AI輔助平臺

国产亚洲精品久久久久的角色 ,好吊妞视频这里有精品,国产精品久久久久久久久动漫

国产成人无码专区,国产亚洲精品久久久久蜜臀,色琪影院八戒无码,午夜精品白在线观看

PG新聞
分類

斯坦福臨床醫(yī)療AI橫評DeepSeek把谷歌、OpenAI都秒了

發(fā)布時間:2025-06-05 03:10:36    瀏覽:

[返回]

  

斯坦福臨床醫(yī)療AI橫評DeepSeek把谷歌、OpenAI都秒了

  斯坦福大學臨床醫(yī)療AI橫評中,DeepSeek R1以66%勝率拿下第一,重點聚焦臨床醫(yī)生日常工作場景。

  2.研究團隊構建了含35個基準測試的綜合評估框架,覆蓋22個子類別醫(yī)療任務,經過臨床醫(yī)生驗證。

  5.此外,研究顯示大語言模型評審團評估方法比標準詞匯指標更能反映臨床醫(yī)生的判斷,證明了其作為臨床醫(yī)生評分替代方法的有效性。

  斯坦福最新大模型醫(yī)療任務全面評測,DeepSeek R1以66%勝率拿下第一!

  歪國網友紛紛被驚艷住了,原因在于該評測重點聚焦臨床醫(yī)生的日常工作場景,而非僅局限于傳統醫(yī)療執(zhí)照考試題。

  整個評測的分類體系還經過了臨床醫(yī)生驗證,由29名來自14個醫(yī)學??频膱?zhí)業(yè)醫(yī)師共同參與開發(fā)。

  光作者名單就老長,斯坦福大學醫(yī)學院、斯坦福醫(yī)療中心、斯坦福大學基礎模型研究中心(CRFM)、微軟的研究人員均在列。

  此綜合評估框架名為MedHELM,受到了之前斯坦福HELM項目標準化跨領域評估思路的啟發(fā)。

  在初步擬定分類體系時,一名臨床醫(yī)生基于《美國醫(yī)學會雜志》(JAMA)綜述中梳理的任務,將這些任務重組為反映真實醫(yī)療活動的功能主題,形成了一個含5個類別、21個子類別、98項任務的框架。

  來自14個醫(yī)學??频?9名執(zhí)業(yè)臨床醫(yī)生參與問卷調研,從分類邏輯和覆蓋全面性兩方面評估體系合理性。

  根據反饋,體系最終擴展為5 個類別、22 個子類別、121 項任務,全面覆蓋臨床決策支持、臨床病例生成、患者溝通與教育、醫(yī)學研究輔助、管理與工作流程等醫(yī)療實踐的各個方面,且26位臨床醫(yī)生對子類別分類達成96.7%的一致性。

  核心貢獻二,在分類體系基礎上,團隊構建了一個含35個基準測試的綜合評估套件,包括:

  值得一提的是,13個全新開發(fā)的基準測試中有12個基于真實的電子健康記錄數據,有效彌補了現有評估中真實醫(yī)療數據使用不足的問題。

  最終這整套基準測試,完全覆蓋了分類體系中的所有22個子類別,同時根據數據的敏感性和訪問限制,這些基準測試被劃分為14個公開、7個需要審批和14個私有的不同訪問級別。

  DeepSeek R1表現最佳,在兩兩對比中以66%的勝率領先,宏觀平均分為0.75,且勝率標準差較低(0.10)。

  其中勝率指模型在全部35個基準測試的兩兩對比中表現更優(yōu)的比例。勝率標準差(SD)衡量模型獲勝的穩(wěn)定性(值越低=穩(wěn)定性越高)。宏觀平均分是所有35個基準測試的平均性能得分。標準差(SD)反映模型在不同基準測試中的性能波動(值越低=跨基準一致性越高)。

  o3-mini緊隨其后,在臨床決策支持類別基準中表現較優(yōu),以64%的勝率和最高宏觀平均分0.77位居第二。

  另外,開源模型Llama 3.3 Instruct勝率為30%;Gemini 1.5 Pro以24%的勝率排名末位,但其勝率標準差最低(0.08),顯示出最穩(wěn)定的競爭表現。

  團隊還以熱圖形式展示了每個模型在35個基準測試中的標準化得分,深綠色表示性能更高,深紅色表示低性能。

  EHRSQL(根據自然語言指令生成用于臨床研究的SQL查詢——原設計為代碼生成數據集)

  在NoteExtract基準測試(從臨床病歷中提取特定信息)中表現最佳。

  在臨床病例生成任務中,大多數模型達到了0.74-0.85的高分表現;在患者溝通教育任務中表現同樣出色,得分在0.76-0.89之間;在醫(yī)學研究輔助(0.65-0.75)和臨床決策支持(0.61-0.76)類別中表現中等,而在管理與工作流程(0.53-0.63)類別中的得分普遍較低。

  這種差異反映了自由文本生成任務(如臨床病例生成、患者溝通)更適合發(fā)揮大語言模型的自然語言優(yōu)勢,而結構化推理任務則需要更強的領域特定知識整合和邏輯推理能力。

  對于13個開放式基準測試,團隊采用了大語言模型評審團(LLM-jury)評估方法。

  為評估該方法的有效性,團隊收集了臨床醫(yī)生對部分模型輸出的獨立評分。其中,從ACI-Bench中選取了31個實例,從MEDIQA-QA中選取了25個實例,以比較臨床醫(yī)生給出的分數與評審團的綜合評分。

  結果顯示,LLM陪審團方法與臨床醫(yī)生評分的一致性達到0.47的組內相關系數,不僅超過了PG電子通信臨床醫(yī)生之間的平均一致性(ICC=0.43),也明顯優(yōu)于傳統的自動化評估指標如ROUGE-L(0.36)和BERTScore-F1(0.44)。

  團隊由此認為,大語言模型評審團比標準詞匯指標更能反映臨床醫(yī)生的判斷,證明了其作為臨床醫(yī)生評分替代方法的有效性。

  成本效益分析是該研究的另一個創(chuàng)新,基于2025年5月12日的公開定價,團隊結合基準測試運行和大語言模型評審團評估過程中消耗的輸入總token數和最大輸出token數,估算了每個模型所需的成本。

搜索