PG新聞
News
斯坦福大學(xué)近期公布了一項關(guān)于臨床醫(yī)療人工智能模型的深度評估結(jié)果,DeepSeek R1憑借其卓越PG電子官網(wǎng)的表現(xiàn),在這場九強爭霸中脫穎而出,以66%的勝率及0.75的宏觀平均分榮膺桂冠。此次評估不僅涵蓋了傳統(tǒng)醫(yī)療執(zhí)照考試的內(nèi)容,更深入模擬了臨床醫(yī)生的日常工作環(huán)境,為評估增添了實戰(zhàn)色彩。
為了全面而準(zhǔn)確地評估各模型的性能,斯坦福大學(xué)的評測團隊精心打造了一個名為MedHELM的綜合評估體系,該體系包含35項基準(zhǔn)測試,廣泛覆蓋了22個醫(yī)療任務(wù)子領(lǐng)域。這一體系的科學(xué)性和實用性得到了29名來自14個不同醫(yī)學(xué)??频膱?zhí)業(yè)醫(yī)生的驗證與認(rèn)可。評估結(jié)果顯示,DeepSeek R1在各項測試中均表現(xiàn)出色,穩(wěn)定性極高,勝率標(biāo)準(zhǔn)差僅為0.10。緊隨其后的是o3-mini和Claude3.7Sonnet,它們分別以64%的勝率和0.77的最高宏觀平均分,以及64%的勝率獲得了第二和第三名的佳績。
值得注意的是,o3-mini在臨床決策支持方面的表現(xiàn)尤為搶眼,展現(xiàn)了其在特定醫(yī)療場景下的強大實力。而Claude系列模型,如Claude3.5和3.7Sonnet,雖然未能奪冠,但也以不俗的勝率緊隨DeepSeek R1和o3-mini之后,顯示出其在醫(yī)療AI領(lǐng)域的競爭力。
此次評估還采用了創(chuàng)新的大語言模型評審團(LLM-jury)方法,該方法的結(jié)果與臨床醫(yī)生的評分高度吻合,進一步驗證了其評估的有效性和準(zhǔn)確性。同時,研究團隊還進行了成本效益分析,發(fā)現(xiàn)推理模型的使用成本相對較高,更適合對精度和性能有較高要求的用戶;而非推理模型則成本較低,更易于普及和應(yīng)用。
斯坦福大學(xué)的這項評估不僅為醫(yī)療AI的發(fā)展提供了重要的數(shù)據(jù)參考,也為未來的臨床實踐提供了更多的選擇和可能性,推動了醫(yī)療AI技術(shù)的不斷前進。
蘋果iPadOS 26大改版:新界面、手寫筆升級,AI與應(yīng)用PG電子官網(wǎng)全面進化!
Bard初期表現(xiàn)不佳,與ChatGPT存在明顯差距,未能贏得用戶和市場的廣泛認(rèn)可;看似能打的Gemini系列模型,實際使用卻引發(fā)不小爭議,圖像生成功能因出現(xiàn)種族偏見被迫下線;谷歌內(nèi)部,搜索、Android、…
它們不是悠揚的牧歌,而是生命在重壓下迸發(fā)的絕唱,是靈魂在荊棘中綻放的薔薇,讓我們看見:真正的歌唱從不在于聲音的完美,而在于生命最本真的震顫。嫦娥四號傳回的每一張照片,都是人類向宇宙發(fā)出的詰問與宣言,讓探索的火…
蘋果iPadOS 26大升級:新界面、手寫筆優(yōu)化,AI與應(yīng)用全面增強!
華為nova 14系列震撼登場!鴻蒙5直板機領(lǐng)銜,nova 14僅售2699元起
華為nova14 Ultra震撼登場!鴻蒙5系統(tǒng)加持,售價4199元起
蘋果iPadOS 26大改版:新界面、手寫筆升級,AI與應(yīng)用全面進化!
本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護,版權(quán)登記號:魯作登字-2015-F-025467,未經(jīng)ITBEAR官方許可,嚴(yán)禁使用。