日日摸夜夜欧美一区二区,亚洲欧美在线视频,免费一级毛片视频,国产做a爰片久久毛片a

中國(guó)電商物流網(wǎng)-電子商務(wù)與物流行業(yè)融合媒體!電子商務(wù)物流行業(yè)門戶網(wǎng)站!
快遞網(wǎng)點(diǎn) 郵編查詢 行政區(qū)劃 高鐵時(shí)刻 高鐵票價(jià) 高鐵車次
貿(mào)易資訊
免費(fèi)注冊(cè) 登錄
中國(guó)電商物流網(wǎng)
企 業(yè)
產(chǎn) 品
商 務(wù)

刷榜跑分?AI評(píng)測(cè)不應(yīng)走偏路線

來源:新華每日電訊  發(fā)布時(shí)間:2024-3-25 10:36

  “百模大戰(zhàn)”以來,AI大模型的部分榜單上出現(xiàn)了一個(gè)奇怪現(xiàn)象:長(zhǎng)期盤踞在榜單前列的,經(jīng)常是一些名不見經(jīng)傳的國(guó)產(chǎn)大模型,它們竟然以接近滿分的優(yōu)勢(shì)碾壓了ChatGPT、Gemini和其他知名的AI大模型。

  之所以令人大跌眼鏡,是因?yàn)檫@與大眾的實(shí)際體驗(yàn)嚴(yán)重不符。不少AI大模型分?jǐn)?shù)名列前茅,實(shí)力卻不及格。如果說“聽不懂答不對(duì)、動(dòng)不動(dòng)就崩潰”司空見慣,那么更諷刺的是,有的大模型根本沒對(duì)業(yè)界開放,就算大家想感受一下“第一名”的風(fēng)采都找不到門路。

  有人可能會(huì)好奇:一些AI大模型“高分低能”是怎么做到的?原因其實(shí)很簡(jiǎn)單,那就是評(píng)測(cè)中出現(xiàn)了數(shù)據(jù)污染和泄露。簡(jiǎn)單來說,榜單排名類似于有第三方“考官”出了一個(gè)題庫(kù),題庫(kù)中大量考題針對(duì)性測(cè)評(píng)大模型各個(gè)方面的能力,而有的“考生”提前拿到題庫(kù),并把答案逐一背了下來。

  “考高分”的目的也很明確,那就是投機(jī)取巧、炒作包裝。業(yè)內(nèi)人士告訴記者,在國(guó)內(nèi)眾多大模型激烈競(jìng)爭(zhēng)、良莠不齊的當(dāng)下,許多大模型還未在用戶之間形成過硬的口碑,離產(chǎn)生世界級(jí)影響還有較遠(yuǎn)的一段路。而評(píng)測(cè)是直觀體現(xiàn)大模型能力的關(guān)鍵方式之一,學(xué)術(shù)化榜單和市場(chǎng)化榜單都得到了廣泛重視,刷榜跑分因此成為一些企業(yè)快速吸引眼球的手段。

  當(dāng)然,榜單失真的背后,不只有作弊的“考生”,也可能有徇私的“考官”。業(yè)界需要客觀、公正、高水準(zhǔn)的優(yōu)質(zhì)榜單幫助大家慧眼識(shí)珠、去偽存真,“考官”如果協(xié)助“考生”作弊,無疑會(huì)擾亂AI大模型的評(píng)測(cè)環(huán)境。所幸我們看到,部分榜單在遇到刷榜跑分問題后,及時(shí)推出補(bǔ)救措施,例如將公開大模型和非公開大模型區(qū)分為兩張榜單,成功擠出大量非公開大模型的水分。

  是金非金焰烈而曉,部分大模型企業(yè)一心撲在刷榜跑分上顯然走偏了路線。說到底AI大模型的發(fā)展還是那句老話,關(guān)鍵核心技術(shù)要不來、買不來、討不來,更包裝不來,唯有一步一個(gè)腳印,扎扎實(shí)實(shí)地向前走。

  (本報(bào)評(píng)論員周琳 董雪)

Copyright © 2012-2025 sd56.net.cn All Rights Reserved 中國(guó)電商物流網(wǎng) 版權(quán)所有