聊天機器人ChatGPT能力波動：質(zhì)數(shù)識別準確率下降

2023-09-08 08:04:14來源：中關(guān)村在線

(資料圖)

斯坦福大學(xué)的一項新研究發(fā)現(xiàn)，熱門生成式人工智能（AI）聊天機器人ChatGPT的能力在幾個月內(nèi)有所波動。研究人員評估了ChatGPT在幾個月內(nèi)如何處理不同的任務(wù)，發(fā)現(xiàn)ChatGPT的能力隨時間推移而出現(xiàn)不一致。目前，ChatGPT有兩個版本，免費的GPT-3.5模型和更智能、更快速的付費GPT-4版本。研究人員發(fā)現(xiàn)，GPT-4在3月份能夠有效地解決數(shù)學(xué)問題，識別質(zhì)數(shù)的準確率為97.6%。但三個月后，其準確率下降到了2.4%。而另一方面，GPT-3.5卻變得更好，從7.4%的準確率提高到了86.8%。研究人員還注意到，在編寫代碼和視覺推理方面也有類似的波動。斯坦福大學(xué)計算機科學(xué)教授James Zou表示：“當我們調(diào)整一個大型語言模型來提高它在某些任務(wù)上的表現(xiàn)時，那可能會有很多意想不到的后果，可能會損害這個模型在其他任務(wù)上的表現(xiàn)……這個模型回答問題的方式有各種各樣的相互依賴性，這可能導(dǎo)致我們觀察到的一些惡化行為。”研究人員認為，結(jié)果并不能真正反映ChatGPT性能的準確性狀態(tài)，而是顯示了微調(diào)模型帶來的意外后果。本質(zhì)上，當修改模型的一部分來改善一個任務(wù)時，其他任務(wù)可能會受到影響。為什么會這樣很難確定，因為沒有人知道ChatGPT是如何運作的，而且它的代碼也不是開源的。隨著時間的推移，研究人員注意到，ChatGPT的回答不僅變得不太準確，而且還停止了解釋其推理過程。由于ChatGPT的運作方式，要研究和衡量其表現(xiàn)可能很困難。這項研究強調(diào)了觀察和評估驅(qū)動ChatGPT等工具的大型語言模型（LLM）性能變化的必要性。該研究已經(jīng)在arXiv上發(fā)布，并正在等待同行評審。

標簽：

相關(guān)閱讀

聊天機器人ChatGPT能力波動：質(zhì)數(shù)識別準確率下降

斯坦福大學(xué)的一項新研究發(fā)現(xiàn)，熱門生成式人工智能（AI）聊天機器人Chat

2023-09-08
聯(lián)合國教科文組織發(fā)布《教育研究中使用生成式AI指南》

聯(lián)合國教科文組織于9月7日發(fā)布了《教育和研究中使用生成式AI指南》，這

2023-09-08
開學(xué)啦該換機了！影馳各硬件升級配置推薦助力新學(xué)期

九月開學(xué)季已至，相信不少莘莘學(xué)子都已經(jīng)回到了久違的校園里，不知道身

2023-09-08
短焦高亮使用方便明基JD530投影太適合升級了！

明基JD530短焦投影機是一款非常值得推薦的投影設(shè)備。它適合多種場景，

2023-09-08

成立10周年極米億元補貼推投影普惠

9月7日，由四川省人民政府、工業(yè)和信息化部主辦，成都市人民政府、四川

2023-09-07
立減百元！雙扇顯卡iGame RTX 4070 Ultra限時優(yōu)惠活動開啟

國創(chuàng)新生代高端硬件品牌iGame正式推出了人氣系列“Ultra”家族的新成員

2023-09-07
聯(lián)合國教科文組織發(fā)布《教育研究中使用生成式AI指南》

聯(lián)合國教科文組織于9月7日發(fā)布了《教育和研究中使用生成式AI指南》，這

2023-09-08
聊天機器人ChatGPT能力波動：質(zhì)數(shù)識別準確率下降

斯坦福大學(xué)的一項新研究發(fā)現(xiàn)，熱門生成式人工智能（AI）聊天機器人Chat

2023-09-08
短焦高亮使用方便明基JD530投影太適合升級了！

明基JD530短焦投影機是一款非常值得推薦的投影設(shè)備。它適合多種場景，

2023-09-08
開學(xué)啦該換機了！影馳各硬件升級配置推薦助力新學(xué)期

九月開學(xué)季已至，相信不少莘莘學(xué)子都已經(jīng)回到了久違的校園里，不知道身

2023-09-08
廣西梧州：稅惠送暖激發(fā)民營經(jīng)濟活力

最新數(shù)據(jù)顯示，2023年上半年，梧州市各類私營企業(yè)共計4萬多戶，占全

2023-09-08
2023“最美醫(yī)生”邵志敏：為乳腺癌患者生命健康護航

央視網(wǎng)消息：中宣部和國家衛(wèi)生健康委近日聯(lián)合發(fā)布2023年“最美醫(yī)生

2023-09-08
總臺記者探訪丨雅萬高鐵沿線車站設(shè)計突出印尼元素

雅萬高鐵從印尼首都雅加達到萬隆沿線一共設(shè)有4座車站，均由中國設(shè)計

2023-09-08
讀懂杭州亞運會火炬“薪火”背后的中國式浪漫

距離杭州亞運會開幕越來越近，9月8日，杭州亞運會火炬?zhèn)鬟f也將正式

2023-09-08
成立10周年極米億元補貼推投影普惠

9月7日，由四川省人民政府、工業(yè)和信息化部主辦，成都市人民政府、四川

2023-09-07
“改善護理服務(wù)行動計劃”發(fā)布責任護士平均負責患者不多于8人

每名責任護士平均負責患者人數(shù)不多于8人，每名患者均有相對固定的責任

2023-09-07
我國海上發(fā)射迎來六戰(zhàn)六捷海上測試發(fā)射團隊能力不斷提升

央視網(wǎng)消息：昨天（9月5日）下午5時34分，我國太原衛(wèi)星發(fā)射中心在山

2023-09-07
由“跟跑”“并跑”向“領(lǐng)跑”跨越我國綠色能源產(chǎn)業(yè)快速發(fā)展

央視網(wǎng)消息：國家能源局的數(shù)據(jù)顯示，截至6月底，我國可再生能源裝機

2023-09-07
中國經(jīng)濟信心說丨中國“智造”的創(chuàng)新動能來自何處？

游覽虛擬世界的莫高窟、觀看我國首顆陸地生態(tài)系統(tǒng)碳監(jiān)測衛(wèi)星、感受

2023-09-07
上百所大學(xué)開展臨時困難補助行動保障經(jīng)濟困難學(xué)生入學(xué)

央視網(wǎng)消息：教育部全國資助管理中心發(fā)布提示，因不了解政策等各種

2023-09-07
海報丨智慧未來照進現(xiàn)實！9大關(guān)鍵詞“透視”2023智博會

9月6日2023中國國際智能產(chǎn)業(yè)博覽會在重慶閉幕本屆智博會上亮相的一

2023-09-07
安徽“最美教師”董艷：“一半是詩人，一半是匠人”

“向著明亮那方，向著明亮那方。哪怕一片葉子，也要向著日光灑下的

2023-09-07
村里采摘忙村外交易旺陜西洛川早熟蘋果迎豐收

央視網(wǎng)消息：眼下正是陜西延安洛川縣早熟蘋果集中上市的時間，果農(nóng)

2023-09-07
新時代我在中國|尋匠心之美品煙火“淄”味

烏克蘭姑娘維多利亞在山東淄博經(jīng)營著一家咖啡屋，盡管已經(jīng)來了4年，

2023-09-07
發(fā)放給經(jīng)濟困難高校新生的“愛心禮包”，實惠、暖心！

央視網(wǎng)消息：目前距離今年助學(xué)貸款辦理截止時間還剩不到一個月，教

2023-09-07
美媒喊話政府加強槍支監(jiān)管：盡快結(jié)束槍支暴力讓民眾有更多安全感

海外網(wǎng)9月7日電美國《俾斯麥論壇報》9月7日刊文，呼吁美國政府加強

2023-09-07
百望云亮相服貿(mào)會重磅發(fā)布業(yè)財稅融Copilot

小望小望，我要一杯拿鐵！好的，已下單成功，請問要開具發(fā)票嘛？在獲得

2023-09-07
立減百元！雙扇顯卡iGame RTX 4070 Ultra限時優(yōu)惠活動開啟

國創(chuàng)新生代高端硬件品牌iGame正式推出了人氣系列“Ultra”家族的新成員

2023-09-07
主動撤回上市申請，津同仁堂IPO終止

財經(jīng)網(wǎng)訊深交所披露，2023年9月6日，天津同仁堂集團股份有限公司（以下

2023-09-07
東湖評論：享受快樂跳水，莫忘安全第一

東湖評論：享受快樂跳水，莫忘安全第一---跳水大爺們的走紅體現(xiàn)了人們

2023-09-07
【地評線】東湖評論：年輕干部練好群眾工作“看家本領(lǐng)”不負時代使命

東湖評論：年輕干部練好群眾工作“看家本領(lǐng)”不負時代使命---新時代年

2023-09-07
深耕基層攻關(guān)農(nóng)村高血壓防治科研成果兩次獲《柳葉刀》發(fā)表

新華社沈陽9月6日電（記者張逸飛）9月6日，國家衛(wèi)生健康委中國鄉(xiāng)村

2023-09-07
天天收評：兩市超4500只個股飄綠半導(dǎo)體板塊跌幅居前

9月7日收盤，滬指低開低走跌1 13%，兩市飄紅個股不足500只，泥沙俱下后

2023-09-07
騰訊云MaaS再升級：混元筑底、生態(tài)擴容，持續(xù)推進“效能革命”

9月7日，2023騰訊全球數(shù)字生態(tài)大會于深圳舉辦。會上，騰訊首次對外公布

2023-09-07
遠大健科：引領(lǐng)健康快樂生活理念，塑造中國凈水行業(yè)典范

在當今時代,健康被賦予了前所未有的重要性,成為人們生活中的中心關(guān)注點

2023-09-07
【楚天評】東湖評論：文旅市場消費火熱，升騰湖北經(jīng)濟發(fā)展新氣象

【楚天評】東湖評論：文旅市場消費火熱，升騰湖北經(jīng)濟發(fā)展新氣象---根

2023-09-07
紅旗HS7首推旗享版，顏值在線兩驅(qū)省油，還有6/7座可選

全新紅旗HS7上市，新車定位中大型SUV，共推出4款車型，官方指導(dǎo)價為25

2023-09-07
融券T+0影響市場？專業(yè)人士解讀 A股融券規(guī)模尚小對市場影響有限

融券業(yè)務(wù)規(guī)模較小，對市場走勢影響有限。

2023-09-07
小米汽車最快年內(nèi)量產(chǎn)

近日，據(jù)相關(guān)媒體報道稱，小米汽車現(xiàn)在正處于試生產(chǎn)階段，這項工作開展

2023-09-07
利好政策推動行業(yè)轉(zhuǎn)向買方市場業(yè)界：二手車購買方式或?qū)⒅貥?gòu)

有專家表示，二手車可以說是汽車全生命周期承上啟下的重要一環(huán)，搞活二

2023-09-07
瀟湘平：守好園區(qū)“主戰(zhàn)場” 打好高質(zhì)量發(fā)展“主動仗”

昨日，全市創(chuàng)建“五好”園區(qū)暨重點產(chǎn)業(yè)項目現(xiàn)場推進會在新田召開，總結(jié)

2023-09-07
【夏季行動】永州公安連破兩起冒充“領(lǐng)導(dǎo)”詐騙案件

近日來，永州公安在打擊網(wǎng)絡(luò)詐騙犯罪上持續(xù)發(fā)力，強化預(yù)警勸阻，精準宣

2023-09-07
230名新聞記者齊聚郴州共同推介文旅資源

（記者顏想念何江琛唐潔瓊）8月31日到9月2日，在第二屆湖南旅游發(fā)展大

2023-09-07
中南建設(shè)前8月合同銷售297.4億元同比減少30.8% 單月銷售25.6億元

江蘇中南建設(shè)集團股份有限公司（簡稱：中南建設(shè)，000961 SZ）公告披露2

2023-09-07
省委政法委來銅調(diào)研平安建設(shè)工作

9月6日下午，省委政法委副書記沈厚富率隊來銅調(diào)研平安建設(shè)工作。市委常

2023-09-07
一項目獲評第十二屆“中華慈善獎”

9月5日，第十二屆“中華慈善獎”評選結(jié)果揭曉，我市報送的“精準助困計

2023-09-07
走，去永州——永州經(jīng)開區(qū)篇｜創(chuàng)新潮涌逐浪高百業(yè)競興耀瀟湘

【招商推介官】國家級永州經(jīng)濟技術(shù)開發(fā)區(qū)，是湖南省最早成立的9個省級

2023-09-07
非遺賦能鄉(xiāng)村振興丨千年瑤寨旅游旺

江華桐沖口村，《盤王大歌》、瑤族長鼓舞等國家級非物質(zhì)文化遺產(chǎn)引得游

2023-09-07
2023年市“質(zhì)量月”活動啟動

今年9月是全國第46個“質(zhì)量月”。9月5日上午，2023年全市“質(zhì)量月”活

2023-09-07
市大健康和文旅產(chǎn)業(yè)（數(shù)字創(chuàng)意產(chǎn)業(yè)）鏈領(lǐng)導(dǎo)小組會議召開

9月5日下午，市大健康和文旅產(chǎn)業(yè)（數(shù)字創(chuàng)意產(chǎn)業(yè)）鏈領(lǐng)導(dǎo)小組會議在市行

2023-09-07
“警”力而為護企發(fā)展

近期，義安區(qū)一重點企業(yè)在辦公用房建設(shè)中采購的一批衛(wèi)浴產(chǎn)品系假冒貼標

2023-09-07
微軟iOS版遠程桌面應(yīng)用更新：支持AirPlay投屏

微軟于9月7日更新了iOS版Microsoft遠程桌面應(yīng)用，最新版本為10 5 1。此

2023-09-07
全新奧迪Q8/SQ8官方圖片發(fā)布外觀變化明顯

2023年9月5日，奧迪正式發(fā)布了新款奧迪Q8和SQ8的官方圖片。這兩款車型

2023-09-07
奶白色版本Smart精靈#3紀念版上線 25周年回顧

近日，smart品牌為慶祝其25周年，推出了一款名為smart精靈 3的紀念版車

2023-09-07
吉利帝豪14周年銷量370萬輛新車型上線

近日，吉利帝豪冠軍家族累計銷量達到370萬輛，這也是吉利帝豪上市14周

2023-09-07
比亞迪海豹DM-i上市 16.68萬油電同價

比亞迪海豹DM-i全新中型插電混動轎車近日正式上市，共推出6款車型，售

2023-09-07

聊天機器人ChatGPT能力波動：質(zhì)數(shù)識別準確率下降

相關(guān)閱讀

精彩推薦

閱讀排行

相關(guān)詞

推薦閱讀