亚洲综合av网_中文字幕一区二区三区在线观看_91免费看片在线观看_久久精品久久精品亚洲人

行業門戶
NEWS CENTRE
首頁
>
新聞中心
>
“AI考生”闖關高考,誰是最會做題大模型?
“AI考生”闖關高考,誰是最會做題大模型?
2024-06-26 閱讀:781

■本報記者 趙廣立

2024年全國高考的“硝煙”剛剛散去,“大模型考生”就被抓回來重新“做題”了。

市面上涌現出的大模型產品讓人眼花繚亂,圍繞“大模型技術哪家強”的討論不絕于耳,各色名目的大模型評測應運而生。作為國內最權威的考試之一,高考覆蓋各類學科及題型,同時在開考前這些題屬于“絕密”,非常適合用來作為考查大模型智能水平的評測工具,堪稱大模型綜合能力的“試金石”。

連日來,一些專業機構紛紛下場,使用市面上常見的大模型產品如通義千問、字節豆包、訊飛星火、文心一言、騰訊元寶、月之暗面Kimi等作為“考生”,圍繞“大模型高考測試”得出了一系列結果,為人們更好地了解大模型產品的性能和特點提供了參考樣本。

AI高考數學全不及格?換個打開方式試試

近期,一則“AI高考測試出分,數學全不及格”的消息登上“熱搜”。

消息出自上海人工智能實驗室旗下司南評測體系OpenCompass對7個開源大模型進行的高考語、數、外全卷能力測試。據OpenCompass于6月19日發布的評測結果,大模型的語文、英語考試水平還不錯,但數學都不及格,最高分只有75分(滿分150分)。

參加OpenCompass此次高考測試的大模型,分別是來自阿里巴巴、零一萬物、智譜AI、上海人工智能實驗室、法國Mistral的開源模型。OpenCompass稱,因無法確定閉源模型的更新時間,此次評測沒有納入商用閉源模型,僅引入GPT-4o作為評測參考。

對于數學測試全部不及格,OpenCompass表示,“大模型在數學方面還有很大的提升空間”。

不過,復旦大學自然語言處理(NLP)實驗室LLMEVAL團隊主持的高考數學評測顯示,大模型數學成績不佳的結果,可能緣于“打開方式不對”。

首先,LLMEVAL團隊選取了2024年高考新I卷、新II卷數學試卷的客觀題(單選、多選和填空題,共73分)來評測,得出了不同的結論。使用客觀題測試大模型的好處是,對就是對、錯就是錯,結果一目了然。同時主觀題由于解題方法、思路存在差異,具有一定的主觀性,如果結果不正確,就很難客觀地評出步驟分。

其次,此次大模型“考生”增加到12個:阿里巴巴Qwen2-72b、訊飛星火、GPT-4o、字節豆包、智譜GLM4-0520、百川智能Baichuan4、谷歌Gemini-1.5-Pro、文心一言4.0、MiniMax海螺、騰訊元寶、月之暗面Kimi、DeepSeek-V2-Chat。

另外,他們在評測中發現,數學問題不同格式的提示輸入(Prompt)對大模型性能影響很大。在最初的評測中,LLMEVAL團隊對數學題目中的公式部分采用了通過光學字符識別(OCR)后輸出的格式(轉義符格式),最新一次評測則使用了Latex格式進行了橫向對比評測。

結果顯示,大多數模型的兩次測試結果均出現較大差異,不過使用Latex格式后,大模型整體表現更佳:2024年全國高考新I卷、新II卷數學測試中,得分率超過50%的大模型產品數量由此前的5個和6個升至7個和9個。考慮到Latex格式更符合人類實際使用大模型時所采用的格式,LLMEVAL團隊建議后續測試主要基于此格式。

具體而言,LLMEVAL團隊使用Latex格式Prompt的測試結果顯示,在2024年全國高考新I卷數學測試中,阿里巴巴Qwen2-72b、訊飛星火的得分率均超過及格線(60%),分別為78.08%和71.23%;在2024年全國高考新II卷數學測試中,訊飛星火、阿里巴巴Qwen2-72b和GPT-4o的得分率也超出了及格線,分別為65.07%、63.70%、62.33%。

由此可見,大模型在數學方面并非“熱搜”所說那樣完全不及格,訊飛星火、阿里巴巴Qwen2-72b等國產大模型在高考數學客觀題中具有較高的準確率,令人眼前一亮。當然,LLMEVAL團隊在評測后也指出,大模型在數學推理任務中的魯棒性與準確性仍有很大的提升空間。

語文、英語高考測試,作文見真章

“AI考生”之于語文、英語高考,最引人注目的當數大模型的作文水平了。

對于考生而言,作文考試主要考查學生運用語言成文的能力,考查的是識字情況、用詞組句的能力以及表達事實、思想或觀點的能力。事實上,作文是最能考驗大模型語言理解能力和文本生成能力的測評工具,這兩項能力正是時下大模型最為倚重的。

2024年全國高考語文科目考試一結束,就有不少場外師生使用市面上的大模型產品“寫作文”。圍繞新課標I卷高考作文題“答案與問題”、新課標II卷“抵達未知之境”、北京高考(1)(2)卷的作文題“歷久彌新”和“打開”等題目,文心一言、訊飛星火等多家大模型產品紛紛化身“寫手”,并交出“作品”。

一些大模型作文令人眼前一亮。以全國新高考I卷的作文題為例,在這個具有思辨性的題目引導下,大模型提交的部分作文題不僅切題,更顯巧妙,如《問,豈可少?》《疑問如春芽,答案似剪刀》《于無疑處生疑,方是進矣》《問題不止,智慧無窮》《智涌未來,問海無涯》,等等。

近日,全國中小學生作文競賽評委、中學語文教研專家呂政嘉和河南省基礎教育教學專家庫成員李來明共同對市面上7款大模型產品的上述4張試卷的作文進行了評測打分。從打分情況來看,訊飛星火、文心一言4.0、騰訊元寶在4張試卷的作文題上均有不俗表現,最高平均得分接近50分。

能拿50分的AI作文長啥樣?訊飛星火作出的《問,豈可少?》得到均分51.5的評分。李來明對該文的評語為,“全文結構完整,思路清晰,論證層層遞進,結構框架清晰明了。全文多處扣題生發議論,鞭辟入里,分析得當。但在一些地方,可以適當增加一些論證手法,使文章更加生動有趣”。

在高考英文作文題目“幫李華寫郵件”中,中國外語教育研究中心特約研究員、知名教研策劃專家周國榮和廣東國家級示范校教師楊菁菁也對上述7款大模型產品的英語作文進行了評測和打分。他們將2024年高考真題作文要求輸入7款大模型產品,生成作文后,由教研雙評給出評分并作最高分點評。

全國高考卷的英語應用文寫作題中,7款大模型產品均能完成試題規定的寫作任務,結構上也能做到邏輯清晰、結構合理,其中不乏能夠使用復雜句式,在語言表達上有多處亮點的作品。但這些文章也有一些明顯的扣分項,如使用超綱詞匯、超過字數上限等。打分方面,7款產品均有超過12分(滿分15分)的表現,且得分相對穩定。

在難度更高的全國高考英語卷“讀后續寫”題目和北京卷英語作文題中,7款大模型產品的表現有了差別。周國榮和楊菁菁的打分和點評顯示,訊飛星火、騰訊元寶在“讀后續寫”題目中高分領先;在北京卷英語作文題中,訊飛星火、月之暗面Kimi、文心一言4.0排前三位。綜合來看,國產大模型在中國高考的表現不落下風,有著教育行業背景的訊飛星火大模型在一眾大模型中表現搶眼,堪稱“更會做題的大模型”。

評測,還有很長的路要走

評測作為對機器理解、處理、應用自然語言能力的一種評估和量化手段,是大模型領域技術水平和研究進展的直觀體現,是相關研究的工具和重要驅動力。

北京大學計算語言學研究所教授穗志方日前在“大模型+計算語言”專題論壇上的報告中表示,大模型在人類標準化考試中如中國高考、公務員考試、美國SAT考試等的表現,能夠為其在真實世界中的能力提供評估參考,但仍存在一些問題。如一些模型在諸如SAT數學測試等任務中表現優異,但在復雜推理或特定知識領域中的表現卻又不夠出色。截然相反的表現,讓人無從評判。

“在大模型內在機理沒有探究清楚的情況下,我們目前的評測路徑只能依靠從外部表現來推測內在能力。”穗志方說,現有評測仍存在規范性、系統性及科學性方面的問題,評測的深度和廣度方面有待改進。

她提出,未來大模型評測應當以具有綜合考查能力的類人機器語言能力評測為目標,在參考信度、難度、效度三大原則的基礎上,發展更系統的評測大綱、更具挑戰的評測任務、更科學的評測方法,采取更多樣、更魯棒的評測手段,科學高效地為大模型提供客觀、公平、類人的評測結果。如此,方能引領和推動人工智能領域各類模型、方法的提出和創新。

13560189272
地址:廣州市天河區黃埔大道西201號金澤大廈808室
COPYRIFHT ? 2010-2020 廣州市名聯網絡科技有限公司 ALL RIGHTS RESERVED 粵ICP備10203057號
  • 這里是二維碼
亚洲综合av网_中文字幕一区二区三区在线观看_91免费看片在线观看_久久精品久久精品亚洲人
国产一区二区三区四| 91免费视频网| 一区二区视频在线| 国产精品区一区二区三区| 久久伊99综合婷婷久久伊| 日韩欧美一区在线观看| 日韩欧美国产精品一区| 精品国产一二三| 国产亚洲综合av| 国产精品美女久久久久av爽李琼 | 久久综合久久鬼色中文字| 欧美成人激情免费网| 久久久亚洲精品石原莉奈| 国产三级精品在线| 亚洲精选免费视频| 日韩高清一区在线| 国产成人高清在线| 欧美在线看片a免费观看| 欧美精品日韩精品| 国产欧美日韩视频在线观看| 亚洲精品少妇30p| 男人的天堂亚洲一区| 国产成人超碰人人澡人人澡| 91国在线观看| 精品久久久久久久人人人人传媒| 久久久国产午夜精品| 亚洲免费视频中文字幕| 美洲天堂一区二卡三卡四卡视频| 国产精品系列在线观看| 色香蕉久久蜜桃| 精品久久五月天| 亚洲欧美区自拍先锋| 男女男精品网站| eeuss鲁片一区二区三区 | 日韩免费观看高清完整版在线观看| 久久女同性恋中文字幕| 亚洲激情成人在线| 国产在线国偷精品免费看| 在线视频一区二区三区| 26uuu亚洲综合色| 偷拍日韩校园综合在线| 不卡的看片网站| 精品奇米国产一区二区三区| 一区二区三区美女| 国产成都精品91一区二区三| 欧美一区二区三区四区五区| 亚洲日本va午夜在线电影| 国产乱人伦偷精品视频不卡| 91精品国产综合久久久久久久久久| 亚洲欧美综合另类在线卡通| 国内精品写真在线观看| 91精品国产乱| 亚洲无人区一区| 色综合欧美在线| 国产精品系列在线| 国产一区二区电影| 欧美不卡视频一区| 水蜜桃久久夜色精品一区的特点| 成人国产精品视频| 久久精品水蜜桃av综合天堂| 美女视频一区二区三区| 欧日韩精品视频| 亚洲精品视频在线观看免费| av在线一区二区三区| 中文一区二区在线观看| 国产成人aaa| 国产亚洲欧美中文| 丰满放荡岳乱妇91ww| 久久精品视频一区二区| 国产一区 二区| 久久久久久久av麻豆果冻| 国产一区二区福利| 久久久久国产一区二区三区四区| 久久超碰97人人做人人爱| 精品蜜桃在线看| 精品一区二区三区欧美| 欧美videossexotv100| 经典一区二区三区| 26uuuu精品一区二区| 国产一区二区三区av电影| 久久久高清一区二区三区| 国产高清在线精品| 久久精品夜色噜噜亚洲aⅴ| 国产精品一区二区久久不卡| 国产色产综合产在线视频| 成人毛片在线观看| 亚洲欧美电影一区二区| 在线欧美小视频| 亚洲bt欧美bt精品777| 日韩一区二区三区视频在线| 日本vs亚洲vs韩国一区三区二区| 91精品国产全国免费观看| 久久精品久久综合| 日本一区二区视频在线| 99久久777色| 午夜伦欧美伦电影理论片| 精品久久国产老人久久综合| 国产成人一区在线| 亚洲乱码中文字幕| 日韩一区和二区| 成人性生交大片| 亚洲国产视频一区| 精品国产精品网麻豆系列| 成人av免费在线| 午夜国产精品影院在线观看| 精品国精品自拍自在线| av在线免费不卡| 日本中文字幕一区二区视频| 欧美国产日韩亚洲一区| 欧美在线免费视屏| 国产美女主播视频一区| 亚洲精品成人在线| 精品久久久久久久久久久久久久久| 成人av中文字幕| 青娱乐精品视频| 国产精品国模大尺度视频| 欧美情侣在线播放| 丁香六月久久综合狠狠色| 亚洲五月六月丁香激情| 国产偷国产偷精品高清尤物 | 欧亚洲嫩模精品一区三区| 久久精品国产久精国产| 亚洲日本韩国一区| 精品国产一区二区三区久久影院| 91在线精品秘密一区二区| 久久成人免费网| 亚洲一区二区三区在线| 国产欧美精品在线观看| 69精品人人人人| 在线视频观看一区| www.日韩av| 国产乱码精品一区二区三| 天堂精品中文字幕在线| 亚洲男人的天堂在线观看| 久久久久久久久久久久久女国产乱| 欧美日韩一区二区三区四区| 成人av网站在线观看免费| 久久99精品久久久| 性感美女久久精品| 一区2区3区在线看| 亚洲欧美偷拍另类a∨色屁股| 久久尤物电影视频在线观看| 欧美电影影音先锋| 91黄色免费观看| 一本到一区二区三区| av成人免费在线| 成人av网在线| 成人av资源站| 成人美女在线观看| 成人一区二区三区视频在线观看| 韩国女主播成人在线| 久久国产福利国产秒拍| 日本中文字幕一区二区视频| 亚洲国产日韩一区二区| 亚洲综合免费观看高清完整版 | 国产精品热久久久久夜色精品三区 | 色天使久久综合网天天| 不卡一卡二卡三乱码免费网站| 国产一区二区精品久久| 国产一区视频在线看| 黑人巨大精品欧美黑白配亚洲| 蜜臀av性久久久久蜜臀aⅴ流畅| 日韩国产欧美三级| 人人超碰91尤物精品国产| 奇米一区二区三区| 人人爽香蕉精品| 久久精品国产成人一区二区三区 | 欧美亚洲日本国产| 欧美日韩在线三级| 欧美日韩亚洲综合一区| 在线不卡欧美精品一区二区三区| 欧美精品xxxxbbbb| 日韩一区二区麻豆国产| 久久午夜羞羞影院免费观看| 欧美激情综合五月色丁香 | 国内不卡的二区三区中文字幕| 国产综合成人久久大片91| 国产精品系列在线播放| www.久久精品| 欧美在线高清视频| 在线综合亚洲欧美在线视频| 日韩一区二区三区视频在线| 久久综合中文字幕| 专区另类欧美日韩| 五月婷婷综合在线| 九色porny丨国产精品| 丁香婷婷综合五月| 色吧成人激情小说| 欧美一区二区三区日韩| 国产日产亚洲精品系列| 一区二区三区免费看视频| 青青草原综合久久大伊人精品 | 国产一区二区中文字幕| 成人avav影音| 4438x亚洲最大成人网| 久久精品视频在线看| 亚洲综合色噜噜狠狠| 精品影视av免费| 色国产综合视频| 久久精品综合网|