复旦大学高考数学大模型评测:阿里千问、讯飞星火力压GPT-4o

2024-06-12 17:20:45 爱科技 355观看
摘要 6月12日消息,近日,复旦大学NLP(自然语言处理)实验室LLMEVAL团队发布了2024年高考数学大模型评测的结果。在这次评测中,阿里千问和讯飞星火分别获得了2024高考数学新I卷的第一名和第二名,以及高考数学

6月12日消息,近日,复旦大学NLP(自然语言处理)实验室LLMEVAL团队发布了2024年高考数学大模型评测的结果。26Q壹木网-日常常见问题解答

在这次评测中,阿里千问和讯飞星火分别获得了2024高考数学新I卷的第一名和第二名,以及高考数学新II卷的第二名和第一名,两份考卷的评测中,GPT-4o均列第三名。26Q壹木网-日常常见问题解答

复旦大学高考数学大模型评测:阿里千问、讯飞星火力压GPT-4o26Q壹木网-日常常见问题解答

复旦NLP团队认为,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的绝好评测集合。在新Ⅰ卷中,阿里千问和讯飞星火对14道数学客观题的准确率达到70%以上,大幅领先GPT-4o的57%,字节豆包、智谱清言、百川等大模型紧随其后,准确率超过50%,百度文心一言、腾讯元宝、Kimi等大模型准确率较低。26Q壹木网-日常常见问题解答

而在在新Ⅱ卷的评测中,讯飞星火、阿里千问、GPT-4o准确率均超过60%,其他大模型的差距较小,除百川、DeepSeek和海螺之外,准确率均在50%以上。26Q壹木网-日常常见问题解答

复旦大学高考数学大模型评测:阿里千问、讯飞星火力压GPT-4o26Q壹木网-日常常见问题解答

数学能力是GPT-4o一直以来引以为傲的能力模块,OpenAI在5月14日的发布会上推出大语言模型GPT-4o时,曾重点演示其数学能力。26Q壹木网-日常常见问题解答

在现场演示中,GPT-4o利用其实时的图像识别和语音能力进行在线教学。从评测结果可以看出,阿里千问和讯飞星火对数学问题的深入理解和分析能力已经超过GPT-4o,使其在高考数学试题的解答上具有更高的准确率。有网友表示,做数学题毕竟还是咱中国人的特长。26Q壹木网-日常常见问题解答

以阿里千问和讯飞星火为代表,国产人工智能大模型在数学领域的出色能力,为未来人工智能技术在教育领域的应用提供了有力支持。26Q壹木网-日常常见问题解答

复旦大学高考数学大模型评测:阿里千问、讯飞星火力压GPT-4o26Q壹木网-日常常见问题解答

展开全文
猜你感兴趣
重点解决骑手进门难等问题!美团骑手友好系列计划官宣升级

重点解决骑手进门难等问题!美团骑

7月17日消

07-17 阅读
你认同吗?紧凑型插混SUV质量排行榜出炉:本田霸榜

你认同吗?紧凑型插混SUV质量排行

7月17日消

07-17 阅读
《合金装备3:重制版》Steam预购开启 国区售价409元

《合金装备3:重制版》Steam

《合金装备3:重制

02-14 阅读
说唱歌手发歌炮轰《恋与深空》祸害未成年 叠纸诉派克特名誉侵权

说唱歌手发歌炮轰《恋与深

12月17日消息,今

12-17 阅读
易方达碳中和ETF更新招募说明书,投资机会几何?

易方达碳中和ETF更新招募

本文围绕

04-07 阅读