复旦大学高考数学大模型评测：阿里千问、讯飞星火力压GPT-4o-壹木网-日常常见问题解答

复旦大学高考数学大模型评测：阿里千问、讯飞星火力压GPT-4o

2024-06-12 17:20:45 爱科技 355观看

摘要 6月12日消息，近日，复旦大学NLP（自然语言处理）实验室LLMEVAL团队发布了2024年高考数学大模型评测的结果。在这次评测中，阿里千问和讯飞星火分别获得了2024高考数学新I卷的第一名和第二名，以及高考数学

6月12日消息，近日，复旦大学NLP（自然语言处理）实验室LLMEVAL团队发布了2024年高考数学大模型评测的结果。26Q壹木网-日常常见问题解答

在这次评测中，阿里千问和讯飞星火分别获得了2024高考数学新I卷的第一名和第二名，以及高考数学新II卷的第二名和第一名，两份考卷的评测中，GPT-4o均列第三名。26Q壹木网-日常常见问题解答

复旦大学高考数学大模型评测：阿里千问、讯飞星火力压GPT-4o 26Q壹木网-日常常见问题解答

复旦NLP团队认为，全新出炉的高考试题具备高度的独创性和保密性，是用来评测大模型的绝好评测集合。在新Ⅰ卷中，阿里千问和讯飞星火对14道数学客观题的准确率达到70%以上，大幅领先GPT-4o的57%，字节豆包、智谱清言、百川等大模型紧随其后，准确率超过50%，百度文心一言、腾讯元宝、Kimi等大模型准确率较低。26Q壹木网-日常常见问题解答

而在在新Ⅱ卷的评测中，讯飞星火、阿里千问、GPT-4o准确率均超过60%，其他大模型的差距较小，除百川、DeepSeek和海螺之外，准确率均在50%以上。26Q壹木网-日常常见问题解答

复旦大学高考数学大模型评测：阿里千问、讯飞星火力压GPT-4o 26Q壹木网-日常常见问题解答