大语言模型综合性能评估：GPT-4领跑百度文心一言拔头筹

(相关资料图)

今年，人工智能大模型成为科技界的焦点，OpenAI的ChatGPT领跑，微软、谷歌、Meta等国际科技巨头紧随其后，国内科技公司也不甘落后，据悉已有上百款大模型问世。近日，清华大学新闻与传播学院发布了一份《大语言模型综合性能评估报告》，对国内外的大模型进行了详细对比。报告还深入探讨了这些模型在创意写作、代码编程、舆情分析、历史知识等不同知识领域的回答情况，以及其在解决实际问题中的有效性和局限性。报告从生成质量、使用与性能、安全与合规三个维度，对市场上的7个大型语言模型进行了全面的综合评估。在这7款大模型中，GPT-4毫无疑问地位居第一，百度的文心一言紧随其后，排在第二位。其次是GPT-3.5，然后是Claude、讯飞星火、阿里云的通义千问及昆仑的天工。虽然GPT-4在各方面都表现出色，但对于国内用户来说，更懂中文的大模型才是关键。在这方面，百度的文心一言表现出色，在部分中文语义理解方面，文心一言以92%的得分率排名榜首，超越了讯飞星火和GPT-4。这与百度的大模型包含大量中文文本有关，因此能够更好地处理本土文化相关的内容。

标签：