豆包大模型披露评测成绩，较上一代“云雀”提升19%

2024-05-27 12:30 极品歌词网

　　新浪科技讯 5月27日上午消息，在火山引擎最新披露的一份产品资料中，豆包模型团队公布了一期内部测试结果：在 MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上，Doubao-pro-4k 的总分为76.8分，相比上一代模型云雀Skylark2 的64.5分提升了19%，也优于同期测试的其他国产模型。

　　据悉，此次评测在今年5月完成，主要包括豆包通用模型-pro、云雀Skylark2 在内的九款国产大语言模型。除了云雀Skylark2 以外，其他模型均为各家厂商最新发布的高级版本，通过API调用进行测试。

　　评测结果显示，在评估代码能力的两个评测集 HumanEval 和 MBPP 上，豆包相比上一代模型提升了50%左右；在专业知识和指令遵循的评测集上，豆包分别获得33%和24%的性能提升，同时也是得分最高的国产模型。

　　综合11个公开评测集上的测试成绩，豆包通用模型-pro的总分为76.8分。根据OpenAI公布的测试成绩，GPT-4在这些评测集上的总分为80.1分，相比国产模型仍有一定领先优势。（罗宁）

上一篇：定位非“古偶”《宸汐缘》张震胡碴造型是设计

下一篇：黑客分发恶意“扫雷”游戏，向金融 / 保险机构网络钓鱼

《美国工厂》获最佳纪录长片导演中文感谢曹德旺
北京时间2月10日上午，动漫美女砸玻璃在2020年的奥斯卡颁奖礼上，网贷点评网《美国工厂》获得最佳纪录长片奖，网贷点评网其导演在领奖时也用中文对曹德旺表达了感谢。《美国工厂》斩获2020年奥斯卡的最佳纪录长片的奖项，易材网该片记录…

02-10
王浩信张曦雯借位拍吻戏因疫情取消缅甸外景拍摄
北京时间2月16日消息，据香港媒体报道，王浩信，张振朗昨天到电视城为新剧《踩过界II》开工，王浩信表示之前多位病倒的演员已病愈复工，不过日前蔡思贝就不慎撞伤头要请假一天，由于他当时不在场，不知对方伤势如何。由于新冠肺炎疫情持…

02-16
麦当娜泡冰水浴治疗瘀伤开玩笑称自己喝的是尿
据香港媒体报道，大谷打工网最近忙于开巡唱的麦当娜，野蛮人飞行记近日在社交网站公开疗伤独门秘方，用泡“冰水员治瘀伤，蔡国庆的老婆邓亚萍并发文：“我们不如开始冰水浴挑战？最佳疗伤方法。”完成几分钟冰浴之后，麦当娜身体被冻得通…

11-19
炎亚纶直言争番位“很蠢”：应由努力付出得来
近日，壹点壹客官网多部影视剧因番位问题引发争议，炎亚纶日前接受媒体专访时也被问及这一问题，他直言艺人争夺番位的行为“太蠢了”：“番位应该是由你认真努力付出，家里蹲的朱教授人家愿意给你这些番位，而不是你硬要说：不行，西南证…

11-23
阿KEN自编自导自演鲁蛇喜剧挑战和女生聊天不NG
林暐恒（阿KEN）首部自编自导自演电影《练爱iNG》定档3月13日在台上映，汕大邮箱阿KEN日前曝光《练爱iNG》启动短片并分享创作灵感，不到五天影片观看人数破55万人次，今天发布鲁蛇生态篇预告，阿KEN在电影中饰演魏宏仁是所谓的人生鲁蛇，…

01-17