大模子最新综测后果另类玄幻,今天极新出炉!
2024 年 12 月 19 日,智源盘考院发布并解读国表里 100 余个开源和交易闭源的讲话、视觉讲话、文生图、文生视频、语音讲话大模子空洞及专项评测后果。
论断包括:
2024 年下半年大模子发展更聚焦空洞智力进步与实质控制。多模态模子发展赶快,涌现了不少新的厂商与新模子,讲话模子发展相对放缓。
模子开源生态中,除了抓续坚硬开源的海表里机构,还出现了新的开源孝敬者。
讲话模子主不雅评测要点检会模子中语智力,后果炫耀字节跨越 Doubao-pro-32k-preview、百度 ERNIE 4.0 Turbo 位居第一、第二。
文生视频模子方面,国产玩家开始各人。
K12 学科锻真金不怕火,大模子仍与海淀学生平均水平存在差距;无数存在"文强理弱"的偏科情况。
……
相较于本年 5 月的模子智力全主义评估,本次智源评测扩张、丰富、细化了任务处分智力内涵,新增了数据处理、高等编程和器具调用的磋磨智力与任务;初次增多了面向简直金融量化交游场景的控制智力评估,测量大模子的收益优化和性能优化等智力;初次探索基于模子狡辩的对比评估面孔,对模子的逻辑推理、不雅点贯通、讲话抒发等中枢智力进行潜入分析。
具体细节,一说念来看。
多种模态评测空洞榜单,掩饰文本、语音、图片、视频贯通与生成
评测后果指出,讲话模子,针对一般中语场景的通达式问答概况生成任务,模子智力已趋于裕如闲散,关联词复杂场景任务的表现,国内头部讲话模子仍然与国外一活水平存在显贵差距。
讲话模子主不雅评测要点检会模子中语智力,后果炫耀字节跨越 Doubao-pro-32k-preview、百度 ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴 Qwen-Max-0919名次第五。
在讲话模子客不雅评测中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest位列第一、第二,阿里巴巴 Qwen-max-0919、字节跨越 Doubao-pro-32k-preview位居第三、第四,Meta Llama-3.3-70B-Instruct名次前五。
视觉讲话多模态模子,天然开源模子架构趋同(讲话塔 + 视觉塔),但表现不一,其中较好的开源模子在图文理受命务上正在削弱与头部闭源模子的智力差距,而长尾视觉知识与翰墨识别以及复杂图文数据分析智力仍有进步空间。
评测后果炫耀另类玄幻,OpenAI GPT-4o-2024-11-20与字节跨越 Doubao-Pro-Vision-32k-241028先后开始于Anthropic Claude-3-5-sonnet-20241022,阿里巴巴 Qwen2-VL-72B-Instruct和Google Gemini-1.5-Pro紧随自后。
文生图多模态模子,本年上半年参评的模子无数无法生成正确的中语翰墨,但这次参评的头部模子照旧具备中语翰墨生成智力,但全体无数存在复杂场景东说念主物变形的情况,针对知识或知识性推理任务,小于 3 的数目关连任务表现存所进步,大于 3 的数目关连依然无法处理,波及中国文化和古诗词贯通的场景关于模子而言是不小的挑战。
评测后果炫耀,腾讯 Hunyuan Image位列第一,字节跨越 Doubao image v2.1、Ideogram 2.0分居第二、第三,OpenAI DALL · E 3、快手可图次之。
文生视频多模态模子,画质进一步进步,动态性更强,镜头讲话更丰富,专场更线路,但无数存在大幅度动作变形,无法贯通物理规则,物体消亡、炫耀、穿模的情况。
评测后果炫耀,快手可灵 1.5(高品性)、字节跨越即梦 P2.0 pro、爱诗科技 PixVerse V3、Minimax 海螺 AI、Pika 1.5位列前五。
语音讲话模子,收货于文本大模子的进步,智力进步宽广,掩饰面更全,但在具体任务上与内行模子还存在一定差距,全体而言,性能好、通用智力强的开源语音讲话模子偏少。
Porn hongkongdoll专项评测后果炫耀,阿里巴巴 Qwen2-Audio位居第一,香港中语大学 & 微软 WavLLM、清华大学 & 字节跨越 Salmon位列第二、第三,Nvidia Audio-Flamingo,MIT & IBM LTU均插足前五。
四大专项评测榜单,多维度探索模子智力领域与控制潜能
本次评测,智源盘考院再次王人集与海淀区老师进修学校新编了 K12 全学段、多学科试卷,进一步检会大模子与东说念主类学生的智力各别,其中,谜底不唯一的主不雅题依然由海淀老师切身评卷。
收货于多模态智力的带动发展,模子本次 K12 学科锻真金不怕火空洞得分相较于半年前进步了 12.86%,关联词仍与海淀学生平均水平存在差距;在英语和历史文科试题的表现上,已有模子高出了东说念主类考生的平平分;模子无数存在"文强理弱"的偏科情况。
FlagEval 大模子角斗场,是智源盘考院本年 9 月推出的面向用户通达的模子对战评测做事,以反馈用户对模子的偏好。
现在,FlagEval 掩饰国表里约 50 款大模子,赈济讲话问答、多模态图文贯通、文生图、文生视频四大任务的自界说在线或离线盲测。
这次评测,共有 29 个讲话模子、16 个图文问答多模态模子、7 个文生图模子、14 个文生视频模子参评。评测发现,用户对模子的响当令刻有更高条款,对模子输出的内容倾向于更结构化、尺度化的面孔。
行动模子对战评测做事 FlagEval 大模子角斗场的延展,本年 10 月智源盘考院推出了模子狡辩平台 FlagEval Debate,对模子的逻辑推理、不雅点贯通以及讲话抒发等中枢智力进行潜入评估,以甄别讲话模子的智力各别。
本次评测发现,大模子无数枯竭狡辩框架意志,不具备对辩题以全体逻辑进行空洞领悟;大模子在狡辩中依然存在"幻觉问题",论据经不起考虑;大模子更擅长反驳,各个模子表现杰出的狡辩维度趋同,在不同的辩题中,模子表现差距显贵。
FlagEval Debate 评测后果标明,Anthropic Claude-3-5-sonnet-20241022、零一万物 Yi-Lighting、OpenAI o1-preview-2024-09-12 为前三名。
这次评测,智源盘考院探索了基于实质控制场景的全新法度,通过评测模子的量化代码已毕智力,探索模子在金融量化交游领域的潜在控制智力和交易价值。
评测发现,大模子照旧具备生成有回撤收益的计策代码的智力,能诞生量化交游典型场景里的代码;在知识问答方面,模子全体各别较小,全体分数偏高,但在实质代码生成任务上,模子各别较大,全体智力偏弱;头部模子智力已接近低级量化交游员的水平。金融量化交游评测后果炫耀,深度求索 Deepseek-chat,OpenAI GPT-4o-2024-08-06,Google Gemini-1.5-pro-latest 位列前三。
智源评测体系 FlagEval 再迭代,掩饰各人 800+ 开闭源模子
本次评测依托智源盘考院自 2023 年 6 月上线的大模子评测平台 FlagEval,历程数次迭代,现在已掩饰各人 800 多个开闭源模子,包含 20 多种任务,90 多个评测数据集,超 200 万条评测题目。
在评测法度与器具上,智源盘考院王人集宇宙 10 余家高校和机构和洽共建,探索基于 AI 的援救评测模子 FlagJudge 和生动全面的多模态评测框架 FlagEvalMM,并构建面向大模子新智力的有挑战的评测集,包括与北京大学共建的 HalluDial 幻觉评测集、与北师大共建的 CMMU 多模态评测集、多讲话跨模态评测集 MG18、复杂代码评测集 TACO 以及长视频贯通评测 MLVU 等,其中与北京大学共建的 HalluDial 是现在各人领域最大的对话场景下的幻觉评测集,有 18000 多个轮次对话,和 14 万多个回复。
为躲避数据集表露风险以及数据集裕如度问题,本次评测吸纳了近期发布的数据集并抓续动态更新评测数据,替换了 98% 的题目,并进步了题方针难度。
智源盘考院副院长兼总工程师林咏华在评测发布会上暗示,FlagEval 评测体系一直遵照科学、泰斗、公正、通达的准则,通过技巧法度平台抓续革命,打造丈量模子智力的标尺,为大模子技巧生态发展提供知悉。2025 年,FlagEval 评测体系的发展将进一步探索动态评测与多任务智力评估体系,以评测为标尺感知大模子的发展趋势。
* 本文系量子位获授权刊载,不雅点仅为作家所有。
— 完 —
量子位 QbitAI
վ ' ᴗ ' ի 跟踪 AI 技巧和居品新动态
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日相逢 ~