机器之心报谈红色av社区
剪辑:佳琪、蛋酱
快速更替的开源大模子领域,又出现了新王:Reflection 70B。
横扫 MMLU、MATH、IFEval、GSM8K,在每项基准测试上皆突出了 GPT-4o,还打败了 405B 的 Llama 3.1。
这个新模子 Reflection 70B,来自 AI 写稿初创公司 HyperWrite。
狠撸HyperWrite 公司的 CEO Matt Shumer 示意,Reflection-70B 现在是「天下上最顶级的开源 AI 模子」。
Reflection 70B 的底层模子竖立在 Meta 的 Llama 3.1 70B Instruct 上,并使用原始的 Llama chat 体式,确保了与现存器具和 pipeline 的兼容性。
Reflection 70B 已在多个基准测试中经过严格测试,包括 MMLU 和 HumanEval。测试收尾标明, Reflection 的发扬恒久优于 Meta 的 Llama 系列,并与 GPT-4o 等大师顶尖的商用模子张开了热烈竞争。
其中,它在 GSM8K 的得分以致达到了 99.2%。要知谈,GSM8k 中可能有有突出 1% 的被标为正确的谜底骨子上有错,也即是说,Reflection 70B 的得分险些与满分无异。
值得持重的还有 Reflection 70B 的零样本推理才略。靠近从未走动过的内容,Reflection 70B 的发扬超越了 Claude 3.5、Gemini 1.5 以及 Llama 405 在五次样本测试中的得分。
Reflection 70B 相称适用于需要高精度的任务,它将推理分为不同的法子以擢升精度。该模子可通过 Hugging Face 下载,API 视察将至今天晚些时候通过 GPU 奇迹提供商 Hyperbolic Labs 提供。
Hugging Face:https://huggingface.co/mattshumer/Reflection-70B 试用网址:https://reflection-playground-production.up.railway.app/假定检修有素
模子自动纠错
在通用才略除外,Reflection 70B 的亮点还包括「失实识别」和「失实矫正」。
一种名为「Reflection-Tuning」的时刻,使得模子八成在最终详情回应之前,先检测本人推理的失实并矫正。
Reflection 70B 引入了几个用于推理和纠错的稀奇 token,使用户八成以更结构化的神色与模子交互。在推理过程中,模子会在稀奇标签内输出其推理,以便在检测到失及时进行及时矫正。
Playground 演示网站包含供用户使用的建议辅导词,比如那些很经典的例子:谈判 Reflection 70B 单词「Strawberry」中有若干个「r」,以及哪个数字更大(9.11 照旧 9.9),这两个绵薄的问题也曾难倒过许多大模子。
Reflection 70B 在测试中显得有些缓缓,但最终 60 多秒后给出了正确的谜底。
Reflection 70B 的发布仅仅 Reflection 系列的最先。与此同期,Reflection 405B 也在推出的路上了,瞻望下周上市。Shumer 示意,它的性能将远远突出现时的独有或闭源 LLM,举例现时大师当先的 OpenAI 的 GPT-4o。
Shumer 布告,HyperWrite 正悉力于将 Reflection 70B 模子集成到其主要的 AI 写稿助手居品中。
Reflection 405B 有望超越现在市集上最顶尖的闭源模子。HyperWrite 将发布一份剖析,详备先容检修过程和基准,以及 Reflection 模子背后的革命之处。
两个东谈主在几周内完成
归功于 Glaive 的合成数据
Shumer 示意完成 Reflection 70B 只花了三周,团队唯有他和另一位 AI 创业公司的创举东谈主 Sahil Chaudhary 两个东谈主。
在这样短的时期内作念出遵守如斯好的模子,Shumer 称,皆要拜 Sahil 的公司 Glaive 所赐。Glaive 是一家成心为特定需求构建数据集的初创公司。Shumer 在 X 平台上反复 que 这少量:「关系了 Sahil 之后,检修数据几小时内就生成好了。」他还躬行站台安利:「要是你在检修 AI 模子,一定要试试 Glaive 提供的奇迹。」
Glaive 专注于责罚 AI 诱惑中最大的瓶颈之一:高质料、任务特定数据的可用性。在客岁取得了一轮 350 万好意思元的种子轮融资。
Sahil Chaudhary
袖珍、更专科化的说话模子在使用 Glaive 提供的奇迹后,八成更快地完成检修。已经有一些小模子使用该公司已经证明了 Glaive 的才略,举例一个 3B 参数模子在 HumanEval 等任务上的发扬突出了许多参数领域更大的开源模子。
火得措手不足
GPU 不够用了
Reflection 70B 照旧发布,就火了,跑去试用的东谈主太多,模子已经反馈不外来了。
原本不错在线试用 Reflection 70B,但现在和它聊天反馈很慢。
然而凭据手快的网友发来的测评,Reflection 70B 也如实没亏负六个基础测试集里有四个皆打败了 Claude 3.5 Sonnet 的战绩。
比如,它是首个能想清爽这谈缠绕不清的逻辑题的大模子。
辅导词:有东谈主在某地杀了 Agatha。Agatha、管家和 Charles 住在 此地,何况是那里独一的住户。杀手恨他的指标,何况比受害者穷。Charles 不恨 Agatha 恨的任何东谈主。Agatha 除了管家除外恨悉数东谈主。管家恨悉数不如 Aunt Agatha 富余的东谈主。管家恨悉数 Agatha 恨的东谈主。莫得东谈主恨悉数东谈主。谁杀了 Agatha?
向它发问:「柏林的魏森湖地区当地东谈主频频在那里约会?当地有哪些景点?」。关于这些土产货东谈主才知谈的谜底,其他模子天然也能给出一些正确的回应,然而总会冒出一些在柏林除外的所在。Reflection 70B 是第一个能正确地说出主要所在,何况莫得幻觉的模子。
Reflection-70B 的编码才略也得到了认证。有网友在 ProLLM 的编码援救任务中对 Reflection-70B 进行了基准测试。它如实是最佳的开源模子之一,打败了 Llama-3.1 405B。
不外,爆火的同期,由于 Reflection 70B 的底层模子接管了 Meta 的 Llama 3.1 70B Instruct,这也激勉了一些争议。
有网友合计:「Reflection 70B 仅仅一种元辅导(Meta-Prompting)的当先,似乎不成算是一种革命。」
但也有东谈主对此冷漠反对,合计「期骗念念维链和让大模子说出我方的职责经过」这种依次能让大模子更好地模拟东谈主类念念考的过程。
「万一 Shumer 的依次 Reflection-tuning,即是 OpenAI 的 Strawberry 的依次呢?」
团队先容
乍一看,Reflection 70B 似乎是横空出世,HyperWrite 的闻明度并不高。但其实 Shumer 已是 AI 领域的创业宿将了:2020 年,他与就 Jason Kuperberg 共同创立了 Otherside AI。
从左至右永诀为 Otherside AI 的聚拢创举东谈主:Matt Shumer, Miles Feldstein 与 Jason Kuperberg。
Otherside AI 凭借其方丈居品 HyperWrite 收成了一波流量。HyperWrite 最初是一款凭据重心撰写邮件和音问的 Chrome 插件。其后,它的功能越来越纷乱,拓展出了草拟著述、追念文本等功能。杀青 2023 年 11 月,HyperWrite 领有两百万用户。跟着两位聚拢创举东谈主登上了福布斯年度「30 岁以下精英」榜单,Otherside AI 也持重改名为 HyperWrite。
在最新一轮融资中, HyperWrite 取得了 280 万好意思元的投资。在这笔资金的加抓下,HyperWrite 引入了 AI 运行功能,升级成了不错从网页浏览器自动完成预定航班、在 LinkedIn 上筛简历的智能管家。
HyperWrite 在线帮你订达好意思乐披萨的外卖。
参考贯穿:https://venturebeat.com/ai/meet-the-new-most-powerful-open-source-ai-model-in-the-world-hyperwrites-reflection-70b/红色av社区
MetaLlamaAgatha模子Glaive发布于:北京市声明:该文不雅点仅代表作家本东谈主,搜狐号系信息发布平台,搜狐仅提供信息存储空间奇迹。