OpenAI 尚未透露 GPT-4o、GPT-4o mini 或任何版本的 o1 有多少个参数,但可以肯定的是,它的数量超过 1750 亿,少于曾经传言的100 万亿个参数,尤其是当您考虑到其他模态所需的参数时。 无论具体数字是多少,参数越多并不一定意味着越好。
模型能力和性能的一
些发展可能来自于拥有更多的参数,但很多可能 伯利兹电报数据 归因于训练方式的改进。 不幸的是,不同人工智能公司之间的企业竞争意味着他们的研究人员现在无法或不愿意分享有关他们的模型如何开发的所有有趣的细节。 通过人类反馈进行强化学习(RLHF) 如果没有进一步的训练,任何 LLM 的神经网络都完全不适合公开发布。
毕竟,GPT 是在几乎没有任
指导的情况下在开放的互联网上进行训练的——你能想象其 什么是风格指南以及如何 中的恐怖吗? 因此,为了进一步完善其模型以安全、合理、有效和连贯的方式响应各种不同提示的能力,他们使用一种称为强化学习和人类反馈 (RLHF) 的技术对模型进行了优化。
本质上,OpenAI 创建了一些演示数据,向神经网络展示了它在典型情况下应该如何响应。在此基础上,他们创建了一个带有比较数据的奖励模型(其中两个或多个模型响应由 AI 训练师进行排序),以便 AI 可以了解在任 电子邮件线索带领 何给定情况下哪个是最佳响应。虽然 RLHF 不是纯粹的监督学习,但它允许像 GPT 这样的网络进行有效的微调。