ChatGPT 背后的原始模型 GPT-3 是在大约 5000 亿个token上进行训练的,这使得其语言模型能够更轻松地赋予含义并通过将它们映射到向量空间中来预测合理的后续文本。 许多单词都映射到单个 token,但较长或较复杂的单词通常会分解为多个 token。
平均而言,token 大约有
四个字符长。OpenAI 对 GPT-4o 和 o1 的内部 保加利亚电报数据 工作原理保持沉默,但我们可以放心地假设它至少在相同的数据集上进行了训练,并且 OpenAI 可以访问尽可能多的额外数据,因为它的功能更加强大。 文本块分解为 GPT-3 标记和字符。
所有文本标记都来自人
类编写的大量数据,至少对于 GPT-3 来说是这样。其中包括所 针对高度监管行业的 9 个内容营销技巧 有不同主题、风格和类型的书籍、文章和其他文档,以及从开放互联网上抓取的大量内容。基本上,它可以对人类知识的总和进行处理,以开发用于生成文本的网络。 现在,研究人员的人工训练数据已经用完了,因此包括o1在内的后续模型也使用合成(或 AI 创建的)训练数据进行训练。
这还没有考虑所有图像和音频训 电子邮件线索带领 练数据,这些数据也必须分解为离散标记。 基于所有这些训练,GPT-3 的神经网络拥有 1750 亿个参数或变量,使其能够接受输入(您的提示),然后根据它赋予不同参数的值和权重(以及少量随机性),输出它认为最符合您的要求的内容。