简介
"GPT-4,这是OpenAI在扩大深度学习方面的最新里程碑。GPT-4是一个大型的多模态模型(接受图像和文本输入,发出文本输出),虽然在许多现实世界的场景中能力不如人类,但在各种专业和学术基准上表现出人类水平的性能。" --OpenAI
GPT-4, 顾名思义是GPT-3和GPT-3.5的下一代模型。相比前面的模型,GPT-4多出了多模态的能力,简单来说,GPT-4除了具备理解输入的文本和生成文本的能力外,还具有了识别图像的能力,所以可以简单理解为GPT3.5 (ChatGPT初版背后的语言模型)具有了文本理解能力和说话的能力,而GPT-4在此基础之上拥有了视觉,并增强了自己的语言理解能力。
GPT-4刚出来的时候,虽有很多人大喊🐂🍺, 但也有不少人会有点失望。当然失望不是模型不够强,而是因为等待时间比较久且期待比较高。GPT-4的相关详细远在去年的时候就已经被放出,根据OpenAI官方公布的技术报告, GPT-4模型在去年的8月就已经完成训练,之后一直在测试它的安全性和可靠性。在gpt-4出来之前,已知GPT-3模型拥有1750亿的参数,而GPT-4的参数会达到万亿级别,再加上去年AIGC带来的热度,尤其是文本生成图像和视频,大家猜测GPT-4会拥有图像生成能力。在GPT-4正式发布前夕,微软公布了两篇多模态模型(具备本文生成和图像生成能力)的论文,德国的CTO也说GPT-4能够处理视频,于是大家对GPT-4的期望被拉到了一个很高的地步——能够把图像、文本、语音、视频全部能做的巨无霸。但是最后公布后,它只能接受图像和文本的输入,并只能输出文本。
言归正传, GPT-4相比GPT-3在文本的能力上还是有很大的提升,除了日常对话之外,它的考试能力和写代码能力都有很大的提升。其中一个GPT-4发布时的一个名场面就是OpenAI的联合创始人 Greg Brockman在一张纸上手绘了一个网页端的界面,然后把图片上传给模型,GPT-4根据它画出的UI界面生成了可运行的代码。 在考试方面,GPT-4不仅仅通过了律师资格考试,而且在考生中排名前10%,而GPT-3.5在这个考试中只能排末尾的10%。
Open AI为了训练GPT-4专门部署了计算集群能够更高效准确稳定地训练大语言模型。其中一个很重要的特性就是他们的框架能够准确预测出模型的性能,在AI的研究中,由于大模型规模非常大,模型参数很多,在大模型上跑完来验证参数好不好训练时间成本很高,所以一般会在小模型上做消融实验来验证哪些改进是有效的再去大模型上做实验。然而在语言模型上,因为模型太大了,一些在小模型上有效果的改进在大模型上是无效的,还有大模型特有的涌现能力无法在小模型上体现。而openai的这个系统在小规模成本的训练下能够精准预测到扩大训练规模的模型性能,这个能够有效地解决上述问题。