扫一扫,慧博手机终端下载!
位置: 首页 > 港美研究 > 正文

人工智能行业研究报告:信銀(香港)資本有限公司-人工智能行业重大事件点评:最强开源大模型Llama3或将影响全球AI格局-240423

股票名称: 人工智能行业 股票代码: 分享时间:2024-04-23 15:21:40
研报栏目: 港美研究 研报类型: (PDF) 研报作者: 李好
研报出处: 信銀(香港)資本有限公司 研报页数: 7 页 推荐评级:
研报大小: 676 KB 分享者: xzi****kk 我要报错
如需数据加工服务,数据接口服务,请联系客服电话: 400-806-1866
【研究报告内容摘要】

  核心观点
  Meta Platforms, Inc.(META.US)最新发布的旗舰产品——Llama3大语言模型以领先的性能被公认为当前全球最尖端的开源大模型之一。http://www.hibor.com.cn【慧博投研资讯】Llama3的8B和70B版本在标准化评估数据集中斩获高分,性能超越众多同规模闭源大模型。http://www.hibor.com.cn(慧博投研资讯)同时,Meta正在积极训练的405B版本可以与当前最先进的闭源大模型相媲美。Llama3的推出一定程度上证伪了此前业界和市场对于开源大模型与闭源大模型差距不断扩大的判断,相反,Llama3在多项关键指标上逼近甚至超越现有闭源大模型,未来有望进一步缩小差距。从技术层面来看,Llama3在多个关键领域实现创新性突破,包括扩充模型词汇库、引入GQA机制、优化数据集筛选流程,以及在Scaling Law上取得显著进展。尽管具有高昂的训练成本和有限的上下文窗口长度等局限,Llama3在预处理数据方面的创新显著提升了大型模型的迭代效率。从行业层面来看,Llama3的开源特性或将令人工智能行业迎来转型。一方面,拥有技术领先优势的企业将进一步巩固其市场领导地位;另一方面,预计将有众多企业放弃闭源大模型的自主研发,转而投身于开源社区,通过微调大模型以实现快速“落地”应用,在行业中形成多层次、分梯队的竞争格局。
  正文
  Llama3被公认为是全球最先进的开源大型语言模型。4月19日,Meta发布其开源大语言模型的最新版本——Llama3。Llama3提供8B和70B两种参数规模的版本,其中较小的8B版本的表现可以与上一代Llama2最大的70B版本相媲美;而较大的70B版本性能介于GPT-3.5与GPT4之间,在MMLU(大规模多任务语言理解评测数据集)上的评分达82分,超越了大多数现有闭源大模型,如Anthropic的Claude 3 Sonnet与Google Gemini Pro 1.5。此外,Meta公司还在训练一个405B参数规模的版本,目前该版本在MMLU上的评分已达86.1分,与市场上顶尖的闭源大模型如Claude 3 Opus及GPT-4 Turbo相当,预计该版本在完全训练完成后将展现出更优异的性能。
  强劲的Llama3延续开源与闭源差距缩小的趋势。当前,业界和市场有观点认为,开源大模型的性能将始终落后于闭源大模型,且差距愈发明显。从Flan-T5、Llama、Llama2到近期开源的Grok-1,开源大模型的性能不断接近闭源大模型。鉴于Llama3在多项关键指标上逼近甚至超越现有闭源大模型,我们认为,以开源大模型巨大的发展潜力,未来有望进一步拉近与闭源大模型的性能差距。
  Llama3将被应用于多款产品。Meta已将Llama3应用于MetaAI智能聊天助手,覆盖Instagram、WhatsApp、Facebook等全系应用。除Meta以外,预计Llama3模型将很快在AWS(亚马逊网络服务)、Databricks、Google Cloud、Hugging Face(提供机器学习模型的平台)、Kaggle(数据科学竞赛平台)、IBMWatsonX、Microsoft Azure、NVIDIANIM、Snowflake(云数据平台)上获得应用,并且得到AMD、AWS、Dell、Intel、NVIDIA、Qualcomm等公司提供的硬件平台支持。
  Meta Llama3的技术创新具体体现在以下几个层面。
  在文本转换层面,Llama3模型在Tokenizer上实现显著提升,从Llama2的32K tokens提升至128K tokens,有效增加了模型的字典容量。
  在模型结构层面,Llama3引入了GQA机制,优化了模型的参数数量,并提高了推理速度。根据Meta公布的数据来看,Llama38B版本相比于Llama27B版本,虽然增加了10亿参数,但是推理速度不相上下。
  在数据预处理层面,Llama3利用上一代模型自动筛选和处理15T的数据集,该数据集是Llama2的7倍左右,其中超过5%为非英语的高质量数据,涵盖了三十多种语言。据悉GPT-4用于训练tokens数量也仅有13T。
  在数据集规模层面,Llama3的训练和数据处理创新,证明了ScalingLaw的上限可能高于当前预期。在训练过程中,使用15T tokens的数据集对8B模型进行训练,显示出模型性能的持续提升,这就表明Scaling Law的上限其实比目前普遍预计的要高。
  然而,Meta Llama3依然存在以下两点局限。
  Llama3模型的训练成本高昂。8B和70B两个版本的训练共耗费了770万个GPU小时,成本估算约1500万美金,其中8B的版本花费了130万个GPU小时,70B的版本花费了640万个GPU小时。此外,正在训练中的405B参数版本预计将产生高达1亿美金的训练成本。Meta的GPU集群硬件投入已达到约10亿美金,并计划到2024年底将GPU数量增至35万个,相当于100亿美金的硬件投入。
  Llama3模型在上下文窗口处理能力仅支持8K tokens。尽管较上一代的4K提升了一倍,但与主流闭源大模型相比仍有差距。例如,GPT-4支持128K tokens的上下文窗口,而Anthropic的Claude3Sonnet及Google的模型则支持更大规模的上下文处理。
  技术层面,我们认为Llama3的发布标志着开源大模型技术的加速迭代。Llama3在数据预处理方面继承并利用其前作Llama2的算法框架,实现对海量数据的自动化质量评估,筛选出适合进一步训练的高质量数据,显著提升大模型迭代效率。我们预计,这种高效迭代将持续进行,直至全球所有可用训练数据资源被利用完毕。
  行业层面,我们认为Llama3的推出促使AI大模型企业重新审视并调整其战略规划,从而未来行业的竞争格局将呈现明显的分层化特征。
  一方面,行业“马太效应”进一步强化,拥有先进技术的闭源大模型企业凭借技术壁垒扩大领先优势,巩固市场领导地位;另一方面,预计将有相当一部分企业放弃闭源模式,转而加入开源社区,利用大模型微调“落地”应用,以降低开发成本并提升开发速度。值得注意的是,Meta在2023年底联合IBM等企业发起成立AI联盟。尽管该联盟并未包括OpenAI、谷歌、微软等企业,但涵盖AMD、索尼、Intel等全球知名科技公司以及哈佛、耶鲁等顶尖高校。Llama3的发布或将为该联盟带来更多的合作机会与成员扩张,从而增强其在AI领域的影响力。整体而言,我们认为,以OpenAI和Google为代表的第一梯队将进一步巩固其技术壁垒,保持其领先地位。由AI联盟所代表的第二梯队,将利用其在大数据获取、企业联盟网络规模效应等方面的优势,扩大其市场份额。第三梯队则由专注于特定应用领域、能够将AI大模型进行定制化开发与落地应用的公司组成。
  风险提示:行业竞争持续加剧;数据隐私保护;监管政策持续收紧。
  
  

推荐给朋友:
我要上传
用户已上传 11,410,411 份投研文档
云文档管理
设为首页 加入收藏 联系我们 反馈建议 招贤纳士 合作加盟 免责声明
客服电话:400-806-1866     客服QQ:1223022    客服Email:hbzixun@126.com
Copyright@2002-2024 Hibor.com.cn 备案序号:冀ICP备18028519号-7   冀公网安备:13060202001081号
本网站用于投资学习与研究用途,如果您的文章和报告不愿意在我们平台展示,请联系我们,谢谢!

不良信息举报电话:400-806-1866 举报邮箱:hbzixun@126.com