连续两(liang)(liang)天,半夜爆出大(da)消(xiao)息(xi)。先是华为(wei)新机深夜上(shang)线,让芯片国产替代的步伐更进一(yi)步;次日晚,百(bai)度(du)文心(xin)一(yi)言官宣向公(gong)众全面开放——两(liang)(liang)大(da)劲爆消(xiao)息(xi)直接点燃科技圈。
8月31日凌晨,百度官方公众账号即发布推文,称(cheng)“文心(xin)一(yi)(yi)言向(xiang)(xiang)全(quan)社会开(kai)放(fang)”,用户可(ke)以在(zai)(zai)应用商店下载“文心(xin)一(yi)(yi)言APP”或(huo)登陆“文心(xin)一(yi)(yi)言官网”体(ti)验(yan)。包括百度文心(xin)一(yi)(yi)言在(zai)(zai)内,一(yi)(yi)共有8个(ge)企业/机构的(de)(de)大模型位列第一(yi)(yi)批(pi)名(ming)单,可(ke)以正式上线(xian)面向(xiang)(xiang)公众提供服务,值得(de)注(zhu)意的(de)(de)是,被(bei)看作(zuo)文心(xin)一(yi)(yi)言竞争者(zhe)的(de)(de)阿里通义千问、360智(zhi)脑、讯飞星火(huo)等(deng),不在(zai)(zai)首批(pi)获批(pi)名(ming)单中。
随后“文心一言APP”在各大应用商(shang)店冲上(shang)热榜,在苹果App Store上(shang)更是直接登顶免费(fei)榜榜首,成为当日(ri)热门应用,这(zhei)无疑让百度再一次占得了先机。
此前,在(zai)获得备(bei)案(an)审批之(zhi)前,各家(jia)只(zhi)能小范围内(nei)测,用户需(xu)要“排队”申请内(nei)测资格(ge),由此大大限制了(le)大模型在(zai)用户层面的推广,如今大模型备(bei)案(an)获批和全面开放,大模型的步伐有望(wang)迈入(ru)下一阶(jie)段。
秉持着技(ji)术(shu)自主(zhu)的理念,将资金(jin)大规模倾斜到自主(zhu)技(ji)术(shu)研发的百度和华为,可(ke)以说(shuo)是殊途同(tong)归,而(er)软(ruan)硬件领域的“双(shuang)子星”联袂,共同(tong)推动技(ji)术(shu)投(tou)入走(zou)向“开花结果(guo)”。
技术(shu)坚守,换来(lai)厚积薄(bo)发
大模型在(zai)国(guo)内(nei)掀起新一(yi)代技术浪潮,迅速席卷了整(zheng)个(ge)互联网,而(er)百度在(zai)大模型赛(sai)道(dao)上的步伐一(yi)直领先(xian)(xian)。2019年第一(yi)个(ge)发布了文(wen)心大模型,2023年,大厂中(zhong)最(zui)早(zao)推出大语言模型“文(wen)心一(yi)言”,如今又率(lv)先(xian)(xian)获批、得到认可,正式向(xiang)全社会(hui)开放。
百(bai)度之所以快速踩在了(le)大模(mo)型的(de)全球性技术(shu)风口上,是建立在百(bai)度雄厚(hou)的(de)技术(shu)基底之上。
早从(cong)2010年开始,百度就已(yi)经着手布局(ju)AI相关技(ji)术(shu)的研(yan)发,近十年来(lai),累(lei)计(ji)研(yan)发投入(ru)超过(guo) 1400 亿(yi)元。其中2022 年研(yan)发费(fei)用高(gao)达 214.16 亿(yi)元,占百度核心(xin)收入(ru)比(bi)例达到 22.4%。与(yu)全球其他大厂相比(bi),这(zhei)些投入(ru)也是数一数二。
在高研发成本的(de)持续投入下,这些年从最初探索深(shen)度学习(xi)等基础(chu)技术(shu),到(dao)推(tui)动AI在互联网(wang)等场景(jing)试点落地,再到(dao)如今扎根千行(xing)百业(ye)、大(da)力推(tui)进AI工业(ye)化大(da)生产等,百度既完成了(le)在芯片、框架(jia)、模型(xing)和(he)应用四层构(gou)架(jia)对应的(de)自研技术(shu)积累,具备(bei)了(le)做AI基础(chu)设施供(gong)给者(zhe)的(de)前提条件,又成功引领(ling)了(le)AI技术(shu)成果在产业(ye)层面的(de)实践(jian),降低了(le)人工智能的(de)开(kai)发和(he)应用门(men)槛。
这也使得百度无论在技(ji)(ji)术专(zhuan)利(li)(li)、技(ji)(ji)术产品还(hai)是技(ji)(ji)术应用上,都占据了领先地位(wei)。以专(zhuan)利(li)(li)来看,根据由国家工业信(xin)息(xi)安全(quan)发展研(yan)究中(zhong)心(xin)、工信(xin)部(bu)电子知(zhi)识产权中(zhong)心(xin)发布的《中(zhong)国人工智能专(zhuan)利(li)(li)技(ji)(ji)术分析报告(gao)(2022)》显(xian)示,百度AI专(zhuan)利(li)(li)申请量1.68万件,连续五年保持(chi)中(zhong)国第一;专(zhuan)利(li)(li)授权量上,百度仍以5705件专(zhuan)利(li)(li)授权量位(wei)列第一。
文心(xin)一(yi)言(yan)大模(mo)型(xing)(xing),正是百度多(duo)年技术(shu)积累(lei)和产业(ye)实践的(de)水到(dao)渠成,而基于技术(shu)和实践的(de)领先优(you)(you)势,文心(xin)一(yi)言(yan)问世(shi)不到(dao)半年,在国内外(wai)多(duo)家(jia)调(diao)研机构、权(quan)威媒体和高校等(deng)发(fa)布的(de)大模(mo)型(xing)(xing)评测报告中,表现优(you)(you)异(yi)。
如IDC最新发布的《AI大模型(xing)技术(shu)能力评(ping)估报告(gao),2023》,报告(gao)显(xian)示(shi),百度文心(xin)(xin)大模型(xing)3.5拿下12项指标的7个满分,综合评(ping)分第(di)(di)一(yi)(yi),算(suan)(suan)法模型(xing)第(di)(di)一(yi)(yi),行业(ye)覆(fu)盖第(di)(di)一(yi)(yi)。其中算(suan)(suan)法模型(xing)是大模型(xing)能力最为核心(xin)(xin)的要(yao)素,百度文心(xin)(xin)大模型(xing)在这(zhei)一(yi)(yi)维度获(huo)得了(le)唯一(yi)(yi)的满分。
更令外界欣喜的是,从测评(ping)来看,百度(du)文(wen)心一言(yan)大(da)模型能力(li)从5月至今不断提(ti)升,正在逐渐赶(gan)上国外大(da)模型。
百度‘AI大底座’的全(quan)栈能力,助力文心一(yi)言进化(hua)
31日(ri)凌晨(chen)全面(mian)开放后,百度文(wen)心一言APP迅速飙(biao)升(sheng)至苹(ping)果商店免费榜(bang)榜(bang)首(shou)(shou),成为首(shou)(shou)个登顶应用商店榜(bang)首(shou)(shou)的中(zhong)文(wen)AI原生(sheng)应用。
用户的(de)(de)反响,透露出(chu)(chu)他们对文(wen)心一言表(biao)现出(chu)(chu)的(de)(de)强劲(jing)进化能力的(de)(de)期待。自(zi)今年3月发(fa)布(bu)至(zhi)今,文(wen)心一言快速(su)成(cheng)长,熟练掌握(wo)的(de)(de)创(chuang)作体裁超(chao)过200个,内容丰富度(du)是(shi)发(fa)布(bu)初期的(de)(de)1.6倍(bei),思维链长度(du)是(shi)初期的(de)(de)2.1倍(bei),知识点覆盖达(da)到初期的(de)(de)8.3倍(bei)。在一些公开(kai)测评中(zhong)(zhong),文(wen)心大模(mo)型3.5版支持下的(de)(de)文(wen)心一言中(zhong)(zhong)文(wen)能力突(tu)出(chu)(chu),甚至(zhi)有超(chao)出(chu)(chu)GPT-4的(de)(de)表(biao)现。
这很大(da)(da)程度(du)上得益于(yu)百(bai)(bai)度(du)飞桨,百(bai)(bai)度(du)拥(yong)有自研的(de)深(shen)度(du)学习(xi)平(ping)台飞桨,它(ta)有力(li)支(zhi)撑了大(da)(da)模(mo)型的(de)高效训(xun)练(lian)和推(tui)(tui)理。通过飞桨端(duan)到端(duan)自适应(ying)混合(he)并行训(xun)练(lian)技术以(yi)及压缩、推(tui)(tui)理、服务部署的(de)协同优化,文心大(da)(da)模(mo)型训(xun)练(lian)速度(du)达到原来的(de)3倍,推(tui)(tui)理速度(du)达到原来的(de)30多倍。
飞(fei)桨(jiang)(jiang)和文(wen)心(xin)一(yi)言,一(yi)个(ge)(ge)是(shi)框架平台,一(yi)个(ge)(ge)是(shi)大(da)模型,这两(liang)者之间(jian)正好(hao)处在(zai)人工智能技术体(ti)(ti)系里面很重要的两(liang)层,它们之间(jian)有(you)很强的协(xie)同优化潜力,由此飞(fei)桨(jiang)(jiang)领(ling)先的训练技术,能够优化大(da)模型的训练效率。
百度(du)不(bu)单单在框架(jia)层(ceng)和(he)模(mo)型(xing)层(ceng)拥有关键技(ji)(ji)术(shu)(shu)。进入人工智能时代,IT技(ji)(ji)术(shu)(shu)的技(ji)(ji)术(shu)(shu)栈发(fa)生了根本性变化,从过(guo)去三层(ceng)转变为“芯片-框架(jia)-模(mo)型(xing)-应用”四层(ceng),百度(du)则是全球为数不(bu)多、进行全栈布局(ju)的人工智能公司。从高端芯片昆仑芯,到飞(fei)桨深度(du)学习(xi)框架(jia),再到文心预(yu)训练大模(mo)型(xing),及(ji)搜索(suo)、智能云、自动驾驶、小(xiao)度(du)等应用,各层(ceng)都(dou)有领先业界的关键自研技(ji)(ji)术(shu)(shu)。
如框(kuang)架(jia)层上,百度(du)(du)从2016年就开源了飞(fei)桨深度(du)(du)学(xue)习(xi)框(kuang)架(jia),目(mu)前这一框(kuang)架(jia)已(yi)经(jing)集成(cheng)了深度(du)(du)学(xue)习(xi)核(he)心训练和推理框(kuang)架(jia)、基(ji)础模(mo)型库(ku)、端到(dao)端开发(fa)套件等工具组件,在中国市场份额中排行第一。
全(quan)栈(zhan)(zhan)布局的(de)优势在于,可(ke)以在技术栈(zhan)(zhan)的(de)四层(ceng)架构(gou)中,实现(xian)端(duan)(duan)到端(duan)(duan)优化(hua),大幅提升效(xiao)率,飞(fei)桨和(he)(he)文(wen)心一(yi)言的(de)优化(hua),就是最典型的(de)例(li)子(zi)。另外,芯片、框(kuang)架、大模(mo)型和(he)(he)终端(duan)(duan)应用(yong)场(chang)景,也可(ke)以形成一(yi)个高效(xiao)的(de)反(fan)馈闭环,帮助大模(mo)型不(bu)断(duan)去调优迭代,越做越好。
比(bi)如文(wen)心(xin)一言与搜(sou)索(suo)(suo)、信(xin)息流等应用(yong)(yong)层(ceng)的(de)(de)协同。百度(du)的(de)(de)搜(sou)索(suo)(suo)服(fu)务(wu),每(mei)天(tian)(tian)响应几(ji)十亿次(ci)真(zhen)实的(de)(de)用(yong)(yong)户(hu)使用(yong)(yong)需求,每(mei)天(tian)(tian)进(jin)行(xing)1万(wan)亿次(ci)深(shen)度(du)语(yu)义推理(li)与匹(pi)配,能够提供最(zui)真(zhen)实、最(zui)及(ji)时的(de)(de)反馈,从而(er)倒(dao)逼大模型(xing)、深(shen)度(du)学(xue)习框架和芯片的(de)(de)优化。相(xiang)对地,文(wen)心(xin)一言应用(yong)(yong)于搜(sou)索(suo)(suo),也将带(dai)来搜(sou)索(suo)(suo)的(de)(de)变革。
除了全栈自(zi)研的(de)(de)‘AI 大(da)底座’,百度智能(neng)云(yun)推(tui)出(chu)的(de)(de)两大(da)AI工(gong)程(cheng)平台(tai)—‘AI 中台(tai)’和‘百度百舸· AI 异构(gou)计算平台(tai)’,也分(fen)别在开发和资源层面进行提(ti)效,加速(su)训(xun)练过程(cheng)。这给文心(xin)一言的(de)(de)成(cheng)长提(ti)供了最坚实(shi)的(de)(de)技术支撑,也成(cheng)为其追赶国(guo)外大(da)模(mo)型的(de)(de)底气。
核心(xin)能力升级,百度加速大(da)模型落(luo)地时代到来
5月底举(ju)行的2023万象·百度移动生(sheng)态大会(hui)上,百度搜索宣布(bu)“AI伙伴”开始内(nei)测(ce)。这款全(quan)能(neng)(neng)的“Al伙伴”能(neng)(neng)够听(ting)懂用(yong)户的任何问题,并用(yong)语(yu)音进行互动,还能(neng)(neng)帮助用(yong)户标记答案中的重点,提供权威的来源。在演示中,“Al伙伴”完整地(di)提供了一篇人(ren)工智能(neng)(neng)大会(hui)主持词。
百(bai)度旗(qi)下(xia)各类(lei)用户(hu)侧(ce)产品正在利(li)用大(da)模型进(jin)行(xing)重(zhong)构,而基于(yu)大(da)模型基座和云平台进(jin)行(xing)开发生态的建设也在同步(bu)推(tui)进(jin)。前不久,百(bai)度承办的2023 WAVE SUMMIT上,推(tui)出(chu)了“超级助理”和“Comate X智(zhi)能(neng)编(bian)程助手(shou)”。
理解、生成、逻辑和(he)记(ji)忆,构(gou)成了(le)一(yi)个人工智能或者通(tong)用人工智能系统(tong)最基本的(de)(de)能力,从文心一(yi)言(yan)在C端及B端应用上的(de)(de)表现来看(kan),这四大(da)核心能力正(zheng)在快(kuai)速(su)提升(sheng),而背后展示出的(de)(de)则是百(bai)度在知识增(zeng)强、检索(suo)增(zeng)强、对话增(zeng)强方面的(de)(de)关(guan)键技术能力和(he)差异化优势。
庞大(da)的知识图谱和(he)搜索基(ji)础上对真实数据和(he)用户需求的理解,是百(bai)(bai)度(du)多年来构建技(ji)术护城(cheng)河和(he)打造内容生态的基(ji)础,因而作为百(bai)(bai)度(du)自主研制的知识增(zeng)强大(da)语言(yan)模型,文心一言(yan)在知识增(zeng)强和(he)检索增(zeng)强方面天然具有优势。
据悉(xi),百度(du)文(wen)心大模型拥有世(shi)界上最(zui)大规(gui)模知识图谱(pu),包含50亿实(shi)体、5500 亿级事(shi)实(shi),每天调用量(liang)超(chao)过400亿次(ci)。
在对(dui)话(hua)增强方(fang)面(mian),百(bai)度(du)深耕对(dui)话(hua)技术(shu)多年,前不(bu)久,王海峰带领团(tuan)队完(wan)成的(de)‘知识与(yu)深度(du)学习融合的(de)通用对(dui)话(hua)技术(shu)及应用’成果,荣获(huo)了‘2022 年度(du)吴(wu)文(wen)俊(jun)人(ren)工(gong)智(zhi)能科(ke)技进步奖特等(deng)奖’,这是(shi)该奖项设立以来颁发的(de)首个特等(deng)奖。对(dui)话(hua)技术(shu)所涉及的(de)记忆机制、上下文(wen)理解和对(dui)话(hua)规划(hua)能力,能够帮助文(wen)心一言实现更好的(de)对(dui)话(hua)连贯性(xing)、合理性(xing)和逻辑性(xing)。
百(bai)度已经构建(jian)了(le)面向(xiang)中文、服务应用(yong)、富含知(zhi)识(shi)的多样(yang)化训(xun)练数据,并建(jian)立起人类反(fan)馈、奖励模型(xing)和策(ce)略优(you)化之间的飞轮机(ji)制,随着真实用(yong)户(hu)的反(fan)馈越(yue)(yue)来(lai)越(yue)(yue)多,文心一言(yan)的效果会越(yue)(yue)来(lai)越(yue)(yue)好,能(neng)力也(ye)越(yue)(yue)来(lai)越(yue)(yue)强。
而今,文(wen)心(xin)一(yi)言率先(xian)面(mian)向(xiang)用(yong)(yong)(yong)户全面(mian)开放,也就说未(wei)来(lai)(lai)能(neng)(neng)获得更(geng)海量(liang)的(de)(de)(de)真实世界(jie)中的(de)(de)(de)人工反馈,这将进(jin)一(yi)步改进(jin)基础(chu)模(mo)型,助(zhu)力文(wen)心(xin)一(yi)言加速迭代、提升能(neng)(neng)力。而且(qie),对用(yong)(yong)(yong)户层面(mian)的(de)(de)(de)放开,会刺激大模(mo)型竞争焦点转向(xiang)应(ying)(ying)用(yong)(yong)(yong)层,激起应(ying)(ying)用(yong)(yong)(yong)开发的(de)(de)(de)创造活力,基于文(wen)心(xin)一(yi)言的(de)(de)(de)领(ling)先(xian),百度未(wei)来(lai)(lai)或(huo)将率先(xian)带来(lai)(lai)杀手(shou)级应(ying)(ying)用(yong)(yong)(yong),真正(zheng)引领(ling)大模(mo)型进(jin)入落地时代。
这亦是用户想从这场技(ji)术性浪潮看到的,弯道(dao)超(chao)车,占(zhan)领(ling)新一代技(ji)术变革的制(zhi)高点(dian)。