您现在的位置: 首页 > 业界 > 正文

AI交互告别“文本框”:具身智能数字人开启多模态交互新时代

2025-10-29 23:24:33 来源:互联网 编辑:ITCN
  • +1 你赞过了

10月29日,魔珐科技(Xmov)宣布正式上线具身智能3D数字人开放平台——魔珐星云(网址:https://xingyun3d.com ),旨在将AI交互从当前以“文本框”为主的单一模式,全面升级为具备语音、表情、动作等多模态交互能力的智能数字人。

发布会上,魔珐科技创始人兼CEO柴金祥教授表示,伴随着智能化的升级,近几年来AI已经可以写文章、编程序甚至做决策,并且可以调用各种API成为智能体。然而,现在的AI依然有重大缺失——即缺少了身体,魔珐星云就是要把AI从无形变为有形,让AI从拥有大脑进化为拥有身体。

自二十多年前投身相关研究至今,柴金祥教授持续致力于具身智能3D数字人技术的研发与突破。魔珐星云平台的推出,正是希望为开发者提供一个成熟、高效的基础设施,避免重复“造轮子”,让更多应用能够集成先进的AI数字人交互能力。

作为全球首个高质量、低时延、高并发、低成本、多终端的具身智能3D数字人开放平台,魔珐星云基于魔珐科技自主研发的文生多模态3D大模型及云-端协同架构,突破了传统数字人技术在质量、成本、延时之间的铁三角难题,不仅实现了从语义到身体语言的自然生成,更在系统架构层面完成了性能、成本和响应速度的协同优化,让AI完成了从“大脑”到“身体”的进化。

在未来,魔珐星云有望成为驱动下一代人机交互——即“多模态具身交互”——的关键底层基础设施,对未来的人机交互模式、数字内容创作和服务行业产生深远影响,为整个行业带来重大变革。

技术突破:打破铁三角难题

当前,在3D数字人在大规模应用的过程中面临三大挑战,一是质量问题,数字人的语音、动作、表情和成型,是否和真人一样自然?二是延时问题,用户在问数字人问题时,如果时间过长用户就会失去耐心;三是成本问题,如果成本过高,客户就难以承受。

传统技术方案往往难以兼顾三者,导致高质量交互体验无法实现规模化商用。对此,星云平台在利用文生多模态3D大模型+技术实现路径的协同突破。

模型层面,星云平台通过自研的全球首个文生多模态3D大模型,直接将文本/语音转换为语音、动作、表情、手势等多模态的3D表达信号。

架构层面,则进行云-端拆分。在云端,只生成轻量级的动作和语音参数(非视频流),包含音频波形特征与3D骨骼、表情、手势等语义动作信号,极大降低下行带宽;而在端侧,通过AI解算模块,将这些参数实时转化为画面。

此外,魔珐科技自2018年起积累了大量高质量的3D动画数据,成为其模型训练的关键壁垒。据了解,其中每一条数据都需要具备强动画制作能力的团队进行标定与审核的制作,成本高达每秒千元,涵盖人脸、手势、身体动作与表情的高质量3D动画数据,为模型的高质量输出奠定坚实基础。

最终,魔珐星云平台不仅在模型层(文生3D多模态)实现了语义到身体语言的突破,更在系统层(云–端架构)完成了性能、成本与延迟的协同创新。这一组合使其成为全球首个可大规模商用的具身智能底层基建,让AI完成了从“大脑” 到“身体”的进化。

大优势 ,构建全链路交互体系

在核心技术指标上,魔珐星云拥有六大优势:

1、采用超写实3D数字人技术,实现了语音、表情与动作的高质量实时自然生成;

2、将驱动延迟压缩至500ms以内,在交互时可随时打断;

3、具备千万级设备并发驱动能力;

4、低成本,结合AI端侧渲染技术,可在RK3566/3588等百元级芯片上运行;

5、适配多场景应用需求,同时支持超写实、二次元、卡通等多元角色风格;

6、完全兼容国产信创芯片体系。

目前,魔珐星云在具身驱动领域,基于文本输入即可实时生成3D数字人的语音、表情及全身动作,精准驱动屏幕数字人或实体机器人,实现媲美真人的自然表达与交互。此外,在视频生成和语音合成领域,魔珐星云同样有着优异的表现。

总体来看,星云平台构建了从实时驱动到内容创作的全链路能力体系,不仅推动传统显示屏向“AI具身智能交互屏”演进,助力人形机器人从执行基础操作的“蓝领”进阶为具备交流服务能力的“白领”与智能伙伴。这一技术突破或将重塑人机交互产业格局,为数字经济注入新动能。

应用场景广泛,推动屏幕与机器人“能说会动”

魔珐星云不仅为大语言模型与AI Agent提供了“身体”与“表达界面”,更将推动各类终端设备向具身智能体演进。

从手机、平板、电脑,到商显屏幕、电视、车载大屏,任何屏幕都可以升级为能自然交互的具身智能体,让每一块屏幕都能“能说会动”,从被动信息载体变成主动交流和服务入口。

同时,平台能力也延伸至机器人领域,赋予人形机器人更自然的语音、眼神与手势交互能力,使其从执行基础操作的“蓝领”进阶为具备服务与交流能力的“白领”伙伴。

在教育、客服、法律、销售、导游等众多领域,魔珐星云可提供低成本、高效率、规模化的交互式具身智能服务。

对于开发者、系统集成商及生态伙伴来说,均可基于魔珐星云快速构建各类应用,涵盖App、小程序、Web端、智能座舱、零售展厅等多种场景。

柴金祥教授在现场宣布,魔珐星云将面向全球开发者全面开放,“我们希望全球的开发者能够加入到我们的具身智能3D数字人的生态中,魔珐星云有这个能力让每一块屏幕、每一个应用、每一个终端,都有一个具身3D智能数字人!”

商业化进程启动,百家客户正在测试

商业化方面,据柴金祥教授透露,已经大约有上百家企业客户正在测试,其中部分已经付费,展现出强烈的市场兴趣与商业化潜力。

发布会上,最先嗅到商机的是显示器制造商。过去几年,显示器行业陷入了内卷:分辨率越来越高、价格越来越低,但缺乏真正能撬动应用场景的创新。

光屿智联CEO冯晨表示,在显示器行业竞争饱和的当下,有了星云平台,公司可以在原有的屏幕上给出更多交互方案,“对用户来说,那将是一种超越预期的震撼体验。”

深耕LED显示屏多年的万屏时代CEO黄锴认为,魔珐星云的发布将极大拓宽整个显示器行业的市场边界,“我们作为大屏基座提供商,与多家头部数字人公司合作。头部公司产品优秀,但整个行业产品质量参差不齐,成本高(每路需昂贵GPU),服务不稳定,难以实现7×24小时无差错服务。数字人能力的局限束缚了行业发展,大家都在低水平重复造轮子。”

他形容魔珐星云是“行业中的六边形战士”:“有了魔珐星云提供的具身智能底层能力,未来行业可以打造广告一体机、会议一体机,还有银行、医院等多种场景。原来是百亿市场,未来可以是千亿和万亿市场。”

关于魔珐科技

魔珐科技成立于2018年,是一家以3D智能数字人为核心的科技公司,实现了3D数字人AIGC全栈技术的突破及产品化应用的建设者。

目前,魔珐科技拥有3D数字人AI视频平台「魔珐有言」、3D数字人AI直播平台「魔珐有光」、3D数字人智能体平台「魔珐有灵」、具身智能3D数字人开放平台「魔珐星云」。

创始人简介

柴金祥教授是魔珐创始人&CEO,毕业于美国卡内基·梅隆大学,获得人工智能&机器人学博士,是三维计算机图形学和AI领域的世界顶级专家。

在创立魔珐科技之前,他是美国工科名校TAMU计算机科学和工程系终身教授及博士生导师。

作为全球三维AI虚拟人领域的开创者,柴金祥教授在2002年发表全球第一篇基于AI技术生成3D虚拟人动画的论文。他在三维虚拟人领域有20多年的潜心研究,在全球顶级期刊(SIGGRAPH)发表了20篇3D虚拟人的相关论文,本领域论文发表数处于世界前列。

今日话题