你的位置:开云(中国)kaiyun体育网址登录入口 > 新闻动态 > 开云体育包括漫反射激情和如粗俗度和金属通谈等材质属性-开云(中国)kaiyun体育网址登录入口

开云体育包括漫反射激情和如粗俗度和金属通谈等材质属性-开云(中国)kaiyun体育网址登录入口

时间:2026-01-18 12:03 点击:59 次

开云体育包括漫反射激情和如粗俗度和金属通谈等材质属性-开云(中国)kaiyun体育网址登录入口

Nvidia 发布 Edify 3D开云体育,通过文本生成 4K 级 3D 模子。

英伟达团队再次于我方的成本行大发光彩。近日发布的 Edify 3D 因循用户从文本请示或者图像来获胜生成 4K 级别的 3D 实体与场景,这再次为游戏与影视遐想行业注入了新的 AI 活力。

不知足于只是我方在纸上照着我方的想法去写写画画,然则又没元气心灵去学习专科的 3D 建模手段,若何破?

你有曾想过,只是通过翰墨态状我方的遐想,就不错将其创造为区分率高达 4K 的实体 3D 模子吗?

当今,你不错通过 Nvidia 发布的 Edify 3D 结束你的奇念念妙想了!惟一你具有满盈好的创意,致使不错哄骗 Edify 3D 来创造出经典的游戏、电影的 3D 模子实体,举例风趣风趣的小黄东谈主。

请看官方视频展示,用户只是进行翰墨态状,Edify 3D 就不错即时生成高清的 3D 配景、头骨、乌龟等 3D 实体。

由于创建 3D 实质需要关系的专科手段和专科学问,这使得此类钞票比图像和视频等其他视觉媒体稀缺得多。这种稀缺性引出一个关节的参议问题,即如何遐想可推广的模子以有用地从这些数据中生成高质地的 3D 钞票。

Edify 3D 可在 2 分钟内凭据文本态状或者远景图像生成高质地的 3D 钞票,其提供详备的几何图形、明晰的时事拓扑、整齐齐截的 UV 映射、高达 4K 区分率的纹理以及基于物理的材质渲染。与其他文本到 3D 形状比拟,Edify 3D 恒久如一地生成超卓的 3D 时事和纹理,在服从和可推广性方面都有显耀编削。

Edify 3D 的进程

Edify 3D 的进程为:在给定对于 3D 实体对象的翰墨态状后,多视图扩散模子会合成态状对象的 RGB 外不雅。然后,生成的多视图 RGB 图像被用作使用多视图 ControlNet 合成名义法线的条件。接下来,重建模子将多视图 RGB 和平方图像算作输入,并使用一组潜在标记推测神经 3D 示意。然后进行等值面索取和随后的网格后处理,以取得网格几何。放大的 ControlNet 用于提高纹理区分率,对网格光栅化进行转念以生成高区分率多视图 RGB 图像,然后将其反向投影到纹理贴图上。

多视图扩散模子

创建多视图图像的过程近似于视频生成的遐想的咱们通过使用相机姿势转念文本到图像模子,将它们微调为姿势感知多视图扩散模子。这些模子将文本请示和录像机姿势算作输入,并从不同的视点合成对象的外不雅。

跨视图防备力

参议者在模子磨真金不怕火时,磨真金不怕火了以下模子:

基于多视图扩散模子,该模子凭据输入文本请示合成 RGB 外不雅以及相机姿态。多视图 ControlNet 模子,该模子基于多视图 RGB 合成和文本请示来合成物体的名义法线。多视图上采样戒指收集,该收集在给定 3D 网格的栅格化纹理和名义法线条件下,将多视图 RGB 图像超区分率提高至更高区分率。

参议者使用 Edify Image 模子算作基础扩散模子架构,迎合一个具有 27 亿参数的 U-Net,在像素空间中进行扩散操作。ControlNet 编码器使用 U-Net 的权重进走时迁徙。他们通过一种新机制推广了原始文本到图像扩散模子中的自防备力层,以眷注不同视图,从而使得其算作具有疏导权重的视频扩散模子。通过一个轻量级 MLP 对相机姿态(旋转和平移)进行编码,随后将这些编码算作时期镶嵌添加到视频扩散模子架构中。

参议者在 3D 对象的渲染图上微调文本到图像模子。在磨真金不怕火过程中,他们同期使用天然 2D 图像以及赶紧数目(1、4 和 8)的视图的 3D 对象渲染图进行合资磨真金不怕火。使用

参数对亏本进行磨真金不怕火,与基础模子磨真金不怕火中使用的形状一致。对于多视图 ControlNets,当先使用多视图名义法线图像磨真金不怕火基础模子。随后,咱们添加一个以 RGB 图像为输入的 ControlNet 编码器,并在冻结基模子的同期对其进行磨真金不怕火。

对于视图数目推广的消融参议

在磨真金不怕火过程中,参议者会对每个磨真金不怕火对象抽取 1、4 或 8 个视图,为每个视图分拨不同的抽样比例。天然不错在推理过程中采样大肆数目的视图,以使用不同数目的视图进行磨真金不怕火,但最好如故将磨真金不怕火视图与推理过程中预期的视图数目相匹配。这有助于最大截至地减弱磨真金不怕火和推感性能之间的差距。

参议者对比了两个模子:一个主要在 4 视图图像上磨真金不怕火,另一个在 8 视图图像上磨真金不怕火,并在疏导视角采样 10 视图图像。如下图所示,与使用 4 视图图像磨真金不怕火的模子比拟,使用 8 视图图像磨真金不怕火的模子生成的图像更天然,各视图之间的多视图一致性更好。

使用四个视图的图像进行磨真金不怕火的模子

使用八个视图的图像进行磨真金不怕火的模子

重建模子

从图像不雅测中索取 3D 结构频频被称为影相测量,该时刻已被世俗应用于好多 3D 重建任务中。参议者使用基于 Transformer 的重建模子从多视图图像中生成 3D 网格几何时事、纹理图和材质图。他们发现,基于 Transformer 的模子对未见过的物体图像施展出巨大的泛化才智,包括从 2D 多视角扩散模子合成的输出。

参议者使用仅解码器的 Transformer 模子,以三平面算作潜在 3D 示意。输入的 RGB 和法线图像算作重建模子的条件,在三平面标记和输入条件之间应用交叉防备力层。三平面标记通过 MLP 处理以推测用于签名距离函数(SDF)和 PBR 属性的神经收集场,用于基于 SDF 的体积渲染。神经收集 SDF 通过等值面索取转念为 3D 网格。PBR 属性通过 UV 映射烘焙到纹理和材质图中,包括漫反射激情和如粗俗度和金属通谈等材质属性。

参议团队使用大规模图像和 3D 钞票数据来磨真金不怕火重建模子。该模子通过基于 SDF 的体积渲染在深度、法线、掩码、反射率和材质通谈上进行监督,输出由艺术家生成的网格渲染。由于名义法线计较相对富贵,是以需要仅在名义计较法线并对真正情况进行监督。

他们发现将 SDF 的不笃定性与其对应的渲染区分率对都不错提高最终输出的视觉服从。此外,还需要在亏本算较时期屏蔽物体角落以幸免由混叠引起的噪声样本。为了平滑样本间的噪声梯度,他们对最终重建模子权重应用了指数挪动平均(EMA)。

重建模子方面的消融参议

参议者发现,重建模子在复原输入视图方面恒久比新视图更准确。该模子在视点数目方面具有细腻的推广性,即跟着提供更多信息,其性能得到提高。

输入视图数目的比较

对角线单位格示意输入视图与考证视图匹配的情况。这些对角线条件频频领路每行的最好闭幕,标明模子最准确地复制了输入视图。此外,跟着输入视图数目从 4 加多到 16,闭幕抓续改善。这标明重建模子从特等的输入信息中受益,同期也证据了 Edify 3D 的重建模子的可推广性。

受模子随视点数目推广的启发,参议者进一步参议磨真金不怕火视点数目是否影响重建质地。他们使用固定的 8 视图竖立评估模子,其中模子使用 4、6、8 和 10 个视图进行磨真金不怕火。

闭幕如下图(a)所示。尽管赶紧采样相机姿态在磨真金不怕火过程中提供了各种化的视图,但跟着祛除磨真金不怕火要领中磨真金不怕火视图数目的加多,重建质地仍在抓续提高。图(b)为标记数目的比较,它标明了在参数数目固定的情况下,模子需要更多的计较资源来处理更多的标记。

数据处理

Edify 3D 在非公开的大规模图像、预渲染的多视图图像和 3D 时事数据集的组合上进行磨真金不怕火。原始 3D 数据经过几个预处理要领,以达到模子磨真金不怕火所需的品性和样式。

数据处理进程的第一步是将通盘三维图形转念为和谐样式。当先对网格进行三角化处理,打包通盘纹理文献,丢弃纹理或材质已损坏的图形,并将材质转念为金属粗俗度样式。通过这一过程,用户将得到一组三维图形,不错按照其意图进行渲染。

对于数据来讲,必要的一环是进行数据质地筛查。参议者从大型三维数据连合过滤掉非以物体为中心的数据,且从多个视角渲染时事,并使用分类器去除部分三维扫描、大型场景、时事拼贴以及包含援手结构(如背景和地平面)的时事。为确保质地,这一过程通过多轮主动学习进行,由东谈主类众人不息制作具有挑战性的示例来完善分类器。此外,他们还采用基于规则的过滤形状,去除较着存在问题的时事,如过于单薄或穷乏纹理的时事。

为了将 3D 数据渲染成图像以用于扩散和重建模子,参议团队需要使用自研的光照跟踪器进行传神渲染。他们采用多种采样时刻来处理相机参数。一半的图像以固定的仰角和一致的内参进行渲染,而剩余的图像则使用赶紧的相机姿态和内参进行渲染。这种形状既适用于文本到 3D 用例,也适用于图像到 3D 用例。

而对于 3D 实体的动作模拟来讲,则需要将模子和真正的实体进行范例姿势对都。姿势对都是通过主动学习结束的。参议者通过手动策动少许示例,来磨真金不怕火姿势推测器,并在完好数据连合不息哄骗贫窭示例来完成轮回磨真金不怕火。

为了给 3D 时事添加字幕,团队为每个时事渲染一张图像,并使用视觉言语模子(VLM)为图像生成长句和短句字幕。为了提高字幕的全面性,他们还向 VLM 提供时事的元数据(举例标题、态状、分类树)。

闭幕

团队通过输入文本请示以及渲染,使得生成的 3D 模子包含详备的几何时事和明晰的纹理,具有细腻解析的反射激情,使其适用于各式卑劣剪辑和渲染应用。

文本到 3D 生成闭幕

对于图像到 3D 生成,Edify 3D 不仅八成准确复原参考对象的底层 3D 结构,况且还能在输入图像中未获胜不雅察到的名义区域生成详备的纹理。

图像到 3D 生成闭幕

Edify 3D 生成的钞票以四边形网格的时事呈现,拓扑结构组织细腻,如下图所示。这些结构化网格便于操作和精准调治,卓越适合各式卑劣剪辑任务和渲染应用。这使它们八成无缝集成到需要视觉真正性和生动性的 3D 使命进程中。

四边形网格拓扑

总的来说,Edify 3D 是一种针对高质地 3D 钞票生成的处理有筹算。其参议团队奋勉于鞭策和发展 3D 钞票自动化生成的新器具,使 3D 实质创作愈加易于。

参考贵寓:

https://research.nvidia.com/labs/dir/edify-3d/

本文来自微信公众号"新智元"开云体育,作家:泽正。

官网: www.uoftada.com

邮箱: 04f6e020@outlook.com

地址: 新闻动态科技园3031号

Powered by 开云(中国)kaiyun体育网址登录入口 RSS地图 HTML地图


开云(中国)kaiyun体育网址登录入口-开云体育包括漫反射激情和如粗俗度和金属通谈等材质属性-开云(中国)kaiyun体育网址登录入口