2023年2月,南極熊獲悉,GPU制造商N(yùn)vidia宣布推出Magic3D,這是一種生成式AI技術(shù),可以根據(jù)文本提示生成3D模型。2022年11月,研究人員也基于此技術(shù),發(fā)表了一篇題為《Magic3D: High-Resolution Text-to-3D Content Creation》的論文,這并不是第一篇有關(guān)生成式AI技術(shù)應(yīng)用于3D打印的論文,2022年9月,來自谷歌的研究人員就以《DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION》為題發(fā)表了他們的研究內(nèi)容,那么生成式AI技術(shù)是什么?這兩個(gè)團(tuán)隊(duì)所研究的內(nèi)容有何異同?3D打印生成式AI技術(shù)面臨著哪些問題呢?
Image-via-Nvidia..jpg (26.52 KB, 下載次數(shù): 39)
下載附件
2023-2-3 09:08 上傳
△Magic3D 渲染的箭毒蛙 3D 模型。
3D打印中的生成式AI技術(shù)
生成式AI(Generative AI 或 AIGC)是利用現(xiàn)有文本、音頻文件或圖像創(chuàng)建新內(nèi)容的技術(shù)。應(yīng)用場景涵蓋圖文創(chuàng)作、代碼生成、游戲、廣告、藝術(shù)平面設(shè)計(jì)等。未來,生成式AI將成為一項(xiàng)大眾化的基礎(chǔ)技術(shù),極大的提高數(shù)字化內(nèi)容的豐富度、創(chuàng)造性與生產(chǎn)效率,其應(yīng)用邊界也將隨著技術(shù)得進(jìn)步與成本的降低擴(kuò)展到更多領(lǐng)域。用于3D建模的生成式AI有助于將具有復(fù)雜有機(jī)形狀的組件概念化。3D打印能夠制造這些復(fù)雜形態(tài)的理想技術(shù),因?yàn)樗哂猩a(chǎn)復(fù)雜結(jié)構(gòu)的能力,同時(shí)還具有成本效益。 年度3D打印行業(yè)調(diào)查的結(jié)果表明,使用AI自動(dòng)生成3D模型是一個(gè)熱門話題。
生成式AI在3D打印領(lǐng)域中的發(fā)展
微信圖片_20230203090508.jpg (35.7 KB, 下載次數(shù): 31)
下載附件
2023-2-3 09:07 上傳
△Magic3D相關(guān)論文
●Magic3D可以在40分鐘內(nèi)創(chuàng)建一個(gè)帶有彩色紋理的3D網(wǎng)格模型。這是輸入“一只坐在睡蓮上的藍(lán)色箭毒蛙”這樣的提示之后出現(xiàn)的。根據(jù)獲得的結(jié)果,經(jīng)過改進(jìn),可以用于各種藝術(shù)場景或視頻游戲。
微信圖片_20230203090505.jpg (30.77 KB, 下載次數(shù): 31)
下載附件
2023-2-3 09:07 上傳
△DreamFusion相關(guān)論文
●DreamFusion是谷歌研究人員于2022年9月發(fā)布的一篇關(guān)于“從文本到3D模型”的論文內(nèi)容。
●Physna在兩周內(nèi)使用 8,000 個(gè)模型為 3D 模型和場景創(chuàng)建了生成式 AI 原型
Magic3D VS DreamFusion
在Nvidia的論文中,研究人員詳細(xì)闡述了生成式AI技術(shù)如何讓無需特殊培訓(xùn)的人即刻創(chuàng)建3D模型。他們表示,這種技術(shù)一旦進(jìn)一步完善,可以加速視頻游戲的開發(fā),應(yīng)用到電影和電視特效中。研究人員們希望借助Magic3D技術(shù),使3D合成大眾化,并在3D內(nèi)容創(chuàng)作中展示每個(gè)人的創(chuàng)造力。
Nvidia在推進(jìn)生成式AI方面處于有利地位。該公司的GPU可以使用著色器創(chuàng)建逼真的圖形,著色器指示圖像中的每個(gè)像素如何在特定光線下顯示。著色器為每個(gè)像素計(jì)算,跨多個(gè)像素重復(fù)計(jì)算。與英特爾微處理器或通用CPU不同,Nvidia GPU 可以快速渲染圖像,同時(shí)進(jìn)行多個(gè)簡單計(jì)算,例如著色像素。
●Magic3D 采用兩階段方法,采用低分辨率創(chuàng)建粗略模型,并將其優(yōu)化為更高分辨率,這類似于DreamFusion使用文本到生成2D圖像,然后優(yōu)化為體積 NeRF數(shù)據(jù)。
●Magic3D 可以根據(jù)給定主題實(shí)例的輸入圖像,使用DreamBooth 微調(diào)擴(kuò)散模型,并使用給定的提示優(yōu)化 3D 模型。
微信圖片_20230203090521.jpg (45.13 KB, 下載次數(shù): 36)
下載附件
2023-2-3 09:07 上傳
△在給定主題下根據(jù)提示進(jìn)行模型優(yōu)化
總結(jié)一下,Nvidia的原理是利用從粗到精的兩階段優(yōu)化框架來快速創(chuàng)建高質(zhì)量的文本到 3D 內(nèi)容。在第一階段,使用低分辨率擴(kuò)散先驗(yàn)獲得粗略模型,并使用哈希網(wǎng)格和稀疏加速結(jié)構(gòu)對(duì)其進(jìn)行加速。在第二階段,使用從粗神經(jīng)表示初始化的紋理網(wǎng)格模型,允許使用與高分辨率潛在擴(kuò)散模型交互的高效可微分渲染器進(jìn)行優(yōu)化。
微信圖片_20230203090525.jpg (48.59 KB, 下載次數(shù): 37)
下載附件
2023-2-3 09:07 上傳
△Magic3D的兩階段優(yōu)化過程示意圖
再來看看DreamFusion團(tuán)隊(duì)的技術(shù):先使用一個(gè)預(yù)訓(xùn)練2D擴(kuò)散模型基于文本提示生成一張二維圖像,然后引入一個(gè)基于概率密度蒸餾的損失函數(shù),通過梯度下降法優(yōu)化一個(gè)隨機(jī)初始化的神經(jīng)輻射場NeRF模型。訓(xùn)練后的模型可以在任意角度、任意光照條件、任意三維環(huán)境中基于給定的文本提示生成模型,整個(gè)過程既不需要3D訓(xùn)練數(shù)據(jù),也無需修改圖像擴(kuò)散模型,完全依賴預(yù)訓(xùn)練擴(kuò)散模型作為先驗(yàn)。
07a294662c5c6450f8db8c5bb79f635b.gif (638.5 KB, 下載次數(shù): 40)
下載附件
2023-2-3 09:07 上傳
相比較而言,Magic3D 可以根據(jù)輸入文本提示創(chuàng)建高質(zhì)量的 3D 紋理網(wǎng)格模型。它采用從粗到精的策略,利用低分辨率和高分辨率擴(kuò)散先驗(yàn)來學(xué)習(xí)目標(biāo)內(nèi)容的 3D 表示。Magic3D 以比DreamFusion高8倍的分辨率合成3D模型,同時(shí)速度也快2倍。
生成式AI和3D打。簼摿薮
Physna 的創(chuàng)始人兼首席執(zhí)行官 Paul Powers 分享了他對(duì)生成式AI的看法,他表示生成式AI在2022年十分火熱,因此該公司決定深入研究3D打印和生成式 AI 的結(jié)合。 雖然Physna是一家 3D 搜索和分析公司,專注于 AR/VR 和制造領(lǐng)域的工程和設(shè)計(jì)應(yīng)用,但他的3名工程師僅使用 8,000 個(gè)模型在 2 周內(nèi)就為 3D 模型和場景構(gòu)建了一個(gè)非;镜纳 AI 原型。
●Physna 的創(chuàng)始人兼首席執(zhí)行官 Paul Powers解釋了為什么要踏入生成式AI領(lǐng)域,他表示生成式AI已經(jīng)席卷了許多行業(yè),但在3D打印方面卻剛剛起步。主要原因是復(fù)雜的3D模型和缺乏標(biāo)記的3D 數(shù)據(jù)。3D模型通常很難創(chuàng)建,有多種不兼容的格式,并且與 2D 模型分析(文本、圖像、視頻等)相比很少受到關(guān)注。很少有企業(yè)適合專注于3D,它的研究難度很高。
●Google 的 DreamFusion 團(tuán)隊(duì)在他們的文章中表示:與2D數(shù)據(jù)相比,3D數(shù)據(jù)較少。Google 的 DreamFusion 團(tuán)隊(duì)使用 NeRF 的方式與 Nvidia 的 Magic3D 團(tuán)隊(duì)使用的方式相同。用戶不僅掌握的對(duì)象信息更少,而且也很難對(duì)技術(shù)做出假設(shè)。雖然在 NeRFs 上訓(xùn)練可能比在 2D 模型上訓(xùn)練更有幫助,谷歌的 DreamFusion 團(tuán)隊(duì)指出,NeRFs 不能很好地替代真實(shí)的、帶標(biāo)簽的 3D 模型。 也就是說,如果沒有解決方案,在不久的將來,生成式 AI 在 3D 領(lǐng)域的表現(xiàn)將不會(huì)像在其他領(lǐng)域那樣出色。 DreamFusion 團(tuán)隊(duì)進(jìn)一步進(jìn)行了一些實(shí)驗(yàn),以校驗(yàn)生成人工智能與 3D 打印的兼容性。
GPU計(jì)算如何改進(jìn)3D打?
GPU計(jì)算需要使用 GPU(圖形處理單元)作為協(xié)處理器來加速CPU的科學(xué)計(jì)算。通過卸載一些耗時(shí)和計(jì)算密集型代碼,GPU 可以加速基于 CPU 的應(yīng)用程序。應(yīng)用程序的其余部分繼續(xù)在 CPU 上運(yùn)行。從用戶的角度來看,應(yīng)用程序運(yùn)行速度更快,因?yàn)樗?GPU 的并行處理能力來提高性能。這種類型的計(jì)算被稱為“混合”或“異構(gòu)”計(jì)算。CPU 通常有四到八個(gè) CPU 內(nèi)核,而 GPU 通常有數(shù)百個(gè)較小的內(nèi)核。GPU 的高計(jì)算性能得益于其龐大的并行結(jié)構(gòu)。
應(yīng)用程序開發(fā)人員可以通過采用 NVIDIA 的“CUDA”并行編程模型利用并行 GPU 架構(gòu)的性能。所有 NVIDIA GPU 都支持 NVIDIA CUDA 并行編程模型,包括GeForce、Quadro和Tesla。此前,Nvidia 推出了一種將2D 圖像轉(zhuǎn)換為 3D 模型的方法。該框架演示了如何以類似于肉眼工作方式的方式從單個(gè)圖像推斷形狀、紋理和光線。Nvidia 公關(guān)專家Lauren Finkle在公司博客上寫道:“看這個(gè)屏幕時(shí)請(qǐng)閉上左眼,F(xiàn)在閉上你的右眼并睜開你的左眼,你會(huì)發(fā)現(xiàn)你的視野會(huì)隨著你使用的是哪只眼睛而變化。那是因?yàn)楫?dāng)我們看到二維空間時(shí),視網(wǎng)膜捕捉到的圖像被組合起來提供深度并產(chǎn)生三維感!
NVIDIA 渲染框架,被稱為基于可微分插值的渲染器或 DIB-R,可以協(xié)助和加速3D設(shè)計(jì)和機(jī)器人的不同領(lǐng)域,在幾秒鐘內(nèi)渲染 3D 模型。根據(jù) Finkle 的說法,我們所處的 3D 世界實(shí)際上是通過 2D 組成的,這被稱為立體視覺。深度是通過合并通過每只眼睛看到的圖像在大腦中創(chuàng)建的,給人以三維圖像的印象。DIB-R 的工作原理與此類似,它可以通過將二維圖像的輸入轉(zhuǎn)換為地圖來預(yù)測(cè)圖像的形狀、顏色、紋理和光照。然后創(chuàng)建一個(gè)多邊形球體,從而生成一個(gè)代表原始 2D 圖像中組件的 3D 模型。
相關(guān)視頻:
相關(guān)連接:
NVIDIA Magic3D項(xiàng)目地址:https://research.nvidia.com/labs/dir/magic3d/
NVIDIA Magic3D論文地址:https://doi.org/10.48550/arXiv.2211.10440
DreamFusion項(xiàng)目地址:https://dreamfusion3d.github.io/
DreamFusion論文地址:https://doi.org/10.48550/arXiv.2209.14988
|