本帖最后由 冰墩熊 于 2024-3-27 16:36 編輯
2024年3月27日,南極熊獲悉,NVIDIA(英偉達)宣布推出一種名為Latte3D的文本轉3D生成AI模型。模型能夠將簡短的文字描述轉換為物體和動物的精確三維模型,實現(xiàn)了一種近似于虛擬3D打印的效果。
微信圖片編輯_20240327155550.jpg (58.38 KB, 下載次數(shù): 136)
下載附件
2024-3-27 16:12 上傳
△LATTE3D可以解釋高度具體的文本提示以生成3D模型
該公司表示,生成的3D形狀采用了流行的標準渲染應用程序格式制作,這使得它們可以輕松地在虛擬環(huán)境中應用。這一技術有望廣泛應用于視頻游戲開發(fā)、廣告設計、工程項目以及機器人虛擬訓練場景中。鑒于這一發(fā)展趨勢,未來很可能會出現(xiàn)可靠的文本到3D打印文件轉換工具。
NVIDIA人工智能研究副總裁Sanja Fidler表示:“一年前,人工智能模型需要一個小時才能生成這種質量的3D視覺效果,而Latte3D僅需要10到12秒。我們現(xiàn)在可以更快地產(chǎn)生結果,使各行業(yè)的創(chuàng)作者能夠實現(xiàn)近乎實時的文本到3D生成!
NVIDIA研究人員在其演示中使用了單個RTX A6000 GPU時幾乎可以立即生成3D形狀。
微信圖片編輯_20240327161222.jpg (53.63 KB, 下載次數(shù): 132)
下載附件
2024-3-27 16:12 上傳
△在對比測試中,其它AI模型需要20秒到30分鐘以上才能生成輸出,而LATTE3D只需400毫秒即可生成類似的(通常質量更高)渲染
創(chuàng)建者可以使用LATTE3D幾乎立即生成詳細的對象,而不是從頭開始設計或梳理3D資源庫。
該模型可根據(jù)每個文本提示生成一些不同的三維形狀選項。所選對象可在幾分鐘內優(yōu)化為更高質量。然后,用戶可以將形狀導出到圖形軟件應用程序或英偉達Omniverse等平臺中,從而實現(xiàn)基于通用場景描述(OpenUSD)的三維工作流程和應用。
盡管LATTE3D是在動物和日常物體數(shù)據(jù)集上進行訓練的,但開發(fā)人員可以借助相同的模型架構在其它類型的數(shù)據(jù)上進行訓練。
微信圖片編輯_20240327161321.jpg (569.97 KB, 下載次數(shù): 140)
下載附件
2024-3-27 16:13 上傳
△LATTE3D功能示例
例如,如果在3D植物數(shù)據(jù)集上進行訓練,LATTE3D的一個版本就能幫助景觀設計師在與客戶進行頭腦風暴時,快速用樹木、花叢和多肉植物填充花園效果圖。如果對家居物品進行訓練,該模型就能生成物品,填充到三維模擬家居中,開發(fā)人員可以用它來訓練個人助理機器人,然后再在現(xiàn)實世界中進行測試和部署。
微信圖片編輯_20240327161351.jpg (269.85 KB, 下載次數(shù): 129)
下載附件
2024-3-27 16:13 上傳
LATTE3D使用英偉達A100 Tensor Core GPU進行訓練。除了三維形狀外,該模型還在使用ChatGPT生成的各種文本提示上進行了訓練,以提高模型處理用戶描述特定三維物體時可能提出的各種短語的能力。例如,當提示描述與犬科動物相關時,都應該生成狗一樣的形狀。
|