來源:澎湃新聞
如何從2D圖像中做3D目標(biāo)檢測,對于計(jì)算機(jī)視覺研究來說,一直是個挑戰(zhàn)。3月12日,谷歌AI在其官方博客上發(fā)布了一款名為MediaPipe Objectron的算法框架,利用這個算法框架,只要一部手機(jī),就能實(shí)時從2D視頻里識別3D物品的位置、大小和方向。這一技術(shù)可以幫助機(jī)器人,自動駕駛汽車,圖像檢索和增強(qiáng)現(xiàn)實(shí)等領(lǐng)域?qū)崿F(xiàn)一系列的應(yīng)用。
202003122322331270.jpg (39.52 KB, 下載次數(shù): 124)
下載附件
2020-3-13 14:12 上傳
分開來解釋,MediaPipe是一個開源代碼跨平臺框架,主要用于構(gòu)建處理不同形式的感知數(shù)據(jù),而 Objectron在MediaPipe中實(shí)現(xiàn),并能夠在移動設(shè)備中實(shí)時計(jì)算面向?qū)ο蟮?D邊界框。
在計(jì)算機(jī)視覺領(lǐng)域里,跟蹤3D目標(biāo)是一個棘手的問題,尤其是在有限的計(jì)算資源上,例如,智能手機(jī)上。由于缺乏數(shù)據(jù),以及需要解決物體多樣的外觀和形狀時,而又僅有可2D圖像可用時,情況就會變得更加困難。
202003122322512520.gif (1.05 MB, 下載次數(shù): 156)
下載附件
2020-3-13 14:12 上傳
為了解決這個問題,谷歌Objectron團(tuán)隊(duì)開發(fā)了一套工具,可以用來在2D視頻里為對象標(biāo)注3D邊界框,而有了3D邊界框,就可以很容易地計(jì)算出物體的姿態(tài)和大小。注釋器可以在3D視圖中繪制3D邊界框,并通過查看2D視頻幀中的投影來驗(yàn)證其位置。對于靜態(tài)對象,他們只需在單個幀中注釋目標(biāo)對象即可。
為了補(bǔ)充現(xiàn)實(shí)世界的訓(xùn)練數(shù)據(jù)以提高AI模型預(yù)測的準(zhǔn)確性,該團(tuán)隊(duì)還開發(fā)了一種名為AR Synthetic Data Generation(增強(qiáng)現(xiàn)實(shí)合成數(shù)據(jù)生成)的新穎方法。它可以將虛擬對象放置到具有AR會話數(shù)據(jù)的場景中,允許你利用照相機(jī),檢測平面和估計(jì)照明,來生成目標(biāo)對象的可能的位置,以及生產(chǎn)具有與場景匹配的照明。這種方法可生成高質(zhì)量的合成數(shù)據(jù),其包含的渲染對象能夠尊重場景的幾何形狀并無縫地適配實(shí)際背景。
202003122323324083.png (230.35 KB, 下載次數(shù): 127)
下載附件
2020-3-13 14:11 上傳
網(wǎng)絡(luò)的樣本結(jié)果:左邊是帶有估計(jì)邊界框的原始2D圖像;中間是高斯分布的對象檢測;右邊是預(yù)測的分割蒙版。
通過上述兩個方法,谷歌結(jié)合了現(xiàn)實(shí)世界數(shù)據(jù)和增強(qiáng)現(xiàn)實(shí)合成數(shù)據(jù),將檢測準(zhǔn)確度度提高了10%。
202003122324152833.png (21.28 KB, 下載次數(shù): 132)
下載附件
2020-3-13 14:10 上傳
增強(qiáng)現(xiàn)實(shí)合成數(shù)據(jù)生成的一個示例:虛擬白褐色谷物盒渲染到真實(shí)場景中,緊鄰真實(shí)藍(lán)皮書。
準(zhǔn)確度的提升是一方面,谷歌表示,當(dāng)前版本的Objectron模型還足夠“輕巧”,可以在移動設(shè)備上實(shí)時運(yùn)行。借助LG V60 ThinQ,三星Galaxy S20 +和Sony Xperia 1 II等手機(jī)中的Adreno 650移動圖形芯片,它能夠每秒處理約26幀圖像,基本做到了實(shí)時檢測。接下去,谷歌團(tuán)隊(duì)表示:" 我們希望通過與更多的研究員和開發(fā)者共享我們的解決方案,這將激發(fā)新的應(yīng)用案例和新的研究工作。我們計(jì)劃在未來將模型擴(kuò)展到更多類別,并進(jìn)一步提高設(shè)備性能。"
|