
吳文超
晨山資本 投資副總裁
隨著5G大帶寬網絡時代的到來,人們對更具有視覺表現力的數字內容越來越渴望。傳統數字內容的生成效率已成為新時代的瓶頸。作為下一個探索熱點,「AI自動化內容生成」激發了大量行業需求,也讓我們看到了人工智能技術新的引爆點。
自動化內容生成并不是第一天誕生。但過去的2D/3D非結構化內容生成效果不盡人意,而且遺留了很多歷史問題給創業者去解決。近年來,AI在CG領域的應用,尤其是若干革命性模型的提出,給整個方向帶來全新思路,其影響還在持續發酵中。但技術終將服務于商業。我們也看到,AI內容生成技術正在各類顯性的商業場景中落地,創造越來越多的現實價值。
本期晨思將闡述AI與內容生成的發展現狀,探究目前技術的難點和機會,同時也會帶大家從不同角度看未來的商業價值,歡迎行業內的公司一起來探討。
隨著 5G 大帶寬網絡時代的到來,人們對更具有視覺表現力的數字內容越來越渴望。傳統數字內容的生成效率已成為新時代的瓶頸。作為下一個探索熱點,「AI 自動化內容生成」激發了大量行業需求,也讓我們看到了人工智能技術新的引爆點。
自動化內容生成并不是第一天誕生。但過去的 2D/3D 非結構化內容生成效果不盡人意,而且遺留了很多歷史問題給創業者去解決。近年來,AI 在 CG 領域的應用,尤其是若干革命性模型的提出,給整個方向帶來全新思路,其影響還在持續發酵中。但技術終將服務于商業。我們也看到,AI 內容生成技術正在各類顯性的商業場景中落地,創造越來越多的現實價值。
本文將闡述 AI 與內容生成的發展現狀,探究目前技術的難點和機會,同時也會帶大家從不同角度看未來的商業價值,歡迎行業內的公司一起來探討。
自動化內容生成并不是第一天出現
2022 百度世界大會上,百度首席技術官王海峰展示了利用 AI「補全」《富春山居圖》讓歷史畫作重現當代。風格與現存真跡的一致程度也讓專家大為震撼。

▲ 浙江博物館館藏《富春山居圖·剩山圖》局部(左),臺北故宮博物院館藏《富春山居圖·無用師卷》局部(右)

▲ AI 補全《富春山居圖》并題詩(上圖紅框處)
李彥宏在大會上分享了?AIGC(AI Generated Content)將走過的三個發展階段:
第一階段是「助手階段」,AIGC 輔助人類進行內容生產;第二階段是「協作階段」,AIGC 以虛實并存的虛擬人形態出現,形成人機共生的局面;第三階段是「原創階段」,AIGC 將獨立完成內容創作。
AIGC 這個詞聽上去比較時髦,但自動化內容生成并不是個很新的概念。利用計算機輔助人類進行內容生產其實很早就出現,比如在計算機編程領域 IDE 的代碼提示、使用 Office Word 編輯內容的錯誤修正,到后來利用 NLG 自動化文本生成等都可以算作這個范圍。
近年來,承載內容的媒介越來越豐富,從最早的文本到圖文、視頻到 3D 內容。同時也帶來了對內容快速生產的更大訴求,激發了大家持續探索自動內容生成的動力。深度學習的出現和發展,進一步帶來了從 CV(Computer Vision)延展到 CG(Computer Graphics)領域的各種新嘗試。讓傳統的通過規則、數據的富媒體內容生成方法逐步延伸到基于深度學習的內容生成。這也是目前大家狹義理解的 AIGC 概念。
2D/3D 非結構化內容生成更具有挑戰性
數字內容的載體越來越豐富,針對各種形態的 AI 內容生成的研究也越來越多,包括文字的 NLG(自然語言生成)、圖片/視頻的自動風格遷移和生成、通過點云/圖片信息自動生成 3D 內容等。本文更加關注和深度學習算法更加契合也更有視覺表現力的「2D 和 3D 非結構化內容生成」。
2D 內容生成
毋庸置疑,2D 最常見的表現形式是圖像,視頻本質上是多幀的連續圖像。傳統的 2D 圖像生成的主流方式是通過攝像頭拍攝的方式物理采集實景圖片,或者通過 Photoshop 等設計/繪圖工具繪制數字圖片。實景拍攝圖片受限于環境、光照和拍攝技術等因素,導致優質圖片的生成難度較高。而數字圖片更多是體現作者的繪畫和美術功底。如何通過既有素材快速且批量生產可用優質圖片,也是近年來 2D 內容生成的重要研究方向,而這里面大放異彩的深度學習算法莫過于 GAN(對抗神經網絡)。
3D 內容生成
3D 內容生成更加復雜。要理解 3D 內容生成,首先可能還是得明確下什么是 3D 內容。D 是 dimension 的縮寫,顧名思義,3D 是指物體本身的 3 個緯度(X-Y-Z)。在物理世界比較好理解,大家能看到的空間中所有物體都是三維的,因為我們的空間就存在 XYZ 三個緯度。但在 2D 平面的計算機世界 3D 又該如何理解?其實很簡單,以我們常見的 3D 建模軟件為例,我們建立的模型雖然是在 2D 屏幕上呈現,但你可以按照計算機設定的 XYZ 三個坐標軸進行移動(Move、Rotate、Scale)來從各個角度看到物體的各個面。所以多角度的概念才是我們通常理解的 3D 數字內容。如果要在體驗上有真正的 3D 感,需要突破 2D 屏幕的限制,那就只能等待 AR/VR、全息顯示等新交互設備的發展了。

▲ Blender 中的三維模型可以按 XYZ 三個坐標軸多維變化
除了幾何形狀,完整的 3D 內容還包含材質(貼皮),再結合光照,最終通過渲染形成多角度的 RGB 圖片。

▲ 3D 內容是將形狀和外觀進行組合渲染形成多維度視角的 2D 圖片
3D 內容生成的本質是如何構建物體的幾何、材質和光照。元素的多樣性和復雜性,讓 3D 內容生成成為 CG 領域的一個難點。
以第一步的幾何形狀的表達來看,業內目前沒有統一的表達方式。常見的幾何表達包括顯式和隱式兩類。顯式更多的是指以肉眼可見的方式來表達幾何圖形。常見的顯式表達方式包括在機器視覺應用較多的點云(Point Cloud)、在游戲場景應用較多的體素(Voxel,類似 Roblox)和 3D 建模軟件中常用的網格(Mesh)。隱式表達則是用參數化方程的方式來描述一個 3D 幾何,比較知名的如有向距離場(SDF),通過每個像素(體素)記錄自己與距離自己最近物體之間的距離來表達,如果在物體內,則距離為負,正好在物體邊界上則為 0。
不同的 3D 表達方式沒有統一的規范,導致 3D 內容的生成和制作與 2D 相比難度更上一層樓。

▲ 多樣的 3D 幾何表征方式
傳統 3D 內容生成需要設計師使用 Maya、3DMax、工程建模 CAD 等 3D 建模軟件手動建模/渲染出來,但軟件學習成本高、建模本身效率低等原因導致該方案難以快速批量生成 3D 內容。
一種創新方法是通過既有 2D 數據自動重建 3D 模型。傳統三維重建方式為通過激光掃描生成目標物體的點云數據后進行三維重建,但這種方式采集的點云數據是離散并且無嚴格拓撲關系的,導致無法生成高分辨率的模型。
目前 AIGC 研究的重點方向,是通過若干 2D 圖片以計算機視覺算法重建方式來生成更多的 3D 內容。基于圖片的 3D 內容生成可以理解為下面的流程,通過現有 2D 圖片(輸入)進行 3D 幾何、材質等重建,再結合光照渲染能力重新恢復 2D 高清的多維度圖片。

雖然 2D 圖片采集相對容易,但問題在于,很難把物體任意維度的數據都拍得很完整,而且有些物體反光、透明等原因導致拍攝的圖片質量不高。如何在有限的數據量和有限質量的數據下根據先驗知識構建成一個完整的多維數據,正是深度學習擅長的問題。
除了靜態的人/物體/場景本身,如何構建更加復雜的動態內容也是內容生成的重要部分。以人舉例,3D 內容包含人的動作、物理碰撞模擬(物理引擎)等也都是 AI 內容生成需要進一步解決的問題。
當然問題越多,給予創業企業突破創新的機會也才越多。
AI 給 CG 領域帶來全新的技術變革
近年來,AI 給二維和三維的內容生成帶來了許多新變化。
GAN 神經網絡
在二維領域,最重大突破便是 Goodfellow 在 2014 年提出的 GAN 神經網絡。GAN 包含有兩個模型,一個是生成模型(generative model),一個是判別模型(discriminative model)。可以通俗理解為:生成模型像「一個造假團伙,試圖生產和使用假幣」,而判別模型像「檢測假幣的警察」。
生成器(generator)試圖欺騙判別器(discriminator),判別器則努力不被生成器欺騙。模型經過交替優化訓練,兩種模型都能得到提升,但最終我們要得到的是效果提升到很高很好的生成模型(造假團伙),這個生成模型(造假團伙)所生成的產品能達到真假難分的地步。
利用 GAN 網絡衍生的如 CycleGAN、StyleGAN 等神經網絡模型,就可以通過既有圖片進行圖片的風格遷移、人臉編輯、圖像修復、補全等操作而形成新的內容。前文中提到《富春山居圖》的補全也一定程度上是這類算法的延伸。

▲ GAN 網絡生成器和判別器「對抗訓練」
在三維領域,因為表達形式的復雜性,業界圍繞不同表達形式也在各個方向進行探索。
點云重建
由于采集成本高、遮擋等問題,點云無法連續采集物體表面的信息,而更加容易表征空間定位信息。點云 3D 重建在自動駕駛、機器人等空間定位和掃描場景應用更多,并不太適合用于視覺表現。要生成更加稠密包括適合視覺觀測的 3D 內容的表面,需要生成更加稠密的點來補充離散點云的稀疏問題。這其中也有些研究者利用深度學習的方法,通過特征擴展、GAN 擴展網絡等方式生成更加稠密的點云信息。

▲ 深度學習+點云進行 3D 表面重建
傳統圖片 3D 重建
從 2D 圖片重建 3D 模型并非在近年來 AI 大發展之后才出現,比較早的算法如 Structure From Motion(SFM,1979 年前)、Multi-View Stereo(MVS,2006 年以前)、PMVS(2010)和 COLMAP(2016)等。
以效果還不錯的 PMVS 算法舉例,從圖片里面提取特征再做三角測量的點,獲得點云數據,然后根據這些點重建物體表面,并進行紋理映射,就可以還原出三維場景和物體了。

▲ 結合 SFM 和 MVS 的 PMVS 算法
但這種方法同樣因為噪聲、點云稀疏問題無法形成完整的幾何結構,需要更多的人工加工,才能真正為圖形學使用。而一個完美的圖像渲染過程需要一個完美的多幾何結構和材質,所以這種方式很難達到渲染需要的質量。

▲ 點云稀疏問題導致無法形成完美質量的 3D 幾何結構
基于 AI 算法的圖片 3D 重建
深度學習等 AI 算法的提出,最先解決了計算機視覺領域中物體識別、內容理解等問題。隨著近年來不同深度學習模型的提出,大家逐步關注到如何把深度神經網絡應用在 CG 領域。
要進行 3D 重建,首先要解決的便是幾何的表征方式選擇問題,即選擇顯式還是隱式表達。
顯式表達近年來涌現出不少優秀的研究成果:GQN(2018)、CodeSLAM(2018)、DeepVoxels(2019)、Neural Volumes(2019)、Latent Fusion(2020)。但顯式表達最大的問題在于幾何表征本身是離散的,幾何拓撲關系難以優化。導致生成的三維內容的分辨率受到比較大的限制。
為了獲得更加準確、高分辨率的 3D 內容,隱式表達方式開始成為大家主要研究的方向。隱式表達中,最容易想到的便是對現有隱式表達利用深度學習改造,如 DeepSDF 模型,但受限于表達方式的缺陷,效果也不盡如人意。2020 年,谷歌研究院的 Pratul Srinivasan、Benjamin Mildenhall 等提出的 NeRF 方法引爆了整個 3D 重建領域。NeRF 的提出激發了大量的后續研究,原始研究文獻實現了增長極快的引用率,迄今 NeRF 的引用量已破千。
我們來一探這個可能開啟 CG 領域新時代的深度學習算法:NeRF 是 Neural Radiance Fields 的縮寫,其中的 Radiance Fields 是指一個函數,也就是前面提到的隱式表達中的表達函數,當然除了表征幾何,Radiance 函數同樣帶上顏色信息來完成對材質-貼圖的表征。
NeRF 將場景表示為空間中任何點的 volume density σ(簡單理解為不透明度) 和顏色值 c 。有了以 NeRF 形式存在的場景表示后,就可以對該場景進行渲染,生成新視角的模擬圖片。NeRF 的輸入為空間點的位置和方向,通過求解穿過場景的任何光線的顏色,從而渲染合成新的圖像。

▲ NeRF 的簡單描述(輸入是空間位置信息,輸出是透明度+顏色)
可以看出 NeRF 最大的創新在于對場景的隱式表征方式的創新,通過連續的隱式表征,可以用少量的圖片渲染重建出更加逼真的三維內容。

▲ NeRF 網絡和現有深度神經網絡效果對比
NeRF 也不是沒有缺點——由于需計算大量的點位信息導致推理過程過于耗時而很難實現實時渲染;缺乏顯示表征而帶來內容編輯難度較高。因此,圍繞后 NeRF 時代的神經網絡模型和方法也層出不窮。通過將 GAN 和 NeRF 兩大內容生成的 AI 技術相結合的 GRAF9(Generative Radiance Fields)。2021 年 CVPR 的最佳論文 GIRAFFE 通過 GAN 網絡實現 NeRF 的可控編輯等。
AI+Motion
現實世界是在敘事基礎上建立,而敘事由人物關系展開,所以人是現實世界最重要的元素。
除了外形表現,人更重要的是靈活的動作/表情的表達和交互,只有配合動作/表情,人物的「神」和「態」才能完整地被表達出來。可以說,沒有動作的人物模型毫無意義。
模型建立雖然有不同層次的成本,但始終可以通過手工或者半自動的方式完成,制作門檻并不高。但如何生成符合人體運動學的動作和表情則更加需要數據的支撐,也非常適合利用 AI 算法來進行模型的訓練。
動作生成的難度在于如何用相對標準化的方式來驅動不同外形的人物,同時模型本身足夠的協調和自然。這不僅是指動作本身的協調程度,更重要的是還要和語音、文本等多模態輸入能夠完美結合。
近年來,隨著動捕技術發展、視頻內容數據的豐富,動作數據的積累也變得更加簡單。大量圍繞動作驅動的 AI 工作也陸續被大家提出。2019 年以后大量的工作基于 RNN 網絡進行動作預測(Motion Prediction)、基于 RL(Reinforcement Learning,增強學習)的動作控制算法(Motion Control)和 Ginosar、Alexanderson 等人提出的基于語音、文本甚至音樂的多模態動作驅動的 CNN 模型(Cross-modal motion synthesis)。

▲ 通過語音驅動手勢動作示例
AI+CG 的價值落地明確并且正在發生
我們并沒有必要過多討論具體的算法,更應該關注的是,在當前技術成熟度下 AI+CG 能創造多大的商業價值。
首先我們來看看 CV 領域的趨勢,在 2012 年 AlexNet 被提出以前,計算機視覺中的檢測、目標識別其實已經有超 40 年的發展歷史,但由于技術成熟度的原因遲遲沒有很好的商業落地。隨著深度學習等 AI 技術被驗證,大量的相關工作在隨后的 6-7 年內被提出,隨之而來的是 AI 被應用在各個商業場景。
這其中首先有殺手級的應用——人臉識別,在支付、安防、身份認證等領域都得到了廣泛的應用。除了人臉相關,我們再擴展到物體的視覺檢測方向,有工業視覺檢測、機器視覺等行業應用。這些應用帶來了大量的生產力提升,同時也創造了極大的社會價值和投資機會。
那 AI+CG 領域是否存在同樣的機會呢?
從技術發展的角度看,CG 似乎和 CV 領域一樣,正迎來 AI 在 CG 領域的大爆發的前期。整個發展路徑非常類似,其中比較有代表性的兩類模型是 GAN 和 NeRF 以及大量的延伸工作,但提出的時間比 AlexNet 和 ResNet 等晚了 3-5 年,技術仍處于爬坡期。然而我們更需要關注的是,目前具有一定 AI 技術成熟度的 CG 領域,未來到底有多少商業價值呢?

無論是 2D 還是 3D,更多是為了視覺而服務,我們能想到或者日常能夠體驗到的視覺場景大致包括以下幾類:視覺內容營銷、線上的商業服務、行業仿真和新的交互方式帶來的泛娛樂內容的需求。

視覺內容營銷
互聯網時代開啟后,營銷是流量企業最主要變現方式之一。而承載營銷最重要的方式便是更加具有視覺沖擊力的圖文、視頻等富媒體內容。
首先從視頻類(圖文類似)內容生成成本角度來看,傳統的營銷類視頻以拍攝+后期制作的方式為主。視頻的生產過程都耗費大量的人力,并且視頻多樣化往往需要簡單重復勞動來獲得。
舉個最簡單例子,同一個產品營銷類視頻,產品在不同的國家進行售賣,可能需要當地風格的模特進行視頻表現,但如果使用 GAN 系列模型通過 AI 生成和風格遷移的方式,可以較為完美地進行人物風格切換,快速降低內容制作成本。

▲ 由 GAN 網絡生成的不同圖片風格
其次從效果來看,傳統線上視頻類營銷往往以產品介紹、特點宣傳為主。和線下營銷關注「人貨場」的概念差別比較大,這其中最大的差別在于如何在二維的屏幕模擬出 3D 的沉浸感,給人以 3D 式的營銷體驗。而要有 3D 沉浸感首先得有 3D 可交互的內容。
從「人」的角度來看,就涉及到現在比較火的 3D 數字人的生成。3D 人可以賦予視頻內容中人物更加多角度、更多動作、更加可控的展現形態,疊加上深度圖效果和語言,讓人物更加具有表現力。當然如果能做成「老黃」那樣超寫實的虛擬人就更加能夠以假亂真了。
而這其中就可以利用前面提到的 AI 的方式進行 3D 模型和動作的生成,當然僅僅通過 AI 實現超寫實的 3D 人物構建,在效果上目前還是有些難度,而表情和動作的生成已經做的非常逼真。晨山投資的中科深智便在人物表情和動作生成方面具有多年的積累,并且較早就在行業得到廣泛應用。


?
▲ 3D 數字人給營銷以更加強的表現力
從「貨」的角度來看,大家或許已經發現,某些電商平臺的內容展示更加立體,會從各個角度來呈現客戶想要購買的商品。品牌方通過拍攝多角度照片,利用 AI+3D 重建來進行 3D 商品展示的方式已經越來越普遍,細節表現力也更強。隨著 NeRF 等算法的改進,重建成本逐步降低,未來商品的 3D 化也將是趨勢。

▲ 某電商品牌的 3D 內容展示
在「場」的層面,如何重現線下體驗,追求品牌的「永久在線」,是現在很多平臺在探索的方向。通過線上空間 3D 化,可以讓參與者更加有沉浸感。這就涉及到如何進行空間的建模,通過 AI+點云/機器視覺重建的工作已經在一些領域被大家提出和應用。
線上商業服務
近年來,從傳統的工業到線下服務業,大家開始使用硬件機器人來替換重復勞動的工作以達到降本增效的目的。
但我們往前一步看,線上重復的服務工作如客服、電商/電視的主播、播報員甚至部分節目主持人,未來同樣有被虛擬機器人替換的可能。舉個例子,大家看天氣預報,會因為主持人換了而不看天氣預報的可能性有多大?而且他們原生就在線上輸出服務,擁有的數字基礎其實更好。

▲ 機器替人的場景在不可逆地發生
很明顯,數字員工在降低勞動成本,全天候工作提升工作效率,填補人才缺口,降低人員流動風險等方面有天然的優勢。但前提是如何通過 AI 的方式結合 3D 人物生成、更加靈活的動作驅動、更加平滑的解決用戶問題,實現更加擬人化甚至無差別化服務。這些都是是需要根據具體場景,結合進一步的技術驅動來完成的,其中的工作量不容小覷。
或許很多人都會說擬人畢竟還是假人,尤其是虛擬人不夠形象,但時代在變,大家的習慣也在變化。對大部分 95 后、00 后來說,二次元或許更受他們青睞。據統計,B 站用戶平均年齡為 21 歲,這些人成年后依然保持著對虛擬人物和二次元文化的熱愛。
行業仿真
根據最終用途,仿真類應用大致分為管理類仿真和設計類仿真。對應到我們經常聽到的概念便是數字孿生和工業設計軟件。二者除了應用方向的區別外,在技術上,前者更加關注效果和數據的結合,而后者關注的更多是物理/幾何世界的數字化模擬。


▲ 數字孿生 vs.工業設計
無論數字孿生還是工業設計,歷史上的生產方式還是依靠大量的人力在進行內容的建模。這其中不僅僅有重復勞動,而且無論宏觀如數字孿生還是微觀如工業結構件,其中的模型數量都非常大。如何通過 AI 快速生產內容、更好地渲染,都是大家目前在努力的方向。
AR/VR
這個方向一直反復成為投資人追捧的熱點。因為大家知道,前面所有的場景,只有能把屏幕變成 3D 的,那 3D 才能完全發揮它的能量。這個趨勢雖然跌跌撞撞,但它卻在悄然發生。
2020 年發布的 Oculus Quest 2 已達到消費級水平,在顯示參數、外觀設計和價格等方面均滿足了 VR 用戶的基本需求。據 IDC 數據顯示,2021 年全球 VR 出貨量達 1,095 萬臺,已突破年出貨量一千萬臺的行業重要拐點。
除了設備本身,內容生態同樣重要。Oculus 為代表的內容數量也在快速提升,截止 2022 年 4 月,Oculus Rift、Quest、APP Lab 平臺分別擁有 1,381、357、1,074 款應用。這其中的內容包括 VR 游戲、沉浸式社交等各種 3D 內容構建的場景。
未來 VR 加速發展離不開內容的快速生成,當設備不再是瓶頸后,如何搶占內容開發者,高效地給開發者提供更加智能化、AI 化的生產力工具才是平臺廠商下一步需要布局的重點。這其中 Meta 已經做出了表率:2021 年 10 月,Meta 宣布設立 1,000 萬美元的「創作者基金」,鼓勵更多內容創作者進行 VR 內容創作。至于 AR,大家似乎都在等另一個巨頭的聲音。
AI 算法的使用可深可淺,所以一個領域的爆發必然帶來魚龍混雜的企業競爭。AI 的行業應用也不可能一步到位,不成熟是行業早期的必然現象,真正需要創業團隊做的是耐心且長期地深入產業打磨產品。AIGC 方向從業企業對技術、場景和數據的理解和積累顯得尤為重要,晨山將持續關注擁有自身技術和經驗積淀的匠人,同時又對商業價值充滿信心的優秀團隊。