馬云曾說:“三十年后,《時代》雜志封面年度最佳CEO說不定是個機器人。”
機器人CEO可能還需等待,但機器人繪畫師已經在路上。
當Google的AI正在涂鴉時,微軟的繪畫AI 已經學會如何畫鳥了。近日,微軟對外宣稱正計劃推出一項新的人工智能技術——繪圖機器人(drawing bot)。使用者僅需說出想要繪制物體的名稱,機器人便可以進行相關素材的匹配,也就是說,未來可以通過口述的方式進行繪畫,說啥畫啥。
人工智能系統單純透過文字描述就能夠創作圖像,該技術在文字描述中尋找關鍵字詞,然后再用來創作高畫質的圖像,據悉這個關注重點的技巧讓圖像的畫質較之前提升3倍。
隨著人工智能時代的到來,藝術與科技的碰撞,越來越頻繁地現身熱門話題榜。AI“看文作畫”的技術展現了具有藝術表現力的潛能,對藝術創作的影響已經可以預見。但微軟的繪畫AI,在撬動智能體想象力方面,意義絕對不只是“藝術助手”所能概括的。
所以,AI口述繪畫這件事,不可小瞧。
什么是AI口述繪畫
AI口述繪畫,看起來好像是機器接受人類指令給出圖畫,但遠遠不止這么簡單。智能相對論(微信id:aixdlun)了解到,正如負責研發的Microsoft深度學習技術首席研究員何曉東說的,圖像是人工智能由零開始,逐像素逐像素創作。
人工智能創作的黃色雀鳥并不一定在現實世界存在,只是電腦的一種想像。
他以一幅人工智能創作的黃色雀鳥圖像做解說,表示人工智能分析文字后,再透過一項名為生成對抗性網絡(GAN,Generative Adversarial Network)的技術將文字轉化成圖像,
GAN通過從高維的分布中采樣,生成模型輸出與訓練樣本類似的新樣本。這就意味著,若生成模型的訓練數據是鳥的圖像集,那么訓練后得到的模型也能輸出類似于鳥的合成圖片。
研究員稱人工智能系統能夠創作出任何類型的形象,例如飄浮的雙層巴士、放牧中的牲畜等,而且在文字中欠缺的一些細節,系統會在影像中自行補完。
生成器總是在試圖“騙過”判別器。
GAN結構用到了兩個神經網絡:一個是生成器,它試圖基于輸入的數據生成更像真實數據的結果;另一個是判別器,它的目的在于正確分辨哪些是真實的數據。簡單地來理解就是,
生成器必須反復用隨機輸入的噪音數據合成有意義的內容,直到判別器無法區分合成內容的真偽。這套框架正在被擴展應用到許多數據模式和任務中。如仿真時間序列的特征;超分辨率圖像;從二維圖像復原三維結構;小規模標注數據集的泛化;預測視頻的下一幀;生成自然語言的對話內容;藝術風格遷移;語音和音樂的合成。
這個AttnGAN生成的圖像的質量比之前最好的GAN生成的圖像質量提高了近三倍。
值得一提的是,微軟研究人員在此基礎上創建了他們稱之為注意力生成式對抗網絡或AttnGAN的技術,而這種仿人類注意力的生成式對抗網絡對AI界的影響十分重大,這標志著在類人類智能的發展實現了質的突破。