<p class="ql-block"> 近幾個月來,AI (artificial intelligence)在各個領域的應用火得很。社會對此的反應是萬家歡樂幾家愁。</p><p class="ql-block"> 朋友的女兒在谷歌公司工作,她給我們展示了一個長長的清單,列舉了一系列領域現(xiàn)有的各種 AI 應用系統(tǒng)的名稱。這些領域涵蓋了視頻、音頻、圖像、專業(yè)報告、科學研究、工程設計、企業(yè)管理、以及資料查詢。</p><p class="ql-block"> 在 AI浪潮的沖擊下,攝影師們有點茫然,眾多的攝影愛好者更是不知所從。于是,美國全國各地的十九個華人攝影協(xié)會在七月中聯(lián)合舉辦了專題講座,請西悉尼大學人工智能研究室的教授、廣為人知的北美四光圈攝影師張熖作了《生成式人工智能及其對攝影的沖擊》的科學講座。</p><p class="ql-block"> 十九個攝影協(xié)會!僅其中的一個,硅谷的“灣區(qū)攝影天地”在世界各地的成員就有500人之多?!岸集偭耍 庇腥私蛔∶摽诙?。</p><p class="ql-block"> 為誰而瘋?為攝影,還是為 AI?</p><p class="ql-block"><br></p> <p class="ql-block" style="text-align: center;"><b style="color: rgb(22, 126, 251);">該來的,終究還是來了。</b></p> <p class="ql-block" style="text-align: center;">圖一,2016年9月22日早晨,本文作者在塞倫蓋蒂草原上拍攝的日出景色之一。</p> <p class="ql-block"> 該來的,終究還是來了。</p><p class="ql-block"> 故事還要從這篇文章的封面說起。封面所用的照片還是2016年秋天的一個早晨,在坦桑尼亞塞倫蓋蒂的短草平原上拍攝的。</p><p class="ql-block"> 原來的照片(見圖一)上只有斑馬和初升的太陽?,F(xiàn)在封面照片右側的天空中出現(xiàn)了一行飛鳥。這樣是不是在構圖上平衡一些了?否則上半部分顯得有點空曠。</p><p class="ql-block"> 那些鳥是 AI 在自行判斷后給加上去的。</p><p class="ql-block"><br></p> <p class="ql-block" style="text-align: center;">圖一,2016年9月,我們攝影隊在前往坦桑尼亞塞倫蓋蒂馬拉河流域的路途中。</p> <p class="ql-block"> 那次我們一行四人經(jīng)肯尼亞的內(nèi)羅畢轉去坦桑的阿魯沙,再乘坐Toyata 的皮卡進草原。幾個人在山丘、河谷、以及荒原上奔波了半個月,簡直疲憊不堪。不只是早出晚歸,還有一路風塵。</p><p class="ql-block"> 北京來的野生動物攝影師、我們的一位好朋友去過非洲很多次,那回也忍不住發(fā)了一通感慨。他坐在顛得骨頭架子都要散了的卡車上,一邊用雙手緊緊攥柱扶手一邊說:“以后科學發(fā)達了,我們就不用親自到這地方來了。坐在家里,操縱無人機,想到哪拍就到哪拍,想怎么拍就怎么拍?!?lt;/p><p class="ql-block"> 當時車上的人都笑了,同時也都沉浸在夢中。沒想到,該來的,終究還是來了,而且還來得那么快。</p><p class="ql-block"> 只不過,這回不僅不用肉身去非洲了,而且也不用隔著大半個地球操控無人機,白天晩上地盯著遙控器的屏幕,追著動物按快門了?,F(xiàn)在只要坐在電腦前,按按鼠標,就能“制造”出各種環(huán)境里的各種形態(tài)的獅子、獵豹、花豹、角馬,還有犀牛了。</p><p class="ql-block"><br></p> <p class="ql-block" style="text-align: center;"><b style="color: rgb(22, 126, 251);">Adobe 公司的</b></p><p class="ql-block" style="text-align: center;"><b style="color: rgb(22, 126, 251);">“判別式 AI 降噪”和“生成式 AI 填充”工具</b></p> <p class="ql-block"> 人工智能的研究從上個世紀五十年代早期就開始了,至今經(jīng)歷了兩個發(fā)展階段。第一個階段的是“判別式人工智能(Discriminative AI)”,第二個階段的是1966年以來的“生成式人工智能(Generative AI)”。</p><p class="ql-block"> 現(xiàn)階段的生成式人工智能系統(tǒng)使用機器來學習大量的視覺和文本等形式的數(shù)據(jù),然后按照使用者的需要,根據(jù)一定的算法計算出最有可能出現(xiàn)的結果,再以視覺和文本等形式輸出數(shù)據(jù)。</p><p class="ql-block"> 在整個過程中算法十分重要。目前的幾種算法當中,穩(wěn)定擴散模型(stable diffusion model)在生成圖像方面著有成效。</p><p class="ql-block"><br></p> <p class="ql-block" style="text-align: center;"><b style="color: rgb(176, 79, 187);">Adobe 公司的“判別式 AI 降噪”工具</b></p> <p class="ql-block" style="text-align: center;">圖三,與 photoshop 配套使用的 Camera Raw 15.4 版細節(jié)處理工具欄的截圖。截圖的下方增加了 Noise Reduction (降噪)的按鈕。按鈕下面的注解說:用 AI 去噪。所生成的圖像以 DNG 格式存儲。</p> <p class="ql-block"> 近一年來,Adobe 公司先是在三個圖像后期預處理軟件的功能上使用了判別式人工智能技術,而且都取得了應用程度的進展。</p><p class="ql-block"> 這三個功能分別是:1)超級分辨率;2)細化;3)降噪。</p><p class="ql-block"> 我們在這里稍微多說幾句與降噪有關的事。</p><p class="ql-block"> 今年4月,Adobe 公司在其 Camera Raw 15.3 版,Lightroom 6.3 版和 Lightroom Classic 12.3 版上推出了AI 降噪功能。</p><p class="ql-block"> 圖三是與 photoshop 配套使用的 Camera Raw 細節(jié)處理工具欄的截圖。截圖的下方增加了去噪的按鈕。按鈕上面注明:“用 AI 降噪”。</p><p class="ql-block"> 目前 Adobe 公司開發(fā)出來的這一人工智能降噪的功能,只能適用于具有 Bayer Pattern 和 X-Trans Pattern 圖像傳感器的照相機的源文件(Raw File)。舉例來說,佳能的單反和無反相機使用前一種傳感器,而富士相機使用后一種傳感器。</p><p class="ql-block"> 經(jīng)過對不同廠家出產(chǎn)的降噪軟件進行比較,Adobe 的 AI 降噪 插件在去除噪點和保留原有細節(jié)方面效果最為顯著。</p><p class="ql-block"><br></p> <p class="ql-block" style="text-align: center;"><b style="color: rgb(176, 79, 187);">Adobe 公司的“生成式 AI 填充”工具</b></p> <p class="ql-block" style="text-align: center;">圖四,Adobe photoshop (Beta)版編輯工具欄截圖。除了原有的“填充”和“內(nèi)容感知填充”工具外,Beta 版新增了“生成式填充(Generative Fill)工具。</p> <p class="ql-block"> 上面所說的 Adobe 的 AI 去噪工具是判別式人工智能技術的產(chǎn)物,而最近它推出的生成式填充工具則是生成式人工智能的應用。</p><p class="ql-block"> 事情是這樣的,今年六月份,Adobe 在其產(chǎn)品欄目里推出了一款生成式 AI 的獨立應用系統(tǒng),名字叫做 Firefly(螢火蟲),面向各??行業(yè)的圖像制作者。才過了一個月時間,這款應用程序就被加入到 photoshop (Beta)版中,成為了“生成式填充”工具。在這里,Beta 版就是試行版。</p><p class="ql-block"> 至此,在目前的 Beta 版 photoshop 里就同時擁有三種不同的填充工具。參見圖四。</p><p class="ql-block"> 這三種填充工具如下:</p><p class="ql-block"> Fill(填充):原有。用于在選擇區(qū)域內(nèi)作按照自動實行內(nèi)容感知填充,或者按照攝影師的要求填充顏色、50%灰度、圖像。<span style="font-size: 18px;">該工具不能自主生成圖像。</span></p><p class="ql-block"> Content-Aware Fill(內(nèi)容感知填充):原有。由攝影師先行選取內(nèi)容周邊的感知區(qū)域,然后實行填充。該工具不能自主生成圖像。</p><p class="ql-block"> Generative Fill(生成式填充):新增。用于兩種指令情況。一種是攝影師不作為,任由人工智能系統(tǒng)生成它自己認為最合適的圖像。第二種是攝影師輸入文字指令,再由人工智能系統(tǒng)輸出比較接近操作人員所要求的圖像。</p><p class="ql-block"> 本文主要介紹生成式填充工具的應用和期望。</p><p class="ql-block"><br></p> <p class="ql-block" style="text-align: center;"><b style="color: rgb(22, 126, 251);">生成式填充工具應用之一:</b></p><p class="ql-block" style="text-align: center;"><b style="color: rgb(22, 126, 251);">哥本哈根新港的擴展</b></p> <p class="ql-block" style="text-align: center;">圖五,哥本哈根的新港。本文作者于2023年3月攝于丹麥哥本哈根。</p> <p class="ql-block"> 新港 (Nyhavn) 是丹麥哥本哈根的 17 世紀的海濱、運河和娛樂區(qū)。它從國王新廣場 (Kongens Nytorv) 一直延伸到皇家劇院 (Royal Playhouse) 以南的海濱,兩旁排列著色彩鮮艷的 17 世紀和 18 世紀初的聯(lián)排別墅以及酒吧、咖啡館和餐館。中世紀之后北歐的大航海巨幕從這里開啟。安徒生老先生曾先后兩次在新港居住。</p><p class="ql-block"> 新港的航道為西北-東南方向,向外通往北海。航道兩邊樓房的外面依次是人行道、馬路,再就是碼頭。</p><p class="ql-block"><br></p> <p class="ql-block" style="text-align: center;">圖六,將圖五照片的畫布(canvas)向右側(出??诜较颍┭由煸掌瑢挾鹊?/4。</p><p class="ql-block"><br></p> <p class="ql-block" style="text-align: center;">圖七,在生成式填充對話框的指令輸入窗口(What would you like to generate?)里(見圖像右下角的對話框)不輸入任何文字指令。然后按下對話框右邊的執(zhí)行鍵(Generate)之后AI 自動生成的擴展圖像之一。</p> <p class="ql-block"> 不輸入任何指令,于是 AI 給出三個選項。上面這張是其中的一個選項。它將原有的河道按照透視規(guī)則向右擴展。天空的云層,房屋建筑、碼頭、停靠的船只、以及水道都顯得很自然。</p><p class="ql-block"><br></p> <p class="ql-block" style="text-align: center;">圖八,在生成式填充對話框的指令輸入窗口輸入如下指令:“Open to sea(通往海洋)”,接著按下旁邊的執(zhí)行鍵,AI 自動生成的擴展圖像之一。</p> <p class="ql-block"> AI 給出的選項之一,是在樓房的右側出現(xiàn)了一個修船的船塢,然后就是大海。</p><p class="ql-block"><br></p> <p class="ql-block" style="text-align: center;">圖九,在生成式填充對話框的指令輸入窗口輸入如下指令:Open to sea(通往海洋),接著按下旁邊的執(zhí)行鍵,AI 自動生成的擴展圖像之二。</p> <p class="ql-block"> AI 給出的另一個選項,是在樓房的終端停了幾條舊船,接著就是出??诹恕:降乐虚g還有一艘船正在駛出港口。</p><p class="ql-block"><br></p> <p class="ql-block" style="text-align: center;"><b style="color: rgb(22, 126, 251);">生成式填充工具應用之二:</b></p><p class="ql-block" style="text-align: center;"><b style="color: rgb(22, 126, 251);">哥本哈根酒店的旋轉樓梯</b></p> <p class="ql-block" style="text-align: center;">圖十,哥本哈根 Radisson Collection Copenhagen 酒店大堂里連接一樓和二樓的旋轉樓梯。本文作者于2023年3月拍攝。</p> <p class="ql-block"> 在從哥本哈根返回奧斯陸的那天中午,我們在下榻的Radisson Collection Copenhagen 酒店大堂里等出租車。借此機會用手機拍攝了大堂里連接一樓和二樓的一座旋轉樓梯。</p><p class="ql-block"> 這是一家由著名設計師和建筑師 Arne Jacobsen 設計的酒店,使其成為丹麥現(xiàn)代主義的真正發(fā)源地。酒店建于 1960 年。當時,哥本哈根有關市政部門為這座旋轉樓梯頒發(fā)過優(yōu)秀設計獎狀。</p><p class="ql-block"> 這張照片有幾個重要的缺陷。第一,因為是蹲在地上用手機在距離樓梯很近的地方拍的,所以所有的柱子、欄桿都向中間傾斜。第二,由于地面瓷磚反射頂蓬的燈光,畫面顯得凌亂。第三,手機的光學傳感器像素低,任何后期的余地都比較小。</p><p class="ql-block"> 之前的photoshop 很難解決上述這些問題。</p><p class="ql-block"><br></p> <p class="ql-block" style="text-align: center;">圖十一,修圖的第一步,先用 AI 填充功能除去了所有地上的反光。第二步,使用photoshop 原有的整形功能,從左右兩個方向,將所有歪斜的柱子矯直。</p> <p class="ql-block"> 經(jīng)過矯正,柱子是直了,但是又帶來兩問題。一是左右兩邊各自出現(xiàn)了一個空白的三角地帶。二是圖像的上下發(fā)生嚴重變形,樓梯變矮了。</p><p class="ql-block"> 對于這種矯正之后產(chǎn)生的空白,過去只能用裁切的方法解決,就是切掉左右兩側。但是這樣一來,不僅大廳的部分大幅縮減,而且樓梯上方的圓形開口也無法保持完整。</p><p class="ql-block"><br></p> <p class="ql-block" style="text-align: center;">圖十二,第三步,用generative fill這個新功能填充了左右兩邊的三角形空白區(qū)域。第四步,在上面新產(chǎn)生的圖像基礎上,再一次使用photoshop 原有的局部整形功能,矯正圖十二中的上下變形的畫面,使其恢復到可以接受的透視比例。</p> <p class="ql-block"> 在照片右邊,AI 填充工具擴充了大廳的休息區(qū),靠窗的地方有了一臺大屏幕電視機。地面的材料,以及新增加的天花板上的燈也都與原來大廳里的一致。在照片的左邊,新增加了一道通往另一??房間的門,而且立柱上還加裝了燈飾。</p> <p class="ql-block"> 做完這些事,再與圖十去比較一下。這樣的酒店是不是給你這位顧客的觀感更好一些?</p><p class="ql-block"><br></p> <p class="ql-block" style="text-align: center;"><b style="color: rgb(22, 126, 251);">生成式填充工具應用之三:Flakstad 海灘</b></p> <p class="ql-block" style="text-align: center;">圖十三,挪威羅弗墩群?? Flakstad 海灘之晨。本文作者于2023年3月拍攝。</p> <p class="ql-block"> 今年3月,我們隨云漫的攝影團到羅佛頓群島去。一天早上,到一個鮮為人知的海灣去拍攝一種特別的沙紋。</p><p class="ql-block"> 春天陸地上的雪溶化之后,以千溪萬流之勢,向西北瀉下,匯入挪威海。軟泥和細沙隨大小不一、方向不一的水流俱下,構成了形狀和色彩各異的圖案,造型不僅豐富而且獨特。我們希望拍攝以這種沙紋為引導線,以 Flakstad 海角為背景的海灘。</p> <p class="ql-block"> 在對比單反相機和手機的照片之后我們看出,1)手機的鏡頭(f/1.6)比相機的(f/2.8)角度更廣。就單張照片來說,手機照片不僅可以容納直至腳下的前景,還可以有更寬闊的視野,包括左側水流入海的弧線。這樣一來,作為前景的泥沙圖案同時又可作為較為完整的引導線,使畫面更加生動。</p><p class="ql-block"> 但是另一方面,相機照片的細節(jié)相對豐滿,色彩也更豐富一些。所以在畫質上相機照片是首選。</p><p class="ql-block"> 非常后悔當時沒有將相機向左轉動15~20度,再拍一張照片,然后在后期處理的時候,把這兩張照片合并成一張。這樣在水平方向的視角就能寬闊許多。</p><p class="ql-block"><br></p> <p class="ql-block" style="text-align: center;">圖十四,運用 AI 填充工具在照片的左邊自動填充了五分之一的寬度,得到了上面的照片。</p> <p class="ql-block"> 經(jīng)過 AI 自動填充,沙紋自動順著水流的走勢向左前方延伸;遠處的雲(yún)層和海浪也向左自然延伸; Flakstad 海角被順勢移到了圖像中間偏右的位置,而不是堵在正當中。這樣在視覺上是不是好了很多?</p><p class="ql-block"><br></p> <p class="ql-block" style="text-align: center;"><b style="color: rgb(22, 126, 251);">AI 填充工具尚不完美,人類仍需努力</b></p> <p class="ql-block" style="text-align: center;">圖十五,京都二年坂夜色。2022年10月本文作者拍攝。</p> <p class="ql-block"> 去年秋天一個傍晚,在前往京都高臺寺的一個臺階上,偶然回頭一望,看到了山坡下面二年坂商業(yè)街華燈初上的一幕。當時使用了中長焦鏡頭,手持相機拍攝。不幸的是,一輛汽車打著大燈,停在街口,還有一根粗大的電線桿豎在街當中。</p><p class="ql-block"> 根據(jù)過去的條件,無法在后期工作中完好地除去那輛車,只好把照片下面裁掉。因此,12x8 英寸的照片就變成 10x8 英寸的照片了。又因為以前 photoshop 的 Fill 工具的功能有限,在抹去電線桿后,產(chǎn)生了許多從電線桿周邊自動拷貝來的元素,例如出現(xiàn)了兩個一模一樣的男人的腦袋之類,簡直慘不忍睹。</p><p class="ql-block"><br></p> <p class="ql-block" style="text-align: center;">圖十六,用生成式填充工具修整后的京都二年坂夜色照片。</p> <p class="ql-block"> 最近,用生成式填充工具重新為這張照片做了后期。這次不再需要進行無奈的裁剪,也不再為抹去照片中的一部分而擔驚受怕了。</p> <p class="ql-block"> 終于得到了一張可以接受的照片。</p> <p class="ql-block"> 但是並非一步到位。一共用了20次這個工具,而且還經(jīng)常需要與 photoshop 原有的填充工具結合著使用,一塊一塊圖面地修整。</p><p class="ql-block"> 造成這種情況的原因,主要是作為攝影師,覺得還是應該基本上忠于原作,只希望比較自然地去掉一些障礙物,而不需要 AI 制造出一個全新的環(huán)境??磥磉_到這個要求還比較困難。</p><p class="ql-block"> 事實是,在圖像上所選擇的區(qū)域越小,選擇區(qū)域周邊的元素越復雜,AI 實現(xiàn)完美填充的難度就越大。</p><p class="ql-block"> 比如去掉電線桿,電線桿后面還有被擋住的半個人,這個人身后還有人,或者還有旁邊的人的一條胳膊或半條腿。又比如去掉一個交通指示牌,指示牌原先擋住的地上的光和影就會顯得怪異,所以還要反復修改地上的光和影,使得這些地方的磚塊與周邊的磚塊相稱。</p><p class="ql-block"><br></p> <p class="ql-block" style="text-align: center;">圖十七,穩(wěn)定擴散模型中的輸出過程(亦稱“逆向擴散”過程)圖解。取自張熖教授7月22講座:《生成式人工智能及其對攝影的沖擊》 。</p> <p class="ql-block"> 前面已經(jīng)說過,生成式人工智能的算法很重要。在目前的幾種算法當中,穩(wěn)定擴散模型在生成圖像方面著有成效。</p><p class="ql-block"> 如圖十七所示,穩(wěn)定擴散模型輸出數(shù)據(jù)的過程分為下達指令,讀取文字指令,產(chǎn)生圖像幾個環(huán)節(jié)。如何才能做到人機完美的相互理解,以及如何讓 AI 系統(tǒng)能夠產(chǎn)生出更像人類對自然場景的視覺感受那樣的圖像來,是兩個期待進一步優(yōu)化的地方。</p><p class="ql-block"><br></p> <p class="ql-block" style="text-align: center;">圖十八,闖蕩在塞倫蓋蒂草原的荒野上。2016年9月本文作者拍攝于坦桑尼亞。</p> <p class="ql-block"> 與 AI 共舞,無異于與狼共舞。把一個非人類的物種一步一步地養(yǎng)大,馴化它,與它心靈相通,讓它成為人類的助手。</p><p class="ql-block"> AI 工具尚不完美,人類仍需努力!</p> <p class="ql-block" style="text-align: center;"><span style="color: rgb(22, 126, 251);">…………………………</span></p><p class="ql-block" style="text-align: center;"><br></p><p class="ql-block" style="text-align: center;"><span style="color: rgb(22, 126, 251);">R&R Studio致?于紀實攝影和?學創(chuàng)作。</span></p><p class="ql-block" style="text-align: center;"><span style="color: rgb(22, 126, 251);">風光和野?動物攝影;</span></p><p class="ql-block" style="text-align: center;"><span style="color: rgb(22, 126, 251);">地?、城市、?物的歷史和傳記。</span></p><p class="ql-block" style="text-align: center;"><span style="color: rgb(22, 126, 251);">?清新的畫?傳遞?然的魅?;</span></p><p class="ql-block" style="text-align: center;"><span style="color: rgb(22, 126, 251);">以簡練的風格揭??物及社會的軌跡。</span></p><p class="ql-block" style="text-align: center;"><span style="color: rgb(22, 126, 251);"><br></span></p><p class="ql-block" style="text-align: center;"><br></p>