
高度的角色一致性,帶來了前所未有的「Vibe Photoshoping」體驗(yàn)。
還記得之前大家熱議的神秘 AI 圖片編輯模型「nano-banana」嗎?當(dāng)時(shí)在 LMArena 大語言模型競技場里,它憑借出色表現(xiàn)一度被討論得沸沸揚(yáng)揚(yáng)。Google Gemini 各路技術(shù)大牛也是輪番出馬,在社交媒體上吊足眾人胃口,甚至一度成為了傳聞中的 Gemini 3.0 Pro。
如今,Google 終于揭開了它的神秘面紗。
北京時(shí)間 8 月 27 日凌晨,Google AI Studio 正式發(fā)布了 Gemini 2.5 Flash Image(代號 nano banana)??。
預(yù)熱許久終于登場的 Gemini 2.5 Flash Image | 圖片來源:極客公園
這是迄今為止 Google 最先進(jìn)的圖像生成與編輯模型,不僅速度快得離譜,幾乎是「閃電般」的體驗(yàn),還在多個(gè)榜單上拿下了 SOTA 的成績,在 LMArena 上更是遙遙領(lǐng)先。
一登場就達(dá)到 SOTA 能力的 Gemini 2.5 Flash Image | 圖片來源:LMarena.ai
在技術(shù)博客里,Google 提到 Gemini 2.0 Flash 已經(jīng)憑借低延遲和高性價(jià)比贏得了開發(fā)者的青睞,但用戶們一直期待更高質(zhì)量的圖像和更強(qiáng)大的創(chuàng)作控制。Gemini 2.5 Flash Image 正是帶著這些重磅升級而來:角色一致性終于得以充分保持,基于提示的圖片編輯也更精準(zhǔn),多幅圖像的融合效果自然流暢,再加上對現(xiàn)實(shí)世界知識的理解,讓它不僅是一款模型,更像是為下一代爆款應(yīng)用奠定基礎(chǔ)的「原點(diǎn)」。
極客公園也在第一時(shí)間體驗(yàn)了它。出乎意料的是,這不僅僅是一個(gè)模型更新,它讓人第一次真切地感覺到,AI 修圖未來的樣子已經(jīng)近在眼前。
Google AI Studio 中目前已經(jīng)開放體驗(yàn) | 圖片來源:極客公園
一開始,我的確只是抱著常規(guī)體驗(yàn)、「看看新模型又快在哪」的心態(tài)??蓻]想到,短短幾個(gè)小時(shí)的體驗(yàn),讓我仿佛提前窺見了下一代爆款應(yīng)用的模樣。
過去我們習(xí)慣了美圖秀秀這樣的工具,點(diǎn)點(diǎn)按鈕、套個(gè)濾鏡,照片就能迅速變美。但 Gemini 2.5 Flash Image 給人的感覺完全不同。它快得不可思議,聰明得像個(gè)懂你心思的設(shè)計(jì)師,你只需要說出想要的效果,它就能在幾秒鐘里把畫面呈現(xiàn)出來。
除了效果,速度也是 Gemini 2.5 Flash Image 另一個(gè)明顯不同于此前模型生圖產(chǎn)品的體驗(yàn) | 圖片來源:極客公園
欄目作者召集
極客公園的新欄目「AI 上新」,將帶大家體驗(yàn)最新的 AI 應(yīng)用和硬件,讓你成為 AI 時(shí)代「最靚的仔」!
現(xiàn)在,我們也向所有喜歡嘗鮮和體驗(yàn) AI 的同學(xué)發(fā)出召集,只要你發(fā)現(xiàn)并體驗(yàn)了新的 AI 應(yīng)用或者功能,按照格式(參考案例:AI上新|馬卡龍 AI,一場從「哇塞」到「算了」的過山車體驗(yàn))向欄目投稿,在極客公園公眾號發(fā)布,不僅能獲得相應(yīng)稿費(fèi),且會為你「報(bào)銷」AI 應(yīng)用的訂閱費(fèi)用。
同時(shí),優(yōu)秀作者還有機(jī)會進(jìn)入極客公園 AI 體驗(yàn)群,獲得最新 AI 應(yīng)用和工具的內(nèi)測資格,參加極客公園專屬相關(guān) AI 活動(dòng),和 AI 應(yīng)用創(chuàng)始人一對一溝通。
AGI 太久,只爭朝夕,讓一部分人先 AI 起來吧!投稿、進(jìn)群請掃描下方二維碼添加極客小助手微信
01
極速生成,幾秒鐘出結(jié)果
Nano banana 體驗(yàn)最直觀的就是速度。以往在使用一些開源模型時(shí),哪怕你電腦配置不錯(cuò),從輸入提示到生成一張像樣的圖,也得等個(gè)幾十秒甚至更久。對于手機(jī)端用戶來說,這個(gè)等待過程更是煎熬。
但 Gemini 2.5 Flash Image 把這個(gè)門檻直接拉低到了幾秒鐘的級別。它本身是 Google 宣稱的「最新、最快、最高效」的原生多模態(tài)模型,在優(yōu)化上明顯下了很大功夫。我在實(shí)際測試時(shí),輸入一句提示,大概三四秒就能生成結(jié)果,而且分辨率和細(xì)節(jié)都相當(dāng)清晰。
這種體驗(yàn)很像我們?nèi)粘S妹缊D秀秀處理照片:點(diǎn)一下「美顏」按鈕,幾乎是即時(shí)見效。區(qū)別在于,美圖秀秀是用算法套現(xiàn)成濾鏡,而 Gemini 2.5 Flash Image 是在從零構(gòu)建一張圖,或者把一張照片按你的需求進(jìn)行大幅改造。這種「指哪打哪」的爽感,是以往繁瑣的 P 圖流程完全不可想象的。
類似這種「刪除路人背景」的需求,只需要一個(gè) Prompt 就能解決 | 圖片來源:極客公園
如果說速度解決的是傳統(tǒng) P 圖用戶的體驗(yàn)感,那么「原生多模態(tài)」解決的就是 AI 圖片能力邊界。
Gemini 2.5 Flash Image 不僅能生成圖片,還能同時(shí)理解文字和圖像輸入。這意味著我可以把一張照片和一段文字提示同時(shí)給它,它會結(jié)合兩者的信息去理解我到底想要什么。
舉個(gè)例子,我上傳了一張?jiān)诮诸^拍的照片,然后告訴它「把背景改成東京新宿的夜景」。結(jié)果它不僅識別出了我上傳照片里的主體,而且準(zhǔn)確地把人摳出來,背景替換成了霓虹燈閃爍的新宿街頭。更難得的是,它還保持了人物光影的統(tǒng)一,完全沒有人手摳圖經(jīng)常無法避免的那種「硬摳貼」的效果。
這種理解力讓我想起近幾年手機(jī)廠商在系統(tǒng)自帶相冊中經(jīng)常被提到的一個(gè)功能——「一鍵換背景」。但區(qū)別在于,當(dāng)年的換背景常常邊緣發(fā)虛、光影不對,效果很假。而現(xiàn)在,Gemini 2.5 Flash Image 能用世界知識和視覺理解來補(bǔ)足這些細(xì)節(jié),結(jié)果自然得多,獲得了遠(yuǎn)比傳統(tǒng)文生圖/圖生圖模型工具更準(zhǔn)確的畫面細(xì)節(jié)保留。
原圖 & Gemini 2.5 Flash Image 生成效果 | 圖片來源:極客公園
這也是為什么我覺得它會重新定義修圖體驗(yàn):不再是依賴大量手工調(diào)整,而是靠模型的自然語義理解來「大力飛磚」式的完成任務(wù),例如在人像 P 圖這種對畫面細(xì)節(jié)要求極高的場景。
對于這種人像圖片處理需求,Gemini 2.5 Flash Image 的角色一致性真的提供了一種前所未有的「Vibe Photoshoping」體驗(yàn)。
一秒幫程序員「挽尊」| 圖片來源:極客公園
這種體驗(yàn)打破了很多人對 AI 圖像生成以往印象 —— 「玄學(xué)」:無論你提示詞寫得好,出圖效果驚艷;提示詞寫得一般,生成的東西可能完全跑偏。
但在 Gemini 2.5 Flash Image 里,我發(fā)現(xiàn)這種「玄學(xué)感」被削弱了很多。它對提示詞的理解更精準(zhǔn),也更貼近用戶的直覺 —— 這就是為什么不少人會突然覺得它會好用很多的原因。
比如我對它說「模糊背景,突出前景人物」,幾秒鐘后生成的圖正是我想要的效果;我讓它「把照片里的人換成微笑的表情」,結(jié)果不僅嘴角微微上揚(yáng),連眼神都做了調(diào)整,細(xì)節(jié)非常到位;我甚至試過「給黑白照上色」,結(jié)果輸出的彩色圖并不是亂涂一氣,而是盡可能貼近歷史照片中該有的色彩氛圍。
這種「說到做到」的能力,讓我想到過去用美圖秀秀時(shí),明明只是想磨皮,結(jié)果整張臉變成了「開了十級美顏」的假人臉。而現(xiàn)在,Gemini 2.5 Flash Image 的操作是精準(zhǔn)的、克制的,它真的理解你要什么,然后盡量還原。
02
能力加強(qiáng),旦用難回
為了更直觀,我特意拿它和我日常常用的移動(dòng)端修圖工具做了對比。
在 Snapseed 上,我如果要模糊背景,通常需要花一兩分鐘手動(dòng)圈選前景區(qū)域,再調(diào)整模糊程度。即使操作熟練,也免不了反復(fù)修改。
在美圖秀秀上,雖然有一鍵背景模糊功能,但經(jīng)常會把人物的邊緣模糊掉,效果不夠自然。
而在 Gemini 2.5 Flash Image 上,我只需要一句話,它自動(dòng)識別出人物和背景的邊界,模糊效果自然,完全不需要二次修飾。
在更改畫面中細(xì)節(jié)的同時(shí),仍然對其他背景部分避免了此前 AI 工具經(jīng)常出現(xiàn)的「亂涂亂畫」 | 圖片來源:Twitter
這種對比其實(shí)說明了一點(diǎn):Gemini 2.5 Flash Image 把用戶從復(fù)雜操作中解放了出來,把更多的工作交給了模型。對于普通人來說,它降低了修圖的門檻;對于專業(yè)人士來說,它節(jié)省了大量時(shí)間。
體驗(yàn)下來,我最大的感受是,Gemini 2.5 Flash Image 已經(jīng)不再只是一個(gè)修圖工具,而是更接近「智能助手」。
過去,我們用美圖秀秀,是在使用一個(gè)預(yù)設(shè)好的功能合集,濾鏡、美顏、馬賽克,每一個(gè)按鈕對應(yīng)一個(gè)功能。你要做的就是一點(diǎn)點(diǎn)選擇、一步步調(diào)整,直到滿意。
而現(xiàn)在,Gemini 2.5 Flash Image 的邏輯完全不同。它不再要求你學(xué)習(xí)工具的邏輯,而是直接理解你的需求。你只要說出來,它就替你完成。
這種轉(zhuǎn)變看似細(xì)微,但實(shí)質(zhì)上完全改變了 P 圖這個(gè)流程的關(guān)系。以前是我們?nèi)ミm應(yīng)工具,現(xiàn)在是工具來適應(yīng)我們。這種交互方式,本身就是下一代應(yīng)用形態(tài)的雛形。
站在現(xiàn)在來看,Gemini 2.5 Flash Image 還處在早期階段,功能上可能還有邊界。但它展現(xiàn)出來的速度、理解力和還原度,足以讓人對未來充滿想象。
如果把它和美圖秀秀結(jié)合起來,會是什么樣子?可能是你打開應(yīng)用,對著手機(jī)說一句「幫我修一下這張照片,讓皮膚自然一些」,幾秒鐘后結(jié)果就生成了;可能是旅行拍照時(shí),你告訴它「把天氣改成晴天」,照片立刻變成陽光明媚的樣子;甚至可能是視頻編輯里,你用一句話就能改變整個(gè)片段的氛圍。
這種方式未來可能會迅速成為手機(jī)操作系統(tǒng)中的主流圖片編輯功能 | 圖片來源:Twitter
這就是為什么我覺得它會迅速革命 P 圖工具領(lǐng)域現(xiàn)有的操作流程,定義下一代「美圖秀秀」:不僅僅是修圖,而是重新塑造圖像處理的交互方式,讓 AI 成為你的攝影后期伙伴。
但目前 Gemini 2.5 Flash Image 還并不能一步到位,充當(dāng)開箱即用的大眾 P 圖 App:不僅是因?yàn)樗闹饕康娜匀皇菆D像生成而非在現(xiàn)有的基礎(chǔ)上微調(diào),而且所有通過 Gemini 2.5 Flash Image 創(chuàng)建或編輯的圖像都會包含一個(gè)SynthID 數(shù)字水印,用于社交內(nèi)容平臺識別 AI 生成內(nèi)容。
03
爆款的爆發(fā)點(diǎn)
回頭想想,美圖秀秀曾經(jīng)之所以能成為全民應(yīng)用,靠的是它用最簡單的方式解決了所有人都想解決的問題——讓照片更好看。
而 Gemini 2.5 Flash Image,正是在這個(gè)基礎(chǔ)上進(jìn)一步,把復(fù)雜的 AI 能力打磨成人人都能用的「秒出圖」體驗(yàn)。
當(dāng)我第一次對它說出「幫我模糊一下背景」,幾秒后畫面就被自然處理好的那一瞬間,我心里很清楚:這是爆款應(yīng)用的爆發(fā)原點(diǎn)。它不僅僅是一個(gè)模型,而是未來無數(shù)新產(chǎn)品的底層能力。
前幾年在手機(jī)用戶之間爆火的 AI 一鍵換天功能 | 圖片來源:vivo 社區(qū)
也許幾年后,我們會忘記 Banana 這個(gè)代號,但會看到越來越多這種讓你「想要什么就說出來,立刻就能實(shí)現(xiàn)」的新體驗(yàn)的圖片處理工具,也許會像當(dāng)年的美圖秀秀一樣,成為一代用戶的共同記憶。
只不過這一次,AI 會把想象力推得更遠(yuǎn)。