9min read

AI 上新 | 谷歌最新「香蕉」AI 圖像模型，讓網(wǎng)友瘋玩「Vibe Photoshoping」

張勇毅2025/08/28

摘要

高度的角色一致性，帶來了前所未有的「Vibe Photoshoping」體驗(yàn)。

還記得之前大家熱議的神秘 AI 圖片編輯模型「nano-banana」嗎？當(dāng)時(shí)在 LMArena 大語言模型競技場里，它憑借出色表現(xiàn)一度被討論得沸沸揚(yáng)揚(yáng)。Google Gemini 各路技術(shù)大牛也是輪番出馬，在社交媒體上吊足眾人胃口，甚至一度成為了傳聞中的 Gemini 3.0 Pro。

如今，Google 終于揭開了它的神秘面紗。

北京時(shí)間 8 月 27 日凌晨，Google AI Studio 正式發(fā)布了 Gemini 2.5 Flash Image（代號 nano banana）??。

預(yù)熱許久終于登場的 Gemini 2.5 Flash Image ｜圖片來源：極客公園

這是迄今為止 Google 最先進(jìn)的圖像生成與編輯模型，不僅速度快得離譜，幾乎是「閃電般」的體驗(yàn)，還在多個(gè)榜單上拿下了 SOTA 的成績，在 LMArena 上更是遙遙領(lǐng)先。

一登場就達(dá)到 SOTA 能力的 Gemini 2.5 Flash Image ｜圖片來源：LMarena.ai

在技術(shù)博客里，Google 提到 Gemini 2.0 Flash 已經(jīng)憑借低延遲和高性價(jià)比贏得了開發(fā)者的青睞，但用戶們一直期待更高質(zhì)量的圖像和更強(qiáng)大的創(chuàng)作控制。Gemini 2.5 Flash Image 正是帶著這些重磅升級而來：角色一致性終于得以充分保持，基于提示的圖片編輯也更精準(zhǔn)，多幅圖像的融合效果自然流暢，再加上對現(xiàn)實(shí)世界知識的理解，讓它不僅是一款模型，更像是為下一代爆款應(yīng)用奠定基礎(chǔ)的「原點(diǎn)」。

極客公園也在第一時(shí)間體驗(yàn)了它。出乎意料的是，這不僅僅是一個(gè)模型更新，它讓人第一次真切地感覺到，AI 修圖未來的樣子已經(jīng)近在眼前。

Google AI Studio 中目前已經(jīng)開放體驗(yàn) ｜圖片來源：極客公園

一開始，我的確只是抱著常規(guī)體驗(yàn)、「看看新模型又快在哪」的心態(tài)?？蓻]想到，短短幾個(gè)小時(shí)的體驗(yàn)，讓我仿佛提前窺見了下一代爆款應(yīng)用的模樣。

過去我們習(xí)慣了美圖秀秀這樣的工具，點(diǎn)點(diǎn)按鈕、套個(gè)濾鏡，照片就能迅速變美。但 Gemini 2.5 Flash Image 給人的感覺完全不同。它快得不可思議，聰明得像個(gè)懂你心思的設(shè)計(jì)師，你只需要說出想要的效果，它就能在幾秒鐘里把畫面呈現(xiàn)出來。

除了效果，速度也是 Gemini 2.5 Flash Image 另一個(gè)明顯不同于此前模型生圖產(chǎn)品的體驗(yàn) ｜圖片來源：極客公園

欄目作者召集

極客公園的新欄目「AI 上新」，將帶大家體驗(yàn)最新的 AI 應(yīng)用和硬件，讓你成為 AI 時(shí)代「最靚的仔」！

現(xiàn)在，我們也向所有喜歡嘗鮮和體驗(yàn) AI 的同學(xué)發(fā)出召集，只要你發(fā)現(xiàn)并體驗(yàn)了新的 AI 應(yīng)用或者功能，按照格式（參考案例：AI上新｜馬卡龍 AI，一場從「哇塞」到「算了」的過山車體驗(yàn)）向欄目投稿，在極客公園公眾號發(fā)布，不僅能獲得相應(yīng)稿費(fèi)，且會為你「報(bào)銷」AI 應(yīng)用的訂閱費(fèi)用。

同時(shí)，優(yōu)秀作者還有機(jī)會進(jìn)入極客公園 AI 體驗(yàn)群，獲得最新 AI 應(yīng)用和工具的內(nèi)測資格，參加極客公園專屬相關(guān) AI 活動(dòng)，和 AI 應(yīng)用創(chuàng)始人一對一溝通。

AGI 太久，只爭朝夕，讓一部分人先 AI 起來吧！投稿、進(jìn)群請掃描下方二維碼添加極客小助手微信

01

極速生成，幾秒鐘出結(jié)果

Nano banana 體驗(yàn)最直觀的就是速度。以往在使用一些開源模型時(shí)，哪怕你電腦配置不錯(cuò)，從輸入提示到生成一張像樣的圖，也得等個(gè)幾十秒甚至更久。對于手機(jī)端用戶來說，這個(gè)等待過程更是煎熬。

但 Gemini 2.5 Flash Image 把這個(gè)門檻直接拉低到了幾秒鐘的級別。它本身是 Google 宣稱的「最新、最快、最高效」的原生多模態(tài)模型，在優(yōu)化上明顯下了很大功夫。我在實(shí)際測試時(shí)，輸入一句提示，大概三四秒就能生成結(jié)果，而且分辨率和細(xì)節(jié)都相當(dāng)清晰。

這種體驗(yàn)很像我們?nèi)粘Ｓ妹缊D秀秀處理照片：點(diǎn)一下「美顏」按鈕，幾乎是即時(shí)見效。區(qū)別在于，美圖秀秀是用算法套現(xiàn)成濾鏡，而 Gemini 2.5 Flash Image 是在從零構(gòu)建一張圖，或者把一張照片按你的需求進(jìn)行大幅改造。這種「指哪打哪」的爽感，是以往繁瑣的 P 圖流程完全不可想象的。

類似這種「刪除路人背景」的需求，只需要一個(gè) Prompt 就能解決｜圖片來源：極客公園

如果說速度解決的是傳統(tǒng) P 圖用戶的體驗(yàn)感，那么「原生多模態(tài)」解決的就是 AI 圖片能力邊界。

Gemini 2.5 Flash Image 不僅能生成圖片，還能同時(shí)理解文字和圖像輸入。這意味著我可以把一張照片和一段文字提示同時(shí)給它，它會結(jié)合兩者的信息去理解我到底想要什么。

舉個(gè)例子，我上傳了一張?jiān)诮诸^拍的照片，然后告訴它「把背景改成東京新宿的夜景」。結(jié)果它不僅識別出了我上傳照片里的主體，而且準(zhǔn)確地把人摳出來，背景替換成了霓虹燈閃爍的新宿街頭。更難得的是，它還保持了人物光影的統(tǒng)一，完全沒有人手摳圖經(jīng)常無法避免的那種「硬摳貼」的效果。

這種理解力讓我想起近幾年手機(jī)廠商在系統(tǒng)自帶相冊中經(jīng)常被提到的一個(gè)功能——「一鍵換背景」。但區(qū)別在于，當(dāng)年的換背景常常邊緣發(fā)虛、光影不對，效果很假。而現(xiàn)在，Gemini 2.5 Flash Image 能用世界知識和視覺理解來補(bǔ)足這些細(xì)節(jié)，結(jié)果自然得多，獲得了遠(yuǎn)比傳統(tǒng)文生圖/圖生圖模型工具更準(zhǔn)確的畫面細(xì)節(jié)保留。

原圖 & Gemini 2.5 Flash Image 生成效果｜圖片來源：極客公園

這也是為什么我覺得它會重新定義修圖體驗(yàn)：不再是依賴大量手工調(diào)整，而是靠模型的自然語義理解來「大力飛磚」式的完成任務(wù)，例如在人像 P 圖這種對畫面細(xì)節(jié)要求極高的場景。

對于這種人像圖片處理需求，Gemini 2.5 Flash Image 的角色一致性真的提供了一種前所未有的「Vibe Photoshoping」體驗(yàn)。

一秒幫程序員「挽尊」｜圖片來源：極客公園

這種體驗(yàn)打破了很多人對 AI 圖像生成以往印象 —— 「玄學(xué)」：無論你提示詞寫得好，出圖效果驚艷；提示詞寫得一般，生成的東西可能完全跑偏。

但在 Gemini 2.5 Flash Image 里，我發(fā)現(xiàn)這種「玄學(xué)感」被削弱了很多。它對提示詞的理解更精準(zhǔn)，也更貼近用戶的直覺 —— 這就是為什么不少人會突然覺得它會好用很多的原因。

比如我對它說「模糊背景，突出前景人物」，幾秒鐘后生成的圖正是我想要的效果；我讓它「把照片里的人換成微笑的表情」，結(jié)果不僅嘴角微微上揚(yáng)，連眼神都做了調(diào)整，細(xì)節(jié)非常到位；我甚至試過「給黑白照上色」，結(jié)果輸出的彩色圖并不是亂涂一氣，而是盡可能貼近歷史照片中該有的色彩氛圍。

這種「說到做到」的能力，讓我想到過去用美圖秀秀時(shí)，明明只是想磨皮，結(jié)果整張臉變成了「開了十級美顏」的假人臉。而現(xiàn)在，Gemini 2.5 Flash Image 的操作是精準(zhǔn)的、克制的，它真的理解你要什么，然后盡量還原。

02

能力加強(qiáng)，旦用難回

為了更直觀，我特意拿它和我日常常用的移動(dòng)端修圖工具做了對比。

在 Snapseed 上，我如果要模糊背景，通常需要花一兩分鐘手動(dòng)圈選前景區(qū)域，再調(diào)整模糊程度。即使操作熟練，也免不了反復(fù)修改。

在美圖秀秀上，雖然有一鍵背景模糊功能，但經(jīng)常會把人物的邊緣模糊掉，效果不夠自然。

而在 Gemini 2.5 Flash Image 上，我只需要一句話，它自動(dòng)識別出人物和背景的邊界，模糊效果自然，完全不需要二次修飾。

在更改畫面中細(xì)節(jié)的同時(shí)，仍然對其他背景部分避免了此前 AI 工具經(jīng)常出現(xiàn)的「亂涂亂畫」｜圖片來源：Twitter

這種對比其實(shí)說明了一點(diǎn)：Gemini 2.5 Flash Image 把用戶從復(fù)雜操作中解放了出來，把更多的工作交給了模型。對于普通人來說，它降低了修圖的門檻；對于專業(yè)人士來說，它節(jié)省了大量時(shí)間。

體驗(yàn)下來，我最大的感受是，Gemini 2.5 Flash Image 已經(jīng)不再只是一個(gè)修圖工具，而是更接近「智能助手」。

過去，我們用美圖秀秀，是在使用一個(gè)預(yù)設(shè)好的功能合集，濾鏡、美顏、馬賽克，每一個(gè)按鈕對應(yīng)一個(gè)功能。你要做的就是一點(diǎn)點(diǎn)選擇、一步步調(diào)整，直到滿意。

而現(xiàn)在，Gemini 2.5 Flash Image 的邏輯完全不同。它不再要求你學(xué)習(xí)工具的邏輯，而是直接理解你的需求。你只要說出來，它就替你完成。

這種轉(zhuǎn)變看似細(xì)微，但實(shí)質(zhì)上完全改變了 P 圖這個(gè)流程的關(guān)系。以前是我們?nèi)ミm應(yīng)工具，現(xiàn)在是工具來適應(yīng)我們。這種交互方式，本身就是下一代應(yīng)用形態(tài)的雛形。

站在現(xiàn)在來看，Gemini 2.5 Flash Image 還處在早期階段，功能上可能還有邊界。但它展現(xiàn)出來的速度、理解力和還原度，足以讓人對未來充滿想象。

如果把它和美圖秀秀結(jié)合起來，會是什么樣子？可能是你打開應(yīng)用，對著手機(jī)說一句「幫我修一下這張照片，讓皮膚自然一些」，幾秒鐘后結(jié)果就生成了；可能是旅行拍照時(shí)，你告訴它「把天氣改成晴天」，照片立刻變成陽光明媚的樣子；甚至可能是視頻編輯里，你用一句話就能改變整個(gè)片段的氛圍。

這種方式未來可能會迅速成為手機(jī)操作系統(tǒng)中的主流圖片編輯功能｜圖片來源：Twitter

這就是為什么我覺得它會迅速革命 P 圖工具領(lǐng)域現(xiàn)有的操作流程，定義下一代「美圖秀秀」：不僅僅是修圖，而是重新塑造圖像處理的交互方式，讓 AI 成為你的攝影后期伙伴。

但目前 Gemini 2.5 Flash Image 還并不能一步到位，充當(dāng)開箱即用的大眾 P 圖 App：不僅是因?yàn)樗闹饕康娜匀皇菆D像生成而非在現(xiàn)有的基礎(chǔ)上微調(diào)，而且所有通過 Gemini 2.5 Flash Image 創(chuàng)建或編輯的圖像都會包含一個(gè)SynthID 數(shù)字水印，用于社交內(nèi)容平臺識別 AI 生成內(nèi)容。

03

爆款的爆發(fā)點(diǎn)

回頭想想，美圖秀秀曾經(jīng)之所以能成為全民應(yīng)用，靠的是它用最簡單的方式解決了所有人都想解決的問題——讓照片更好看。

而 Gemini 2.5 Flash Image，正是在這個(gè)基礎(chǔ)上進(jìn)一步，把復(fù)雜的 AI 能力打磨成人人都能用的「秒出圖」體驗(yàn)。

當(dāng)我第一次對它說出「幫我模糊一下背景」，幾秒后畫面就被自然處理好的那一瞬間，我心里很清楚：這是爆款應(yīng)用的爆發(fā)原點(diǎn)。它不僅僅是一個(gè)模型，而是未來無數(shù)新產(chǎn)品的底層能力。