一上手就令網(wǎng)友直呼「生圖能力」比GPT-4o更強(qiáng)?!
就在昨夜,阿里帶著全新多模態(tài)模型Qwen-VLo開啟炸場(chǎng)模式。
據(jù)介紹,Qwen-VLo在阿里原有的多模態(tài)理解和生成能力上進(jìn)行了全面升級(jí),具備三大亮點(diǎn):
具有增強(qiáng)的細(xì)節(jié)捕捉能力,能在整個(gè)生成過(guò)程中保持高度語(yǔ)義一致性;
一個(gè)指令即可實(shí)現(xiàn)圖像編輯,包括風(fēng)格替換、素材增刪、添加文字等等;
支持中英等多語(yǔ)言,全球用戶使用更方便。
而且無(wú)論是輸入端還是輸出端,Qwen-VLo都支持任意分辨率和長(zhǎng)寬比,不受固定格式的限制。
同時(shí)在官方釋出的demo中,除了那些GPT-4o已經(jīng)有的玩法(如連續(xù)生成、吉卜力風(fēng)格、添加文字),它還支持一些腦洞大開的idea。
前者無(wú)需多言,它現(xiàn)在也能像“連續(xù)劇”一樣生成各種精準(zhǔn)符合指令的圖片:
至于后者,比如我們像在超市選購(gòu)日用品一樣,讓Qwen-VLo生成一張“洗浴用品都在購(gòu)物籃里”的圖片。
結(jié)果啪的一下,還真立馬完成裝貨了(⊙?⊙):
不是沒有一些小瑕疵,但有一說(shuō)一,其“理解”能力確實(shí)比之前更強(qiáng)。
官方介紹,這種理解能力不止體現(xiàn)在圖像生成上,還包括對(duì)圖像的識(shí)別解釋。
比如完成生圖任務(wù)后,再讓它介紹一下圖中小貓小狗的品種(正確識(shí)別為虎斑貓和比格):
而且和以往模型稍顯不同的是,Qwen-VLo還可以對(duì)現(xiàn)有信息進(jìn)行注釋(如檢測(cè)、分割等)。
下圖中,它成功用紅色Mask分割出了香蕉的邊緣。
……
目前模型人人免費(fèi)可玩(當(dāng)前為預(yù)覽版),具體請(qǐng)認(rèn)準(zhǔn)Qwen3-235B-A22B,直接在首頁(yè)輸入框提需求就行。
話不多說(shuō),我們先一起來(lái)上手實(shí)測(cè)一波走起。
Qwen-VLo,你到底有多能編輯?
根據(jù)Qwen介紹的亮點(diǎn),即“強(qiáng)細(xì)節(jié)捕捉”和“一句話編輯圖像”,我們著重在測(cè)試中考查了Qwen-VLo的各種編輯能力。
畢竟這點(diǎn)真的很吸引人??!
一方面幾乎所有的模型生圖都需要抽卡,但前一次的生成效果并非讓人完全不滿意,所以二次/多次編輯能力非常重要。
另一方面,強(qiáng)編輯能力,真的給P圖廢材省不少事兒……
開胃小菜先走起!
第一測(cè),讓它先生成一張北極熊喝可樂(lè)的照片。
這一回合主打的是非現(xiàn)實(shí)風(fēng)格。
在此基礎(chǔ)上,繼續(xù)通過(guò)對(duì)話將可樂(lè)換成牛奶。
一次成功,Qwen-VLo確實(shí)完成了替換。
且背景、北極熊本熊都幾乎沒被亂改。
但非要挑挑毛病的話,還是能觀察出來(lái),前后兩張圖中北極熊的眉眼部分和毛發(fā)質(zhì)感稍微有那么一丁點(diǎn)不一樣。
第二測(cè),先讓它幫忙生成一張小鳥的照片。
這一回合主打的是現(xiàn)實(shí)攝影風(fēng)格。
然后不用讀霍格沃茨,只需一句“把圖中的這只鳥換成鴿子”,你就能施展魔法:
但我們嘗試玩兒個(gè)“蒜鳥”的梗,Qwen-VLo就沒get到。
(注:“蒜鳥”一詞是近期爆梗。短視頻畫外音中的武漢方言“算了算了,都不容易”,被網(wǎng)友諧音稱“算鳥”,后來(lái)演變成“蒜鳥”)
不過(guò),雖然沒get到梗,Qwen-VLo還是努力想完成編輯任務(wù)。
看下圖成果,在不改變其它元素的基礎(chǔ)上,Qwen-VLo給咱們把圖中的鴿子換成了別的鳥。
也算是一種換鳥了?
第三測(cè),來(lái)個(gè)多步驟任務(wù),全方位測(cè)試Qwen-VLo“描繪”世界的同時(shí),重點(diǎn)考察下它在圖像上的文本編輯能力。
過(guò)程是「讓Qwen-VLo生成草圖——上色——加字——編輯漢字」。
來(lái),怕動(dòng)圖滑太快,咱們連看過(guò)程中順次截取的四張圖,感受它每一步帶來(lái)的改變:
雖然圖里小帥同學(xué)的五官在變,但人物主體穩(wěn)定,背景沒變,一整套下來(lái),編輯漢字的任務(wù)算是搞得不錯(cuò),
最后來(lái)個(gè)附加題,編輯英文——
字編輯對(duì)了,多人物主體位置沒變,背景依舊,總體沒錯(cuò)。
但如你所見,小帥同學(xué)也長(zhǎng)得比較美漫風(fēng)了(手動(dòng)笑死)。
同樣是逐步展示,但Qwen-VLo這背后真有活
這里我們展開補(bǔ)充一點(diǎn),大家上手玩兒的時(shí)候應(yīng)該都能注意到。
那就是Qwen-VLo生成圖像的過(guò)程,是醬嬸兒的——
是不是有點(diǎn)熟悉的味道?
沒錯(cuò),GPT-4o也是從上到下逐塊生成圖像的:先顯示模糊輪廓,再逐步填充細(xì)節(jié)。
不過(guò)當(dāng)時(shí)港中文研究逆向工程研究發(fā)現(xiàn),用戶看到的逐行渲染效果只是OpenAI的障眼法,不是真的由上至下逐像素生成。
這樣做的目的,既滿足用戶對(duì)“實(shí)時(shí)生成”的心理預(yù)期,又避免了真正逐行渲染的技術(shù)負(fù)擔(dān)。
但Qwen這么做就不是上演OpenAI的戲碼了。
敲敲黑板——
首先,Qwen官方表示Qwen-VLo的這種漸進(jìn)式生成方式,不僅是從上到下,還是從左至右逐步清晰地構(gòu)建整幅圖片。
我們多次實(shí)測(cè),暫時(shí)沒有肉眼觀察到“從左至右”的前端效果。
但從上到下逐漸構(gòu)成照片的前端效果是保準(zhǔn)會(huì)有的:
其次,Qwen引入這個(gè)形式,它是真·有用?。?/p>
在生成過(guò)程中,模型會(huì)對(duì)預(yù)測(cè)的內(nèi)容不斷調(diào)整和優(yōu)化,從而確保最終結(jié)果更加和諧一致。
這種生成機(jī)制不僅提升了視覺效果,生成效率,還特別適用于需要精細(xì)控制的長(zhǎng)段落文字生成任務(wù)。
例如,在生成帶有大量文本的廣告設(shè)計(jì)或漫畫分鏡時(shí),Qwen-VLo會(huì)逐步生成,慢慢修改。
這個(gè)生成過(guò)程,其實(shí)有點(diǎn)思維鏈“一步一步慢慢想”具像化的意思了!
網(wǎng)友實(shí)測(cè)腦洞開很大,來(lái)吧展示
除了以上量子位實(shí)測(cè),諸多網(wǎng)友也火速貢獻(xiàn)了一波有趣玩法…
隨手一張動(dòng)漫角色草圖, Qwen-VLo便能幫忙一鍵上色。
讓小貓擔(dān)任宣傳員,還能直接生成帶有“Qwen Chat”字樣的看板。
或者也可以借鑒下面網(wǎng)友的做法,以后用來(lái)制作一些梗圖(doge)。
順便一提,連Qwen團(tuán)隊(duì)成員之一Binyuan Hui也出來(lái)給大家打樣,分享了吉卜力風(fēng)格的某近日頂流。
好了,更多例子就不一一展示了,只說(shuō)一句: