
人工智能技術(shù)的不斷發(fā)展,多模態(tài)大模型作為一種新型的機(jī)器學(xué)習(xí)技術(shù),逐漸成為人工智能領(lǐng)域的熱點(diǎn)話題。多模態(tài)大模型能夠處理多種媒體數(shù)據(jù),如文本、圖像、音頻和視頻等,并通過(guò)學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實(shí)現(xiàn)更加智能化的信息處理。
多模態(tài)大模型是一種基于深度學(xué)習(xí)的機(jī)器學(xué)習(xí)技術(shù),其核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過(guò)學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實(shí)現(xiàn)更加智能化的信息處理。在多模態(tài)大模型中,不同模態(tài)的數(shù)據(jù)經(jīng)過(guò)預(yù)處理后被輸入到一個(gè)深度神經(jīng)網(wǎng)絡(luò)中,經(jīng)過(guò)多層的特征提取和融合,最終輸出相應(yīng)的結(jié)果。
多模態(tài)大模型的優(yōu)點(diǎn)在于能夠充分利用不同媒體數(shù)據(jù)的信息,提取出更加豐富、全面的特征,從而提高模型的性能和泛化能力。此外,多模態(tài)大模型還可以通過(guò)學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),進(jìn)一步增強(qiáng)模型的語(yǔ)義理解和表達(dá)能力。
多模態(tài)大模型在許多領(lǐng)域都有廣泛的應(yīng)用,下面介紹幾個(gè)典型的應(yīng)用場(chǎng)景:
1. 自然語(yǔ)言處理
多模態(tài)大模型在自然語(yǔ)言處理領(lǐng)域的應(yīng)用主要表現(xiàn)在跨媒體理解和生成方面。通過(guò)將文本和圖像等多模態(tài)數(shù)據(jù)輸入到模型中,可以完成諸如文本與圖像的跨模態(tài)檢索、文本與視頻的語(yǔ)義對(duì)齊等任務(wù)。同時(shí),多模態(tài)大模型還可以用于生成具有視覺(jué)效果的文本描述,如給定一張圖片,輸出一段描述其內(nèi)容的文字。
2. 計(jì)算機(jī)視覺(jué)
多模態(tài)大模型在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用主要表現(xiàn)在跨媒體分析和跨媒體生成方面。通過(guò)將文本、圖像和視頻等多模態(tài)數(shù)據(jù)輸入到模型中,可以完成諸如文本與圖像的關(guān)聯(lián)分析、視頻語(yǔ)義分割等任務(wù)。同時(shí),多模態(tài)大模型還可以用于生成具有語(yǔ)義信息的圖像或視頻,如根據(jù)一段文字描述生成相應(yīng)的圖片或視頻。
3. 多媒體處理
多模態(tài)大模型在多媒體處理領(lǐng)域的應(yīng)用主要表現(xiàn)在跨媒體理解和跨媒體生成方面。通過(guò)將音頻、視頻和文本等多模態(tài)數(shù)據(jù)輸入到模型中,可以完成諸如音頻與視頻的跨模態(tài)檢索、音頻與文本的語(yǔ)義對(duì)齊等任務(wù)。同時(shí),多模態(tài)大模型還可以用于生成具有多媒體特征的文本或視頻,如根據(jù)一段音頻描述生成相應(yīng)的文字或視頻。
隨著多模態(tài)大模型的不斷發(fā)展,其應(yīng)用場(chǎng)景也將越來(lái)越廣泛。未來(lái),多模態(tài)大模型的發(fā)展將呈現(xiàn)出以下幾個(gè)趨勢(shì):
1. 數(shù)據(jù)規(guī)模不斷擴(kuò)大
隨著數(shù)據(jù)規(guī)模的擴(kuò)大,多模態(tài)大模型的性能和泛化能力將得到進(jìn)一步提升。未來(lái),將會(huì)有更多的數(shù)據(jù)集被用于訓(xùn)練多模態(tài)大模型,從而使其更好地適應(yīng)各種實(shí)際應(yīng)用場(chǎng)景。
2. 模型結(jié)構(gòu)不斷創(chuàng)新
隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,多模態(tài)大模型的架構(gòu)和算法也將不斷創(chuàng)新。未來(lái),將會(huì)有更多的新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)被應(yīng)用于多模態(tài)大模型中,從而使其更好地處理不同媒體數(shù)據(jù)之間的關(guān)聯(lián)和轉(zhuǎn)換。
CLIP 是由 OpenAI 在 2021 年提出的預(yù)訓(xùn)練模型,用于評(píng)估給定圖像與給定文本描述的匹配程度。該模型使用大量(約 4 億)從網(wǎng)頁(yè)中爬取的圖像-文本對(duì)(pair)數(shù)據(jù)進(jìn)行對(duì)比學(xué)習(xí)。
數(shù)據(jù)的收集:
搜索了 50w 個(gè) queries(query 列表主要來(lái)自英文版維基百科中至少出現(xiàn) 100 次的所有單詞,并做了些其他補(bǔ)充)
為了保證每個(gè) query 的數(shù)據(jù)相對(duì)平衡,每個(gè) query 保留最多 2w 個(gè)(image, text)
典型的雙塔模型,有兩個(gè) encoder,一個(gè)對(duì)應(yīng)圖片,一個(gè)對(duì)應(yīng)文本,圖像和文本經(jīng)過(guò)各自的 encoder 后,通過(guò)簡(jiǎn)單的點(diǎn)乘來(lái)代表不同模態(tài)的交互(相似性)。
文章的主要貢獻(xiàn)有兩個(gè):
ALBEF 解決了多模態(tài)領(lǐng)域中圖像和文本對(duì)齊、交互的問(wèn)題。在 ALBEF 之前,多模態(tài)方法通常使用 transformer 的多模態(tài)編碼器來(lái)同時(shí)編碼視覺(jué)和文本特征,由于目標(biāo)檢測(cè)器是提前訓(xùn)練好的,因此視覺(jué)和文本特征并不是對(duì)齊的。圖像和文本特征可能距離很遠(yuǎn),這使得多模態(tài)編碼器難以學(xué)習(xí)到它們之間的交互。為了解決這個(gè)問(wèn)題,ALBEF 通過(guò)一個(gè)對(duì)比損失(也就是 CLIP 中的 ITC 損失)在進(jìn)行多模態(tài)交互之前對(duì)齊圖像和文本數(shù)據(jù)。
網(wǎng)上爬取的大量圖文對(duì)通常噪聲很大(圖文不匹配)。ALBEF 采用動(dòng)量蒸餾(momentum distillation)的自訓(xùn)練方法來(lái)從網(wǎng)絡(luò)圖文對(duì)數(shù)據(jù)中學(xué)習(xí),以緩解原始數(shù)據(jù)中的噪聲問(wèn)題。從理論上講,ALBEF 通過(guò)互信息最 大化的角度解釋了不同的多模態(tài)任務(wù),說(shuō)明不同任務(wù)實(shí)際上為圖文對(duì)提供了不同的視角,類(lèi)似于數(shù)據(jù)增強(qiáng),使得訓(xùn)練得到的多模態(tài)模型能夠理解不同模態(tài)下的語(yǔ)義,具備語(yǔ)義保持的能力。
VLMo 模型通過(guò)使用混合模態(tài)專(zhuān)家(MoME)Transformer 實(shí)現(xiàn)了統(tǒng)一的視覺(jué)-語(yǔ)言預(yù)訓(xùn)練。MoME Transformer 的結(jié)構(gòu)設(shè)計(jì)允許根據(jù)輸入信號(hào)的不同使用對(duì)應(yīng)的 FFN 層參數(shù)進(jìn)行計(jì)算。具體來(lái)說(shuō),VLMo 模型包括了視覺(jué)專(zhuān)家(V-FFN)、文本專(zhuān)家(L-FFN)和圖文專(zhuān)家(VL-FFN),它們分別用于處理圖像、文本和圖像-文本輸入。這種靈活的設(shè)計(jì)使得VLMo 模型能夠根據(jù)任務(wù)的不同使用不同的結(jié)構(gòu)進(jìn)行訓(xùn)練和推理。
文章的研究動(dòng)機(jī):
現(xiàn)有的預(yù)訓(xùn)練模型通常在理解型任務(wù)或生成型任務(wù)中表現(xiàn)出色,但很少有模型能夠同時(shí)在這兩種任務(wù)上達(dá)到優(yōu) 秀的性能。
現(xiàn)有的性能改進(jìn)主要是通過(guò)擴(kuò)大數(shù)據(jù)集規(guī)模并使用從網(wǎng)絡(luò)收集的帶有噪聲的圖像-文本對(duì)進(jìn)行訓(xùn)練實(shí)現(xiàn)的。然而,網(wǎng)絡(luò)數(shù)據(jù)集中的噪聲會(huì)對(duì)模型的性能產(chǎn)生負(fù)面影響。
主要的貢獻(xiàn):
統(tǒng)一了圖像-語(yǔ)言的理解與生成任務(wù)
Bootstrap 的方式清洗網(wǎng)絡(luò)噪聲數(shù)據(jù)
在模型的設(shè)計(jì)上結(jié)合了 ALBEF 和 VLMo,看下圖中紅色框中就類(lèi)似 ALBEF,只是畫(huà) image-grounded text encoder 的位置不同;藍(lán)色框中類(lèi)似 VLMo,雖然有三個(gè)模型,但是大部分參數(shù)都是共享的。
CoCa 將解決圖像或多模態(tài)問(wèn)題的模型概括成 3 種經(jīng)典結(jié)構(gòu),分別是 single-encoder model、dual-encoder model、encoder-decoder model。Single-encoder model 指的是基礎(chǔ)的圖像分類(lèi)模型,dual-encoder model 指的是類(lèi)似 CLIP 的雙塔圖文匹配模型,encoder-decoder model 指的是用于看圖說(shuō)話任務(wù)的生成式模型。
BEITv3 的主要想法就是希望統(tǒng)一多模態(tài)學(xué)習(xí)中的模型結(jié)構(gòu)、預(yù)訓(xùn)練任務(wù)以及模型規(guī)模。為此將圖片也看作一種語(yǔ)言(Imglish),圖像文本對(duì)看作是 parallel sentences。在輸入形式統(tǒng)一之后,也就不需要 ITC、ITM、MLM、WPA 等其他目標(biāo)函數(shù),而是可以使用統(tǒng)一的 masked “l(fā)anguage” modeling 的方式進(jìn)行訓(xùn)練。
BEITv3 的模型結(jié)構(gòu)使用的是 Multiway Transformer (其實(shí)就是前面 VLMo 的 MoME),因此也就具備了之前提到的靈活性的特點(diǎn),可以適用于非常多的下游任務(wù)。
BLIP-2 通過(guò)在凍結(jié)的預(yù)訓(xùn)練圖像編碼器和凍結(jié)的預(yù)訓(xùn)練大語(yǔ)言模型之間添加一個(gè)輕量級(jí) 查詢(xún) Transformer (Query Transformer, Q-Former) 來(lái)彌合視覺(jué)和語(yǔ)言模型之間的模態(tài)隔閡。在整個(gè)模型中,Q-Former 是唯 一的可訓(xùn)練模塊,而圖像編碼器和語(yǔ)言模型始終保持凍結(jié)狀態(tài)。
Q-Former 由兩個(gè)子模塊組成,這兩個(gè)子模塊共享相同的自注意力層:
與凍結(jié)的圖像編碼器交互的圖像 transformer,用于視覺(jué)特征提取
文本 transformer,用作文本編碼器和解碼器
InstructBLIP 可以理解為是 BLIP2 + 指令微調(diào)
作者們收集了 26 數(shù)據(jù)集并轉(zhuǎn)化指令微調(diào)的格式
并改進(jìn) BLIP2 中的 Query Transformer 為 指令感知的 Query Transformer,能夠抽取和給定指令相關(guān)的信息
InstructBLIP 的模型結(jié)構(gòu)如下所示:
對(duì)于 GPT4 能夠具有超強(qiáng)的圖文理解能力,作者們的理解是這是得益于大語(yǔ)言模型的能力,因此考慮將最 新的一些能跟 ChatGPT “媲美”的語(yǔ)言模型引入其中,這里采用了 Vicuna 作為語(yǔ)言模型,在視覺(jué)理解上,作者采用了和 BLIP2 里面一樣的視覺(jué)模塊,包含一個(gè) ViT 模塊和一個(gè) Q-Former 模塊。模型的整體框架如下所示,我們從下往上看:首先一張圖片會(huì)經(jīng)過(guò)視覺(jué)模塊(ViT&Q-Former)進(jìn)行編碼得到一個(gè)圖像 embedding,由于視覺(jué)模塊給出的 embedding 不能夠直接被語(yǔ)言模型理解,因此一般需要將視覺(jué) embedding 和文本 embedding 進(jìn)行對(duì)齊,這里加入了一個(gè)線性層,可以理解為這里假設(shè)圖片編碼器得到的輸出經(jīng)過(guò)一個(gè)線性層后就能夠被語(yǔ)言模型理解了,然后將原始的文本信息和經(jīng)過(guò)對(duì)齊后的圖像信息拼接起來(lái),送入 LLM,就可以實(shí)現(xiàn)能夠接受多模態(tài)信息的 GPT 了。
之前的工作大多是考慮的是多模態(tài)理解(看圖說(shuō)話),最近剛提出的 MiniGPT-5 則想著直接多模態(tài)同時(shí)生成(同時(shí)生成文本和圖片)。
圖片生成的話用 Stable Diffusion 來(lái)做是個(gè)比較常規(guī)的操作了,簡(jiǎn)單回憶下 Stable Diffusion 怎么做的,其實(shí)就是一個(gè) Unet 接收加噪的圖片、時(shí)間步長(zhǎng)、以及文本的 token embedding 來(lái)進(jìn)行生成,這里的文本編碼器來(lái)自于 CLIP,那多模態(tài)發(fā)展得風(fēng)風(fēng)火火,把這里的文本編碼器換成新一點(diǎn)的模型是不是可行?
lGPT-4V:遠(yuǎn)遠(yuǎn)領(lǐng)先!
openai 還是保持著 closeai 的風(fēng)格,關(guān)于 GPT-4V 的模型以及訓(xùn)練相關(guān)的細(xì)節(jié)并沒(méi)有公布,只有一份微軟的測(cè)評(píng)論文,從結(jié)果上來(lái)看是遠(yuǎn)遠(yuǎn)領(lǐng)先。
看完兩個(gè)模態(tài)的多模態(tài)工作,我們?cè)賮?lái)看看如何擴(kuò)展到更多的模態(tài)
ImageBind 的目標(biāo)是將不同模態(tài)的 embedding 對(duì)齊到一個(gè)公共的空間,可以理解為是 CLIP 的多模態(tài)版本。
文章的主要思想是通過(guò)圖片作為橋梁來(lái)將不同模態(tài)的數(shù)據(jù)關(guān)聯(lián)起來(lái)。
Meta-Transformer 野心就比較大了,同時(shí)考慮了 12 種模態(tài)。
它的主要思想是使用一個(gè)統(tǒng)一的框架來(lái)處理來(lái)自多種模態(tài)的數(shù)據(jù),而無(wú)需為每種模態(tài)設(shè)計(jì)特定的模型或網(wǎng)絡(luò)。通過(guò)將所有模態(tài)的數(shù)據(jù)映射到一個(gè)共享的 embedding 空間,并使用一個(gè)公共的編碼器來(lái)提取特征。
統(tǒng)一的 Tokenization:通過(guò)設(shè)計(jì)特定的 Tokenization 策略,例如將圖像分割成小塊或?qū)⑽谋痉指畛稍~或子詞,然后為每個(gè)塊或詞生成一個(gè) token。這些 token 然后被映射到一個(gè)連續(xù)的向量空間,形成 token embedding;
模態(tài)共享的編碼器:使用一個(gè)預(yù)訓(xùn)練的 Transformer 編碼器,它的參數(shù)是凍結(jié)的。這個(gè)編碼器可以處理來(lái)自不同模態(tài)的 token embedding(因?yàn)樗鼈兌荚谕粋€(gè)共享的流形空間內(nèi));
任務(wù)特定的頭部:這些頭部通常由多層感知機(jī)(MLP)組成,并根據(jù)不同的模態(tài)和任務(wù)進(jìn)行調(diào)整。
看了這些多模態(tài)的研究后,多模態(tài)的研究做的事情主要是:
不同模態(tài)進(jìn)行對(duì)齊
不同模態(tài)進(jìn)行融合
指令微調(diào)促進(jìn)人機(jī)交互,數(shù)據(jù)的質(zhì)量可能比數(shù)量更重要
模型設(shè)計(jì)既要保證檢索任務(wù)下的高效推理,又要能夠進(jìn)行多模態(tài)深度融合
進(jìn)入大語(yǔ)言模型時(shí)代前,用更大的圖像編碼器一般是更有效的
進(jìn)入大語(yǔ)言模型時(shí)代后,圖文理解能力的強(qiáng)大可能來(lái)自于大語(yǔ)言模型的能力
進(jìn)入大語(yǔ)言模型時(shí)代后,視覺(jué)優(yōu)先仍然是值得探索的方向,但是訓(xùn)練大視覺(jué)模型向來(lái)是比較困難的
想要在多模態(tài)理解的基礎(chǔ)上擴(kuò)充多模態(tài)生成能力需要設(shè)計(jì)不同模態(tài)對(duì)應(yīng)的解碼器
理想的框架:多模態(tài)對(duì)齊+統(tǒng)一的編碼器+統(tǒng)一的解碼器,一舉拿下多模態(tài)理解和生成
公眾號(hào) 掃碼咨詢(xún)
![]() | 上海市閔行區(qū)中春路4999號(hào)莘莊商務(wù)樓1326室 |
![]() | service@covond.com |
![]() | www.jxetj.com |
![]() | 交換機(jī):18017588179(孫經(jīng)理) 無(wú)人機(jī):13311882358(孫總) |