
對比語言-圖像預(yù)訓(xùn)練 (CLIP) 是 OpenAI 開發(fā)的一種多模態(tài)學(xué)習(xí)架構(gòu)。它從自然語言監(jiān)督中學(xué)習(xí)視覺概念。它通過在包含圖像及其相應(yīng)文本描述的大規(guī)模數(shù)據(jù)集上聯(lián)合訓(xùn)練模型來彌合文本和視覺數(shù)據(jù)之間的差距。這類似于 GPT-2 和 GPT-3 的零樣本能力。
本文將深入介紹 CLIP 如何彌合自然語言和圖像處理之間的差距。特別是,您將了解到:
lCLIP 如何工作?
l架構(gòu)和訓(xùn)練過程
lCLIP 如何解決計算機視覺領(lǐng)域的關(guān)鍵挑戰(zhàn)
l實際應(yīng)用
l實施 CLIP 時的挑戰(zhàn)和限制
l未來的發(fā)展
CLIP 如何工作?
CLIP(對比語言-圖像預(yù)訓(xùn)練)是 OpenAI 開發(fā)的一種從自然語言描述中學(xué)習(xí)視覺概念的模型。它的有效性源自大規(guī)模、多樣化的圖像和文本數(shù)據(jù)集。
對比學(xué)習(xí)是機器學(xué)習(xí)中使用的一種技術(shù),特別是在無監(jiān)督學(xué)習(xí)領(lǐng)域。對比學(xué)習(xí)是一種教人工智能模型識別大量數(shù)據(jù)點的相似性和差異性的方法。
假設(shè)您有一個主要項目(“錨樣本”)、一個類似項目(“正樣本”)和一個不同的項目(“負(fù)樣本”)。目標(biāo)是讓模型理解錨和正樣本是相似的,因此它會在腦海中將它們拉近,同時識別出負(fù)樣本是不同的,并將其推開。
在對比學(xué)習(xí)的計算機視覺示例中,我們旨在訓(xùn)練像卷積神經(jīng)網(wǎng)絡(luò)這樣的工具,使相似的圖像表示更接近,并分離不相似的圖像表示。
相似或“正面”圖像可能與主圖像或其修改版本屬于同一類別(例如,狗),而“負(fù)面”圖像則完全不同,通常來自另一個類別(例如,貓)。
對比語言-圖像預(yù)訓(xùn)練 (CLIP) 使用雙編碼器架構(gòu)將圖像和文本映射到共享潛在空間。它通過聯(lián)合訓(xùn)練兩個編碼器來工作。一個編碼器用于圖像(Vision Transformer),另一個編碼器用于文本(基于 Transformer 的語言模型)。
l圖像編碼器:圖像編碼器從視覺輸入中提取顯著特征。此編碼器將“圖像作為輸入”并生成高維向量表示。它通常使用 卷積神經(jīng)網(wǎng)絡(luò) (CNN) 架構(gòu)(如ResNet)來提取圖像特征。
l文本編碼器:文本編碼器對相應(yīng)文本描述的語義進行編碼。它以“文本標(biāo)題/標(biāo)簽作為輸入”并生成另一個高維向量表示。它通常使用基于 Transformer 的架構(gòu)(如 Transformer 或 BERT)來處理文本序列。
l共享嵌入空間:兩個編碼器在共享向量空間中生成嵌入。這些共享嵌入空間允許 CLIP 比較文本和圖像表示并了解它們的底層關(guān)系。
步驟 1:對比預(yù)訓(xùn)練
CLIP 是在從互聯(lián)網(wǎng)收集的 4 億對(圖像、文本數(shù)據(jù))大規(guī)模數(shù)據(jù)集上進行預(yù)訓(xùn)練的。在預(yù)訓(xùn)練期間,模型會使用圖像和文本標(biāo)題對。其中一些對是真正的匹配(標(biāo)題準(zhǔn)確描述了圖像),而另一些則不匹配。它創(chuàng)建了共享的潛在空間嵌入。
步驟 2:根據(jù)標(biāo)簽文本創(chuàng)建數(shù)據(jù)集分類器
對于每幅圖像,都會創(chuàng)建多個文本描述,包括正確的描述和幾個錯誤的描述。這會創(chuàng)建正樣本(匹配)和負(fù)樣本(不匹配)對的混合。這些描述被輸入到文本編碼器中,生成特定于類的嵌入。
在此階段,一個關(guān)鍵函數(shù)也開始發(fā)揮作用:對比損失函數(shù)。該函數(shù)會因模型錯誤匹配(圖像-文本)對而對其進行懲罰。但是,它會因模型在潛在空間中正確匹配(圖像-文本)對而對其進行獎勵。它鼓勵模型學(xué)習(xí)能夠準(zhǔn)確捕捉視覺和文本信息相似性的表示。
步驟 3:零樣本預(yù)測
現(xiàn)在,經(jīng)過訓(xùn)練的文本編碼器被用作零樣本分類器。使用新圖像,CLIP 可以進行零樣本預(yù)測。這是通過將其傳遞給圖像編碼器和數(shù)據(jù)集分類器(無需微調(diào))來實現(xiàn)的。
CLIP 計算所有圖像和文本描述對的嵌入之間的余弦相似度。它優(yōu)化編碼器的參數(shù)以增加正確對的相似度。從而降低不正確對的相似度。
這樣,CLIP 就可以學(xué)習(xí)多模態(tài)嵌入空間,其中語義相關(guān)的圖像和文本彼此緊密映射。預(yù)測類別是具有最 高 logit 值的類別。
CLIP 能夠?qū)D像和文本映射到共享空間,從而實現(xiàn)NLP 和圖像處理任務(wù)的集成 。這使得 CLIP 能夠:
l為圖像生成文本描述。它可以通過使用圖像表示查詢潛在空間來從訓(xùn)練數(shù)據(jù)中檢索相關(guān)文本描述。進而有效地執(zhí)行圖像字幕。
l根據(jù)文本描述對圖像進行分類。它可以直接將文本描述與潛在空間中未見圖像的表示進行比較。因此,無需針對特定類別標(biāo)記訓(xùn)練數(shù)據(jù)即可執(zhí)行零樣本圖像分類。
l根據(jù)文本提示編輯圖像。文本指令可用于修改現(xiàn)有圖像。用戶可以操縱文本輸入并將其反饋給 CLIP。這將指導(dǎo)模型按照指定的文本提示生成或修改圖像。此功能為創(chuàng)新的文本到圖像生成和編輯工具奠定了基礎(chǔ)。
計算機視覺的最 大障礙之一是“語義鴻溝”。語義鴻溝是指計算機從圖像中提取的低級視覺特征與人類容易理解的高級語義概念之間的脫節(jié)。
傳統(tǒng)視覺模型擅長于 物體檢測 和 圖像分類等任務(wù)。然而,它們往往難以掌握圖像中更深層的含義和背景。這使得它們很難推理物體之間的關(guān)系、解釋動作或推斷意圖。
另一方面,CLIP 可以理解圖像中描繪的物體、活動和情緒之間的關(guān)系。給定一張孩子在公園玩耍的圖像,CLIP 可以識別孩子和公園的存在。此外,它還可以推斷出孩子正在玩得很開心。
另一個關(guān)鍵挑戰(zhàn)是有效訓(xùn)練計算機視覺模型所需的大量數(shù)據(jù)。 深度學(xué)習(xí)算法需要大量標(biāo)記的圖像數(shù)據(jù)集來學(xué)習(xí)視覺特征和語義概念之間的復(fù)雜關(guān)系。獲取和注釋如此大的數(shù)據(jù)集既昂貴又耗時,限制了視覺模型的可用性和可擴展性。
同時,與傳統(tǒng)視覺模型相比,CLIP 可以從更少的圖像-文本對中進行學(xué)習(xí)。這使得它更加節(jié)省資源,并能適應(yīng)數(shù)據(jù)有限的專業(yè)領(lǐng)域。
傳統(tǒng)的 計算機視覺模型往往難以解釋其預(yù)測背后的原因。這種“黑箱”性質(zhì)阻礙了人們的信任,并限制了其在不同場景中的應(yīng)用。
然而,CLIP 經(jīng)過大量圖像-文本對的訓(xùn)練,學(xué)會將視覺特征與文本描述聯(lián)系起來。這允許生成解釋模型推理的字幕,提高可解釋性并增強信任度。此外,CLIP 能夠適應(yīng)各種文本提示,增強了其對未見過的情況的通用性。
對比語言-圖像預(yù)訓(xùn)練有多種實際應(yīng)用,例如:
CLIP 最令人印象深刻的功能之一是它能夠執(zhí)行零樣本圖像分類。這意味著 CLIP 可以僅使用自然語言描述對從未見過的圖像進行分類。
對于傳統(tǒng)的圖像分類任務(wù),AI 模型是在特定標(biāo)記的數(shù)據(jù)集上進行訓(xùn)練的,這限制了它們識別訓(xùn)練范圍之外的物體或場景的能力。借助 CLIP,您可以為模型提供自然語言描述。反過來,這使它能夠根據(jù)文本輸入概括和分類圖像,而無需針對這些類別進行特定訓(xùn)練。
CLIP 能夠理解圖像和文本之間的聯(lián)系,因此非常適合圖像字幕等計算機視覺任務(wù)。給定一張圖像,它可以生成描述內(nèi)容和上下文的字幕。
此功能在需要像人類一樣理解圖像的應(yīng)用中非常有用。這可能包括為視障人士提供的輔助技術(shù)或增強搜索引擎的內(nèi)容。例如,它可以為視障用戶提供詳細(xì)描述或有助于獲得更精 確的搜索結(jié)果。
CLIP 可用于語義圖像搜索和檢索,而不僅僅是基于關(guān)鍵字的簡單搜索。用戶可以輸入自然語言查詢,CLIP AI 模型將檢索與文本描述最匹配的圖像。
這種方法提高了搜索結(jié)果的精 確度和相關(guān)性。因此,它成為內(nèi)容管理系統(tǒng)、數(shù)字資產(chǎn)管理以及任何需要高效、準(zhǔn)確圖像檢索的用例中的寶貴工具。
內(nèi)容審核會過濾在線平臺上的不當(dāng)或有害內(nèi)容,例如包含暴力、裸露或仇恨言論的圖片。CLIP 可以根據(jù)自然語言標(biāo)準(zhǔn)檢測和標(biāo)記此類內(nèi)容,從而協(xié)助內(nèi)容審核流程。
例如,它可以識別違反平臺服務(wù)條款或社區(qū)準(zhǔn)則的圖片,或?qū)δ承┤后w或個人具有冒犯性或敏感的圖片。此外,它還可以通過突出顯示觸發(fā)審核的圖片或文本的相關(guān)部分來證明決策的合理性。
在圖像質(zhì)量不佳的情況下,例如監(jiān)控錄像或醫(yī)學(xué)成像,CLIP 可以通過結(jié)合相關(guān)文本描述解釋可用的視覺信息來提供有價值的見解。它可以根據(jù)圖像的語義內(nèi)容和上下文提供有關(guān)原始圖像可能是什么樣子的提示或線索。但是,它可以使用其生成功能或從大型數(shù)據(jù)庫中檢索類似圖像,從模糊的輸入中生成部分或完整的圖像。
盡管 CLIP 具有令人印象深刻的性能和潛在的應(yīng)用,但它也存在一些局限性,例如:
另一個缺點是 CLIP 的決策過程缺乏可解釋性。理解模型為何以某種方式對特定圖像進行分類可能具有挑戰(zhàn)性。這可能會阻礙其在可解釋性至關(guān)重要的敏感領(lǐng)域的應(yīng)用,例如醫(yī)療診斷或法律背景。
CLIP 的理解在細(xì)粒度細(xì)節(jié)方面也受到限制。雖然它在高級任務(wù)方面表現(xiàn)出色,但它可能難以理解圖像或文本中復(fù)雜的細(xì)微差別和微妙的區(qū)別。因此,限制了它在需要精細(xì)分析的應(yīng)用中的有效性。
CLIP 對關(guān)系(尤其是情感和抽象概念)的理解仍然受到限制。它可能會誤解復(fù)雜或細(xì)微的視覺線索。反過來,這會影響其在需要更深入地理解人類體驗的任務(wù)中的表現(xiàn)。
預(yù)訓(xùn)練數(shù)據(jù)中存在的偏見可能會轉(zhuǎn)移到 CLIP,從而可能延續(xù)和放大社會偏見。這引發(fā)了道德問題,特別是在內(nèi)容審核或決策系統(tǒng)等 AI 應(yīng)用中。在這些用例中,有偏見的結(jié)果會導(dǎo)致現(xiàn)實世界的后果。
隨著 CLIP 不斷重塑多模態(tài)學(xué)習(xí)格局,其融入實際應(yīng)用前景廣闊。數(shù)據(jù)科學(xué)家正在探索克服其局限性的方法,著眼于開發(fā)更先進、更可解釋的模型。
CLIP 有望在圖像識別、NLP、醫(yī)療診斷、輔助技術(shù)、先進機器人等領(lǐng)域取得突破。隨著機器掌握不同模態(tài)的語境理解,它為更直觀的人機交互鋪平了道路。
CLIP 的多功能性正在塑造一個未來,即人工智能將像人類一樣理解世界。未來的研究將塑造人工智能的能力,解鎖新的應(yīng)用,推動創(chuàng)新,并拓展機器學(xué)習(xí)和深度學(xué)習(xí)系統(tǒng)的可能性。
隨著 CLIP 的不斷發(fā)展,它具有巨大的潛力,可以改變我們與各種模式的信息交互方式。通過連接語言和視覺,CLIP 推動了機器真正“看”和“理解”世界的未來。
公眾號 掃碼咨詢
![]() | 上海市閔行區(qū)中春路4999號莘莊商務(wù)樓1326室 |
![]() | service@covond.com |
![]() | www.jxetj.com |
![]() | 交換機:18017588179(孫經(jīng)理) 無人機:13311882358(孫總) |