
CLIP神經(jīng)網(wǎng)絡(luò)可以有效地從自然語言監(jiān)督中學(xué)習(xí)視覺。只需提供要識(shí)別的視覺類別的名稱,CLIP 就可以應(yīng)用于任何視覺分類基準(zhǔn),類似于 GPT-2 和 GPT-3 的“零樣本”功能。
盡管深度學(xué)習(xí)徹底改變了計(jì)算機(jī)視覺,但當(dāng)前的方法仍存在幾個(gè)主要問題:
1:典型的視覺數(shù)據(jù)集需要大量勞動(dòng)力,創(chuàng)建成本高昂,同時(shí)只能教授一組狹窄的視覺概念;2:標(biāo)準(zhǔn)視覺模型只擅長一項(xiàng)任務(wù),需要付出巨大努力才能適應(yīng)新任務(wù);3:在基準(zhǔn)測試中表現(xiàn)良好的模型在壓力測試中表現(xiàn)卻令人失望,這使人們對(duì)整個(gè)計(jì)算機(jī)視覺深度學(xué)習(xí) 方法產(chǎn)生了懷疑。
我們提出了一個(gè)旨在解決這些問題的神經(jīng)網(wǎng)絡(luò):它使用各種各樣的圖像進(jìn)行訓(xùn)練,并使用互聯(lián)網(wǎng)上大量可用的各種自然語言監(jiān)督。根據(jù)設(shè)計(jì),可以用自然語言指示網(wǎng)絡(luò)執(zhí)行各種各樣的分類基準(zhǔn)測試,而無需直接優(yōu)化基準(zhǔn)測試的性能,類似于“零樣本”(在新窗口中打開)” GPT-2 5 和 GPT-3 的功能。這是一個(gè)關(guān)鍵的變化:通過不直接針對(duì)基準(zhǔn)進(jìn)行優(yōu)化,我們表明它變得更具代表性:我們的系統(tǒng)將這種“魯棒性差距”縮小了 75%,同時(shí) 在 ImageNet上與原始 ResNet-50的性能相匹配(在新窗口中打開) 零樣本測試,不使用任何原始的 1.28M 個(gè)標(biāo)記示例。
lCLIP比ImageNet普遍適應(yīng)性更強(qiáng):
盡管兩種模型在 ImageNet 測試集上的準(zhǔn)確率相同,但 CLIP 的表現(xiàn)更能體現(xiàn)其在不同非 ImageNet 設(shè)置中衡量準(zhǔn)確率的數(shù)據(jù)集上的表現(xiàn)。例如,ObjectNet 檢查模型識(shí)別家中不同姿勢和不同背景下的物體的能力,而 ImageNet Rendition 和 ImageNet Sketch 檢查模型識(shí)別物體更抽象描述的能力。
CLIP(對(duì)比語言-圖像預(yù)訓(xùn)練)建立在零樣本遷移、自然語言監(jiān)督和多模態(tài)學(xué)習(xí)方面的大量工作之上。零數(shù)據(jù)學(xué)習(xí)的想法可以追溯到十多年前,但直到最近,它主要在計(jì)算機(jī)視覺領(lǐng)域被研究作為一種推廣到看不見的物體類別的方式。一個(gè)關(guān)鍵的見解是利用自然語言作為靈活的預(yù)測空間來實(shí)現(xiàn)泛化和遷移。2013 年,斯坦福大學(xué)的 Richer Socher 和合著者通過在 CIFAR- 10 上訓(xùn)練模型來在詞向量嵌入空間中進(jìn)行預(yù)測,開發(fā)了一個(gè)概念證明,并表明該模型可以預(yù)測兩個(gè)看不見的類別。同年,DeVISE擴(kuò)展了這種方法,并證明可以對(duì) ImageNet 模型進(jìn)行微調(diào),使其可以推廣到正確預(yù)測原始 1000 個(gè)訓(xùn)練集之外的物體。
對(duì) CLIP最有啟發(fā)意義的是 Ang Li 及其合著者在 FAIR上所做的工作 ,他們在 2016 年展示了如何使用自然語言監(jiān)督實(shí)現(xiàn)對(duì)多個(gè)現(xiàn)有計(jì)算機(jī)視覺分類數(shù)據(jù)集(例如經(jīng)典 ImageNet 數(shù)據(jù)集)的零樣本遷移。他們通過微調(diào) ImageNet CNN 來實(shí)現(xiàn)這一點(diǎn),該 CNN 從 3000 萬張 Flickr 照片的標(biāo)題、描述和標(biāo)簽文本中預(yù)測更廣泛的視覺概念(視覺 n-gram)。
最后,CLIP 是過去一年中重新審視從自然語言監(jiān)督中學(xué)習(xí)視覺表征的一組論文的一部分。這一系列工作使用了更現(xiàn)代的架構(gòu),例如 Transformer ,其中包括探索自回歸語言建模的 VirTex 、研究掩碼語言建模的 ICMLM和研究我們用于 CLIP 的相同對(duì)比目標(biāo)的 ConVIRT,但在醫(yī)學(xué)成像領(lǐng)域。
我們表明,擴(kuò)展一個(gè)簡單的預(yù)訓(xùn)練任務(wù)就足以在各種圖像分類數(shù)據(jù)集上實(shí)現(xiàn)具有競爭力的零樣本性能。我們的方法使用大量可用的監(jiān)督源:在互聯(lián)網(wǎng)上找到的與圖像配對(duì)的文本。此數(shù)據(jù)用于為 CLIP 創(chuàng)建以下代理訓(xùn)練任務(wù):給定一張圖像,預(yù)測在我們的數(shù)據(jù)集中,一組 32,768 個(gè)隨機(jī)采樣的文本片段中哪一個(gè)實(shí)際上與其配對(duì)。
為了解決這一任務(wù),我們的直覺是 CLIP 模型需要學(xué)習(xí)識(shí)別圖像中的各種視覺概念并將它們與名稱聯(lián)系起來。因此,CLIP 模型可以應(yīng)用于幾乎任意的視覺分類任務(wù)。例如,如果數(shù)據(jù)集的任務(wù)是對(duì)狗和貓的照片進(jìn)行分類,我們會(huì)針對(duì)每張圖像檢查 CLIP 模型預(yù)測文本描述“狗的照片 ”或“貓的照片 ”是否更有可能與其配對(duì)。
CLIP 預(yù)先訓(xùn)練了一個(gè)圖像編碼器和一個(gè)文本編碼器,以預(yù)測哪些圖像與數(shù)據(jù)集中的哪些文本配對(duì)。然后,我們利用這種行為將 CLIP 轉(zhuǎn)變?yōu)榱銟颖痉诸惼?。我們將?shù)據(jù)集的所有類別轉(zhuǎn)換為標(biāo)題,例如“一張狗的照片”,并預(yù)測 CLIP 估計(jì)的與給定圖像最 佳配對(duì)的標(biāo)題類別。
lCLIP 的設(shè)計(jì)目的在于緩解標(biāo)準(zhǔn)深度學(xué)習(xí)計(jì)算機(jī)視覺方法中的一些主要問題:
昂貴的數(shù)據(jù)集:深度學(xué)習(xí)需要大量數(shù)據(jù),而視覺模型傳統(tǒng)上是在手動(dòng)標(biāo)記的數(shù)據(jù)集上進(jìn)行訓(xùn)練的,這些數(shù)據(jù)集構(gòu)建成本高昂,并且僅對(duì)有限數(shù)量的預(yù)定視覺概念提供監(jiān)督。ImageNet 數(shù)據(jù)集是該領(lǐng)域最 大的努力之一,需要超過 25,000 名工作人員為 22,000 個(gè)對(duì)象類別注釋 1400 萬張圖像。
相比之下,CLIP 從互聯(lián)網(wǎng)上已經(jīng)公開的文本-圖像對(duì)中進(jìn)行學(xué)習(xí)。減少對(duì)昂貴的大型標(biāo)記數(shù)據(jù)集的需求已在先前的工作中得到廣泛研究,特別是自監(jiān)督學(xué)習(xí)、 對(duì)比方法、自訓(xùn)練 方法、和生成模型。
狹義:ImageNet 模型擅長預(yù)測 1000 個(gè) ImageNet 類別,但這就是它“開箱即用”的全部功能。如果我們想執(zhí)行任何其他任務(wù),ML 從業(yè)者需要構(gòu)建新的數(shù)據(jù)集、添加輸出并微調(diào)模型。
相比之下,CLIP 可以適應(yīng)執(zhí)行各種各樣的視覺分類任務(wù),而無需額外的訓(xùn)練示例。要將 CLIP 應(yīng)用于新任務(wù),我們需要做的就是“告訴”CLIP 的文本編碼器任務(wù)的視覺概念的名稱,它就會(huì)輸出 CLIP 視覺表示的線性分類器。這種分類器的準(zhǔn)確性通常與全監(jiān)督模型相媲美。
現(xiàn)實(shí)世界表現(xiàn)不佳:深度學(xué)習(xí)系統(tǒng)在視覺基準(zhǔn)測試中的表現(xiàn)通常與人類相當(dāng),甚至超過人類,但在實(shí)際部署時(shí),它們的表現(xiàn)可能遠(yuǎn)低于基準(zhǔn)測試設(shè)定的期望。換句話說,“基準(zhǔn)測試表現(xiàn)”和“實(shí)際表現(xiàn)”之間存在差距。
我們推測,這種差距的出現(xiàn)是因?yàn)槟P汀白鞅住敝会槍?duì)基準(zhǔn)測試表現(xiàn)進(jìn)行優(yōu)化,就像學(xué)生只通過學(xué)習(xí)往年考試的問題就通過了考試。相比之下,CLIP 模型可以在基準(zhǔn)測試中進(jìn)行評(píng)估,而無需在其數(shù)據(jù)上進(jìn)行訓(xùn)練,因此它不能以這種方式“作弊”。這使得它的基準(zhǔn)測試表現(xiàn)更能代表其在實(shí)際環(huán)境中的表現(xiàn)。
為了驗(yàn)證“作弊假設(shè)”,我們還測量了 CLIP 在能夠“學(xué)習(xí)”ImageNet 時(shí)的性能變化。當(dāng)在 CLIP 的特征上安裝線性分類器時(shí),它將 CLIP 在 ImageNet 測試集上的準(zhǔn)確率提高了近 10%。然而, 在衡量“穩(wěn)健”性能的其他 7 個(gè)數(shù)據(jù)集的評(píng)估套件中,該分類器的平均表現(xiàn)并不 更好.
lCLIP核心關(guān)鍵要點(diǎn)
1. CLIP 效率高
CLIP 從未過濾、高度多樣化且噪聲很大的數(shù)據(jù)中學(xué)習(xí),旨在以零樣本方式使用。我們從 GPT-2 和 3 中了解到,在此類數(shù)據(jù)上訓(xùn)練的模型可以實(shí)現(xiàn)令人信服的零樣本性能;然而,這樣的模型需要大量的訓(xùn)練計(jì)算。為了減少所需的計(jì)算,我們專注于提高我們方法的訓(xùn)練效率的算法方法。
我們報(bào)告了兩種可顯著節(jié)省計(jì)算資源的算法選擇。第 一種選擇是采用對(duì)比目標(biāo)將文本與圖像連接起來。我們 最初探索了一種類似于 VirTex 的圖像到文本方法,但在擴(kuò)展該方法 以實(shí)現(xiàn)最 佳性能方面遇到了困難。在中小規(guī)模的實(shí)驗(yàn)中,我們發(fā)現(xiàn) CLIP 使用的對(duì)比目標(biāo)在零樣本 ImageNet 分類中的效率提高了 4 到 10 倍。第二種選擇是采用 Vision Transformer與標(biāo)準(zhǔn) ResNet 相比,這使我們的計(jì)算效率提高了 3倍。最后,我們表現(xiàn)最 好的 CLIP 模型在 256 個(gè) GPU 上訓(xùn)練了 2周, 這與現(xiàn)有的大規(guī)模圖像模型類似。
我們最初探索了訓(xùn)練圖像到字幕的語言模型,但發(fā)現(xiàn)這種方法在零樣本遷移方面遇到了困難。在這個(gè)為期 16 天的 GPU 實(shí)驗(yàn)中,語言模型在訓(xùn)練了 4 億張圖像后,在 ImageNet 上僅實(shí)現(xiàn)了 16% 的準(zhǔn)確率。CLIP 效率更高,實(shí)現(xiàn)相同準(zhǔn)確率的速度大約快 10 倍。
2. CLIP 靈活、通用
由于 CLIP 模型直接從自然語言中學(xué)習(xí)廣泛的視覺概念,因此它們比現(xiàn)有的 ImageNet 模型更加靈活和通用。我們發(fā)現(xiàn)它們能夠零樣本執(zhí)行許多不同的任務(wù)。為了驗(yàn)證這一點(diǎn),我們在 30 多個(gè)不同的數(shù)據(jù)集上測量了 CLIP 的零樣本性能,包括細(xì)粒度對(duì)象分類、地理定位、視頻中的動(dòng)作識(shí)別和 OCR 等任務(wù)。特別是,學(xué)習(xí) OCR 是一個(gè)令人興奮的行為的例子,它不會(huì)發(fā)生在標(biāo)準(zhǔn)的 ImageNet 模型中。上面,我們可視化了每個(gè)零樣本分類器的隨機(jī)非精選預(yù)測。
這一發(fā)現(xiàn)也反映在使用線性探針的標(biāo)準(zhǔn)表征學(xué)習(xí)評(píng)估中。最 佳 CLIP 模型在我們測試的 26 個(gè)不同的傳輸數(shù)據(jù)集中的 20 個(gè)上表現(xiàn)優(yōu)于最 佳公開可用的 ImageNet 模型 Noisy Student EfficientNet-L2,達(dá)到23 分 。
在 27 個(gè)數(shù)據(jù)集中,我們發(fā)現(xiàn) CLIP 模型可以學(xué)習(xí)更廣泛有用的圖像表示,這些數(shù)據(jù)集用于測量細(xì)粒度對(duì)象分類、OCR、視頻中的活動(dòng)識(shí)別和地理定位等任務(wù)。CLIP 模型的計(jì)算效率也高于我們之前比較的 10 種方法中的模型。
雖然 CLIP 通常能很好地識(shí)別常見物體,但它在更抽象或系統(tǒng)的任務(wù)(例如計(jì)算圖像中的物體數(shù)量)和更復(fù)雜的任務(wù)(例如預(yù)測照片中最近的汽車有多近)上表現(xiàn)不佳。在這兩個(gè)數(shù)據(jù)集上,零樣本 CLIP 僅比隨機(jī)猜測略勝一籌。與特定任務(wù)模型相比,零樣本 CLIP 在非常細(xì)粒度的分類上也表現(xiàn)不佳,例如區(qū)分汽車型號(hào)、飛機(jī)變體或花卉種類。
CLIP 對(duì)其預(yù)訓(xùn)練數(shù)據(jù)集中未涵蓋的圖像的泛化能力仍然較差。例如,盡管 CLIP 學(xué)習(xí)了一個(gè)功能強(qiáng)大的 OCR 系統(tǒng),但在對(duì) MNIST 數(shù)據(jù)集中的手寫數(shù)字進(jìn)行評(píng)估時(shí),零樣本 CLIP 的準(zhǔn)確率僅為 88%,遠(yuǎn)低于人類在該數(shù)據(jù)集上的 99.75%。最后,我們觀察到 CLIP 的零樣本分類器可能對(duì)措辭或短語很敏感,有時(shí)需要反復(fù)試驗(yàn)的“快速工程”才能取得良好效果。
CLIP 允許人們設(shè)計(jì)自己的分類器,并且無需針對(duì)特定任務(wù)進(jìn)行訓(xùn)練數(shù)據(jù)。這些類別的設(shè)計(jì)方式會(huì)嚴(yán)重影響模型性能和模型偏差。例如,我們發(fā)現(xiàn),當(dāng)給定一組標(biāo)簽(包括 Fairface種族標(biāo)簽C和一些惡劣術(shù)語,例如“罪犯”、“動(dòng)物”等)時(shí),該模型傾向于將 0-20 歲人群的圖像歸類為惡劣類別,比率約為 32.3%。但是,當(dāng)我們將“兒童”類別添加到可能的類別列表中時(shí),這種行為會(huì)下降到約 8.7%。
此外,鑒于 CLIP 不需要特定于任務(wù)的訓(xùn)練數(shù)據(jù),它可以更輕松地解鎖某些小眾任務(wù)。其中一些任務(wù)可能會(huì)引發(fā)隱私或監(jiān)視相關(guān)的風(fēng)險(xiǎn),我們通過研究 CLIP 在名人識(shí)別方面的表現(xiàn)來探討這一問題。在從 100 個(gè)候選對(duì)象中進(jìn)行選擇時(shí),CLIP 對(duì)“自然”名人圖像分類的 top-1 準(zhǔn)確率為 59.2%,在從 1000 個(gè)可能的選擇中進(jìn)行選擇時(shí),top-1 準(zhǔn)確率為 43.3%。雖然使用與任務(wù)無關(guān)的預(yù)訓(xùn)練實(shí)現(xiàn)這些結(jié)果值得注意,但與廣泛可用的生產(chǎn)級(jí)模型相比,這種性能并不具有競爭力。我們將在論文中進(jìn)一步探討 CLIP 帶來的 挑戰(zhàn)(在新窗口中打開) 我們希望這項(xiàng)工作能夠激發(fā)未來對(duì)此類模型的能力、缺點(diǎn)和偏差進(jìn)行表征的研究。我們很高興能與研究界就這些問題展開合作。
利用 CLIP,我們測試了在互聯(lián)網(wǎng)規(guī)模的自然語言上進(jìn)行任務(wù)無關(guān)預(yù)訓(xùn)練(這推動(dòng)了 NLP 領(lǐng)域近期的突破)是否也能用于提高其他領(lǐng)域的深度學(xué)習(xí)性能。到目前為止,將這種方法應(yīng)用于計(jì)算機(jī)視覺所取得的成果讓我們感到興奮。與 GPT 系列一樣,CLIP 在預(yù)訓(xùn)練期間學(xué)習(xí)了各種各樣的任務(wù),我們通過零樣本遷移進(jìn)行了演示。我們在 ImageNet 上的發(fā)現(xiàn)也讓我們備受鼓舞,表明零樣本評(píng)估是衡量模型能力的更具代表性的指標(biāo)。
公眾號(hào) 掃碼咨詢
![]() | 上海市閔行區(qū)中春路4999號(hào)莘莊商務(wù)樓1326室 |
![]() | service@covond.com |
![]() | www.jxetj.com |
![]() | 交換機(jī):18017588179(孫經(jīng)理) 無人機(jī):13311882358(孫總) |