GPT-4刷屏,這家中國AI企業(yè)多模態(tài)大模型已落地應(yīng)用多年,新版本內(nèi)測了(可申請(qǐng))
執(zhí)牛耳 發(fā)表于 2023-03-17 17:16
閱讀數(shù): 6636
引言:OmModel V3 將于近期發(fā)布,新版本將提供一句話生成算法、自由定義需求、中英雙語互動(dòng)、智能報(bào)告等多個(gè)特色功能,用戶可以通過語音或者文字等形式,自由提交任何需求任務(wù),系統(tǒng)將根據(jù)任務(wù)給出相關(guān)反饋,包括音視圖文等多個(gè)模態(tài)的結(jié)果呈現(xiàn)(附內(nèi)測名額)
人類如何認(rèn)知世界?
人類 80% 的信息來自于視覺,同時(shí)人類也是地球上唯一擁有完整語言體系的生物。當(dāng)我們通過雙眼看到這個(gè)世界,不論是閱讀書籍、網(wǎng)上沖浪還是欣賞自然景觀,我們的大腦都在進(jìn)行著復(fù)雜的信息處理。我們不僅能夠感知周圍環(huán)境中的物體和形狀,還能夠理解它們的意義和內(nèi)涵。這得益于我們獨(dú)特的語言能力,它使我們能夠表達(dá)和交流抽象的概念和想法。
通過語言,我們可以共享知識(shí)、傳遞經(jīng)驗(yàn)、探討問題,這也是人類文明發(fā)展的重要基石之一。盡管視覺是我們獲取信息的主要途徑之一,但是缺乏語言能力的動(dòng)物只能憑借本能行動(dòng)和簡單的聲音表達(dá)與其他個(gè)體進(jìn)行交流,無法像人類一樣進(jìn)行高級(jí)的社交互動(dòng)和智力活動(dòng)。因此,語言的重要性不容忽視,它是我們作為人類的獨(dú)特標(biāo)志之一,也是我們與自然界其他物種之間的重要區(qū)別。
與此同時(shí),如何賦予機(jī)器人類般的智能一直是計(jì)算機(jī)科學(xué)的終極難題,近期隨著 GPT-4 等多模態(tài)大型語言模型的出現(xiàn),語言成為了打開人工智能寶盒的關(guān)鍵鑰匙。
01.讓機(jī)器用語言理解世界
“人類的認(rèn)知和理解需要依賴語言。語言使我們能夠表達(dá)和共享常識(shí)知識(shí)。例如,“水是液體,可以流動(dòng)”,這是一條常識(shí)知識(shí),我們可以用準(zhǔn)確的詞匯和語法結(jié)構(gòu)來描述這一現(xiàn)象,讓更多人了解和掌握這一知識(shí)。此外,語言也是人類邏輯推理的重要載體。在邏輯推理中,人們通過識(shí)別和分析命題的真假和關(guān)系,通過語言的抽象和形式化表達(dá),可以更好地理解和應(yīng)用邏輯規(guī)則。有了文字、有了語言,它們成為人類與世界交流的最基本、最便捷、最核心的介質(zhì)。” 對(duì)于語言之于認(rèn)知的價(jià)值,聯(lián)匯科技首席科學(xué)家趙天成博士的見解明確。
前日剛發(fā)布的多模態(tài)大模型 GPT-4 就是科學(xué)家通過大模型的技術(shù)方式拓展認(rèn)知邊界的積極嘗試。
GPT-4 通過圖像或文本輸入,完成識(shí)別、解析,輸出文本結(jié)果。對(duì)于 GPT-4 的這次升級(jí),人們驚訝于它的 “讀圖能力” 和 “幽默感”,不論是各類統(tǒng)計(jì)表格,還是網(wǎng)絡(luò)梗圖,GPT-4 的表現(xiàn)可圈可點(diǎn)。
盡管 GPT-4 在許多現(xiàn)實(shí)世界場景中能力還不如人類,但它在多種不同領(lǐng)域的專業(yè)應(yīng)試中,已經(jīng)夠排到前段位置,程序編寫、開放問答、標(biāo)準(zhǔn)化測試等眾多方面,“超過人類的平均水平” 已經(jīng)是事實(shí)。
對(duì)此,趙天成博士進(jìn)行了更多的解釋:這次的 GPT-4 是 GPT 大模型的新一次迭代,加入了新的模態(tài),即對(duì)圖片的理解,同時(shí)大模型對(duì)語言生成和理解能力也有所提升。不論大模型的模態(tài)和規(guī)模如何增加、擴(kuò)大,它的底層邏輯一定以語言模型為認(rèn)知內(nèi)核,將更多的模態(tài)融入進(jìn)來,實(shí)現(xiàn)以自然語言為核心的數(shù)據(jù)理解、信息認(rèn)知與決策判斷。
語言曾經(jīng)是人類的特有能力,現(xiàn)在也成了快速逼近的強(qiáng)人工智能的核心載體。
02.再次進(jìn)化的認(rèn)知能力
趙天成博士表示,在文本語言理解的基礎(chǔ)上,如果疊加視頻、音頻等更多模態(tài),實(shí)現(xiàn)更大范圍、更多行業(yè)數(shù)據(jù)的學(xué)習(xí),則意味著大模型的認(rèn)知能力將得到更智能的進(jìn)化升級(jí)。
除了 OpenAI 有卓越的表現(xiàn)外,國內(nèi)外瞄準(zhǔn)大模型的人工智能企業(yè)并不少,其中,趙天成博士和他的團(tuán)隊(duì)在多模態(tài)大模型領(lǐng)域技術(shù)及應(yīng)用已經(jīng)提前交卷。
趙天成博士的技術(shù)團(tuán)隊(duì)由來自卡耐基梅隆大學(xué)(CMU)、加州大學(xué)(UCLA)、微軟與阿里巴巴等國際頂尖院校和機(jī)構(gòu)的碩士與博士組成,多年深耕且引領(lǐng)國際多模態(tài)機(jī)器學(xué)習(xí)、人機(jī)交互領(lǐng)域的科研工作,是一支擁有多項(xiàng)核心技術(shù)的國際頂尖領(lǐng)軍團(tuán)隊(duì)。
趙天成博士(右 4)及其核心團(tuán)隊(duì)
趙天成博士畢業(yè)于卡耐基梅隆大學(xué)計(jì)算機(jī)科學(xué)專業(yè),長期從事多模態(tài)機(jī)器學(xué)習(xí)與人機(jī)交互技術(shù)領(lǐng)域的理論與技術(shù)研究,帶領(lǐng)團(tuán)隊(duì)率先突破非結(jié)構(gòu)化數(shù)據(jù)直接使用、跨模態(tài)數(shù)據(jù)融合分析等行業(yè)難題,多次獲得國際頂會(huì)最佳論文,微軟研究院 best & brightest phd,主持、參與多個(gè)國家、省、市重大項(xiàng)目研究,是國際多模態(tài)交互 AI 領(lǐng)域領(lǐng)軍人物。
他們?cè)?2019 年就開始深入研究多模態(tài)大模型技術(shù),是業(yè)界率先從事預(yù)訓(xùn)練大模型研究的團(tuán)隊(duì)之一,并于 2021 年發(fā)布了自研的 OmModel V1 多模態(tài)預(yù)訓(xùn)練大模型,作為業(yè)界最早的語言增強(qiáng)視覺識(shí)別模型(Langauge Augumented Visual Models),OmModel 在 V1、V2 版本迭代的基礎(chǔ)上,已經(jīng)實(shí)現(xiàn)對(duì)視頻、圖片、文本等不同模態(tài)的融合分析和認(rèn)知理解,尤其強(qiáng)調(diào)通過自然語言增強(qiáng) AI 模型的視覺識(shí)別能力和跨模態(tài)理解能力,幫助用戶達(dá)成認(rèn)知智能。通過將視覺和語言的有機(jī)結(jié)合,將使得機(jī)器智能向人類智能更靠近了一步。
OmModel 提出的多項(xiàng)原創(chuàng)核心關(guān)鍵技術(shù)實(shí)現(xiàn)了技術(shù)和應(yīng)用的創(chuàng)新,包括:
1. 實(shí)現(xiàn)更高數(shù)據(jù)與模型參數(shù)效率的無止境多任務(wù)新型預(yù)訓(xùn)練算法
突破現(xiàn)有多模態(tài)大模型預(yù)訓(xùn)練耗費(fèi)超大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)和算力的局限,提出基于復(fù)雜異構(gòu)訓(xùn)練數(shù)據(jù)的無止境多任務(wù)與訓(xùn)練算法,融合圖片描述、圖片分類、區(qū)域描述等多種視覺語言數(shù)據(jù)類型,從多角度進(jìn)行多層級(jí)的大模型預(yù)訓(xùn)練,實(shí)現(xiàn)用更高的數(shù)據(jù)效率與模型參數(shù)效率,增強(qiáng)在同等數(shù)據(jù)情況下的預(yù)訓(xùn)練效果,提高模型綜合識(shí)別能力,實(shí)現(xiàn)一個(gè)多模態(tài)大模型網(wǎng)絡(luò)結(jié)構(gòu)支撐 N 種任務(wù)、N 種場景的持續(xù)學(xué)習(xí)機(jī)制。
2. 通過自然語言增強(qiáng)實(shí)現(xiàn)的多場景零樣本新型視覺識(shí)別模型
針對(duì)傳統(tǒng)視覺識(shí)別模型依賴海量人工標(biāo)注數(shù)據(jù)與煙囪式訓(xùn)練的瓶頸,提出基于自然語言增強(qiáng)的多模態(tài)視覺識(shí)別模型,通過自然語言作為知識(shí)橋梁,讓視覺識(shí)別模型可以基于大規(guī)模多模態(tài)預(yù)訓(xùn)練泛化到任何全新場景當(dāng)中,實(shí)現(xiàn)高精度的零樣本新領(lǐng)域識(shí)別,突破了傳統(tǒng)視覺識(shí)別系統(tǒng)必須按照?qǐng)鼍斑M(jìn)行定制的魔咒,讓用戶可以通過自然語言定義任意視覺目標(biāo),實(shí)現(xiàn)了視覺識(shí)別的冷啟動(dòng),大幅度降低了視覺識(shí)別應(yīng)用開發(fā)的門檻。
3.“人在環(huán)路” 多輪人機(jī)意圖對(duì)齊的新型大模型微調(diào)機(jī)制
針對(duì)視覺語言模型現(xiàn)有領(lǐng)域微調(diào)方法對(duì)硬件要求高、微調(diào)過程可控性有限等迫切挑戰(zhàn),提出基于 “人在環(huán)路” 多輪人機(jī)交互式新型微調(diào)方式,通過結(jié)合人類專家的業(yè)務(wù)知識(shí)和迭代式的大模型微調(diào)方式,實(shí)現(xiàn)更加方便有效的大模型領(lǐng)域微調(diào),將人類專家的業(yè)務(wù)目標(biāo)和領(lǐng)域知識(shí)更好地融入到大模型的訓(xùn)練當(dāng)中;通過非參數(shù)學(xué)習(xí)和提示學(xué)習(xí),減少大模型微調(diào)所需要的 GPU 算力需求,實(shí)現(xiàn)更加低代價(jià)的大模型行業(yè)落地。
4. 實(shí)現(xiàn)在低成本推理硬件環(huán)境下的新型大模型推理機(jī)制
針對(duì)現(xiàn)有多模態(tài)大模型僅強(qiáng)調(diào)識(shí)別精度,忽略推理速度,難以在大規(guī)模多模態(tài)數(shù)據(jù)匹配查詢中應(yīng)用的短板,提出基于稀疏向量匹配的視覺語言推理算法?;诙说蕉讼∈柘蛄繉W(xué)習(xí)與倒排索引大數(shù)據(jù)結(jié)構(gòu),實(shí)現(xiàn)億級(jí)多模態(tài)數(shù)據(jù)秒級(jí)匹配,匹配速度相較于傳統(tǒng) GPU 向量比對(duì)算法提高 5 倍以上,在 CPU 環(huán)境提高匹配速度 300 倍以上;通過多專家蒸餾算法,提高多模態(tài)大模型編碼推理速度 5 倍以上,大幅度降低多模態(tài)大模型的部署成本。
03.一手技術(shù),一手應(yīng)用
趙天成博士表示,為了更好地服務(wù)行業(yè)和應(yīng)用,OmModel 突破了大多數(shù)視覺語言大模型僅僅局限于學(xué)術(shù)研究和開源數(shù)據(jù)訓(xùn)練的瓶頸,通過上述無止境預(yù)訓(xùn)練機(jī)制,在通識(shí)數(shù)據(jù)的基礎(chǔ)上持續(xù)吸納行業(yè)預(yù)訓(xùn)練數(shù)據(jù)。
目前已經(jīng)針對(duì)視頻云、智慧城市、融合媒體等行業(yè),在通用預(yù)訓(xùn)練數(shù)據(jù)的基礎(chǔ)上,構(gòu)建超過千萬的多模態(tài)圖文預(yù)訓(xùn)練數(shù)據(jù)集,大幅提高多模態(tài)大模型在垂直行業(yè)領(lǐng)域的零樣本識(shí)別性能和小樣本調(diào)優(yōu)性能,實(shí)現(xiàn)從 “通用大模型” 向著 “行業(yè)大模型” 的重要升級(jí)和進(jìn)化。
“技術(shù)創(chuàng)新 + 場景應(yīng)用” 的雙核內(nèi)驅(qū)使聯(lián)匯科技成為業(yè)內(nèi)最早實(shí)現(xiàn)多模態(tài)大模型技術(shù)服務(wù)落地的企業(yè)。
比如,在電力行業(yè)中,針對(duì)基層無人機(jī)電路巡檢的業(yè)務(wù)需求,傳統(tǒng)模式存在輸電線路小部件典型缺陷識(shí)別準(zhǔn)確率不高、識(shí)別系統(tǒng)運(yùn)行速度慢、識(shí)別結(jié)果依賴人工復(fù)核等棘手問題,通過 OmModel 行業(yè)大模型生成針對(duì)輸電線路多模態(tài)數(shù)據(jù)的人工智能預(yù)訓(xùn)練算法,以及針對(duì)小部件缺陷的圖像分析模型,提升輸電線路小部件典型缺陷檢出率和識(shí)別精度,并通過蒸餾算法,實(shí)現(xiàn)缺陷檢測模型的參數(shù)壓縮,提高模型的運(yùn)行速度,提升輸電線路缺陷檢測的整體效率,為電網(wǎng)公司在輸電線路無人機(jī)巡檢缺陷精準(zhǔn)識(shí)別領(lǐng)域提供應(yīng)用示范。
OmModel V3 來了!
OmModel 已經(jīng)實(shí)現(xiàn)在智慧電力、視覺監(jiān)管、智慧城市、機(jī)器人、數(shù)字資產(chǎn)等領(lǐng)域的落地應(yīng)用,后續(xù)還會(huì)有哪些動(dòng)作方向呢?
對(duì)于 OmModel 的迭代規(guī)劃,趙天成博士非常明確:“我們始終秉著‘用視覺感知世界,用語言理解世界’的觀點(diǎn),產(chǎn)品和技術(shù)方向一定是如何讓 AI 更貼心、更懂人類,通過視覺和語言的融合理解,讓用戶和機(jī)器之間可以有便捷的交互、更自由地表達(dá)以及更智慧的反饋,使大模型的能力成為用戶的能力,讓人工智能真正地為更多人所有、所用?!?/span>
據(jù)悉,OmModel V3 將于近期發(fā)布,新版本將提供一句話生成算法、自由定義需求、中英雙語互動(dòng)、智能報(bào)告等多個(gè)特色功能,用戶可以通過語音或者文字等形式,自由提交任何需求任務(wù),系統(tǒng)將根據(jù)任務(wù)給出相關(guān)反饋,包括音視圖文等多個(gè)模態(tài)的結(jié)果呈現(xiàn)。
OmModel V3 正在帶來更多關(guān)于智慧未來的想象 ——
比如,現(xiàn)有的家庭攝像頭和平臺(tái),作用非常有限,提醒和記錄是其用戶頻繁使用的功能,甚至這類簡單需求在使用中也 bug 頻出,比如大量誤報(bào),讓系統(tǒng)提醒變成了騷擾,無法定義的監(jiān)控任務(wù)讓本該智慧化的體驗(yàn)變得非常呆板、有限。
年輕的鏟屎官無法時(shí)時(shí)刻刻地陪在 “主子” 身邊,家里的主子有沒有悄悄溜出門,家具拆的還剩多少,對(duì)新玩具還滿意嗎,有沒有從未出現(xiàn)的異常行為需要留意,這些需求稀碎但也重要,傳統(tǒng)攝像頭及平臺(tái)根本無法滿足,通過 OmModel V3,鏟屎官將可以通過自然對(duì)話定義屬于你自己的任務(wù)需求,同時(shí)選擇不同的反饋方式,可以是一份系統(tǒng)化的智能報(bào)告,可以是 AIGC 的視頻合輯,反正結(jié)果也是由你用語言定義。
作為多模態(tài)大模型,OmModel 的價(jià)值遠(yuǎn)不止于此,不論是智慧家居的小場景,還是智慧電力等行業(yè)級(jí)應(yīng)用,OmModel 的通識(shí)能力正在加速釋放,通過與硬件、平臺(tái)等多樣的融合應(yīng)用,它將以智能助手、智慧數(shù)字人等不同的形態(tài)出現(xiàn)、賦能,提升工作、生活的效率與質(zhì)量。
隨著通用泛化能力的不斷釋放,關(guān)于 OmModel 還能夠做什么的問題,趙天成博士的回答很有意思 ——
“這個(gè)問題我們已經(jīng)在各個(gè)行業(yè)、領(lǐng)域、場景給出了很多答案,但是我們還在不斷努力,給出更多、更新、更有意思的回答。當(dāng)然,這個(gè)過程中,我們也希望看到大家的答案,希望有更多的開發(fā)者加入我們,通過 OmModel 開啟更未來的場景與應(yīng)用。”
OmModel 的先發(fā)優(yōu)勢為技術(shù)創(chuàng)新與應(yīng)用的開啟提供了更多可能,如果你也想一起搞點(diǎn)事情,歡迎自薦加入該團(tuán)隊(duì),郵箱:marketing@hzlh.com
2015年12月25日全面上線。目標(biāo):打造全球數(shù)字營銷技術(shù)領(lǐng)域首席媒體平臺(tái),成為中國乃至全球數(shù)字營銷內(nèi)容聚合門戶。目前團(tuán)隊(duì)積極依托專業(yè)素養(yǎng),全力為數(shù)字營銷領(lǐng)域從業(yè)者搭建有質(zhì)感的交流空間。感謝相伴!
文章:3112
0條評(píng)論