一直被當(dāng)成 “GPU 小跟班” 的機(jī)頭 CPU,早不是“GPU忙死我旁觀、算力大活我不擔(dān)“的角色了,尤其是至強(qiáng)處理器開(kāi)啟AMX技術(shù)的支持后——英特爾近期就在多個(gè)與客戶及合作伙伴溝通的場(chǎng)合中披露了向量數(shù)據(jù)庫(kù)上的多個(gè)測(cè)試數(shù)據(jù),如:在至強(qiáng)6性能核處理器上,開(kāi)啟AMX進(jìn)行加速后, FAISS IndexFlat向量檢索性能提升達(dá)3.35倍,Reranker性能也會(huì)拉到未啟用時(shí)的2.31倍。還有一組基于第五代至強(qiáng)可擴(kuò)展處理器平臺(tái)的測(cè)試數(shù)據(jù):在激活A(yù)MX加速后,其上的向量數(shù)據(jù)庫(kù)的Embedding性能也可拉到未開(kāi)啟時(shí)的4.79 倍。所有這些基于實(shí)戰(zhàn)的數(shù)據(jù)都指向一點(diǎn):至強(qiáng)CPU能幫 GPU分擔(dān)向量數(shù)據(jù)庫(kù)的工作。



如果你問(wèn)這有啥意義?我就得反問(wèn)你:讓CPU把數(shù)據(jù)預(yù)處理的“雜活”干好,讓GPU更專注高價(jià)值的AI訓(xùn)練或推理加速,這難道不香么?
要是第四代之前的至強(qiáng)CPU,這種高度依賴矩陣計(jì)算能力的“雜活”它還真不太容易扛,但自從2023年開(kāi)始內(nèi)置了AMX(高級(jí)矩陣擴(kuò)展)技術(shù)后,它還真就從從容容,游刃有余了!有人曾戲稱AMX是“CPU里的 Tensor Core”,就是因?yàn)樗焐褪菫榫仃囘\(yùn)算加速而設(shè)計(jì)的。

8 個(gè) 1KB 二維 TILE 寄存器組成高速緩存區(qū),能少跑好多內(nèi)存訪問(wèn)的冤枉路;TMUL 乘法單元一次能處理 16×16 矩陣塊,再加上 INT8、BF16和FP16低精度支持,每核心每時(shí)鐘周期能完成 2048 次操作,是傳統(tǒng) AVX-512 技術(shù)的 8 倍。

這些能力不是要搶GPU 風(fēng)頭,而是要幫 GPU 卸包袱:各種數(shù)據(jù)預(yù)處理,特別是向量數(shù)據(jù)庫(kù)的雜活 CPU 接了,GPU 才能專心干大事,讓花在它身上的每分錢都更物有所值。
這里就要先說(shuō)說(shuō)數(shù)據(jù)預(yù)處理——這是AI工作的“前置準(zhǔn)備”階段,以前常要 GPU 分心兼顧。AI 工作負(fù)載里的非結(jié)構(gòu)化數(shù)據(jù)解析、格式轉(zhuǎn)換、特征清洗,看著是“細(xì)活”,實(shí)則要高并行邏輯和高 I/O 吞吐,正好是機(jī)頭CPU的強(qiáng)項(xiàng)。更重要的是:CPU 把預(yù)處理扛了,GPU 就不用在訓(xùn)練推理這樣的核心任務(wù)和預(yù)處理這種邊緣任務(wù)之間來(lái)回切換,算力與時(shí)間一點(diǎn)兒都不浪費(fèi)。
對(duì)于向量數(shù)據(jù)庫(kù),有AMX加成的至強(qiáng)則把 “幫 GPU 分擔(dān)” 做到了實(shí)處。向量存儲(chǔ)、索引構(gòu)建、相似度檢索等流程,都由Embedding、相似度計(jì)算等組成,本質(zhì)都是密集型矩陣運(yùn)算 —— 這正是 AMX 的拿手戲。據(jù)英特爾曾經(jīng)公布的更多的測(cè)試結(jié)果:在 FAISS 庫(kù)測(cè)試?yán)铮?,000 萬(wàn)級(jí)向量數(shù)據(jù)集,AMX 的加成讓單批次查詢速度快 5 到 6.66 倍。1

圖片嵌入場(chǎng)景下,4 核至強(qiáng)實(shí)例性能漲到 2.45 倍,16 核實(shí)例也能提升達(dá) 1.7 倍。2

最關(guān)鍵的 50 萬(wàn)條記錄檢索,32 核至強(qiáng)直接把速度提到 21.9 倍。3這些活兒要是扔給GPU,不光檢索慢,還得擠占推理算力,整體效率得打?qū)φ邸?/p>

這套 “至強(qiáng)分擔(dān)跑向量數(shù)據(jù)庫(kù) + GPU 專注做訓(xùn)練與推理” 的分工機(jī)制,直接改寫了 AI 部署的性價(jià)比。傳統(tǒng)方案里,GPU 又做預(yù)處理又跑AI算力密集型任務(wù),就像 “一人干兩份活”,吞吐量上不去還容易卡殼;現(xiàn)在至強(qiáng)把向量數(shù)據(jù)庫(kù)的活接穩(wěn)了,AI 集群整體吞吐量提升的基礎(chǔ)上,GPU 應(yīng)用的投資回報(bào)還能再上層樓。
另外,基于“至強(qiáng)+ AMX” 的機(jī)頭系統(tǒng)在AI推理上展現(xiàn)出的更優(yōu)性價(jià)比,有越來(lái)越多的用戶受到啟發(fā),開(kāi)始將AI模型預(yù)處理、小參數(shù)LLM推理交給機(jī)頭CPU來(lái)執(zhí)行。相對(duì)的,GPU則能解放生產(chǎn)力,更專注做高價(jià)值的任務(wù),算下來(lái)每一分算力都花在刀刃上。

所以別再讓你的至強(qiáng) CPU在AI服務(wù)器中“發(fā)呆”了,用好它,讓它真正做好協(xié)同的工作,能讓整個(gè) AI 流程跑得更快、更省、投資回報(bào)更豐厚。所謂:不能幫 GPU 加速向量數(shù)據(jù)庫(kù)的 CPU,真算不上好至強(qiáng)。接下來(lái)隨著 AMX 支持更多數(shù)據(jù)類型、至強(qiáng)兼容高帶寬內(nèi)存,相信這種 “協(xié)同力” 還會(huì)更強(qiáng)。



