エージェントAI時代にCPUが主役に返り咲く？NVIDIA Veraから考えるこれからのシステム設計と投資視点

Contents

1 なぜ今また「CPU」なのか
2 NVIDIA Vera CPUが面白い理由
3 キャッシュコヒーレント＋仮想チャネルが効いてくる世界
4 Cerebras（CBRS）との対比：ネットワークで戦うか、巨大SRAMで戦うか
5 「これからのシステム」をどう描くか
6 一般投資家としてどこを見るか
7 おわりに：CPUを見ると、AIの未来が少しクリアになる

なぜ今また「CPU」なのか

ここ数年、「AIならGPU」「NVIDIA一強」という文脈ばかりが目立ってきました。
ところが2026年に入ってから、NVIDIA自身がArmベースの新CPU「Vera」を出してきて、「あれ、結局CPUもめちゃくちゃ重要なんじゃ？」という空気が一気に濃くなっています。

背景にあるのは、チャットボットから一歩進んだ「エージェントAI（Agentic AI）」の台頭です。
エージェントAIは、単にテキストを生成するだけでなく、「考えて」「検索して」「ツールを呼び出して」「また考える」というサイクルを何度も回すため、条件分岐と軽量なタスク管理が得意なCPUの役割がかなり重くなってきています。

NVIDIA Vera CPUが面白い理由

Veraは、Arm v9.2ベースの独自コア「Olympus」を88コア積んだデータセンター向けCPUです。
単に「x86の代わりのCPU」ではなく、Rubin世代GPUと最初からセットで動く前提で設計されたCPUというのがポイントです。

特に重要なのが以下の2点です。

NVLink-C2CでGPUとキャッシュコヒーレント接続
VeraとRubinはNVLink-C2Cで1.8TB/sクラスの帯域で直結され、CPU側LPDDR5XメモリとGPU側HBMが「ほぼ一つの巨大なメモリ空間」として見えるようになっています。
エージェントAI向けの高効率な制御プレーン
CPUがツール呼び出しやRAG検索、KVキャッシュの出し入れを担当し、GPUは大きな行列演算に専念する、という役割分担が低レイテンシに回るようなアーキテクチャになっている。

「GPUが速い」のは前提として、CPUとGPUの境界で起きていた“無駄なデータ移動”をどこまで潰せるかが、今後のAIインフラ差別化の勝負どころになってきていると感じます。

キャッシュコヒーレント＋仮想チャネルが効いてくる世界

従来のGPUサーバでは、CPUメモリからGPUメモリにDMAでどかっとデータを送り込み、GPUの中で完結させる、というパターンが多かったと思います。
生成AIだけを見ると「一回載せたらしばらくHBMの中で回るから、それで十分じゃない？」という感覚も正直あります。

でも、エージェントAIになると話が変わります。

外部ツール呼び出し（検索・DB・API）で、CPU⇔GPU間の細かいデータ往復が増える
KVキャッシュやMoEのエキスパート重みを「今使う分だけ」GPU側に持ってきて、残りはCPU側メモリに逃がす
エージェント同士の共有状態を、CPUとGPUの両方からアトミックに更新したい

こうしたワークロードでは、「太いDMA」だけでなく、「細かいメッセージを詰まらせない通信路」の設計が効いてきます。
NVLink側でバーチャルチャネルや専用バッファがしっかり用意されているからこそ、アトミック操作や小さな更新がGPUコアの足を引っ張らず、システム全体としてのスループットが出せる、という方向性ですね。

個人的には、FPGAやHBM付きSoCでNoCや仮想チャネル設計に悩んだ経験があるので、「あ、この思想をでかいデータセンター規模で本気でやってきたな」と感じています。

Cerebras（CBRS）との対比：ネットワークで戦うか、巨大SRAMで戦うか

もう一つ、投資家目線で無視できないのがCerebras Systems（ティッカーCBRS）の存在です。
Cerebrasは、ウェハーまるごとを1チップにした「Wafer-Scale Engine」で、そもそもチップ間通信をなくすというアプローチを取っています。

NVIDIA系：CPU＋GPU＋NVLink＋NVSwitchで「ネットワークを極限まで賢くする」方向。
Cerebras系：全部を一枚の巨大SRAM空間に収めて「通信そのものを極力なくす」方向。

学習（Training）では、Cerebrasが「分散の苦労を全部捨てたい人」に刺さっている印象がありますし、推論（Inference）でもSRAMベースでTTFT（初回トークンレイテンシ）を詰める方向で評価され始めています。

一方で、NVIDIAはクラウド事業者・サーバベンダーとのエコシステムが圧倒的に強く、Vera CPUをDellやSupermicroなどのサーバに載せて、既存のGPUクラスターをそのまま「エージェントAI向け」に進化させるストーリーを描いています。

「これからのシステム」をどう描くか

システム設計側の視点で見ると、エージェントAI時代のインフラはだいたい次の2軸で整理できそうです。

メモリ階層の整理の仕方
- GPU HBMs を“ホット”な計算用に、CPUメモリやSSDを“コールド”な知識・履歴に
- その間をNVLink C2CやNVSwitchでどれだけフラットに見せられるか
CPUの役割をどこまで賢くするか
- ただの「OSとI/O担当」に留めるのか
- ツール呼び出し・RAG・メタ推論を担う“エージェントの司令塔”にするのか

自分は普段、量子アニーリングや組合せ最適化のソルバーまわりを触ることが多いのですが、エージェントAIと組合せ最適化をつなぐときにも、「CPU側でタスク分割＋制約生成 → GPU/専用アクセラレータ側で解を叩き出す → 結果をエージェントが解釈して次の行動へ」というフローを自然に描けるようになってきた感覚があります。

一般投資家としてどこを見るか

最後に、米国株を中心に見ている一般投資家の視点で、この流れをどう捉えるか。

個人的には、以下のポイントを意識しています。

「GPU銘柄」ではなく「エージェントAIインフラ銘柄」として見る
単にGPUの枚数勝負ではなく、「CPU＋GPU＋ネットワーク＋メモリ」をどう束ねて、エージェントAIのトラフィックに最適化しているかが勝負になりつつあります。
CPUの再評価
x86かArmかというISA論争より、「どこまでGPUとコヒーレントに、低レイテンシで会話できるCPUか」が重要になっているので、Veraのような“GPU親和性高いCPU”は中長期で面白いテーマだと感じています。
代替アーキテクチャ（Cerebrasなど）の存在
「全部NVLinkでつなぐ」世界観だけでなく、「全部一枚の巨大チップでやる」世界も一定のニッチを取る可能性があり、学習需要が大きい領域ではCBRSのような名前も頭の片隅に置いておきたいところです。

おわりに：CPUを見ると、AIの未来が少しクリアになる

GPUの性能グラフばかりが話題になりがちですが、「エージェントAIが当たり前になる世界」を考えるとき、CPUが何をしているのか、どのメモリとどう繋がっているのかを丁寧に追いかけると、各社の戦略の違いが急に立体的に見えてきます。

投資ネタとしても、「GPUメーカーだから買う／CPUメーカーだから買わない」ではなく、
「エージェントAI向けに、CPUとメモリとネットワークをどう料理しているか」を軸に銘柄を眺めてみると、ニュースの読み方が少し変わってきて面白いはずです。