「Cerebras(CBRS)は“変態チップ”でNVIDIAに挑めるのか？ウェハースケールAIの可能性と限界」

Contents

1 なぜ今、Cerebras(CBRS)が気になるのか
2 ウェハースケールって何がそんなにすごいのか
3 歩留まり問題はどうやってクリアしているのか
4 44GBのオンチップSRAMという“変態仕様”
5 メモリ容量が足りない問題：MemoryXとSwarmXという外付け戦略
6 「外部に置くと遅いのでは？」への答え：ウェイトストリーミング
7 冷却と電力：変態アーキテクチャを支える物理設計
8 じゃあ何が得意で、何が苦しいのか？
9 得意：短〜中コンテキストの高速推論
10 苦しい：超長文コンテキストと巨大アクティベーション
11 OpenAIが大型契約を結んだ理由
12 将来、DRAMやHBMを取り込めたらどうなるか？
13 個人的に面白いと思っているところ
14 投資家目線でのざっくりまとめ（※銘柄推奨ではありません）

なぜ今、Cerebras(CBRS)が気になるのか

最近AIインフラ関連のニュースを追っていると、「Cerebras」「ウェハースケールチップ」「CBRS上場」といったワードをやたら目にするようになりました。
NVIDIA一強に見えるAI半導体の世界で、「1ウェハ＝1チップ」という常識外れのアプローチで殴り込んでいるのが、Cerebras Systems（NASDAQ: CBRS）です。

僕自身、普段からGPUや半導体プロセスまわりの話を追いかけるのが好きで、「これは投資目線でもテック目線でも面白い」と感じたので、整理がてらブログ風にまとめてみます。

ウェハースケールって何がそんなにすごいのか

通常の半導体は、シリコンウェハを「小さく切り分けて」個々のチップとして使います。これは、ウェハ上に必ず欠陥が出るので、小さく刻んで不良品だけ捨てることで歩留まりを確保するためです。
Cerebrasはこの常識をひっくり返し、「切らずにそのまま1枚の巨大チップとして使う」ウェハースケール・インテグレーション（WSI）という手法を実用レベルに持ち込みました。

最新の第3世代チップ「WSE-3」は、TSMCの5nmプロセスで製造され、トランジスタ数は約4兆個、コア数は約90万個とされています。
これだけ巨大なダイを「製品」として世に出しているという点だけでも、半導体の製造限界を1段階押し広げたブレークスルーと言ってよさそうです。

歩留まり問題はどうやってクリアしているのか

「でかいの作ったら欠陥だらけで終わりでは？」という素朴な疑問に対しては、徹底した冗長設計（リダンダンシ）で対処しています。
ウェハ上に計算コアや配線を「必要量＋余剰分」だけ多めに敷き詰め、製造後のテストで不良ブロックを検出し、それらをバイパスするようにルーティングする仕組みです。

もちろん、冗長設計そのものは昔からある手法ですが、1ウェハ全体を前提にした規模でやり切ったところがCerebrasの偉業です。
このおかげで、「普通なら歩留まり的に成立しないサイズのチップ」をビジネスとして成立させることができています。

44GBのオンチップSRAMという“変態仕様”

CerebrasのWSE-3がユニークなのは、HBMではなく、オンチップSRAMを44GBも積んでいる点です。
一般的なGPUは、ダイの外にHBM（高帯域幅DRAM）を載せ、そこからデータを引っ張ってくる構造になっていますが、WSEは「ほぼすべてをダイ上のSRAMでやる」という発想です。

この結果、チップ内部の総メモリ帯域はペタバイト級に達し、NVIDIAのハイエンドGPUを何桁も上回るレベルの帯域を実現しているとされています。
一方で、SRAMは面積あたりのコストが高く、密度もDRAMほど上がらないため、「44GB積めたのはすごいが、これ以上はさすがにキツいよね」という物理・経済上の限界も見えてきます。

メモリ容量が足りない問題：MemoryXとSwarmXという外付け戦略

「SRAMだけだとLLMのパラメータ入り切らないでしょ？」という問題に対して、Cerebrasはチップ外部に巨大メモリを持つという割り切りをしています。

モデルの重み（パラメータ）は外部のMemoryXというシステムに格納
WSE側の44GB SRAMは、計算途中のアクティベーションなど「作業領域」として使用
重みはレイヤーごとにMemoryXからWSEにストリーミング（Weight Streaming）される

という構成です。
MemoryXはペタバイト級までスケール可能で、数兆〜十数兆パラメータ級のモデルにも対応できる設計になっています。

さらに、SwarmXというインターコネクト技術で、多数のCS-3システム（WSE-3搭載機）を束ねられるようになっており、最大2000台規模のクラスター構成も想定されています。

「外部に置くと遅いのでは？」への答え：ウェイトストリーミング

直感的には「せっかく速いSRAMなのに、外部メモリに重みを置いたら遅くなるのでは？」と思いますが、ここがCerebrasのアーキテクチャの肝です。

GPUは、重みもアクティベーションもHBMに置き、そこから激しく読み書きするスタイルなので、メモリ帯域がボトルネックになりやすい構造です。
一方WSEでは、アクティベーションはチップ上のSRAMに閉じ込めたまま、重みだけを一方向にストリーミングして掛け算しまくる、という非常にシンプルなパイプラインに割り切っています。

アクティベーション：チップから出ない
重み：外部から順番に流し込むだけ
チップ内部：とにかく並列にMACを回して吐き出す

この構造＋ペタバイト級のオンチップ帯域によって、推論タスクではNVIDIAのGPUベース構成比で最大20倍のスループットを達成できるとCerebrasは主張しています。

冷却と電力：変態アーキテクチャを支える物理設計

もちろん、ウェハ1枚に90万コア＋44GB SRAMを詰め込めば、「熱どうするの？」問題が立ち上がります。
WSE-3を搭載したCS-3システムでは、チップ単体で約20kW、システム全体で23kW前後という、とんでもない電力を消費します。

これを冷やすために、Cerebrasはウェハを縦に立てて液冷プレートで直接サンドイッチするような専用パッケージを採用し、さらに専用の電源供給構造を組み合わせています。
こうした物理・パッケージングの工夫により、24時間365日運転するデータセンター環境で、米国の国立研究所や薬メーカーなどに既に数年単位で納入・運用されてきた実績があります。

正直、スペックだけ見ると「変態チップ」と呼びたくなるレベルですが、きちんと量産して運用できているという事実はかなり重いです。

じゃあ何が得意で、何が苦しいのか？

ここまで読むと「最強じゃん」と思いたくなりますが、当然ながら得意・不得意ははっきりしています。

得意：短〜中コンテキストの高速推論

44GBのSRAMにアクティベーションを収めつつ、重みをストリーミングする構成は、短めのコンテキストでガンガン推論を回す用途にハマります。
実際、CerebrasのLLM推論サービスは、数万〜十数万トークン程度までのコンテキストであれば、同等クラスのNVIDIA構成と比べて10〜20倍クラスのトークンスループットを出せると報告されています。

チャットボット、コード生成、リアルタイム翻訳、ゲームのNPC、エージェント系アプリなど、「とにかく速くたくさん返したい」系のユースケースでは、Cerebrasは非常に魅力的な選択肢になってきています。

苦しい：超長文コンテキストと巨大アクティベーション

一方で、コンテキストが数十万〜数百万トークンといった超長文になると、アクティベーションのデータ量が爆発し、44GBのSRAMでは足りなくなります。
現状Cerebrasが公表している最大コンテキスト長は128Kトークン程度で、NVIDIAや他社が目指している数百万トークン級の「何百ページも一気読みして推論する」用途では厳しくなってきます。

将来のAIワークロードが「超長文読み込み＋複雑なエージェント推論」方向に振れた場合、メモリ容量の拡張性ではHBM＋DRAM路線の方が有利という構図はしばらく続きそうです。

OpenAIが大型契約を結んだ理由

2026年初頭には、OpenAIがCerebrasと3年間で最大100億ドル規模とも言われる大型契約を結んだと報じられました。
契約内容の細部は公表されていませんが、ポイントは「推論用のアクセラレータとしてCerebrasを大量に採用する」という文脈で語られていることです。

学習：引き続きNVIDIA＋自社チップ（TPU的なものを含む）
推論・エージェント：Cerebrasの高速性を活かす

という、役割分担シナリオが業界ではよく語られています。
つまり、NVIDIAを全部置き換えるのではなく、「速くて美味しいところをCerebrasが取りに行く」イメージに近いと思います。

将来、DRAMやHBMを取り込めたらどうなるか？

ごく個人的には、「このウェハースケールの考え方に、将来DRAMや次世代メモリをうまく貼り付けられたら一気に化けるかも」と感じています。

既にヨーロッパの新興企業などは、カスタムDRAMやUBM（Ultra-Bandwidth Memory）をチップレットとして隣接させることで、SRAM級の帯域とDRAM級の容量を両立しようとする動きも出てきています。
パッケージング技術（2.5D/3D実装、シリコンインターポーザ、先進SiPなど）がさらに進化すれば、Cerebras的なウェハースケールコアと、DRAM系メモリを超広帯域でつなぐ構成も視野に入ってきます。

もちろん、実現にはすさまじい技術とコストが必要ですが、もし「ウェハースケール＋大容量DRAM」が成立したら、長コンテキストの弱点もかなり解消され、NVIDIAの牙城に本格的に食い込む可能性がある、というのは投資家として妄想したくなるポイントです。

個人的に面白いと思っているところ

僕がCerebrasを見ていて一番ワクワクするのは、「AIチップの競争が単なる“トランジスタ数の殴り合い”から、アーキテクチャとパッケージングの勝負にシフトしつつある」ことを象徴する存在だという点です。
NVIDIAがGPU起点でHBM・NVLink・NVSwitchを積み上げている一方で、Cerebrasは「そもそもウェハ丸ごと使えばよくない？」という発想で来ている。この“思想の違い”が可視化されているのが面白いんですよね。

あと、個人的には「変態的な設計だけど、きちんと国立研究所や製薬会社で何年も回っている」という事実が好きで、机上の空論ではなく、ちゃんと汗かいて実装している会社だなと感じます。

投資家目線でのざっくりまとめ（※銘柄推奨ではありません）

最後に、投資家目線でCerebras(CBRS)をどう位置づけるかをざっくり整理しておきます。

ポジティブに見える点

ウェハースケールという製造限界を一段押し広げた「技術的モート」を持っている。
短〜中コンテキストの推論において、NVIDIAよりも圧倒的なスループットを実証しつつある。
国立研究所・製薬・G42などでの運用実績に加え、OpenAIとの大型契約で「本番採用」の信頼感が増している。

注意したい点

SRAMベースゆえにメモリ容量のスケールに限界があり、超長文コンテキストや将来の巨大モデルではHBM＋DRAM陣営が依然有利。
消費電力や冷却、データセンター側の設備要件など、インフラ側の制約が重く、誰でも簡単に採用できるわけではない。
競合も増えており、欧州や中国から「より高いトークンスループット」をうたう新興企業も登場している。

NVIDIA一強に見えるAI半導体市場ですが、「速い推論」というニッチから切り込むCerebrasのようなプレイヤーがいるおかげで、市場全体の技術的なダイナミクスが面白くなっていると感じています。
個人的には、「NVDA vs CBRSどっちか」という二者択一ではなく、「ワークロードごとに最適なアーキテクチャが並存する未来」を前提に、それぞれの技術的ポジションを追いかけるのが楽しいな、というスタンスです。