エッジAIに革命!1-bit LLM「Bonsai-8B」登場、スマホで超高速・完全ローカル動作を実現
ニュース要約: 米PrismMLが、革新的な1-bitアーキテクチャを採用したオープンソースLLM「Bonsai-8B」を公開。メモリ占有量を従来の14分の1(1.15GB)に抑え、iPhoneでの毎秒44トークン生成や大幅な省電力化を実現しました。Llama 3に肉薄する推論能力を持ち、スマホやIoT機器でのリアルタイムAI活用を加速させる画期的なモデルとして注目を集めています。
【エレクトロニクス・最新AI潮流】エッジAIに革命か、1-bit LLM「Bonsai-8B」が登場 スマホで超高速推論を実現
【シリコンバレー=共同】米カリフォルニア工科大学発のAIスタートアップ、PrismMLは、革新的な「1-bitアーキテクチャ」を採用したオープンソースの大規模言語モデル(LLM)「Bonsai-8B」を公開した。82億パラメータ(8B)という実用的な規模を持ちながら、メモリ占有量をわずか1.15GBにまで抑え込んだ。従来のAIモデルが超高性能なデータセンターでの稼働を前提としていたのに対し、Bonsai 8BはiPhoneなどのスマートフォンや省電力な組み込みデバイスでの「完全ローカル動作」を現実のものにしようとしている。
■「重さ」14分の1、驚異の圧縮率と速度
「Bonsai-8B」の最大の特徴は、モデルの全コンポーネント(埋め込み層、アテンション、MLP、出力ヘッド)にわたり、重みを「+1」または「-1」というわずか1ビットで表現する端から端までの(End-to-End)ネイティブ1-bit構造を採用した点だ。
一般的なAIモデルが16ビット(FP16)で運用されるのと比較し、Bonsai 8Bはメモリ占有量を約14分の1に削減。従来の8Bモデルが約16GBのビデオメモリ(VRAM)を必要としていたのに対し、Bonsai 8Bは1.15GBで動作する。これにより、最新のiPhone 17 Pro Maxでは毎秒約44トークンの生成速度を記録。さらにM4 Pro搭載のMacでは136トークン、ハイエンドGPUのRTX 4090では440トークンという驚異的な処理能力を発揮する。
■エネルギー効率4〜5倍、エッジAIの救世主
計算リソースの制約が厳しいモバイルデバイスにおいて、Bonsai-8Bがもたらす恩恵は大きい。消費電力は従来の16ビットモデルに比べて4分の1から5分の1にまで低減されており、バッテリー駆動のロボットやIoTデバイスでのリアルタイム推論に適している。
PrismMLは、Bonsai-8Bに加えて、さらに軽量な「Bonsai-4B(0.5GB)」や「Bonsai-1.7B(0.24GB)」もラインナップ。これらはApache 2.0ライセンスでオープンソースとして公開されており、HuggingFaceから誰でも無料で入手可能だ。
■論理・数学能力でLlama 3シリーズに肉薄
性能面でも注目を浴びている。2026年4月のベンチマークデータによると、Bonsai-8Bは数学的推論において1-bitモデルながら高い適性を示した。「GPQA」テストでは以前の30%から58%へと精度を向上させ、一部のカテゴリではMetaの巨大モデル「Llama 3 70B」を上回るスコアを叩き出している。
一方で、知識量に関しては課題も残る。Llamaシリーズが128Kのコンテキストウィンドウを持つのに対し、Bonsai-8Bは64Kに留まり、広範な知識を問うタスクではLlamaに軍配が上がる。開発者コミュニティからは、「超軽量ゆえの推論の欠陥や一貫性の欠如が懸念される」との声もあり、高い信頼性が求められる業務では外部データベースと連携させた運用が検討されている。
■進む開発者コミュニティでの実装
すでに開発者コミュニティでは、AVX2命令セットを用いた旧型PCでの最適化(毎秒12トークン)や、R言語、SQL、LaTeXの生成タスクへの応用が進んでいる。独自の「llama.cpp」やAppleの「MLX」フレームワークの派生版を用いたデプロイが推奨されており、ローカル環境でAIエージェントを動かす「革命的な結節点」として期待が高まっている。
AIの進化が「巨大化」から「効率化」へとシフトする中で、Bonsai 8Bの登場は、スマートフォンの音声アシスタントやオフラインでのリアルタイム翻訳など、我々の生活に最も近い場所でのAI活用を加速させる試金石となりそうだ。
参考情報源
関連コンテンツ
マイニュースへ
あなた専用のニュースレポートをチェックしましょう