「プログラミングができなくても、自分でシステムを作れる時代が来ている」
2026年2月現在のClaude Codeの精度が非常に高いことがXでも話題になっています。
私は株式会社プロリクの橋崎といいます。エンジニアではありません。弊社はAHR(AI and Human Resources)という考え方のもと、人材採用の支援やAIエージェントサービスを提供している会社です。今回は学習や研究の一環として、ラズベリーパイ(Raspberry Pi)という小型コンピューターを使い、Claude Codeの力を借りながら、AI音声アシスタントを自作した過程を共有させていただきます。失敗も、試行錯誤も含めてそのままお伝えします。
完成したのは、「ヘイ、ジャービス」と呼びかけると起動し、スマホでChatGPTと話すように自然な会話ができる卓上の端末です。プログラミングの専門知識はほぼゼロでも、AIと対話しながら進めることで、実際に動くものが作れました。
AHRとは?
AHR(AI and Human Resources)とは、企業の経営課題に向き合う組織能力を充足させるため、AI資源と人的資源を経営資源として設計・運用・再配分する、株式会社プロリクが2025年6月に提唱した実践フレームです。従来のHRが人的資源のみを扱ったのに対し、AHRはAIを人と並ぶ「経営のコア資源」と捉え、組織能力獲得を目指す考え方です。
📄 詳細記事: 【決定版】AHRとは?-人とAIの働き方をリデザインする
この記事の要点(TL;DR)
- やったこと: 非エンジニアがClaude Codeを使い、ラズベリーパイ×OpenAIリアルタイムAPIで音声AIアシスタントを自作した
- 進め方: 設計・購入リスト・実装・エラー解決まで、すべてClaude Codeとの対話で完結できる
- 気づき: Claude Codeも頻繁に間違える。「全部お任せ」ではなく、正しい情報を補いながら使う「協働」の姿勢が結果の質を左右する
- 躓きポイント: ウェイクワードツールの選定(有料ツールで弾かれ、無料のOpenWakeWordに切り替え)、APIモデル名の修正など、試行錯誤は必ず発生する
- 結論: 非エンジニアでもソフトウェア、ハードウェア両方が絡むものでも、動くものが作れた。重要なのは「何を作るか」というアイデアと、AIを使い続ける行動力
そもそも何を作ったのか?
一言で言えば、「卓上に置くAI音声端末」です。Amazon EchoやGoogle Homeのようなスマートスピーカーを想像していただくと近いですが、中身は自分で作っています。
▼組み立て前
▼組み立て後
▼実際に動かしている様子
できることは大きく3つあります。
- 自由会話 「ヘイ、ジャービス」と話しかけると、「ピコッ」と確認音が鳴り、AIとの会話が始まります。スマホのChatGPTと話すのと同じ感覚ですが、手ぶらでいい。「ばい ばい」と言えば会話が終わります。
- スケジュールの声かけ Googleカレンダーと連携しており、予定の30分前になるとAIが自動で「もうすぐ○○の時間だよ」と声をかけてくれます。返事がなければ、言い回しを変えながら最大 5回リトライします。
- 毎朝の自動対話セッション 毎朝定期時間に自動で3分間の対話セッションが始まります。AIが短い話題を出し、「君ならどう思う?」と問いかけ、対話を通じて思考を深めるプログラムです。
見た目は地味です。手のひらサイズのコンピューター(Raspberry Pi)に、会議用スピーカー(Jabra SPEAK 510)をUSBで繋いだだけ。しかし中身はかなり本格的なシステムになっています。
ラズベリーパイ(Raspberry Pi)とは
手のひらに乗るサイズの小型コンピューター基板のことです。Raspberry Pi Foundationというイギリスの非営利団体が開発したもので、価格は性能によって差があるものの、数千円から1〜2万円程度。安価ながらLinuxが動き、Pythonでプログラムを動かせて、USBで外部機器も接続できます。要するに「小さくて安いパソコン」です。
今回はこれにUSB接続のスピーカー付きマイクを接続して、AIと音声で会話できる端末を作ることが目標でした。「それって、AlexaやOK Googleと何が違うの?」という疑問は当然あると思います。スケジュールを読み上げさせるだけならAlexaでも十分かもしれません。ただし、既存の音声アシスタントはできることが固定的で、決まったスキルの範囲内でしか動かず、自由な会話や独自のカスタマイズには限界があります。
一方、今回作ったものはOpenAIのRealtime APIを活用するため、自分が思った通りの機能をもたせ、様々なシーンの会話を行わせることが可能です。たとえば、自分のスケジュールと連携させ気づくまで何回もアラートをあげてもらう(口頭で返答すればアラートはストップする)、特定の時間に今日の天気や花粉情報を読み上げてもらう、子供への学習問いかけマシンにするなど。既製品との違いは、「自分の用途に合わせて自由に育てられる」という点にあり、研究と勉強を兼ねて作ってみた、ということになります。
どういう仕組みで動いているのか
全体像を図にするとこうなります。
各サービスの説明は以下です。ラズペリーパイも色んなバージョンがありますが、今回は4を買ったので実際はもう少し高い値段でした。
会話が成立するまでの流れ
「ヘイ、ジャービス」と話しかけてから、AIが返事をするまでの流れを追ってみます。
あなた:「ヘイ、ジャービス」 ↓ ① Raspberry Pi が「ヘイ、ジャービス」を検出 (これはインターネットを使わず、端末の中だけで処理しています) ↓ ② 「ピコッ」と確認音が鳴る ↓ ③ Raspberry Pi がインターネット経由でOpenAIのサーバーに接続 ↓ ④ AI:「はい、なんでしょう?」(スピーカーから聞こえる) ↓ あなた:「明日の天気を教えて」 ↓ ⑤ あなたの声がリアルタイムでOpenAIのサーバーに送られる ↓ ⑥ AIが音声で回答を生成し、リアルタイムでスピーカーから流れる ↓ あなた:「ばいばい」 ↓ ⑦ Raspberry Pi が「ばいばい」を検知して通信を切断。待機状態に戻る
ポイントは、①の「ヘイ、ジャービス」の検出だけはインターネットを使わないことです。「OpenWakeWord」というオープンソース(誰でも無料で使えるソフトウェ ア)を使い、端末の中だけで音声パターンを判別しています。常時インターネットに音声を送り続けるわけではないので、プライバシーの面でも安心です。
セキュリティ上の工夫
気にされるであろうセキュリティについても触れておきます。OpenAIのサービスを使うには「APIキー」という鍵が必要です。この鍵があれば誰でもAPIを使えてしまう(=料金が発生する)ため、漏洩は避けなければなりません。
このシステムでは、APIキーをRaspberry Piの中には保存していません。代わりに、会話を始めるたびにインターネット上のサーバーから「使い捨ての短い鍵」を発行して使っています。銀行のワンタイムパスワードと同じ発想です。万が一Raspberry Piが盗まれても、APIキーは漏洩しない設計になっています。
こういった設計上の判断も、Claude Codeに「セキュリティ上のリスクは何がある?」と聞きながら決めました。
Claude Codeでどう作ったのか
ここからが本題です。エンジニアでない人間が、Claude Codeにどう指示を出して、このシステムを完成させたのか。具体的に振り返ります。
原則:いきなり「作って」と言わない
最初にやるべきは、コードを書かせることではなく、設計を相談することです。家を建てるときにいきなり大工を呼ぶ人はいません。まず建築士と「どんな家にした いか」を話し合いますよね。Claude Codeも同じです。
私が最初に入力したのは、こんな内容でした。
「ラズベリーパイとOpenAIの音声AIサービスを使って、「ヘイ、ジャービス」で起動する音声アシスタントを作りたい。機材も何を買えばいいか分からないので教えて欲しい。全体の設計を考えて。」
Claude Codeはこの指示から、先ほど説明した「APIキーを端末に置かない設計」を含むアーキテクチャ全体を提案してくれました。
原則:小さく作って、動かして、次に進む
設計が固まったら、小さな単位で実装を依頼します。一度に「全部作って」と言うとClaude Codeでも破綻します。これは人間のエンジニアに依頼するときと同じです。
私は以下の順番で進めました。
第1段階:「まず音が出るところまで」 まず最低限の機能だけ作り、Jabra SPEAK 510をラズベリーパイに繋いで、OpenAIの音声AIに接続して、こちらの声を送って、AIの声をスピーカーから出す、という段階まで進めました。ソフトウェアを作り、ハードウェアと繋ぎ、何か反応を得るという行為自体私は初めての体験だったので、まずそもそもシンプルな動きであっても、ちゃんと動くものが作れるのか?ということを確かめるように進めていきました。
第2段階:「付加価値を開発していく」 最低限の動きが確認できたところで、次に必要な機能を開発していきました。たとえば、ウェイクワード(Wake Word)の追加です。ウェイクワード(Wake Word)とは、「アレクサ」や「OK, Google」のように、スマートスピーカー等の音声アシスタントを起動し、音声入力を開始させる特定のキーワード(合言葉)のことです。今回の頭脳であるRealtime APIは、比較的高めのAPI費用がかかるのですが、こちらの発話を検知するために常時APIを起動していると、誰かがなにかを発話するたびにAPIが動き、「自分が話しかけられているのか?対話をしないといけないのいか?」を判定するため、コストが非常にかかってしまいます。そこで「アレクサ」のような特定の言葉(ウェイクワード)を言ったときだけAPIが起動することでコスト削減をしようとしたわけです。これもClaude Codeの提案で進めています。
第3段階:「微調整」 後述しますが、細かい微調整も発生しました。たとえば、APIが発話する再生速度とスピーカー固有の再生速度が噛み合っていなかったので、異常に早口で発話がされるというような事象に遭遇しました。そういったトラブルもClaude Codeに逐一聞きながら進めていくことでうまく解決することができました。エラー内容や困った内容をすべてClaude Codeに投入し、解決策を実行するというサイクルを回すことで改善が進んでいきました。私自身で判断できることが少ないため、Claude Codeに基本的におまかせして進めていくということですね。
原則:エラーが出たら、そのまま貼り付ける
先程も書きましたが、開発中には必ずエラーが出ます。ここで重要なのは、非エンジニアが頑張ってエラーの意味を理解しようとしても難しいということです。エラーメッセージをそのままClaude Codeに貼り付けて、「これが出た。直して」と言えば、原因を特定して修正してくれるので無理し過ぎないことが重要です。
たとえば音声の速度問題で困ったとき、私が入力したのはこんな内容です。
「AIの音声が速すぎて聞き取れない。今は24kHzの音声を16kHzで再生していて、少しゆっくりにはなったけど、まだ速い。もっと遅くする方法はない?」
Claude Codeは「音声の波形を時間方向に引き伸ばす」という方法を提案し、コードを書いてくれました。2倍に引き伸ばす設定で、ちょうど聞き取りやすい速度に なりました。
AIは間違える。遠回りしていることを前提に使っていくことが精神衛生上スムーズ
Claude Codeは完璧ではない、ということは前提として置いておいた方が精神的にスムーズです。
非常に遠回りの設計であったり、リアルタイム性がない情報をもとに設計をしたり、言ったことをちゃんとやってくれないということはClaude Codeの発言の中で頻繁にあります。これらは通常皆様がよく使われているChatGPTやGeminiと全く一緒です。Claude Codeだからと言って完璧では全くありません。
たとえば私のケースだと、設計を進める中で、Claude CodeがOpenAIのリアルタイムAPIのモデル名として意図せず古いもの(gpt-4o-realtime-preview)を提案してきました。この記事を書いている2026年3月時点だと4oというのはかなり古いモデルであるため、何かおかしいなと気づけました。なぜClaude Codeが4oのような古いモデルを提案してくるかというと、これは各AIモデルのカットオフというものに影響されています。AIモデルのカットオフ(知識のカットオフ)とは、AIが学習したデータの最終更新日(締め切り)を指すわけですが、この日付以降に発生した出来事や情報は、原則としてAIは認識しておらず、古い情報をあたかも最新のように提案したり、知らない情報に対してはそれらしい嘘(ハルシネーション)をつく可能性があるわけです。私がClaude Code上で利用しているモデルは、Opus 4.6ですが、Opus 4.6のカットオフは2025年8月と言われており、Realtime APIが最新化されるより少し前にカットオフされているため4oを提案してきたわけです。
私の場合は設計時点でgpt-4o-realtime-previewが古いことに気づけたので、最新のOpenAIのドキュメントページをオールコピーしてそのままClaude Codeに貼り付け知識をアップデートしてもらうことで方向修正をしましたが、こういったことは普通によくあるという認識でいた方が健全なスタンスかと思います。
エンジニアであれば事前にClaude Codeが提案してきた設計を読み、適宜指摘して進めていけるものだと思いますが、非エンジニアはなかなかそうはいきません。どうしても遠回りになることは許容し、AIを「全部お任せできる存在」として信頼しすぎるのではなく、ミスはあるものの「一緒に進めるパートナー」として、こちらから正しい情報を補ってあげる、またはそれに気付かず進めた後にエラーが発生したとして、そのエラーをClaude Codeに伝えることで改善を進めてもらう、そういった進め方をしていくものだと捉えていただければと思います。
ウェイクワードの設定で躓いた話 OpenWakeWordがおすすめ
もし同じような対話システムを作る方がおられたら、これは気をつけてほしいという点を1つあげるとすると、ウェイクワードのツールです。ウェイクワード(Wake Word)とは、「アレクサ」や「OK, Google」のように、スマートスピーカー等の音声アシスタントを起動し、音声入力を開始させる特定のキーワード(合言葉)のことです。
最初にClaude Codeが候補として挙げてきたウェイクワードのツールは「Porcupine(ポーキュパイン)」というツールでした。これもカットオフの問題で古い情報から推薦がされたようです。たしかにPorcupineを検索すると古いブログ記事で無料で使えているようなことが書かれていますが、現在ではこれは有料ツールになってしまっています。無料トライアルをするためには、提供企業に申請し承認を得るというプロセスが必要であり、私は却下されてしまいました。
次の候補として出てきたのがOpenWakeWordです。完全無料で、カスタムウェイクワード(起動させる言葉を自分で設定できる機能)も比較的簡単に作れます。今回はこれを採用してうまく進めることが出来ました。
エンジニアではない人間が感じたこと
完成してみて改めて感じたのは、Claude Codeによって「動くもの」を作ることは本当に楽になりました。「作ること」よりも「何を作るか」を考えることの重要性がより増してきていると感じます。
もちろんプロダクトレベルで非エンジニアが開発を進めるにはまだまだClaude Codeだけでは不安です(Xではセキュリティやお作法をそこまで考慮せずClaude Codeで開発してSaaS代替してしまうような話をよく見聞きしますが、実際にはまだまだClaude Codeは怪しいところがある(何度セキュリティガイドラインを作って渡してもヌケモレ開発してしまったり)ので、どこかの個人や会社が盛大にセキュリティ事故を起こさないか、やや懸念しています)。
とはいえ、まずは「動く」というラインを超えることは過去では考えられないスピードで開発できる時代になってしまったという感想を強く抱きます。
今回の端末は、ここから先も色々「何を作るか?」を考える上で非常に良い教材です。音声で反応するハードウェアの中身を、自分の好みに合わせて自由に開発できるのは、UIの時代から声の時代に移り変わることを体現できうる仕組みです。忙しい経営者であれば今日のスケジュールの読み上げはもちろん、Slack等での社員の報告の要約を朝の用意をしながら聞くことも出来ます。まずいプロジェクトはないか?と聞くとためたデータを分析した結果をうまく渡せてさえいればそれも口頭で回答してくれることになりますね。採用担当者の方も同じです。面接候補者のスケジュールのアラートといった基本的な使い方に始まり、声で操作する業務アイデアは色々あると思います。
一度この環境を作ってしまえば、あとはClaude Codeに相談しながらいくらでも育てていけます。「プログラミングは難しい」という壁は、AIとの協働によって確実に低くなっています。重要なのはAIを過信せず、自分の目的と照らし合わせながら、補いながら使うことだと思います。
まとめ
- 約2万円の機材とClaude Codeで、音声AI端末を自作できた
- 月々のランニングコストは使った分だけ
- エンジニアリングの専門知識がなくても、「何を作りたいか」を明確に言葉にできれば、Claude Codeが実装してくれる
- コツは「いきなり全部を作らせない」「小さく作って動かす」「エラーはそのまま貼る」の3つ
AIツールの進化は、「エンジニアの仕事が速くなる」段階から、「エンジニアでない人が作れるものの範囲が広がる」段階に入っています。興味のある方は、まずClaude Codeに「こういうものを作りたいんだけど、どう進めたらいい?」と相談するところから始めてみてください。
※本記事で紹介したシステムは、株式会社プロリクのAI研究活動の一環として開発したものです。
もし貴社でAIの活用や導入についてお悩みのことがあれば、いつでもお問い合わせください。
弊社お問い合わせ窓口
著者について
橋崎 良哉(株式会社プロリク )
Webサイト制作事業にて在学中に起業。家業に入り、鉄鋼加工会社で取締役として業績回復を牽引。その後グローバルに特化したデジタルマーケティング支援会社にてマーケター、データ解析などを担当した後、AIスタートアップであるエッジテクノロジー株式会社の取締役COOとして、機械学習実装支援や、機械学習を用いた営業自動化SaaSを立ち上げ、6年で0から社員70名程度までグロースさせる。2020年2月株式会社プロリクを設立。