音声入力にサブスクはいらない:iPhoneで無料音声入力【Spokenly】
サブスクは親の仇!無料でスマホ音声入力する方法
スマホで音声入力するのに課金しないといけないと思ってた人、手挙げて〜
はーい🙋
わたしもそう思ってました。
音声入力、いいのはわかってるよ。わかってるけど、サブスクたっかいんだよ!!
AquaVoiceは1年で月8ドル(1300円)、Typelessは月30ドル(4700円:年払いなら月12ドル≒1900円)。
スマホの音声入力に年間数万円。元取れますか?
わたしが油田を持ってるならいいけど、持ってないんですよ。
なので根性で調べました。そしてiPhoneならSpokenlyアプリで完全無料で音声入力を使えることがわかったので、記事にしました。ブクマ必須。
ちなみにPC(Mac)の音声入力はSpokenlyでAPIさして使えば100円ぐらいで済みます。ローカルモデル使えば無料。詳しくはこちら👇
https://note.com/taraco_mom/n/n9a3ef0fea8de
SpokenlyはiPhoneでもローカルモデルやAPIが使える!
このSpokenlyというアプリ、有料サブスクに入らないとiPhoneアプリで使えないと思っていたら、実は無料で使えることが分かりました。
自分でAPIキーを設定して従量課金や無料枠を使うこともできるし、ローカルモデルを使えば、完全無料で利用できます。
iPhone単体で使えるので、WindowsユーザーでもiPhoneを持っていれば利用できます。
とりあえずダウンロードしてね。
https://spokenly.app/
Spokenlyで設定するAI機能は2種類ある
大前提となる知識ですが、音声入力に必要なAI機能には2種類あります。
音声を文字起こしする「文字起こしモデル」
文字起こししたテキストを整形するAIプロンプト用の「AIプロバイダー」
です。サブスク課金しない場合は、それぞれにローカルモデルを選んだり、APIキーを設定したりする必要があります。
多機能すぎるのでとりまおすすめ設定を解説する!
まずこのSpokenly、多機能すぎるのとUIがわかりづらい&公式ドキュメントにiPhone版の説明がほぼ皆無で、非常〜にわかりづらい。
わたしも理解するのに丸3日かかりました。
とりあえずおすすめ設定で解説しますので、カスタマイズしたい方は巻末のトラブルシューティングをみながらご自分でどうぞ。
Spokenlyアプリ画面下のタブの説明
アプリを開くと、画面下に5つのタブが並んでいます。最初に全体像を押さえておくと、後の設定で迷いません。
「文字起こし」
このタブは触らなくてOK。単発で音声入力するときに使う画面ですが、わたしのやり方では使いません。
「キーボード」
音声入力は無効のままでOK。音声入力に特化したSpokenlyキーボードを使う場合はオンにしますが、自動無効化の時間が来ると勝手にオフになり、使おうとするとSpokenlyアプリに遷移してイライラします。このキーボードは使わないことを推奨します。
「プロンプト」
音声入力した結果を、AIで加工するためのプロンプトと、そのプロンプトを使うときの文字起こしモデルとAIプロバイダーを管理します。
「履歴」
過去の入力履歴を見るタブ。オフにもできます。
「設定」
細かい設定を行うタブ。アカウントは作らなくても使えます。
iPhoneでのSpokenly、使い方は2通り
このアプリのiPhoneでの使い方は、大きく2通りあります。
① 音声入力キーボードを使う方法(おすすめしません)
1つ目は、Spokenlyの音声入力キーボードを使う方法です。
設定すると、左下の 地球儀マーク からSpokenly(英語)キーボードが出てきます。 これを選択すると音声入力用のキーボードが表示され、音声の録音が始まります。
ただし、これが非常に使いづらい。
音声入力するときにSpokenlyのアプリ側で音声入力が有効になっていないと、入力時にアプリへ飛ばされます。かといってずっと有効にしたままにできないので、これが煩わしい。
それ以外にも、音声入力後に一部だけ修正したいときに、わざわざ地球儀マークを長押ししてフリックキーボードに切り替える必要があるのが面倒です。(これはTypelessもそうらしい)
しか〜し、Spokenlyにはすごい機能があるんです。それは「Spokenlyのクリップボード音声入力ショートカットをアクションボタンで呼び出す」方法。
② Spokenlyのクリップボード音声入力ショートカットをアクションボタンで呼び出し(本命)
Spokenlyには 「クリップボード音声入力」 という機能があります。 ここでわたしは3日間ハマったので、気をつけて一緒にやっていきましょう。
この機能をアクションボタンや背面タップで呼び出せるように設定すると、こんな運用ができます。
いつものフリック入力キーボードなどのまま
アクションボタン長押し(または背面タップ) → ショートカットで音声入力を起動
話し終わったらもう一度アクションボタンを長押し(または背面タップ)
クリップボードに整形済みテキストがコピーされる
タップして任意の場所に貼り付け
フリック入力はそのまま、必要なときだけ音声入力を呼び出せるのが便利です。
ただぶっちゃけ、アクションボタン長押しする時間ちょこっと待たなくてはいけないのと、クリップボードから貼り付けなくてはいけないのが面倒。
嫌な人は音声入力キーボードもご検討ください。
AIプロンプトの設定
ここでは文字起こししたテキストを整形するプロンプトを設定します。まずは整形に使うAIプロバイダー(整形用のAIモデル)を選びます。
真ん中の「プロンプト」をタップして右上の鍵アイコンをタップ。
右上の+アイコンをタップして、Apple Intelligenceを追加。Apple IntelligenceはiPhoneに内蔵されたAIモデルなので無料で使えます。
戻ったら新規プロンプトを追加。
話した内容をTypelessっぽく構造化したい場合、プロンプト欄にはこんな感じで入れてます。なかなか加減が難しい。
ユーザーが提供した音声認識の生テキストを、フィラー除去・誤字修正を行い、自然で読みやすい、適度に構造化された文章に変換してください。
【必須ルール】
1. すべてのフィラー(えー、うーん、あのー、みたいな、など)と繰り返し・言い直しを完全に削除
2. 文法・誤字を修正し、適切な句読点を追加
3. 必要に応じて話された内容から「リスト」「手順」「要点」「タスク」などを自動検知して構造化(無理に構造化しない):
- 順番のある手順 → 番号付きリスト(1. 2. 3.)
- 箇条書き → 箇条書き(- または ・)
- 見出しをプレーンテキストでつける
- 説明部分 → 自然な段落分け
4. 元の意味を絶対に変えない。余計な内容を追加しない
5. 記号は絶対に出力しない。
出力は整形されたテキストのみとしてください。説明文や「以下が結果です」などの前置きは一切入れないでください。詳細設定の中で、四角で囲った部分は必ず変更しましょう。
まずは文字起こし後の整形をする「AIプロバイダー」です。
超重要:「デフォルト」のままだとサブスク課金しないと使えません。
先ほど追加したApple Intelligenceがあるのでそれを選びます。(わたしはGroqのAPIを追加してるのでGroqも選べますが、ぶっちゃけ差はあまりないです)
続いて、「文字起こしモデル」です。デフォルトのままだとサブスク課金しないと使えません。
真ん中の「Local」から「Apple音声アナライザー」を選びましょう。リアルタイム文字起こしはオンにするとエラーになります。
続いて「システムプロンプト」です。デフォルトのままだと出力がおかしいので「音声入力した内容の整形を与えられた依頼にしたがって行う」と入力して「システムプロンプトを保存」をタップ。
すると、こんな感じの設定になります。
名前は適当に短いものに変えておいてください。(ここでのTypelessというのはわたしが勝手につけた名前です)
説明は「生成」を押すと出てきますが、これは削除しておいたほうがいいような気がします。プロンプトに加えて引っ張られます。
クリップボード音声入力の設定方法
続いてはクリップボード音声入力のショートカットを設定します。
これをすることで、Spokenlyアプリが音声入力を受け入れてiPhoneのクリップボードに整形後のテキストを保存できるようになります。
音声入力キーボードを使う場合、この作業と次のショートカットを呼び出すアクションボタンの設定は不要です。
Spokenlyアプリの一番右の 「設定」→真ん中あたりの 「詳細設定」 →「クリップボード音声入力」 を開きます。
使うAIプロンプトを選択します。
そして「詳しく見る」をタップしてください。するとSafariでSpokenlyのDocsが開くので、真ん中あたりの「Add Spokenly Clipboard Dictation Shortcut」をタップ。
するとSpokenly公式が作ったショートカットが出てくるので、「ショートカットを追加」します。
ショートカットアプリに「Spokenly Clipboard Dictation」が加わりました。右上の「…」をタップ。
ショートカットの中身がみれます。このショートカットを呼び出したら音声入力を開始して、もう一度呼び出したらクリップボードにコピーして振動させる、といったプログラムが組んであります。
ここでどの整形プロンプトを使うのか聞かれるのでプロンプト名を入力(なので名前は短めがいいです)して、左上の「<」で戻ります。
iPhoneのアクションボタン設定
ショートカットの設定が終わったので、続いてはそのショートカットを呼び出す設定を行います。繰り返しますが、音声入力キーボードを使う場合はこの設定は不要です。
iPhoneの「設定」アプリ を開き、少しスクロールして 「アクションボタン」 をタップします。
スワイプして「ショートカット」で「Spokenly Clipboard Dictation」を選びます。これで、左側面の音量ボタンの上のアクションボタンを長押しすると、このショートカットの動作が起動します。
アクションボタンがない機種の場合は、背面タップ に設定してください。
背面タップ × ショートカットの設定方法は「設定アプリ」→「アクセシビリティ」→「タッチ」→「背面タップ」→ダブルまたはトリプルタップ→下の方から「Spokenly Clipboard Dictation」を選べばOKです。
アクションボタン長押しで音声入力してみよう
ここまで設定すれば使い方はかんたんです。
テキストボックスで左側面の音声調整ボタンの上にあるアクションボタンを長押し
Spokenlyの通知が出たらしゃべる
しゃべり終わったらもう一度アクションボタンを長押しする
振動が起きたらタップしてペーストする
おすすめ設定は以上です!
音声入力キーボードを使う場合
音声入力キーボードを使う場合、大前提として知っておかないといけないことがあります。それはSpokenlyの音声入力がオンになっていないと使えないということです。
Spokenlyアプリの「キーボード」がこうなってないといけません。そしてこの状態は「自動無効化」の時間になると切れてしまいます。(常時ONにできません)切れた状態で音声入力しようとするとこの画面に遷移してしまって面倒です。
また、右上の設定アイコンから以下のキーボード設定をすることができますが、おすすめはこの設定です。
また、キーボードへのフルアクセスの許可も必要です。
iPhoneの設定アプリ→アプリ→Spokenly→キーボードをタップ
ここをオンにしておいてください。
「この文章を英訳して」などと音声で言いたい場合
GensparkのSpeaklyのように、テキストを選択した状態で「この文章を英訳して」と言っても英訳はできないようです。
ちなみにGensparkのサブスクでSpeakly使えるので、TypelessやAquaVoiceよりもお得ですよ〜
ただし、Spokenlyでも以下のようなことは可能です(名前似てて紛らわしい)
入力:「この文章を英訳して。こんにちはわたしの名前はウミノです」
出力:「Hello, I’m Umino」入力:「この文章をDiscordに投稿できるようカジュアルにして。今日がお願いしていた仕事の〆切ですが進捗いかがですか」
出力:「仕事の締め切り今日だけど、進捗どう?」入力:「卵ひとつで作れる料理を教えて」
出力:「卵焼き」
プロンプトはこちら
入力された情報のとおり出力してください。応答文は出力せずに回答だけを出力してください。 システムプロンプトはこちら
選択された情報を依頼の内容通りに整形して出力してください。応答文などは出力しないでください。 あまりわたしは使ってないのでプロンプトも適当ですが、ご参考まで。
文字起こしを整形せず句読点つけるだけで使いたい場合
これが一番使い勝手がいいです。
プロンプトを使わない場合は「文字起こし」タブで文字起こしモデルを選べます。文字起こしモデルをApple音声アナライザーにしておけば句読点はちゃんとつきます。
また、アクションボタンを使うときはSpokenlyアプリの「設定」とショートカットアプリから文字起こしなしを選択するのを忘れずに!
ローカルモデル以外のAIモデルを使いたい場合
AppleのローカルAIモデルであれば、文字起こしも整形も無料でできるし品質も悪くないので十分ですが、APIキーを設定して使いたい場合も解説しておきます。
(むずかしい場合はここまででOK!)
Groqの追加(APIキーの取得)
Groqは一定量無料で使えます(XのGrokではないです)文字起こしのモデルも、整形に使えるモデルもあります。
Groqを使うには、自分でAPIキーを取得する必要があります。クレカ登録も不要なので気軽に試せます。
ブラウザで Groqにアクセスしてアカウントを作ります。
GoogleアカウントでOK。
API KeysからCreate API Keyをクリック。
適当な名前をつけて作成します。
生成されたAPIキーをコピーします。この画面でしか見られないので必ずコピーしてください。忘れたら新しいキーを作ってください。他の人にみられる場所に保存したりしないように!
整形AIモデルにGroqを設定する
iPhoneのSpokenlyアプリに戻って、「プロンプト」→右上の鍵アイコン→AIプロバイダー追加画面で「Groq」を選択
APIキー欄に先ほどのAPIキーをペースト、モデル欄に 「openai/gpt-oss-20b」と入力(おすすめで出てくるllamaは品質が悪いです)
その後「接続をテスト」します。
こんな感じで追加されました。
このあと、設定済みのAIプロンプトの詳細設定画面でGroqを選ぶのを忘れずに!
文字起こしモデルにGroqを設定する
文字起こしをするモデルにもGroqを設定できます。APIキーは先ほどのものを使い回せばOKです。
AIプロンプト→詳細設定→文字起こしモデルをタップ
「API」から「Groq API」を選択。
APIキーを貼り付け、モデルに「whisper-large-v3-turbo」と入力。
こんなふうになればOK!もちろん文字起こしモデルと整形用のAIプロバイダーは別々にしても大丈夫です。お好みを見つけてください。Appleとあんまり変わらないです。
トラブルシューティング
iPhone版のDocsがほぼない状態なのでめちゃくちゃ詰まって3日かかりました。ここに挙げたポイントはすべてわたしが実際に詰まったものです。
Q:文字起こしが始まりません
A:文字起こしモデルやAIプロバイダーを「デフォルト」にしていませんか。文字起こしモデルを「オンライン」にしていませんか。これはサブスク課金しないと使えません。
または、長文を処理するのに時間がかかっていることがあるので数秒そのまま待ってください。
Q:アクションボタンを押すとカメラが起動します
A:右下のボタンは「カメラコントロール」です。アクションボタンは左上です(これでずっと詰まってた💦)
Q:ショートカットが起動しません
A:ショートカットは自分で作るのではなくてSpokenly公式が用意したものをショートカットに追加します。
また、AIプロンプトの名前を入力しますが、Spokenlyの設定画面で選んだものと一致することを確認してください。
Q:文字起こしをすると上にエラーが出ます
A:エラー内容によりますが、Appleモデルだとエラーが起きることがあります。Groqに切り替えてまた戻したりすると直ることもあります。Appleモデルは使いすぎると「rate limit」に達したみたいなエラーも出ます。
また、文字起こしモデルをAppleにした場合、「リアルタイム文字起こし」をオンにするとエラーになります。
Q:「対応できません」のような、変な応答文が出ます
A:AIプロンプトのシステムプロンプトがデフォルトになっていませんか。そこは上に記載したように変更が必要です。そうでない場合はAIプロンプトを調整したり、AIプロンプトの「説明」を削除してみてください。
Q:音声入力キーボードを開くとSpokenlyアプリに飛んでうざい
A:iPhoneの仕様です。これはSpokenlyアプリのキーボード→音声入力が有効になっている状態でないと飛ぶようになっています。無効化までの時間を長くしておくか(バッテリー消費多くなります)クリップボード音声入力を使いましょう。
Q:さっきまで使えてたのに急に使えなくなった
A:サブスクのお試しをしていて、無料お試しを使い切ったのかと思います。モデルを「デフォルト」からAppleに変えましょう。
Q:整形の精度が悪すぎる
A:AIプロンプトのAIプロバイダーがGroqのllamaモデル(おすすめと出てくるもの)になっていませんか?精度が低いので「openai/gpt-oss-20b」にしましょう。そうでなければプロンプトを調整しましょう。
Q:有料プランのおすすめが出る
A:無視すればOKです!サブスク課金しないと進めないような表示になったら、文字起こしモデルまたはAIプロバイダーがデフォルト(オンライン)になってます。
お疲れ様でした!
ここまで読んでくれたあなたはきっと自動化オタク仲間!
わたしのnoteメンバーシップ「自動化オタクの頭の中(ジドオタ)」では、非エンジニアでも自動化・仕組み化を取り入れて自分の時間を作り出そう!をコンセプトにしています。
5月は特典モリモリで、以下が全部無料でみられます。
Coworkオンラインコース(Udemy)
Marpオンラインコース(Udemy)
Substackの教科書(Brain)
https://note.com/taraco_mom/n/n683f62226896
入会後に「掲示板」の3つ目の投稿をご覧ください↓











































