Model Context Protocol · 本地或云端

与 Claude Code 对话。
彻底解放双手。

VoiceMode 是一个 MCP 服务器，让 Claude Code（以及任何支持 MCP 的智能体）拥有自然语音对话能力。自然地说，即时听到回应。完全本地运行以保护隐私，也可回退到云端。

粘贴给 Claude Code，它会自动装好 ↓

帮我在 Claude Code 里装好 VoiceMode 语音对话功能，并按下面指定中文语音模型：
1. 执行 claude plugin marketplace add mbailey/voicemode，再执行 claude plugin install voicemode@voicemode
2. 运行 /voicemode:install 安装 FFmpeg、PortAudio 以及本地语音服务
3. STT：使用 Whisper large-v3 模型（中文识别最准），即设 VOICEMODE_WHISPER_MODEL=large-v3
4. TTS：使用 OmniVoice，部署成 OpenAI 兼容的 /v1/audio/speech 服务，再把 VoiceMode 的 TTS 端点指向它
5. 运行 /voicemode:status 检查状态，再用 /voicemode:converse 启动中文语音对话测试

复制上面这段话，直接发给正在运行的 Claude Code —— 它会照着把依赖、本地语音服务和中文语音一次性装好配好。

MIT 开源协议 Python 3.10–3.14 macOS · Linux · WSL · NixOS 支持离线运行

三步安装

不用记命令，交给 Agent

复制首页那段提示词，发给 Claude Code 即可。下面是它实际会替你做的事，过程透明可查。

复制提示词，粘贴给 Claude Code

在已经运行的 Claude Code 会话里，把首页那段中文提示词直接发出去。无需自己敲任何命令。

Agent 自动执行安装

Claude Code 会依次跑下面这些命令，装好插件、系统依赖和本地语音服务：

Agent 实际执行的命令

# 添加插件市场并安装插件
claude plugin marketplace add mbailey/voicemode
claude plugin install voicemode@voicemode

# 安装系统依赖 + 本地 Whisper / Kokoro 语音服务
/voicemode:install

# 检查服务状态，然后开始语音对话
/voicemode:status
/voicemode:converse

开口说话

看到 ✓ Connected 后，运行 /voicemode:converse 就能直接和 Claude Code 语音对话了。

为什么选 VoiceMode

为真实对话而生

语音不是要取代打字，而是在你的手或眼睛被占用时，依然能用上 Claude Code。

自然对话

自然地说，即时听到回应。智能静音检测会在你停下时自动结束录音。

支持离线

可选的本地 Whisper（语音转文字）和 Kokoro（文字转语音）让一切都在本机运行——无需联网，无需 API key。

低延迟

快到像真正的对话，而不是对讲机。流式优先的音频，支持多种格式。

隐私优先

完全本地运行，或透明地回退到 OpenAI 兼容的云端服务。你的声音去往何处，由你决定。

跨平台

支持 Linux、macOS、Windows（WSL）和 NixOS。服务安装会自动处理 macOS 的 launchd 与 Linux 的 systemd。

无缝切换

本地与云端暴露相同的 OpenAI 兼容 API，VoiceMode 会根据可用性自动切换提供方。

能用哪些命令

装好之后，你能用这些

在 Claude Code 里用斜杠命令，或在终端用 voicemode CLI 管理服务。

/voicemode:converse

启动一次持续的语音对话——这是最常用的命令，喊它就能开口聊。

/voicemode:install

一键安装 VoiceMode、FFmpeg 以及本地语音服务，自动处理各平台差异。

/voicemode:status

查看 Whisper / Kokoro 等语音服务的运行状态和健康检查。

voicemode config / service

CLI 子命令：编辑配置、管理服务、查看历史、转写音频、更新版本等。

想免去每次授权弹窗？把下面这段加进 ~/.claude/settings.json：

~/.claude/settings.json · 跳过授权提示

{
  "permissions": {
    "allow": [
      "mcp__voicemode__converse",
      "mcp__voicemode__service"
    ]
  }
}

中文语音模型推荐

本地跑，中文也好听

本方案的中文组合：STT = Whisper large-v3 ＋ TTS = OmniVoice。VoiceMode 通过 OpenAI 兼容的 /v1/audio/speech 接口对接 TTS，所以 OmniVoice 部署好后直接指过去即可。下面是该组合与几个备选。

TTS · 指定使用

OmniVoice

本方案指定的 TTS 模型。小米 Kaldi 团队开源的多语种语音生成模型，支持 600+ 语言的零样本声音克隆，中文自然度高、可克隆指定音色。部署成 OpenAI 兼容 /v1/audio/speech 后，把 VoiceMode 的 TTS 端点指向它即可。

646 语言零样本克隆Apache-2.0

扩散语言模型 · k2-fsa / Kaldi 团队

TTS

CosyVoice 2

阿里通义开源 TTS，专精中文，支持 18+ 中文方言与跨语种克隆；流式延迟约 150ms，发音错误较 1.0 大幅下降。要方言或低延迟选它。

中文方言~150ms 流式跨语种

FunAudioLLM / CosyVoice

TTS

Fish Speech

中文 WER 极低（Seed-TTS 评测 ~0.54%），支持 80+ 语言、短样本声音克隆与情感控制。追求中文质量上限时的强力选择。

中文 WER 0.54%声音克隆情感控制

fishaudio / fish-speech

默认 TTS

Kokoro

VoiceMode 默认的本地 TTS，轻量、低占用、含中文音色，通过 Kokoro-FastAPI 暴露 OpenAI 兼容端点。开箱即用，想省事就保留它。

轻量含中文音色OpenAI 兼容

Kokoro-FastAPI

STT · 指定使用

Whisper large-v3

本方案指定的 STT 模型。VoiceMode 内置 whisper.cpp，large-v3 是 Whisper 家族里中文识别最准的一档。设 VOICEMODE_WHISPER_MODEL=large-v3 即可；机器较弱想要实时可换 large-v3-turbo（~4× 速、约 95% 准确率）。

中文最准本地推理large-v3-turbo 备选

ggml-org / whisper.cpp

配置方式

怎么换模型

把所选 TTS 起成 OpenAI 兼容服务后，让 Claude Code 帮你改 voicemode config 里的语音端点和默认音色即可，无需改代码。

/v1/audio/speechvoicemode config

直接对 Agent 说：「把 TTS 端点换成我本地的 OmniVoice 服务」

提示：以上模型质量与延迟会随版本变化，接入前建议先确认其是否提供 OpenAI 兼容的 /v1/audio/speech 接口（或用 Kokoro-FastAPI 这类适配层）。

准备好了？

让键盘歇一会儿

复制提示词交给 Claude Code，两分钟内完成第一次免手语音对话。

立即安装查看文档

与 Claude Code 对话。彻底解放双手。