Model Context Protocol · 本地或云端

与 Claude Code 对话。
彻底解放双手。

VoiceMode 是一个 MCP 服务器,让 Claude Code(以及任何支持 MCP 的智能体)拥有自然语音对话能力。自然地说,即时听到回应。完全本地运行以保护隐私,也可回退到云端。

粘贴给 Claude Code,它会自动装好 ↓
帮我在 Claude Code 里装好 VoiceMode 语音对话功能,并按下面指定中文语音模型:
1. 执行 claude plugin marketplace add mbailey/voicemode,再执行 claude plugin install voicemode@voicemode
2. 运行 /voicemode:install 安装 FFmpeg、PortAudio 以及本地语音服务
3. STT:使用 Whisper large-v3 模型(中文识别最准),即设 VOICEMODE_WHISPER_MODEL=large-v3
4. TTS:使用 OmniVoice,部署成 OpenAI 兼容的 /v1/audio/speech 服务,再把 VoiceMode 的 TTS 端点指向它
5. 运行 /voicemode:status 检查状态,再用 /voicemode:converse 启动中文语音对话测试

复制上面这段话,直接发给正在运行的 Claude Code —— 它会照着把依赖、本地语音服务和中文语音一次性装好配好。

MIT 开源协议 Python 3.10–3.14 macOS · Linux · WSL · NixOS 支持离线运行
三步安装

不用记命令,交给 Agent

复制首页那段提示词,发给 Claude Code 即可。下面是它实际会替你做的事,过程透明可查。

1

复制提示词,粘贴给 Claude Code

在已经运行的 Claude Code 会话里,把首页那段中文提示词直接发出去。无需自己敲任何命令。

2

Agent 自动执行安装

Claude Code 会依次跑下面这些命令,装好插件、系统依赖和本地语音服务:

Agent 实际执行的命令
# 添加插件市场并安装插件
claude plugin marketplace add mbailey/voicemode
claude plugin install voicemode@voicemode

# 安装系统依赖 + 本地 Whisper / Kokoro 语音服务
/voicemode:install

# 检查服务状态,然后开始语音对话
/voicemode:status
/voicemode:converse
3

开口说话

看到 ✓ Connected 后,运行 /voicemode:converse 就能直接和 Claude Code 语音对话了。

为什么选 VoiceMode

为真实对话而生

语音不是要取代打字,而是在你的手或眼睛被占用时,依然能用上 Claude Code。

自然对话

自然地说,即时听到回应。智能静音检测会在你停下时自动结束录音。

支持离线

可选的本地 Whisper(语音转文字)和 Kokoro(文字转语音)让一切都在本机运行——无需联网,无需 API key。

低延迟

快到像真正的对话,而不是对讲机。流式优先的音频,支持多种格式。

隐私优先

完全本地运行,或透明地回退到 OpenAI 兼容的云端服务。你的声音去往何处,由你决定。

跨平台

支持 Linux、macOS、Windows(WSL)和 NixOS。服务安装会自动处理 macOS 的 launchd 与 Linux 的 systemd。

无缝切换

本地与云端暴露相同的 OpenAI 兼容 API,VoiceMode 会根据可用性自动切换提供方。

能用哪些命令

装好之后,你能用这些

在 Claude Code 里用斜杠命令,或在终端用 voicemode CLI 管理服务。

/voicemode:converse

启动一次持续的语音对话——这是最常用的命令,喊它就能开口聊。

/voicemode:install

一键安装 VoiceMode、FFmpeg 以及本地语音服务,自动处理各平台差异。

/voicemode:status

查看 Whisper / Kokoro 等语音服务的运行状态和健康检查。

voicemode config / service

CLI 子命令:编辑配置、管理服务、查看历史、转写音频、更新版本等。

想免去每次授权弹窗?把下面这段加进 ~/.claude/settings.json

~/.claude/settings.json · 跳过授权提示
{
  "permissions": {
    "allow": [
      "mcp__voicemode__converse",
      "mcp__voicemode__service"
    ]
  }
}
中文语音模型推荐

本地跑,中文也好听

本方案的中文组合:STT = Whisper large-v3TTS = OmniVoice。VoiceMode 通过 OpenAI 兼容的 /v1/audio/speech 接口对接 TTS,所以 OmniVoice 部署好后直接指过去即可。下面是该组合与几个备选。

TTS · 指定使用

OmniVoice

本方案指定的 TTS 模型。小米 Kaldi 团队开源的多语种语音生成模型,支持 600+ 语言的零样本声音克隆,中文自然度高、可克隆指定音色。部署成 OpenAI 兼容 /v1/audio/speech 后,把 VoiceMode 的 TTS 端点指向它即可。

646 语言零样本克隆Apache-2.0

扩散语言模型 · k2-fsa / Kaldi 团队

TTS

CosyVoice 2

阿里通义开源 TTS,专精中文,支持 18+ 中文方言与跨语种克隆;流式延迟约 150ms,发音错误较 1.0 大幅下降。要方言或低延迟选它。

中文方言~150ms 流式跨语种

FunAudioLLM / CosyVoice

TTS

Fish Speech

中文 WER 极低(Seed-TTS 评测 ~0.54%),支持 80+ 语言、短样本声音克隆与情感控制。追求中文质量上限时的强力选择。

中文 WER 0.54%声音克隆情感控制

fishaudio / fish-speech

默认 TTS

Kokoro

VoiceMode 默认的本地 TTS,轻量、低占用、含中文音色,通过 Kokoro-FastAPI 暴露 OpenAI 兼容端点。开箱即用,想省事就保留它。

轻量含中文音色OpenAI 兼容

Kokoro-FastAPI

STT · 指定使用

Whisper large-v3

本方案指定的 STT 模型。VoiceMode 内置 whisper.cpp,large-v3 是 Whisper 家族里中文识别最准的一档。设 VOICEMODE_WHISPER_MODEL=large-v3 即可;机器较弱想要实时可换 large-v3-turbo(~4× 速、约 95% 准确率)。

中文最准本地推理large-v3-turbo 备选

ggml-org / whisper.cpp

配置方式

怎么换模型

把所选 TTS 起成 OpenAI 兼容服务后,让 Claude Code 帮你改 voicemode config 里的语音端点和默认音色即可,无需改代码。

/v1/audio/speechvoicemode config

直接对 Agent 说:「把 TTS 端点换成我本地的 OmniVoice 服务」

提示:以上模型质量与延迟会随版本变化,接入前建议先确认其是否提供 OpenAI 兼容的 /v1/audio/speech 接口(或用 Kokoro-FastAPI 这类适配层)。

准备好了?

让键盘歇一会儿

复制提示词交给 Claude Code,两分钟内完成第一次免手语音对话。