在互联网上,我们留下了太多文字、图片和数据。
但声音——最接近情绪、最私密、最像“人”的媒介,却始终只是一个临时的载体。
我们想做一件事:
让人的声音,第一次成为一种可被反复倾听、被记住、被尊重的数字存在。
Voices 是一个情感人格化语音平台。
任何人都可以上传一小段声音,塑造一个带有情绪与人格边界的 AI 语音角色;
而其他人,可以在需要的时候,选择它、倾听它、与它对话。
不是为了效率。
而是为了陪伴、理解与共鸣。
在 Voices 中,一个 Voice 不只是音色,而是由三部分共同构成:
-
声音(Voice Timbre)
通过 StepFun API 进行音色复刻 -
人格(Persona)
包含语气、节奏、情绪边界与交互方式 -
情感策略(Emotional Policy)
明确能安抚、能倾听,但不会制造依赖或替代现实关系
我们没有做冷冰冰的 Top 排名。
取而代之的是:
Voices of the Week / Month|本周之声 / 本月之声
它代表的不是播放次数最多的声音,
而是在真实使用中,被反复召唤、愿意被停下来倾听的存在。
在所有被创建的声音中,
有些,被真正听见了。它们,成为了本周 / 本月之声。
- 上传 5–10 秒音频,创建专属语音角色
- 复刻音色并生成可交互的 TTS Voice
- 查看角色被使用与倾听的情况
- 参与「本周之声 / 本月之声」精选展示
- 浏览与发现不同人格的声音
- 试听并选择适合当下情绪的 Voice
- 输入文字,生成对应语音回应
- 与声音保持短暂但真实的陪伴
flowchart TB
subgraph frontend[前端应用]
UI[Web界面]
Upload[音频上传/录音]
VoiceMgmt[角色管理]
Discover[发现页 / 本周之声]
TTSGen[TTS生成]
end
subgraph backend[后端服务]
API[API网关]
FileSvc[文件服务]
VoiceSvc[角色服务]
EmbedSvc[Embedding服务]
StepFunSvc[StepFun集成]
end
subgraph algorithm[算法模块]
Preprocess[音频预处理]
EmbedGen[Embedding生成<br/>临时随机向量]
end
subgraph storage[存储层]
DB[(PostgreSQL)]
ObjectStore[对象存储]
Cache[(Redis)]
end
subgraph external[外部服务]
StepFunAPI[StepFun API]
end
UI --> API
Upload --> FileSvc
Discover --> VoiceSvc
VoiceMgmt --> VoiceSvc
TTSGen --> StepFunSvc
API --> FileSvc
API --> VoiceSvc
API --> EmbedSvc
API --> StepFunSvc
FileSvc --> Preprocess
Preprocess --> EmbedGen
EmbedGen --> EmbedSvc
VoiceSvc --> StepFunSvc
StepFunSvc --> StepFunAPI
FileSvc --> ObjectStore
VoiceSvc --> DB
EmbedSvc --> DB
API --> Cache
我们使用ClearerVoice最先进的预训练模型进行语音去噪。
- 使用CODEC模型进行encoder编码
def generate_embedding(file_id: str, dimension: int = 256):
seed = hash(file_id) % (2**32)
np.random.seed(seed)
vector = np.random.normal(0, 1, dimension)
vector = vector / np.linalg.norm(vector)
return vector
- 统一封装 StepFun API
- 支持多模型切换(step-tts-2 / vivid / audio)
- 音频生成与使用量统计解耦
- 所有 Voice 明确声明:非真人、非专业建议
- 不提供医疗 / 法律 / 现实决策建议
- 允许陪伴,但不制造依赖
普通链的问题 如果你把声音人格放在普通 L1(ETH / Polygon): 链上只能放: NFT ID、ownership、少量 metadata、所有“人格成长”“被使用的过程”、使用日志、情感状态、记忆 embedding、模型版本 👉 都只能回到中心化服务器
0G 是 AI + Data 原生链,我们的项目使用0G上链:
👉 你的「声音人格」不是一个 NFT 👉 而是一个 链上可追溯的“情感状态体”
- 不是工具感,而是编辑感
- 卡片像“被记录的声音时刻”
- 避免强数字刺激,强调氛围与语境
- Discover 页重点是“感受”,不是“效率”
# StepFun API
STEP_API_KEY=your_api_key
# Database
DATABASE_URL=postgresql://user:pass@localhost:5432/voices
REDIS_URL=redis://localhost:6379
# Storage
STORAGE_TYPE=local|minio
STORAGE_PATH=/data/uploads
# Embedding
EMBEDDING_DIMENSION=256- 音频上传 / 录音
- 音色复刻
- TTS 生成
- 基础角色管理
- Voices of the Week / Month
- Discover 页内容叙事优化
- 使用统计与创作者视图
- 真实 codec / embedding 模型接入
- 情绪识别与动态响应
- 声音人格模板系统
- 更精细的创作者激励机制
Voices 不是在制造更多声音, 而是在认真对待那些被反复倾听的存在。
如果你正在寻找的不是一个工具, 而是一种人与声音之间更温柔的关系—— 欢迎来到 Voices。