语音合成意思解释
语音合成,是将人类语音用人工的方式所产生。若是将电脑系统用在语音合成上,则称为语音合成器,而语音合成器可以用软/硬件所实现。文字转语音(Text-To-Speech,TTS)系统则是将一般语言的文字转换为语音,其他的系统可以描绘语言符号的表示方式,就像音标转换至语音一样。
而合成后的语音则是利用在资料库内的许多已录好的语音连接起来。系统则因为储存的语音单元大小不同而有所差异,若是要储存phone以及diphone的话,系统必须提供大量的储存空间,但是在语意上或许会不清楚。而用在特定的使用领域上,储存整字或整句的方式可以达到高品质的语音输出。另外,包含了声道模型以及其他的人类声音特征参数的合成器则可以创造出完整的合成声音输出。
一个语音合成器的品质通常是决定于人声的相似度以及语意是否能被了解。一个清晰的文字转语音程序应该提供人类在视觉受到伤害或是得到失读症时,能够听到并且在个人电脑上完成工作。从80年代早期开始,许多的电脑操作系统已经包含了语音合成器了。
历史
直到19世纪,贝尔实验室对于电子语音合成技术的研究,才开启近代语音合成技术的发展。贝尔实验室在1939年制作出第一个电子语音合成器VODER,是一种利用共振峰原理所制作的合成器。
1960年,瑞典语言学家G. Fant则提出利用线性预测编码技术(LPC)来作为语音合成分析技术,并推动了日后的发展。后来1980年代Moulines E和Charpentier F提出新的语音合成演算法PSOLA,此技术可以合成比较自然的语音。
合成器技术
串接合成
单位选择合成
这通常是使用字词预录的方式,将各字词的发音预先录制好,经处理后存放在资料库中。使用时再将预发音的字句断成字词,再把发音的资料自资料库中取出,交由DSP去处理发音的合成。
Diphone合成
Domain-specific合成
共振峰合成
发音合成
HMM基础合成
正弦波合成
含有语音合成器的软件
- NVDA(开源多国语言屏幕报读软件)
- 台湾工研院资通所语音团队开发出的mTTS
- JAWS(商业付费屏幕报读软件)
- 内建于苹果电脑相关产品的VoiceOver Utility
- Android 1.6版加入支援语音合成的功能。
- 微软在1995年开始,开发了一套Microsoft Speech API,微软的一些操作系统或软件有提供支援语音功能。
- VOCALOID 及 VOICEROID,前者偏重歌唱而后者偏重 TTS。
- 盛大游戏在2012年初,发布了Android语音合成平台聼聼中心,支援本地中英文合成及变声等服务。
应用
- 智能仪表
- 智能玩具
- 电子地图
- 电子导游
- 电子词典
- 机器视觉
- 人工智能与模式识别
- 图像处理
- 自动光学检查
- 开放源代码计算机视觉库:OpenCV
- 艾伦·图灵
- 图灵测试
- 图模式
- 马尔可夫链
- 马尔可夫逻辑网络
- 人工生命
- 人工智能哲学
- 认知神经科学
- 电脑围棋
- 恐怖谷理论
- 电子世界争霸战
- 电脑科学
- 认知科学
- 意识
- 语义学
- 技术奇异点
- 集体智慧
- 控制论
- 心理学
- 生物化学计算机(例:人脑)
- 计算智能
- 数据挖掘
- 模糊逻辑
- 机器学习
- 统计学
- 模式识别
- 人机界面
- 语音识别
- 手写识别
- VOCALOID
- 初音未来
- 自主控制机器人
- 归纳逻辑编程
- 决策树
- 神经网络
- 强化学习
- 贝叶斯学习
- 最近邻居法
- 计算学习理论
- 深度学习
- 机器学习控制
- 机械电子学
- 控制论
- 无人航空载具(俗称无人飞机)
- 认知科学
- 动力服
- 个人电脑
- 超级计算机
- 互联网
- 机器人三定律(Three Laws of Robotics)
带语音合成字词语
带语音合成字成语