声音杂谈（二）

发布时间：2022-05-01 11:55:02 | 浏览次数：

声音长什么样子

上一节说了，声音是由振动产生的，并且讲了一些关于振动的时间（起振、稳态、衰减）的问题。可是，显然这样距离度量声音远远不够，否则，一个12寸的镲片和钢琴听起来应该差不多才对。我们需要一种能描述或者界定声音的方法，这样当你想让远方的朋友了解你新买的钢琴声音的时候，只要靠语言和参数描述就行了，而不必把你的钢琴寄过去给人家弹。

通常来说，我们用音长、音高、音强、音色四个参数来描述一个乐音，从物理的角度说，他们分别对应着声音的时程（时间长度）、频率、声压级（或声强级）和频谱结构。客观的说，这种对应并不是严格的一一对应关系，而只是主要的决定因素而已。换句话说，音高并不是完全由频率来决定，频谱结构也要比音色更复杂一些。这种更深入的讨论我们以后可能会提到，至于更严肃的学术问题，还是留给声学物理学家好了，我们先讨论音频工作能立刻用上的事情吧。

事实上，相比起"光"这种电磁波来说，由于声音是低速、长波长的机械波，因此极容易受到周围环境的影响，并且很容易发生衍射等波现象。用一块木板可以挡住光，而在后面留下阴影；可是用同样的一块木板根本无法挡住声音。用双手捂住眼睛，就什么也看不见了；可用双手堵住耳朵，一样还能听见声音，只不过是弱了一点而已。

声音的这种特性使得要完全驾驭它非常困难。以至于现有的量化参数并不足以完整的描述声音或者音频设备。比如喇叭单元或者麦克风振膜的瞬态响应，目前只能以"快"和"慢"来形容，而没有将其数值化的方法。因此搞音频工作，或者选择音频设备，切记"眼见为虚，耳听为实"，两个参数一样的音箱也许声音大大不同，从频谱仪上看差不多的两段音频也可能相差甚远。好在目前依靠参数加主观描述的方法还是能够将一个声音的大部分特征表现出来的，我们在看音频设备的评测文章的时候，如果能将技术参数和作者主观性的描述结合起来分析，也可以对设备有一个大致准确的印象。

声音的时间问题我们在上一节中已经有所了解了，在此不多赘述。声音的强度用dB（分贝）来表示，我不打算抄太多教科书上的文字，因此也不在这里重复"分贝"的基础概念了。不过我见到偶尔会有初学者把物理世界的"分贝"和电平表上的"dB"搞混。当我们提到诸如"办公环境噪声60dB"或者"监听音量85dB"的时候，指的是声音的物理声压；

而在调音台和音频工作站中的电平表则将设备能容纳的最高电平设定为0dB，以此为标准，设立的电平指示当然是0以下的-xxdB了，很多设备为了保证超过0dB也不会立刻过载失真，往往会在0dB以上预留一些动态余量（headroom），这样在电平表上的标示就成为+x dB。动态余量是为了确保音频设备声音不失真的"安全措施"，因此在调节电平的时候还是应该把电平定在接近而不超过0dB的位置，不要把headroom用光。

一个电平表的例子。可以看到中间的两根色柱指示峰值电平（PEAK），而两边的两根细的色柱则表示平均电平（RMS）。在电平表的下部有数值显示，这是绝大多数软件电平表的显示方式。

乐音的音高主要由频率决定。人耳的可听范围为20Hz-20kHz，这是个什么概念呢？与光比较，可见光的波长范围大约是380nm~760nm（纳米），相差不过2倍左右，而听觉范围上下限相差达1000倍，可以想象这个宽度了吧。以440Hz为标准A音，那么钢琴的最低键A2频率在大约27.5Hz左右，最高键C5频率为4186Hz。这里是指基频的频率，钢琴的谐波频率可达8kHz以上。由于人耳的实际听觉特性，大部分的乐器在50Hz以下和16kHz以上都没什么作为，反倒是本底噪声在这两个区域内比较集中，因此在混音时要注意使用高通和低通效果器把不用的频段切掉。本底噪声虽然在混音中并不容易听见，但是它们会吃掉动态范围，使混音变浑浊。

在十二平均律中，一个倍频程被平均分成12个相等的音程，每一个音程称为"半音"。换句话说，两个八度关系的音，他们的频率刚好相差一倍。这也是"十二平均律"的由来：12个音程，平均分割。然而在现实的工作中觉得以半音为单位不够精确，因此有了"音分"的概念。

将每个半音在平均分成100份，每一份为一个音分。有了十二平均律的音高关系，就可以计算出各音高的频率。比如标准A音为440Hz，那么高八度的A音频率为880Hz，将这两个频率之差除以12即为该八度之间每半音的频率差。

绝大部分自然产生的声音都不是单一的频率。拿起电话听到"嘟——"的待机声，这是人工合成的单一频率的声音。不怎么好听是吧？想象一下如果我们的音乐全部由这种声音组成，那该有多么乏味。好在实际的情况并不是这样，现实中绝大部分能震动发声的东西都不会发出单一频率的正弦波声音，而是会发出由多种频率成分复合在一起的复合声音。一般来说，乐音的音高是由其频率成分中最低的频率决定的，我们称之为"基频"，其余频率称为"谐波"或者"谐频"。

频谱结构指的也就是谐波的成分，以及基频与谐频、谐频与谐频之间的关系。如果一个声音的谐波很少而且强度也很小，那么声音听起来就很纯很单调，例如风琴管或音叉，以及前面提到的电话待机声（完全没有谐波）；反之如果谐波丰富，那么声音听起来就丰满。另一方面说，如果谐波与基频、谐波与谐波之间关系协和，声音听起来就更有音乐感；而如果谐波之间关系不谐和，那么声音听起来就没有谐和感。这里面的"谐和"是指由频率所决定音程的谐和关系。这是指乐音而言，如果谐波不是特定的几个频率而是占满某两个频率之间的空间，那么这个声音就没有音高可言，也就是噪音。最典型的例子就是白噪声，其他音乐中常用的噪音如打击乐器等，也大多属于这种情况。

在物理上，我们把复合在一起的频率分开来分析，就可以大致分析出某个乐器的音色情况。风琴管在轻吹得情况下，谐波数很少，并且谐波的能量都很弱，因此风琴管听起来音色就比较纯而很单调；长笛的高次谐波能量都不强，而谐和的谐波成分较强，听起来圆润、温暖；短笛的高次谐波就比较突出，因此声音尖锐刺耳。一些民族拨弦乐器如三弦，琴弦长而共鸣箱小，因此谐波数量虽然很多，但都很弱，听起来声音比较单薄；而吉他由于使用了大的共鸣箱，谐波成

分得到加强，因此声音丰满有力。事实上，由于吉他声音谐波丰富而厚重的特点，在采样技术出现以前，要靠人工合成器来得到逼真的吉他声音是一件非常困难的事情。

乐器声音的频率范围不是由其音域所对应的基频范围决定的，而是由其谐波范围决定的。例如钢琴的最高音c5频率在4kHz多一点，但是如果因为这个就把5kHz以上的频率都切掉，那钢琴一定会闷死，这是因为钢琴的谐波最高可以延伸到8kHz以上，基频决定了音高，而音色绝大部分取决于谐波成分。

借助电声转换的技术以及数模转换技术，我们可以用各种电表来分析声音，让声音真正"看得见"。它们能够提供视觉的参考，使我们更容易把握声音。不过要注意的是这里面同样有"眼见为虚，耳听为实"的原则，因为声音的一些参数还无法被量化，因此也就不能完全靠刻度和指针表示出声音的全貌。

电平表用来指示声音的强弱。常用的电平表有两种，VU表和PPM表。前者是一种平均值电平表，而后者显示瞬间电平。由于机械装置的运动总会受限制，因此模拟的VU表和PPM表只能称为"准平均值"和"准峰值"表。

在数字时代，由于数字计算不存在机械电表的缺点，因此电平指示变得更为精确，成为真正的"峰值表"（Peak）和"平均值表"（RMS）。峰值表类似PPM表，用来显示声音的瞬间电平，这样我们可以检查音频是否存在瞬间的过载；但瞬间电平并不能反映声音在听觉上的响度，我们还需要知道平均电平，这样才知道声音听上去有多响，平均值表（类似于VU表）正是为这个目的而生。我们在讨论声音的响度的时候，依据的正是平均值表。

频谱分析仪是分析声音频谱状况的重要工具。频谱分析仪的设计原理是让声音通过一系列中心频率不同的带通滤波器，然后通过检波的办法得到每个滤波器上的功率，这样就得到了每个滤波器频段的声功率。优质的模拟频谱分析仪十分昂贵，大部分只应用在音频设备生产和声学建设、测量的专业领域中。而到了数字时代，频谱分析就变得容易多了，各种频谱分析软件和插件效果器曾出不穷。电脑中常用的频谱分析有三种，从显示的方式来说，可称为线形显示、柱型显示和色谱显示。这三种方式的频谱仪在算法上也有不同，不过都能够为音频制作提供准确有效的参考。

线形频谱分析仪基于FFT算法，因此也有人称之为FFT频谱分析仪。它使用连续的曲线来表示各频率的情况，能量大的频段突出，能量小的频段凹下，很容易理解。一般来说（我好像还没碰到过"特殊的"），纵坐标是声强，横坐标是频率。

FFT分析仪，此类频谱仪一般还有计权的功能。

横坐标是Hz值，纵坐标是dB值。

用过模拟的频谱分析仪的人可能比较习惯看柱型频谱分析仪，它和硬件的分析仪相似，以倍频程为单位来划分频段。不过由于依靠软件计算可以"建造"比模拟设备多得多的滤波器，因此每个柱的宽度可以做得很窄，从而把整个频率分成更多份，得到更精确的结果。

柱形分析仪。这是一个1/3倍频程的频谱分析仪，横坐标是Hz值，纵坐标为dB值。

无论是线形分析仪，还是柱型分析仪，它们共同的缺点是无法保留上一时间的频率情况。这类频谱分析仪只有横、纵两个坐标轴，只能表示"频率"和"声强"两个量变化关系。可是同样随时变化的还有一个量，那就是"时间"。通过保留平均值线的办法可以让我们了解各个频段的平均音量，但是我们依然没有办法确切的了解频率、声强随时间的变化情况。这时候色谱分析仪就派上用场了。色谱分析仪通过颜色深度来表示声强的大小，这样就在横、纵两个坐标轴的基础上加入了第三个坐标轴——色深，从而各频率的声强随时间的变化情况变得一目了然。不过它也有个缺点，那就是无法显示精确的声压值，只能通过颜色深浅来观察。

色谱仪，横坐标还是Hz值，但纵坐标不是声强而是时间，声强通过颜色来表示，没有精确的读数。从图中我们看到声音在500Hz处一直保持着很大的音量，而超过8kHz的位置则声音很小。通过这样的方式，我们可以清楚地观察到一段时间内频谱的变化情况。

除了音量和频谱之外，在制作立体声节目的时候我们还需要关心另一件事情，那就是左右两个声道的相位关系。如果两个声道一致的成分占绝大多数，那么整个声音听起来就比较窄，靠近中间位置；如果两个声道相位相反的成分太多，那么声音听起来好像在脑袋后面，如果将这样的立体声混合成为单声道声音，那么其中反相的成分会互相抵消，从而使音质大大走样；好的立体声混音应该是保持其应有的宽度（也就是左右声道的分离度），又能够保证单声道的兼容性。因此，检查立体声的相位关系和分离度也成为很重要的事情。和电平、频谱一样，左右声道的相位也有相应的分析仪表来检查，那就是相位表。现今的很多数字调音台上都带有相位表的功能，而软件的相位表也有很多。

ixl的相位表。实际上它由三个部分组成：左上面的balance用红色和蓝色指示两个声道的声强分布情况，中间的白条指示出当前总声音的偏向；右边标着"correlation"的部分指示出两个声道的相位关系，最右边的"+100"表示两个声道完全同相，也就是单声道的声音，左端标着"-100"表示两个声道声音完全反相。最左和最右是两个极端的情况，正常情况下，白线应该大部分时间在中间偏右的位置，太靠右表示声场偏窄，而如果越过中线靠左边，表示左右声道出现反相。左下方最大的那一块用图示的方式直观的表示出两声道的声相情况，其中与耳朵平行的直线以上的部分（也就是人头的前面）表示声场的宽度分布，而平行线下方（也就是人头的后面）表示声音出现反相的情况。需要说明一下的是，在正常的立体声混音中，左右声道总会有某些相位相反的成分，但只要反相的成分没有占据主导地位，而在使用单声道监听时没有发现大的音质损失，就不需要做过多的处理。

下面这个是waves插件中的PAZ分析表。左边占据大部分的是一个指示表，很容易理解，AntiPhase部分表示反相的成分。右边有一些设置，依次是冻结（Freeze）、计权（Weight），峰值保持（PeakHold），清除（Clear）和PEAK值、RMS值的指示切换。

电平表、频谱分析仪和相位表让声音状态通过图像显示出来，给了我们直观的参考。尽管声音的真实状况还要依靠耳朵去听才能最终确定，但是有了这些可见的分析工具，尤其是有精确的参数指示，我们就可以精确的把握声音，从而更好的控制工作。

推荐访问：杂谈声音

上一篇：合成仪器自动测试系统的结构特点
下一篇：多义性路径识别系统

本文标题：声音杂谈（二）
链接地址：http://www.yzmjgc.com/youxiufanwen/2022/0501/50819.html

版权声明：
1.赢正文档网的资料来自互联网以及用户的投稿，用于非商业性学习目的免费阅览。
2.《声音杂谈（二）》一文的著作权归原作者所有，仅供学习参考，转载或引用时请保留版权信息。
3.如果本网所转载内容不慎侵犯了您的权益，请联系我们，我们将会及时删除。

声音杂谈（二）

本栏目阅读排行

栏目最新

声音杂谈（二）

相关阅读

猜你喜欢

本栏目阅读排行

栏目最新