声音是由物体振动产生的机械波,通过介质传播到我们的耳朵。年,AI系统已经能够像人类一样"感知"和"理解"声音内容。
正弦波示意图:声音波形的基本表示
模拟信号是连续的信号,可以在任意时间点取任意值。自然界中的声音就是模拟信号。
数字信号是离散的,只能取有限的离散值。计算机处理的是数字信号。
根据奈奎斯特采样定理,采样率必须至少是信号最高频率的两倍。年,AI技术使得超采样和智能降采样成为可能。
| 采样率 | 应用场景 | AI增强特性 |
|---|---|---|
| 8,000 Hz | 电话通信、AI语音识别 | AI语音增强预处理 |
| 44,100 Hz | CD音质、流媒体 | AI上采样至96kHz |
| 48,000 Hz | 专业音频、视频 | AI实时降噪 |
| 96,000 Hz | 高清音频、AI音乐生成 | 高保真AI合成 |
| 192,000+ Hz | AI音频分析和生成 | 超分辨率音频处理 |
AI时代的位深度处理更加智能化,可以根据内容动态调整量化精度。
| 位深度 | 量化等级 | 动态范围 | AI应用 |
|---|---|---|---|
| 16-bit | 65,536 | ~96 dB | 标准音频存储 |
| 24-bit | 16,777,216 | ~144 dB | 专业录音 |
| 32-bit float | 无限 | 理论上无限 | AI处理中间格式 |
| AI自适应 | 动态调整 | 内容感知 | 智能压缩存储 |
神经音频编解码器(如EnCodec、SoundStream)可以实现比传统MP3/AAC高10倍压缩率,同时保持CD音质。
时域是我们观察信号最自然的方式,显示信号振幅随时间变化的关系。年AI可以自动检测时域特征。
频域显示信号包含哪些频率成分及各成分的强度。AI极大提升了频域分析的精度和速度。
| 格式 | 类型 | AI特性 | 应用 |
|---|---|---|---|
| WAV | 无损 | AI元数据嵌入 | 专业音频 |
| FLAC | 无损压缩 | AI预测编码 | 音乐存档 |
| Opus | AI优化压缩 | 神经网络编码 | 实时通信 |
| EnCodec | AI编解码器 | 端到端学习 | 流媒体 |
| Spatial Audio | 空间音频 | AI头部追踪 | VR/AR |