随着科学和计算机技术的发展,人机互动形式多种多样,语音识别技术取代传统的通过鼠标、键盘实现人机信息交流的模式,这是计算机、信号处理和人工智能等领域的重要课题。自动语音识别的任务是研究如何利用计算机模拟人类的听觉功能,从人的语音信号中提取出有用的声学特征和语言信息,进而确定语音信号的语言含义,实现人和机器之间的自然语言通信。 语音识别技术开始渐渐走出实验室,在国防监听、远程会议、音频设备、移动通讯、身份鉴别、智能玩具、机器人等领域展现了广阔的应用前景,一些应用已非常贴近人们的生活。由于语音信号的不确定性,以及周围环境的不可控性,还鲜有十分可靠的语音识别系统大面积商用或民用的实例。从的语音识别理论的发展来看,非特定人的大词汇量和连续语音识别仍然是语音识别领域的技术难点。相对而言,非特定人中小词汇量的孤立词语音识别的理论和实践发展相对较成熟和完善,完全有可能应用于一些声环境相对稳定,噪声相对较小的场合,如室内的语音报警、声控家电及智能玩具等。
中文名:
声监控
外文名:
acoustic monitoring
学科:
生态环境
意义:
环境污染

 目录

简介

这里的环境声(Environmental Sound)是指在人居环境中所接收到的各种声音。特别地,监控系统所感兴趣的多是人在紧急状况下发出的呼叫声,咳嗽声,巨大的撞击声等能起到警告作用的异音,其识别本质上属于孤立词识别的范畴。环境声监控和识别是语音识别中的分支方向,处于发展初期,还没有可应用于非特定人的监控和识别系统得到实际应用,而随着智能楼宇、大型社交活动场所的安防及重要场所的监控等方面的需求与日俱增,急需发展这方面的技术。在“十二五”安防产业发展的大趋势下,基于中小词汇量孤立词识别的报警声监控和识别系统将会在未来的几年内取得较快发展。

用途

本系统设计以银行、博物馆、居室、室内停车场等室内应用场景的监控为设计背景,针对室内典型的声音(如“着火啦”、“抢劫” 及玻璃破碎声等),利用语音信号处理和声目标分类识别等领域的研究成果(包括特征提取和分类识别等),以音频和视频监控的 结合为应用目标,侧重于报警词识别系统的软件设计,最终将应用于报警声监控和自动识别硬件系统,为公安、消防等相关部门的决策提供关键信息。 概括而言,本系统设计可在以下安防相关领域得到直接或推广应用:
1) 银行、博物馆等重要场所的防盗报警监控系统;
2) 智能楼宇安全防卫监控及访客自动识别系统;
3) 医院重症病人监控或远程室内老人、儿童活动监护;
4) 背街小巷内的盗抢事件监控。 除了安防领域,该文涉及的核心技术在语音识别、说话人识别、智能家电、机器人等相关领域也具有一定的参考价值。

声监控系统关键问题分析

通过对特定应用场景的研究,本系统设计旨在将环境声识别的关键技术运用到这些场景中声音监控中。实际场景中,干扰噪声和混响往往是比较突出的问题,不同的场所这两个因素的影响程度不一,如何才能使环境声监控识别适应不同的声环境是系统研究的重点也是难点。具体的关键问题:
1) 干扰噪声下,系统自动检出有效语音段的问题,即端点检测问题。
2) 提取鲁棒的声音特征的问题,要求是能够最大程度地保留话者或者声音内容本身的特征而去除干扰声和通道噪声(如混响)带来的影响。
3) 环境声的匹配识别问题,在保证正确率的前提下,提高识别的效率。
4) 特定声环境下(混响,多个声源等)声线索性能精度下降问题,如混响下双耳定位性能下降,导致引导摄像头监控效率降低。以上这些是典型的环境声识别与监控所面临的问题,每一个问题的解决都是极其复杂的,本系统设计只能在特定条件下做局部的改进。
1) 针对监控设备(录音设备)带来的噪声干扰,该文提出了一种基于临界带功率谱方差的端点检测方法,能够有效地在含噪语音中找到语音,用于系统对环境声的识别。
2) 提出一种智能音视频联合的监控思想,对声源先进行定位,利用定位信息引导摄像,提高了视频监控的视域范围,同时进行声音的识别。
3) 针对混响和干扰噪声的影响,提出一种基于分类的定位方法,用于上述系统中,提高了系统的鲁棒性。

应用场景设计

语音识别技术的研究主要集中在语音识别的特征提取、模型建立、识别算法和语音信号处理(语音降噪、增强等)方面。对语音识别应用技术的研发主要集中在通信领域[5],如利用语音实现文本输入。在其他领域如楼宇智能监控、语音报警等方面的应用技术开发相对较少,国内还没有真正意义上将语音识别技术应用于这些方面的产品。该文将依托视频监控平台,设计一套室内报警声监控和识别系统,为其实际应用打下基础。随着国家经济发展水平的不断提高,科技水平特别是以计算机技术为代表的高科技的迅猛发展,人们对经济舒适、高效安全的生活环境的期望值越来越高,安全意识也与日俱增。同时由于人们生活节奏的加快,工作压力的增大,很多时候常常需要加班,家里的一些突发状况而得不到有效的通报,容易造成安全隐患。现实生活中,尤其是在治安较差的区域常有此类报道:不法分子入室实施盗窃、抢劫、杀人等犯罪行为,即使被害人大声疾呼,奋力反抗,也往往难以得到及时救助;或是晚上家里突然着火,浓烟弥漫,而当事人已经迷失方向,无法通过电话报警;或是独居的孤寡老人,突然身体不适,自己无力打电话求救,等到监护人员赶到时状况往往已经相当糟糕。这些不利的后果主要是因为无法报警或报警不及时而造成的。因此,能够及时地发出和接收报警信息并及时达到现场,想办法解除险情,这是生活小区安防领域急需解决的一个关键问题。在其他一些重要场所如博物馆、银行等,如果发生紧急事件(盗窃、抢劫)而没有及时报警,也非常可能造成重大人身或财产的损失。当然,除了报警功能外,孤立词语音识别的核心技术还可以应用到其他许多领域。如智能家电就是一种大有前途的领域,一旦技术发展成熟,人们即可实黑暗中通过语音来操控电视、电灯、空调等家用电器。上述应用场景大多属于室内环境,具有一些的相似特点:
1) 往往背景噪声较低、平稳或种类单一;
2) 声源至传声器(安装于监控设备)的距离通常较近;
3) 可能出现的报警语音种类有限。这些共同特性为本文后面的关键词选取、算法设计提供了主要依据。

功能需求设计

在前述室内应用环境中,语音识别要想发挥准确及时的自动识别和报警作用,对识别系统有一系列要求。
1) 保证在实际应用环境下具有较高的正确识别率。语音识别在噪声环境下的识别效果的下降一直是该项技术不能大面积商用、民用的直接原因。现阶段,该问题暂时还没有较完善和统一的解决。但是,在室内环境中,对于小词汇量的孤立词语音识别,通过算法优选和改良,识别率完全可能达到实际应用的要求。
2) 室内环境声监控与识别系统需要做到实时监控,及时报警。满足实时要求的最简单原则便是语音识别的时间要不大于语音本身的时长,而语音识别的时间长短主要由端点检测和模板匹配算法决定。关于端点检测和匹配算法本文将在下面的章节做详细的论述,并且提出相应的改进算法,以提高识别正确率和识别速度。
3) 报警与监控系统不仅要及时分析处理和报警,还有必要将采集的声音信号存储备查。这对于数据接口设计和硬件存储空间选择具有明确的要求。
4) 报警与监控系统的网络化。网络化是监控系统的基本要求,只有网络化才能使不在事发现场的监控人员了解现场的情况。这还与报警声识别系统的应用平台相关。
5) 能够方便地对语音模板库进行编辑和更新。如实现语音特征模板库的添加和删除,这对于系统的推广应用具有重要的价值。

系统基本结构

基于孤立词语音识别的报警声监控和识别系统按功能分为训练和识别两大阶段。训练包含预处理、特征提取两个模块;识别是在训练的基础上加一个匹配识别模块。对不同的语音识别任务来说,尽管设计和实现的细节不同,但所采用的基本技术是相似的。其中,训练语音样本的采集过程包含了对模拟信号的采样、滤波、量化、编码的过程;预处理包含预加重、加窗分帧、端点检测。预处理模块的功能是通过高频预加重来平滑信号频谱,并利用窗函数把语音数据序列分成连续的信号帧。端点检测单元主要完成确定单词的起始帧与结束帧的检测。特征提取单元的功能是完成基于频谱分析的特征矢量计算。当端点检测单元检测到当前语音信号帧为起始帧时,特征提取单元开始特征提取计算,并完成对特征矢量的存储。一个完整的孤立词语音识别系统,除了包括核心的模式识别程序,还应包括语音采集、参数分析、标准声学模型等。根据识别结果在实际环境下实现一定的应用,还必须考虑耐环境技术、用户输入、输出接口技术等。因此,语音识别技术加上各种外围技术的组合,才能构成一个完整的可实际应用的语音识别系统。

环境噪声监控技术的现状

随着现代城市的发展,噪音污染也成了环境污染的一个主要部分,而且有愈演愈烈的趋势。在环境噪音治理的过程中,噪音监测是一个必不可少的环节,同时也是管理和控制环境噪音的关键。着重讨论了我国噪音监控技术的现状,并提出初步的改进策略,以期为我国环境噪音的控制起到一定的促进作用。