商世东是云端会议软件腾讯会议(国际版为VooV Meeting)旗下腾讯天籁实验室的总经理。自2019年加入腾讯以来,商世东带领团队为腾讯会议开发实时音频技术,并通过各种努力为听障人士提供帮助。在加入腾讯之前,他在视听技术领域拥有近20年的经验,曾就职于摩托罗拉和杜比实验室。
在最新一期腾讯视角中,商世东与我们分享了天籁实验室的最新进展以及他在腾讯的生活点滴。
1. 您当初为何决定加入腾讯?
这对我来说并不是一个艰难的决定。在从事音视频技术研发工作近二十年后,我愈发渴望直接参与产品开发和迭代,直接与用户交流,让自己的研究对世界产生真正的影响。
以前,我更多是投身于实验室进行一线的科学研究。而现在我每天可以为几千万甚至数亿用户提供技术支持,让他们的工作和生活更加方便,这让我倍感振奋和自豪。
2. 在过去的两年中,您为自己和团队设定了哪些目标?加入腾讯以来最难忘的是什么?
加入团队的第一年,我的目标是改善腾讯多媒体实验室与音频相关的技术解决方案,了解腾讯的企业文化和各项业务,与其他团队积极沟通,使我们开发的技术可以在现有平台上发挥更大作用。
随后我们开始思考如何将远程通信和音频相关的技术应用于更多场景。整个天籁语音模块就是基于这些理念设计的。采用天籁语音技术的腾讯会议于2019年底正式发布,目前全球用户数已接近2亿。疫情爆发后,我们能够满足用户对高效、稳定的远程通信和协同办公的需求。
我们在这一阶段取得的成果超出了我的预期。非常感谢腾讯让我和我的团队可以自由地决定研发工作的方向和方法,鼓励我们全情投入在对公司、行业和社会均具价值的技术研究,这不仅实现了我为自身职业生涯设定的目标,也帮助了有需要的人。
3. 天籁AI音频技术是天籁实验室的重要成果。您能简单介绍一下这项技术的研发过程吗?
大约6年前,随着网络的普及以及云计算、深度学习和其他技术的进步,我们预见到视听技术将在虚拟会议、协同办公等领域发挥更大的作用。
近20年来,腾讯在音视频通信领域积累了丰富的经验和强大的技术能力。我们的音频技术被采用于拥有庞大用户群的社交软件、视频和游戏等消费产品,以及云计算和AI行业服务等工业解决方案。这项技术在多个行业具备巨大的应用潜力,并且拥有庞大的用户群,这对研发人员来说无疑是独特的优势。
不过,视频会议仍存在一些亟待解决的痛点,例如如何让用户在实时虚拟会议中听得更清楚。天籁实验室继续通过语音信号本身来降低噪音,同时不断改善电路设计、声学效果和算法。
我们运用声场感知、采集和重建技术,创造性地解决了会议室复杂场景中实时音频技术的诸多问题。此外,我们利用深度学习模型,消除了会议室中的200余种非平稳噪声,例如来自空调、风扇叶片旋转、在手机屏幕上书写、敲击键盘、放下杯子和翻页等等的噪声。(点击了解商世东的团队如何让声音更清晰)
4. 天籁实验室与国际知名制造商美笛乐(MED-EL)联合开发了全球首个集听力测试、辅听、远程听力服务于一体的助听应用。双方是如何合作的?
随着腾讯会议和我们的其他产品相继取得成功,天籁技术的出色表现有目共睹。我们开始思考这项技术是否可以应用到更广泛的领域。多年来,腾讯一直与公益组织紧密合作,所以我们把目光投向了听障人群的潜在需求。
虽然我们拥有先进的音频技术和通讯领域的成功经验,但我们不是专业的医疗设备公司。去年,我们通过与中国知名的人工耳蜗制造商诺尔康合作,将天籁AI技术应用于人工耳蜗,将人工耳蜗的语音清晰度和可懂度提高了40%。
我们了解到,受疫情影响,部分听障用户难以外出就诊或接受听力检测,因此我们开始思考如何满足听障用户居家进行康复和问诊的需求。起初,我们开发了一个微信小程序。经过与用户、厂商和医疗专家的无数次沟通,同时结合数据分析,我们不断升级和优化这个小程序的各项功能,并将其升级为一个独立的移动端应用程序。在此过程中,我们的决心和能力给合作伙伴留下了深刻印象,为此后的合作奠定了基础。
在我看来,作为技术部门的负责人,你首先必须信赖自己的技术,然后从用户的角度出发去理解他们的感受。此外,你必须有推动项目发展的决心和毅力,积极寻求外部合作伙伴或公司内部资源的支持,实现互利共赢。
5. 我们如何才能在未来充分发挥技术的潜力,为社会创造价值?
腾讯始终秉承“科技向善”的使命,在商业、技术、产品等各个方面躬耕不辍。以我们实验室为例,公司从来没有给我们设定明确的短期商业化目标,而是鼓励大家思考我们的技术如何才能惠及更多的人,创造更大的社会价值。在这样一个宽松灵活的环境中,我们可以根据自己对技术的理解和现有的技术储备,思考弱势群体的真实需求和相关应用场景,从而开发出服务不同人群的产品。
其次,腾讯一直倡导双赢战略,与合作伙伴共建产业生态。例如,公司与专业志愿者、志愿者组织和公益机构联合设立“腾讯技术公益计划”,通过技术创新和协作来解决社会痛点。我们与美笛乐合作时,双方首要考虑的是携手实现我们的愿景,而非自身的利益。
我认为,音频技术在助力实现无障碍社会方面拥有巨大的潜力。今年4月,腾讯宣布升级总体战略,将“推动可持续社会价值创新”作为核心。我们与新成立的可持续社会价值事业部旗下实验室,积极讨论和探索音频技术的社会价值。例如,我们正在研究音频技术如何帮助老年人,以便更好地满足养老院和老年人康复中心等场景的需求。许多长辈听力受损,通过语音增强和降噪等技术,可以大大改善他们的生活质量。
6. 您的一天通常是怎么度过的?可否简单介绍一下天籁实验室的日常工作和团队文化?
天籁实验室倡导开放、创新和变革。团队里的每个人都有各自的技术专长,能够在不同业务场景发挥所长,我们鼓励大家走出自己的舒适区,更多了解外面的世界,看看其他行业取得的哪些重要进展可以启发或融入我们的技术之中。
只有保持开放的视野和思维,我们才能更好地进行跨行业合作和创新。例如,许多用户希望在音频产品中使用视觉、图像、文字等功能,这就需要我们进行多模态和跨模态的语音处理,以提供更好的体验。
我非常喜欢听故事,经常听播客,最喜欢的播客是“People Fixing the World”。世界上有许多问题。有的人只看到困难,而有的人却思考如何解决困难。我经常会深受鼓舞,更加确信自己可以作出更大的贡献,让世界变得更美好。