重磅干货,第一时间送达
ACM国际多媒体会议(ACM International Conference on Multimedia,ACM MM),是计算机科学领域中多媒体领域首屈一指的国际会议。该会议是CCF推荐的A类会议,H5指数71,Impact Score 12.90。该会议专注于推动多媒体研究和应用,其研究领域广泛涉及触觉、视频、VR/AR、音频、语音、音乐、传感器和社交数据等多个新兴领域。其热门研究方向包括大规模图像视频分析、社会媒体研究、多模态人机交互、计算视觉、计算图像等等。今年的ACM MM 2023 已于2023年10月29日至11月2日在加拿大渥太华圆满举行!本文小编将带领大家一起梳理ACM MM 2023的获奖论文!让我们一起来深入探索这些令人惊叹的优秀研究成果吧!

题目:CATR: Combinatorial-Dependence Audio-Queried Transformer for Audio-Visual Video Segmentation作者:Kexin Li, Zongxin Yang, Lei Chen, Yi Yang, Jun Xiao简介:音视频分割(AVVS)的目标是生成声音产生对象在图像帧内的像素级映射,并确保该映射准确地符合给定的音频。然而,现有方法存在两个限制:1)它们分别处理视频的时间特征和音频与视频的交互特征,没有考虑到音频和视频之间内在的时空依赖关系;2)它们在解码阶段未充分引入音频约束和对象级信息,导致分割结果与音频指令不一致。为了解决这些问题,本文提出了一种解耦的音视频转换器,结合音频和视频特征从它们各自的时间和空间维度捕捉组合依赖性。
论文链接:https://arxiv.org/abs/2309.09709code:https://github.com/aspirinone/CATR.github.io题目:Cal-SFDA: Source-Free Domain-adaptive Semantic Segmentation with Differentiable Expected Calibration Error
作者:Zixin Wang, Yadan Luo, Zhi Chen, Sen Wang, Zi Huang
简介:本文提出了一种全新的标定引导的无源领域自适应语义分割框架,名为Cal-SFDA。该框架的核心思想在于估计分割预测的期望校准误差(ECE),作为模型对未标记目标领域泛化能力的强有力指示。相应地,通过估计的ECE分数,可以有效地进行模型训练和公平选择源训练以及目标适应阶段。在源域上的模型预训练过程中,作者采用LogSumExp技巧,并利用ECE分数来选择最佳的源检查点进行适应,以确保ECE目标的可微性。
论文链接:https://arxiv.org/abs/2308.03003
题目:RefineTAD: Learning Proposal-free Refinement for Temporal Action Detection
作者:Yue Feng, Zhengye Zhang, Rong Quan, Limin Wang, Jie Qin简介:本文提出了一种名为RefineTAD的创新无提议细化方法,旨在改进时间动作检测任务中的精细边界定位。该方法采用多级细化模块和偏移聚焦策略,逐步改善预测结果,从而显著提升了在三个具有挑战性数据集上最先进的时间动作检测方法的性能。
论文链接:https://dl.acm.org/doi/abs/10.1145/3581783.3611872
题目:Semantics2Hands: Transferring Hand Motion Semantics between Avatars
作者:Zijie Ye, Jia Jia, Junliang Xing简介:本文提出了一种全新的手势语义传输方法,名为解剖学基础语义矩阵(Anatomy-based Semantic Matrix,ASM)。该方法将手势语义编码到ASM中,并利用基于解剖学的语义重构网络(Anatomy-based Semantic Reconstruction Network,ASRN)获得源ASM到目标手关节旋转的映射函数,从而实现高精度的手势重定向。作者使用半监督学习策略在Mixamo和InterHand2.6M数据集上训练了ASRN,并对域内和跨领域手势重定向任务进行了评估。该方法具有革命性的意义,可广泛应用于手势交互、虚拟现实等领域。
论文链接:https://arxiv.org/abs/2308.05920code:https://github.com/abcyzj/Semantics2Hands
题目:Emotion Recognition ToolKit (ERTK): Standardising Tools For Emotion Recognition Research
作者:Aaron Keesing, Yun Sing Koh, Vithya Yogarajan,Michael Witbrock
简介:本文介绍了一个名为情感识别工具包(ERTK)的Python库,旨在提供情感识别方面的支持。ERTK包括处理情感数据集的脚本、标准接口特征提取器以及使用声明性配置文件定义实验的框架等功能。ERTK是一个具有模块化和可扩展性的工具包,可以轻松地集成其他模型和处理器。虽然当前版本的ERTK主要关注情感语音方面,但未来计划将其扩展到其他模态。该工具包的推出对于情感识别相关领域的学者和研究人员具有重要意义。
论文链接:https://dl.acm.org/doi/pdf/10.1145/3581783.3613459code:https://github.com/Strong-AI-Lab/emotion
题目:Open-RoadAtlas: Leveraging VLMs for Road Condition Survey with Real-Time Mobile Auditing
作者:Djamahl Etchegaray, Yadan Luo, Zachary FitzChance,Anthony Southon, Jinjiang Zhong简介:本文提出了一种自动测量平台,以解决目前道路测量方法成本高、耗时且不准确的问题,以帮助地方政府有效管理道路网络。该平台支持杂草、缺陷和资产监控,并利用视觉语言模型提高操作的灵活性。针对特定领域的类别,例如路面裂缝和坑洞,该平台通过训练检测器并使用视觉语言模型来降低误报率。该系统通过移动应用程序使管理人员直接参与,实现捕捉数据、上传信息、实时监控和识别开放词汇等功能。这一创新性的平台为道路测量和管理工作提供了便利和高效性。
论文链接:https://dl.acm.org/doi/pdf/10.1145/3581783.3612668
查计算机会议信息的一站式工具。会议截稿日期、召开信息、会议等级、您想要的信息这里都有!还等什么,快来体验吧~
往期精彩文章回顾
数字人演讲合成功能震撼上线!让思想插上人工智能的翅膀,跨越时空与界限!
截稿倒计时 | 【CCF-C类】ICECCS 2024年1月5日截稿,速来围观!
现场探报|2023年NIPS大会盛况揭秘!
1864篇ICASSP收录论文!5G、量子、语音、信号处理!最全面的论文合集!
万水千山总是情,点个在看行不行