ACMMM2023获奖论文合集！探究多媒体研究新视野！

ACM MM 2023 获奖论文合集！探究多媒体研究新视野！

原创实时关注会议动态

重磅干货，第一时间送达

ACM MM 2023

ACM国际多媒体会议（ACM International Conference on Multimedia，ACM MM），是计算机科学领域中多媒体领域首屈一指的国际会议。该会议是CCF推荐的A类会议，H5指数71，Impact Score 12.90。该会议专注于推动多媒体研究和应用，其研究领域广泛涉及触觉、视频、VR/AR、音频、语音、音乐、传感器和社交数据等多个新兴领域。其热门研究方向包括大规模图像视频分析、社会媒体研究、多模态人机交互、计算视觉、计算图像等等。今年的ACM MM 2023 已于2023年10月29日至11月2日在加拿大渥太华圆满举行！本文小编将带领大家一起梳理ACM MM 2023的获奖论文！让我们一起来深入探索这些令人惊叹的优秀研究成果吧！

最佳论文奖

题目：CATR: Combinatorial-Dependence Audio-Queried Transformer for Audio-Visual Video Segmentation

作者：Kexin Li, Zongxin Yang, Lei Chen, Yi Yang, Jun Xiao

简介：音视频分割（AVVS）的目标是生成声音产生对象在图像帧内的像素级映射，并确保该映射准确地符合给定的音频。然而，现有方法存在两个限制：1）它们分别处理视频的时间特征和音频与视频的交互特征，没有考虑到音频和视频之间内在的时空依赖关系；2）它们在解码阶段未充分引入音频约束和对象级信息，导致分割结果与音频指令不一致。为了解决这些问题，本文提出了一种解耦的音视频转换器，结合音频和视频特征从它们各自的时间和空间维度捕捉组合依赖性。

论文链接：https://arxiv.org/abs/2309.09709

code：https://github.com/aspirinone/CATR.github.io

最佳学生论文奖

题目：Cal-SFDA: Source-Free Domain-adaptive Semantic Segmentation with Differentiable Expected Calibration Error

作者：Zixin Wang, Yadan Luo, Zhi Chen, Sen Wang, Zi Huang

简介：本文提出了一种全新的标定引导的无源领域自适应语义分割框架，名为Cal-SFDA。该框架的核心思想在于估计分割预测的期望校准误差（ECE），作为模型对未标记目标领域泛化能力的强有力指示。相应地，通过估计的ECE分数，可以有效地进行模型训练和公平选择源训练以及目标适应阶段。在源域上的模型预训练过程中，作者采用LogSumExp技巧，并利用ECE分数来选择最佳的源检查点进行适应，以确保ECE目标的可微性。

论文链接：https://arxiv.org/abs/2308.03003

荣誉提名奖

题目：RefineTAD: Learning Proposal-free Refinement for Temporal Action Detection

作者：Yue Feng, Zhengye Zhang, Rong Quan, Limin Wang, Jie Qin

简介：本文提出了一种名为RefineTAD的创新无提议细化方法，旨在改进时间动作检测任务中的精细边界定位。该方法采用多级细化模块和偏移聚焦策略，逐步改善预测结果，从而显著提升了在三个具有挑战性数据集上最先进的时间动作检测方法的性能。

论文链接：https://dl.acm.org/doi/abs/10.1145/3581783.3611872

创新创意奖

题目：Semantics2Hands: Transferring Hand Motion Semantics between Avatars

作者：Zijie Ye, Jia Jia, Junliang Xing

简介：本文提出了一种全新的手势语义传输方法，名为解剖学基础语义矩阵（Anatomy-based Semantic Matrix，ASM）。该方法将手势语义编码到ASM中，并利用基于解剖学的语义重构网络（Anatomy-based Semantic Reconstruction Network，ASRN）获得源ASM到目标手关节旋转的映射函数，从而实现高精度的手势重定向。作者使用半监督学习策略在Mixamo和InterHand2.6M数据集上训练了ASRN，并对域内和跨领域手势重定向任务进行了评估。该方法具有革命性的意义，可广泛应用于手势交互、虚拟现实等领域。

论文链接：https://arxiv.org/abs/2308.05920

code：https://github.com/abcyzj/Semantics2Hands

开源奖

题目：Emotion Recognition ToolKit (ERTK): Standardising Tools For Emotion Recognition Research

作者：Aaron Keesing, Yun Sing Koh, Vithya Yogarajan,Michael Witbrock

简介：本文介绍了一个名为情感识别工具包（ERTK）的Python库，旨在提供情感识别方面的支持。ERTK包括处理情感数据集的脚本、标准接口特征提取器以及使用声明性配置文件定义实验的框架等功能。ERTK是一个具有模块化和可扩展性的工具包，可以轻松地集成其他模型和处理器。虽然当前版本的ERTK主要关注情感语音方面，但未来计划将其扩展到其他模态。该工具包的推出对于情感识别相关领域的学者和研究人员具有重要意义。

论文链接：https://dl.acm.org/doi/pdf/10.1145/3581783.3613459

code：https://github.com/Strong-AI-Lab/emotion

最佳演示论文

题目：Open-RoadAtlas: Leveraging VLMs for Road Condition Survey with Real-Time Mobile Auditing

作者：Djamahl Etchegaray, Yadan Luo, Zachary FitzChance,Anthony Southon, Jinjiang Zhong

简介：本文提出了一种自动测量平台，以解决目前道路测量方法成本高、耗时且不准确的问题，以帮助地方政府有效管理道路网络。该平台支持杂草、缺陷和资产监控，并利用视觉语言模型提高操作的灵活性。针对特定领域的类别，例如路面裂缝和坑洞，该平台通过训练检测器并使用视觉语言模型来降低误报率。该系统通过移动应用程序使管理人员直接参与，实现捕捉数据、上传信息、实时监控和识别开放词汇等功能。这一创新性的平台为道路测量和管理工作提供了便利和高效性。