CSIG-广东省CVPR2023论文分享学术报告会于2023年5月6日成功召开,本次学术报告会由中国图象图形学学会(CSIG)和广东省图象图形学会(GDISG)主办,由CSGI广州会员活动中心、CSIG文档图像分析与识别专委会、CSIG机器视觉专委会、CSGI计算机视觉专委会、GDSIG计算机视觉专委会、华南理工大学电子与信息学院和中山大学计算机学院联合承办,20位广东省图像图形领域的优秀青年学子介绍了他们CVPR 2023录用论文的最新研究成果,报告会在B站、蔻享学术和中国图象图形学会视频号三个平台进行了同步直播。来自全国各地的听众约6000人次在线参加了本次学术报告会。
CSIG广州会员活动中心主席赖剑煌教授致开幕辞
会议由CSIG副理事长、CSIG广州会员活动中心的主席、中山大学赖剑煌教授致开幕词。赖教授指出,CVPR是计算机视觉和模式识别的顶级学术会议,多领域内富有影响的原创方法都是来自于这个会议,今年会议的录用率为25.76%,从9155篇论文中录用了2359篇,投稿量非常大,能够录用非常不容易。本次会议邀请了20位广东省此领域部分优秀团队的青年学子,介绍他们今年CVPR2023录用论文的最新研究成果,这些研究成果也将代表性的展示广东学者在计算机视觉模式识别领域的学术风采和研究水平。
以下是20个报告的简要总结:
报告1:来自华南理工大学的曲晨帆同学做了题为“文档图像篡改检测: 新数据与新方法”的学术报告,论文提出了Selective Tamper Generation (STG)来自动基于无篡改图像素材合成篡改样本,有效模拟了人进行文档篡改的过程,并高效地生成大量多样化的文档篡改样本。同时还出了一种新的文档图像篡改检测方法Document Tamper Detector (DTD),能够较为有效地检出无视觉痕迹的文档图像篡改,并有相对较好的抗图像压缩鲁棒性和泛化性,在多个文档图像篡改检测数据集上均达到了最优水平。
报告2:来自深圳大学的李浩同学做了题为“StyleGene: 基于模拟面部基因交叉突变的亲属关系人脸生成模型”的学术报告,提出了一种亲属关系人脸生成的方法。论文提出了一种RFG(区域级面部基因)提取框架来解决具有遗传关系的高质量后代面孔生成的问题。他们提出使用IGE(基于图像的基因编码器)、LGE(基于潜在空间的基因编码器)和基因解码器来学习给定面部图像的RFG以及RFG与StyleGAN2的潜在空间之间的关系。通过设计类似循环的损失函数来衡量基因解码器和图像编码器的输出之间以及LGE和IGE的输出之间的L2距离,框架只需要面部图像进行训练,即不需要成对的亲属面孔数据。基于提出的RFG,还进一步设计了交叉和突变模块来继承父母的面部特征。基因池也被用来引入RFG突变的变化,从而显著增加了后代面孔的多样性。在FIW、TSKinFace和FF-Databases上进行的定性、定量和主观实验证明,该方法生成的亲属关系人脸的质量和多样性要远远优于现有的最先进方法。
报告3:来自中山大学的刘祖浩同学做了题为“使用基于提示特征映射的异常生成方式于视频异常检测中”的学术报告,提出了一种在监控视频中进行异常检测的方法。虚拟异常检测数据集与显示场景中存在异常差异和场景差距,论文提出了一种基于提示的特征映射框架(PFMF)来解决异常差距和场景差距的问题。PFMF包括一个由异常提示引导的映射网络,用于在真实场景中生成无界类型的未见异常,并且包括一个映射自适应分支,通过应用域分类器和异常分类器来缩小场景差距。所提出的框架在三个基准数据集上优于现有最先进方法,大量的消融实验也证明了该框架设计的有效性。
报告4:来自华南理工大学的彭政华同学做了题为“基于感知和语义正则的序列识别模型置信度校准”的学术报告,提出了一种感知和语义感知的序列正则化框架,发现与目标序列具有高感知和语义相关性的标记/序列包含更相关和有效的信息,可以促进更有效的正则化。他们引入了一个语义无关的识别模型和一个语言模型,分别获取具有高感知相似性和语义相关性的相似序列。此外,由于样本的难度不同,过度自信程度也会有所变化。因此,他们进一步设计了一个自适应校准强度模块,为每个样本计算一个难度分数,以获得更细粒度的正则化。在经典的序列识别任务(包括场景文本识别和语音识别)上进行的广泛实验证明,该方法都取得了最先进的结果。
报告5:来自中国科学院大学的徐名业做了题为“MM-3DScene:信息保留补全和一致性自蒸馏的定制化掩码建模3D场”的学术报告,介绍了一种将掩码建模应用在3D场景的新颖方法。论文提出了一种新颖的信息保留重建方法,通过探索局部统计信息来发现和保留具有代表性的结构点,有效地增强了对3D场景理解的预训练遮罩任务。结合渐进式重建方式,该方法可以集中于对区域几何进行建模,并在遮罩重建过程中减少模糊性。此外,具有渐进遮罩比率的这种场景还可以用来自我提炼其内在的空间一致性,需要从未遮罩区域学习一致的表示。通过将对遮罩区域进行信息保留重建和对未遮罩区域进行一致性自我提炼巧妙地结合起来,团队提出了一个名为MM-3DScene的统一框架。在多个下游任务上进行了全面的实验,实验结果都有一致的提升,标检测中的+6.1% mAP@0.5和语义分割中的+2.2% mIoU。
报告6:来自中山大学的谢震宇做了题为“GP-VTON:一种基于局部光流和全局语义分割的通用虚拟试穿方法”的学术报告,通过开发创新的局部流全局解析(LFGP)变形模块和动态梯度截断(DGT)训练策略,提出了一个通用的名为GP-VTON虚拟试穿框架,解决了各向异性变形和纹理失真并迈向真实世界的虚拟试穿的问题。与先前的全局变形机制相比,LFGP利用局部流来分别对服装部位进行变形,并通过全局服装解析将局部变形结果组合起来,从而得到合理的变形部位和语义正确的完整服装,即使在面临挑战性输入时也能如此。另一方面,DGT训练策略动态截断重叠区域的梯度,不再要求变形的服装满足边界约束,有效避免了纹理挤压问题。此外, GP-VTON可以轻松扩展到多类别场景,并通过使用不同服装类别的数据进行联合训练。在两个高分辨率基准测试上进行的广泛实验证明了该方法相对于现有最先进方法的优越性。
报告7:来自中山大学的董钧昊做了题为“敌人的敌人就是我的朋友:探索反向对抗样本来改进对抗训练”的学术报告,提出了一种新颖的对抗训练方案,鼓励模型对抗性样本及其“逆对抗性”对应物产生相似的输出概率。对应物是通过在自然样本附近最大化似然来生成的。在各种视觉数据集和架构上进行的广泛实验表明,该方法在鲁棒性和自然精度方面都达到了最先进的水平。此外,通过使用逆对抗性样本的通用版本,他们以较低的计算成本改进了单步对抗性训练技术的性能。
报告8:来自华南理工大学的唐慧做了题为“一个新的基准:合成数据对监督学习与下游迁移的功用研究”的学术报告,作者通过领域随机化的三维渲染生成合成数据,在这条路线中进行了深入广泛的研究,涉及无监督学习和下游领域自适应。在由三维渲染实现的良好控制的独立同分布数据设置下,他们系统地验证了典型的重要学习见解,例如快捷学习,并发现了各种数据规则和网络架构在泛化中的新规律。他们一步研究了图像形成因素对泛化的影响,例如对象尺度、材质纹理、光照、相机视角和三维场景中的背景。此外,他们将从仿真到现实的适应作为下游任务,比较了合成数据和真实数据在预训练时的可转移性,结果表明合成数据的预训练也有望改善真实测试结果。最后,为了促进未来的研究,他们开发了一个新的大规模合成到真实的图像分类基准,称为S2RDA,为从仿真到现实的转移提供了更大的挑战。
报告9:来自华南理工大学的代港做了题为“基于书写者风格和字符风格解耦的手写文字生成”的学术报告,提出从个体手写中解耦作家和字符级别的风格表示,以合成逼真的风格化在线手写字符。他们提出了风格解耦变换器(SDT),它采用两种互补的对比目标,分别提取参考样本的风格共性和捕捉每个样本的详细风格模式。对各种语言文字的广泛实验证明了SDT的有效性。他们的实验研究发现,这两种学习到的风格表示在不同频率幅度上提供了信息,突显了分离风格提取的重要性。
报告10:来自中山大学的张嘉诚做了题为“Semi-DETR:基于Transformer检测器的半监督目标检测”的学术报告,对基于DETR的半监督目标检测(SSOD)框架进行了分析,并发现了一些问题。为了解决这些问题,他们提出了Semi-DETR,这是第一个基于Transformer的端到端半监督目标检测器。他们提出了一种分阶段混合匹配策略,将一对多分配策略和一对一分配策略相结合,以提高第一阶段的训练效率,并为第二阶段的训练提供高质量的伪标签。此外,他们引入了一种跨视图查询一致性方法,以学习不同视图下目标查询的语义特征不变性,同时避免了需要找到确定性查询对应关系的问题。此外,他们还提出了一种基于成本的伪标签挖掘模块,根据伪标注边界框的匹配成本动态挖掘更多的伪框,用于一致性训练。在COCO和Pascal VOC基准数据集的所有SSOD设置上进行了大量实验证明,他们的Semi-DETR方法明显优于所有现有的方法。
报告11:来自中山大学的熊江昊做了题为“基于相似度度量学习的可见光-近红外小股人群重识别”的学术报告,提出了一种度量学习方法Closest Permutation Matching(CPM)用于RGB-红外的群体再识别(RGB-IR G-ReID)。他们将每个群体建模为一组通过MPANet提取的单人特征,并提出了最近置换距离(CPD)度量来衡量两组特征之间的相似性。CPD对于群体成员顺序的改变是不变的,因此解决了G-ReID中的布局变化问题。此外,他们介绍了无人员标签的G-ReID问题。在弱监督的情况下,他们设计了关系感知模块(RAM),利用视觉上下文和群体成员之间的关系来产生每个群体中特征的模态不变顺序,通过该顺序将组内的群体成员特征排序,形成对抗模态变化的强大群体表示。为支持RGB-IR G-ReID的研究,他们构建了一个新的大规模RGB-IR G-ReID数据集CM-Group。该数据集包含427个群体和1,013个身份的15,440个RGB图像和15,506个红外图像。对新数据集的大量实验验证了所提出模型的有效性和CM-Group的复杂性。
报告12:来自清华大学的吉雅太做了题为“看到你缺失的:基于语义补全学习的视觉语言预训练”的学术报告,提出了一种新颖的语义补全学习(SCL)任务,作为现有屏蔽建模任务的补充,以促进全局语义表示到局部的对齐。SCL任务通过从另一模态中捕获相应信息来补充屏蔽数据的缺失语义,促进学习更具代表性的全局特征,这对下游任务的性能有很大影响。此外,他们还提出了一种灵活的视觉编码器,使他们的模型能够同时执行图像-文本和视频-文本多模态任务。实验证明,他们提出的方法在各种视觉-语言基准测试中取得了最先进的性能,如视觉问答、图像-文本检索和视频-文本检索。
报告13:来自中山大学的梁曦文做了题为“用于自动驾驶统一感知中的视觉范例驱动的任务提示”的学术报告,他们广泛研究了流行的多任务方法在大规模驾驶数据集上的性能,全面评估目前自动驾驶中的多任务学习方法,该数据集涵盖了四个常见的感知任务,包括目标检测、语义分割、可行驶区域分割和车道检测。他们对当前的多任务学习方法在不同常见设置下进行了深入分析,并发现与单任务基准相比,现有方法取得了进展,但仍存在较大的性能差距。为了缓解自动驾驶中的这一困境,他们提出了一个有效的多任务框架VE-Prompt,通过任务特定的提示引入视觉示例,引导模型学习高质量的任务特定表示。他们基于边界框和基于颜色的标记生成视觉示例,提供目标类别的准确视觉外观,并进一步减小性能差距。此外,他们将基于Transformer的编码器和卷积层相结合,实现自动驾驶中高效准确的统一感知。在多样化的自动驾驶数据集BDD100K上进行的全面实验结果表明,VE-Prompt改进了多任务基准,并进一步超越了单任务模型。
报告14:来自哈尔滨工业大学的刘亚博做了题为“CIGAR:基于跨模态图推理的领域自适应目标检测研究”的学术报告,提出了一种跨模态图推理自适应(CIGAR)方法,解决了现有的图基方法在UDA-OD中无法学习适当的图节点集的问题。他们的方法在语言模态图和视觉模态图之间进行跨模态图推理,增强它们的表示能力。他们还提出了一种判别性特征选择器,用于找到最具区分性的特征,并将其作为视觉图的节点,以提高效率和效果。此外,他们采用语言图匹配损失来调节语言图的更新,并在训练过程中维持其语义表示。全面的实验证实了他们提出的CIGAR方法的有效性。
报告15:来自中山大学的黄日聪做了题为“数化隐式表达的音频驱动数字说话人视频生成”的学术报告,提出了一种既具有可控性又能生成高质量说话头像的音频驱动面部重现框架,通过创新的参数化隐式面部表示,解决了现有音频驱动面部重现技术中解释性和表现力、可控性和结果质量之间的权衡问题。他们的参数化隐式表示使用可解释的3D面部模型参数化隐式表示,从而兼具显式和隐式方法的优点。此外,他们提出了几种新技术来改进他们框架的三个组成部分,包括:i)将上下文信息纳入音频到表情参数编码中;ii)使用条件图像合成来参数化隐式表示,并使用创新的三平面结构进行高效学习;iii)将面部重现形式化为条件图像修复问题,并提出一种新颖的数据增强技术以提高模型的泛化能力。广泛的实验证明,他们的方法可以生成比先前方法更逼真、更符合说话者身份和说话风格的结果。
报告16:来自华南理工大学的李焕童做了题为“无数据量化中困难样本很重要”的学术报告,李焕童的学术报告,提出了一种称为HAST(HArd sample Synthesizing and Training)的方法,解决了零样本量化(Zero-shot quantization)方法得到的量化模型在难样本上会出现显著的性能下降的问题。HAst在合成样本时更加关注难样本,并且在训练量化模型时使合成样本难以拟合。HAst通过对齐全精度模型和量化模型提取的特征,确保这两种模型提取的特征之间的相似性。广泛的实验表明,HAst明显优于现有的ZSQ方法,性能接近使用真实数据进行量化的模型。
报告17:来自北京大学的吴艳敏做了题为“EDA:显式文本解耦与稠密对齐的 3D Visual Grounding”的学术报告,提出了EDA(Explicitly Decouples Attributes)方法,明确解耦了句子中的文本属性,并在细粒度的语言和点云物体之间进行了密集对齐,解决了现有3D视觉定位容易丢失词级信息的问题。他们首先提出了一个文本解耦模块,为每个语义组件生成文本特征。然后,他们设计了两种损失函数来监督两种模态之间的密集匹配:位置对齐损失和语义对齐损失。在此基础上,他们进一步引入了一个新的视觉定位任务,即定位没有物体名称的物体,这可以全面评估模型的密集对齐能力。通过实验证明,他们在两个广泛采用的3D视觉定位数据集ScanRefer和SR3D/NR3D上取得了最先进的性能,并在他们提出的新任务中取得了绝对领先地位。
报告18:来自清华大学的印飞做了题为“利用人脸镜像先验的三维生成模型反演算法”的学术报告,提出了一种通过引入面部对称性先验来促进3D GAN反演的新方法。他们设计了一个流程和约束条件,充分利用通过图像翻转获得的伪辅助视角,在反演过程中帮助获得稳健合理的几何形状。为了增强未观察视角的纹理保真度,深度引导的3D变形提供了额外的监督信息。他们设计了约束条件,旨在过滤不对称情况下的冲突区域以进行优化。对图像重建和编辑进行全面的定量和定性评估表明了他们方法的优越性。
报告19:来自中山大学的敖晟做了题为“BUFFER:平衡点云配准的准确性、效率和泛化性”的学术报告,提出了一种名为BUFFER的点云配准方法,解决了现有点云配准技术在准确性、效率和泛化能力方面不足的问题。他们的方法的关键在于同时利用点级和块级技术,克服了固有的缺点。与简单地结合现有方法不同,他们网络的每个组成部分都经过精心设计,以应对特定的问题。作者首先引入了一个点级学习器,通过预测关键点并通过估计点的方向来提高计算效率和特征的表示能力;然后,部署了一个轻量级的局部特征学习器,即块级嵌入器,用于提取高效且通用的块特征;此外,他们还提出了一个内点生成器,它结合了简单的神经层和通用特征来搜索内点对应关系。对真实场景的大量实验证明,他们的方法在准确性、效率和泛化能力方面兼具优势。他们的方法不仅在未见域上达到了最高的成功率,而且比专注于泛化的强基线方法快近30倍。
中国图象图形学学会理事、CSIG文档图像分析与识别专委会金连文教授致闭幕辞
大会在中国图象图形学学会常务理事、CSIG文档图像分析与识别专委会主任、华南理工大学金连文教授的致辞中闭幕。金老师首先感谢了所有线上参加本次广东省CVPR论文交流的报告会的老师和同学,感谢大家关注CSIG和广东省图象图形学会联合主办的这一次学术交流活动。进一步,金老师介绍了广东省CVPR论文交流活动的往年情况,从2020年第一届小规模12篇论文交流,到今年2023年是第四届达到了20篇,仍然有很多报名参加交流的同学无法安排,显示广东省在计算机视觉领域的持续活跃度。金教授对本次带来精彩论文分享的20位同学、背后的指导老师和团队、本次会议主持人、以及听众表达了感谢。
我们期待更多优秀青年学子在计算机视觉领域取得研究进展,并在未来的报告会中踊跃参与、共同推动计算机视觉领域的学术交流和技术进步
大会演讲视频将进行适当整理后,对广大学者提供开放录播服务,错过直播的同学可以关注蔻享学术微信公众号(微信搜索“蔻享学术”即可),及时获得报告录播回放信息。
蔻享学术链接:https://m.koushare.com/lives/room/044950
Copyright © 2024 广东省图象图形学会
地址:广东省广州市五山路381号华南理工大学逸夫科学馆406I
邮编:510640
联系电话:18934029278