近日,齐鲁工业大学(山东省科学院)自然语言处理与认知计算团队同南方科技大学视觉智能课题组合作的研究论文“Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models”被人工智能与计算机视觉领域顶级国际会议International Conference on Computer Vision ICCV 2023)录用。论文共同第一作者为我校2020级硕士研究生阚保硕同学和南方科技大学博士研究生王腾同学,论文共同通讯作者为我校鹿文鹏教授和南方科技大学郑锋教授。


ICCV是人工智能与计算机视觉领域的顶级学术会议,由电气和电子工程师协会(IEEE)主办,每两年召开一次。在2022年发布的《中国计算机学会推荐国际学术会议和期刊目录》和2019年发布的《清华大学计算机学科推荐学术会议和期刊列表》中,ICCV均被认定为A类会议。本届会议共有 8068 篇投稿,共接收论文2160篇,录用率约为26.7%;将于102日至106日在法国巴黎举行。


论文简介

题目:Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models

作者:Baoshuo Kan, Teng Wang, Wenpeng Lu*, Xiantong Zhen, Weili Guan, Feng Zheng*

预训练的视觉-语言模型(例如CLIP)结合手动设计的提示,在迁移学习方面展示出强大的能力。最近,可学习的提示实现了最先进的性能,但往往容易过拟合于已见类别,难以泛化到未见类别。针对这个问题,本文提出了一种面向视觉-语言模型的知识感知的提示方法(KAPT)。KAPT 为文本编码器设计了两种互补类型的知识感知提示,以利用与类别相关的外部知识的独特特征。离散提示从物体类别的描述中提取关键信息,而学习得到的连续提示则捕捉整体上下文。KAPT还为视觉编码器设计了一个适应头,以聚合显著的注意力视觉线索,从而建立具有区分性和任务感知的视觉表示。在11个广泛使用的基准数据集上进行了大量实验,结果验证了KAPT在小样本图像分类方面的有效性,特别是在对未见类别的泛化性方面。