您当前所在位置: 首页 > 首发论文
动态公开评议须知

1. 评议人本着自愿的原则,秉持科学严谨的态度,从论文的科学性、创新性、表述性等方面给予客观公正的学术评价,亦可对研究提出改进方案或下一步发展的建议。

2. 论文若有勘误表、修改稿等更新的版本,建议评议人针对最新版本的论文进行同行评议。

3. 每位评议人对每篇论文有且仅有一次评议机会,评议结果将完全公示于网站上,一旦发布,不可更改、不可撤回,因此,在给予评议时请慎重考虑,认真对待,准确表述。

4. 同行评议仅限于学术范围内的合理讨论,评议人需承诺此次评议不存在利益往来、同行竞争、学术偏见等行为,不可进行任何人身攻击或恶意评价,一旦发现有不当评议的行为,评议结果将被撤销,并收回评审人的权限,此外,本站将保留追究责任的权利。

5. 论文所展示的星级为综合评定结果,是根据多位评议人的同行评议结果进行综合计算而得出的。

勘误表

上传勘误表说明

  • 1. 请按本站示例的“勘误表格式”要求,在文本框中编写勘误表;
  • 2. 本站只保留一版勘误表,每重新上传一次,即会覆盖之前的版本;
  • 3. 本站只针对原稿进行勘误,修改稿发布后,不可对原稿及修改稿再作勘误。

示例:

勘误表

上传勘误表说明

  • 1. 请按本站示例的“勘误表格式”要求,在文本框中编写勘误表;
  • 2. 本站只保留一版勘误表,每重新上传一次,即会覆盖之前的版本;
  • 3. 本站只针对原稿进行勘误,修改稿发布后,不可对原稿及修改稿再作勘误。

示例:

上传后印本

( 请提交PDF文档 )

* 后印本是指作者提交给期刊的预印本,经过同行评议和期刊的编辑后发表在正式期刊上的论文版本。作者自愿上传,上传前请查询出版商所允许的延缓公示的政策,若因此产生纠纷,本站概不负责。

发邮件给 王小芳 *

收件人:

收件人邮箱:

发件人邮箱:

发送内容:

0/300

论文收录信息

论文编号 202502-159
论文题目 基于细粒度辅助任务的多模态模型微调方法
文献类型
收录
期刊

上传封面

期刊名称(中文)

期刊名称(英文)

年, 卷(

上传封面

书名(中文)

书名(英文)

出版地

出版社

出版年

上传封面

书名(中文)

书名(英文)

出版地

出版社

出版年

上传封面

编者.论文集名称(中文) [c].

出版地 出版社 出版年-

编者.论文集名称(英文) [c].

出版地出版社 出版年-

上传封面

期刊名称(中文)

期刊名称(英文)

日期--

在线地址http://

上传封面

文题(中文)

文题(英文)

出版地

出版社,出版日期--

上传封面

文题(中文)

文题(英文)

出版地

出版社,出版日期--

英文作者写法:

中外文作者均姓前名后,姓大写,名的第一个字母大写,姓全称写出,名可只写第一个字母,其后不加实心圆点“.”,

作者之间用逗号“,”分隔,最后为实心圆点“.”,

示例1:原姓名写法:Albert Einstein,编入参考文献时写法:Einstein A.

示例2:原姓名写法:李时珍;编入参考文献时写法:LI S Z.

示例3:YELLAND R L,JONES S C,EASTON K S,et al.

上传修改稿说明:

1.修改稿的作者顺序及单位须与原文一致;

2.修改稿上传成功后,请勿上传相同内容的论文;

3.修改稿中必须要有相应的修改标记,如高亮修改内容,添加文字说明等,否则将作退稿处理。

4.请选择DOC或Latex中的一种文件格式上传。

上传doc论文   请上传模板编辑的DOC文件

上传latex论文

* 上传模板导出的pdf论文文件(须含页眉)

* 上传模板编辑的tex文件

回复成功!


  • 0

基于细粒度辅助任务的多模态模型微调方法

首发时间:2025-02-28

史植升 1   

史植升(2000-),男,研究生,主要研究方向:多模态认知计算。

王小捷 1   

王小捷(1969-),男,教授,主要研 究方向:自然语言处理、多模态认知计算,E-mail: xjwang@bupt.edu.cn

  • 1、北京邮电大学人工智能学院,北京 100000

摘要:随着多模态图文模型的不断发展,其对图文和文本中的粗粒度实体的识别能力有了充足的提升。然而,当前模型对细粒度信息的处理能力还相对薄弱。目前,有许多研究通过引入细粒度任务以提升模型的细粒度能力。但大部分研究忽视了在微调阶段引入细粒度任务的重要作用。因此,本文将细粒度的MLM任务引入多模态图文模型的微调阶段,将其作为辅助任务使用,旨在提升模型的细粒度能力。最后,本文在vlm-probing,food-500-cap等数据集上的实验结果表明:MLM任务作为辅助任务使用可以提升多模态图文模型的细粒度能力,并提升在描述丰富的数据集上的图文检索性能。同时,模型在一般的通用数据集上的图文检索性能不会下降。

关键词: 智能科学与技术,多模态图文模型,微调,细粒度任务

For information in English, please click here

Multimodal image-text model fine-tuning method based on fine-grained auxiliary tasks

SHI Zhi-Sheng 1   

史植升(2000-),男,研究生,主要研究方向:多模态认知计算。

WANG Xiao-Jie 1   

王小捷(1969-),男,教授,主要研 究方向:自然语言处理、多模态认知计算,E-mail: xjwang@bupt.edu.cn

  • 1、School of Artificial Intelligence, Beijing University of Posts and Telecommunications, Beijing 100000

Abstract:With the development of vision-language multimodal models, their ability to recognize coarse-grained entities has been significantly improved. However, the current model's ability to process fine-grained information is relatively weak. Currently, many studies have improved the fine-grained capability of models by introducing fine-grained tasks. However, most studies have overlooked the important role of introducing fine-grained tasks during the fine-tuning phase. Therefore, this article introduces the fine-grained task Masked Language Modeling into the fine-tuning stage of multimodal models, using it as an auxiliary task to enhance the fine-grained capability of the model. Finally, the experimental results on vlm-probing, food-500 cap and other datasets in this article show that using Masked Language Modeling as auxiliary tasks can improve the fine-grained ability of multimodal models and enhance the image-text retrieval performance on datasets with rich descriptions. Meanwhile, the model's image-text retrieval performance will not decrease on general datasets.

Keywords: Intelligence Science and Technology, Multimodal Image-Text Models, Fine-tuning, Fine-grained Tasks

Click to fold

点击收起

基金:

论文图表:

引用

导出参考文献

.txt .ris .doc
史植升,王小捷. 基于细粒度辅助任务的多模态模型微调方法[EB/OL]. 北京:中国科技论文在线 [2025-02-28]. https://www.paper.edu.cn/releasepaper/content/202502-159.

No.****

同行评议

未申请同行评议

评论

全部评论

0/1000

勘误表

基于细粒度辅助任务的多模态模型微调方法