ImageNet 第一作者 Olga Russakovsky 和 Jia Deng 指导的项目,搞了spatial relation的数据集-SpatialSense

arxiv:https://arxiv.org/abs/1908.02660

paper相关

  • author:Kaiyu Yang,Olga Russakovsky(ImageNet 第一作者),Jia Deng(ImageNet 第一作者)
  • institutions:Princeton University
  • accepted:ICCV 2019

idea

  • 建立新的数据集:SpatialSense
  • 通过对抗式众包(adversarial crowdsourcing)来标注数据集,与预训练的robot进行博弈,来尽可能消除之前数据集存在的bias问题
  • 新的benchmark是通过直接给出object pairs的groundtruth,来预测之间的relation,舍去了detection可能带来的误差

model

  • ask the crowd to select hard questions with the images fixed
  • 预训练一个robot

    • language only model
    • 2d-only model
    • 标注过程中,rebot会进行再次训练,防止bias
  • 整个标注的过程是一个人机博弈的过程,就是不能让机器猜到标注的结果(二分类,两个object是否存在relation)

标注的UI

  • 限制空间谓语为9个

    • 一个是因为这样可以使得样本得到足够的训练
    • 还有就是可以很好的做迁移,比如on可以再衍生为lean on和sit on

details

  • VG,VRD和Open Image数据集是没有提供负样本标注的,其中,VG和VRD存在标注不完全的问题,采用reacall@K的方法来进行评价,但是这种方法是识别不了误报问题
  • 之前的数据集bias十分严重,以VG数据集为例,spatial relation中有66%是“on”,在与“table”相关的关系中,有89.37%是“on”
  • 空间关系识别可以看做是一种特殊形式的VQA,只不过问题被限制了而已(限制为就几种位置关系)
  • 在网上收集图片的时候,用2个keywords,而以前通常使用1个keyword(区别很大吗,这里我个人没有很直接的体会)
  • 吊锤其他数据集,同时也反映出,language priors真的是太BUG了,直接上table,前后分别为language model和2d model的测试结果

测试结果

文章目录