任务介绍

任务内容

第五届“讯飞杯”中文机器阅读理解(CMRC 2022)的任务是可解释性阅读理解。给定一个篇章以及和篇章相关的问题,参赛队伍需要设计一个可以同时抽取答案和佐证依据的机器阅读理解系统。根据阅读理解类型分为以下两个赛道:

  • 抽取型阅读理解赛道:答案和佐证依据均是篇章中的某个连续片段
  • 选择型阅读理解赛道:答案是从若干个候选选项中选出,佐证依据是篇章中的某个连续片段

本次评测的难点在于,组委会并不提供带标注的训练集合。因此选手需要设计无监督或弱监督的机器阅读理解系统来完成答案和佐证依据的抽取。

数据获取和使用要求

  • 可以使用以下数据进行训练:
    • 任何公开数据集的训练集部分,例如CMRC 2018、DRCD、C3等的训练集
    • 任何无标注的自由文本数据
    • 可以对上述两类数据进行自动加工形成伪训练数据,例如抽取答案所在句作为证据文本,以此形成弱监督的训练数据
  • 不可以使用以下数据进行训练:
    • 任何未公开的数据,例如私自人工标注的数据
    • 任何公开数据集中的开发集和测试集
    • 本届评测提供的开发集,即ExpMRC开发集

评测数据

本次评测使用的数据是可解释性阅读理解数据集ExpMRC (Cui et al., 2022)的中文子集,相关统计信息如下所示,其中包含CMRC 2018和C3子集(注意:这两个集合是由原数据集的子集进行二次标注所得,增加了解释文本标注)。目前只开放开发集的下载,供参赛者调试系统。测试集是隐藏的,不对外开放,仅在决赛阶段使用。

  抽取型(CMRC 2018)   选择型(C3)  
  开发集 测试集 开发集 测试集
答案类型 篇章片段 篇章片段 选择题 选择题
领域 维基百科 维基百科 考试 考试
篇章数 369 399 273 244
问题数 515 500 505 500
最大参考答案数量 3 3 1 1
最大参考证据数量 2 2 4 4

所有数据请通过官方GitHub目录下载:数据下载地址

数据格式

以下给出了抽取式阅读理解和选择型阅读理解的相关数据示例。相关格式与原CMRC 2018以及C3基本一致,仅多出了证据标注的字段。选手可以很快将现有的基线系统适配到该数据上。

JSON举例(抽取式)

JSON字段 介绍
version 数据集版本
data 实际数据部分
title 标题
paragraphs 该标题下若干个篇章
id 篇章ID
context 篇章文本内容
qas 问题、答案、证据
question 问题文本
id 问题id
answers 参考答案
text 答案文本
answer_start 答案开始位置(仅供参考)
evidences 参考证据
{
  "version": "expmrc-cmrc2018-dev",
  "data": [
    {
      "title": "战国无双3",
      "paragraphs": [
        {
          "id": "DEV_0",
          "context": "《战国无双3》()是由光荣和ω-force开发的战国无双系列的正统第三续作。本作以三大故事为主轴,分别是以武田信玄等人为主的《关东三国志》,织田信长等人为主的《战国三杰》,石田三成等人为主的《关原的年轻武者》,丰富游戏内的剧情。此部份专门介绍角色,欲知武器情报、奥义字或擅长攻击类型等,请至战国无双系列1.由于乡里大辅先生因故去世,不得不寻找其他声优接手。从猛将传 and Z开始。2.战国无双 编年史的原创男女主角亦有专属声优。此模式是任天堂游戏谜之村雨城改编的新增模式。本作中共有20张战场地图(不含村雨城),后来发行的猛将传再新增3张战场地图。但游戏内战役数量繁多,部分地图会有兼用的状况,战役虚实则是以光荣发行的2本「战国无双3 人物真书」内容为主,以下是相关介绍。(注:前方加☆者为猛将传新增关卡及地图。)合并本篇和猛将传的内容,村雨城模式剔除,战国史模式可直接游玩。主打两大模式「战史演武」&「争霸演武」。系列作品外传作品",
          "qas": [
            {
              "question": "男女主角亦有专属声优这一模式是由谁改编的?",
              "id": "DEV_0_QUERY_1",
              "answers": [
                {
                  "text": "村雨城",
                  "answer_start": 226
                },
                {
                  "text": "村雨城",
                  "answer_start": 226
                },
                {
                  "text": "任天堂游戏谜之村雨城",
                  "answer_start": 219
                }
              ],
              "evidences": [
                "战国无双 编年史的原创男女主角亦有专属声优。此模式是任天堂游戏谜之村雨城改编的新增模式。",
                "2.战国无双 编年史的原创男女主角亦有专属声优。此模式是任天堂游戏谜之村雨城改编的新增模式。",
                "2.战国无双 编年史的原创男女主角亦有专属声优。此模式是任天堂游戏谜之村雨城改编的新增模式。"
              ]
            }
          ]
        }
      ]
    }
  ]
}

JSON举例(选择型)

JSON字段 介绍
version 数据集版本
data 实际数据部分
answers 答案(选项标签)
options 选项
evidences 参考证据
questions 问题
article 篇章文本
id 篇章id
{
  "version": "expmrc-c3-dev",
  "data": [
    {
      "answers": [
        "D",
        "B"
      ],
      "options": [
        [
          "工作的态度",
          "朋友的数量",
          "大学里的学习成绩",
          "大学里的人际关系"
        ],
        [
          "认真选择朋友",
          "用真心对别人",
          "改正所有缺点",
          "记住重要的事"
        ]
      ],
      "evidences": [
        [
          "大学里的处世态度和人际关系的成功与否,直接决定着将来在社会上的成败。",
          "大学生活是走上社会的预演,可以说,大学里的处世态度和人际关系的成功与否,直接决定着将来在社会上的成败。",
          "大学里的处世态度和人际关系的成功与否,直接决定着将来在社会上的成败。",
          "大学里的处世态度和人际关系的成功与否,直接决定着将来在社会上的成败。"
        ],
        [
          "与人交往,贵在一个“诚”字。以真心换真心,以诚信换诚信。",
          "与人交往,贵在一个“诚”字。以真心换真心,以诚信换诚信。",
          "要有良好的处理人际关系的能力。",
          "与人交往,贵在一个“诚”字。以真心换真心,以诚信换诚信。"
        ]
      ],
      "questions": [
        "说话人认为什么因素决定在社会上的成败?",
        "说话人提出了什么建议?"
      ],
      "article": "大学生活是走上社会的预演,可以说,大学里的处世态度和人际关系的成功与否,直接决定着将来在社会上的成败。人是社会性的动物,生活中的每个人都离不开别人的帮助,同时也在帮助着别人。不管是学习、生活、工作,都要求自己要有良好的处理人际关系的能力。一个人要想有良好的人际关系,就要遵循以下几个原则:一是“主动”。要主动和别人交往,主动帮助别人。二是“诚信”。与人交往,贵在一个“诚”字。以真心换真心,以诚信换诚信。耍小聪明只能蒙得了一时,但“日久见人心”。三是“包容”。大千世界,芸芸众生,人的脾气千差万别,与人交往时不要斤斤计较,要能容得下别人的缺点,只要这个缺点无伤大雅。四是“感恩”。“受人滴水之恩,当涌泉相报。”对别人给予自己的帮助,时刻不能忘怀,哪怕是很小的一件事。",
      "id": "m6-80"
    }
  ]
}

评价标准

提供三种评价方法,分别对答案、证据以及两者综合进行评价。F1指标用来计算正确答案(证据)和预测答案(证据)之间的重叠程度。最终排名将通过“综合F1”指标降序排列得出。具体请参考官方给出的评测脚本:https://github.com/ymcui/expmrc/blob/main/eval_expmrc.py

  • 抽取型阅读理解赛道:答案F1、证据F1、综合F1

  • 选择型阅读理解赛道:答案准确率、证据F1、综合F1

其中综合F1是答案精度和证据精度的综合考量:

注意:与SQuAD和CMRC 2018类似,本届评测提供多个参考答案和参考证据。评测脚本会与每个参考项进行计算并返回最大匹配的分值。

基线系统

选手可通过GitHub获取基线系统代码:GitHub地址

相关资源

哈工大讯飞联合实验室发布了许多预训练模型资源,供参赛选手参考使用:

项目名称 描述
PERT 中英文PERT预训练模型 (base-level, large-level)
Chinese-MobileBERT 中文MobileBERT预训练模型 (base-level, large-level) (archival purpose only)
CINO 少数民族语言预训练模型CINO
MacBERT 中文MacBERT预训练模型 (MacBERT-base, MacBERT-large)
Chinese-ELECTRA 中文ELECTRA预训练模型 (ELECTRA-base, ELECTRA-small)
Chinese-XLNet 中文XLNet预训练模型(XLNet-mid, XLNet-base)
Chinese-BERT-wwm 中文BERT-wwm系列预训练模型(BERT-wwm, BERT-wwm-ext, RoBERTa-wwm-ext, RoBERTa-wwm-ext-large, RBT3, RBTL3等)