任务介绍

评测任务

本次阅读理解评测的任务是“篇章片段抽取型阅读理解”(Span-Extraction Reading Comprehension)。 根据给定的一个文档和一个问题,参赛者需要建立模型从该文档中抽取出问题的答案,其中答案是篇章中的某个连续片段(即预测答案在篇章中的起始位置和终止位置,并把对应的文本抽取出来)。

篇章:从中文维基百科爬取的文本(通常数百字)
问题:由人工编写的,针对篇章做出的提问
答案:篇章中的某个连续文本片段

资源下载

现发布CMRC2018相关数据集以及评测脚本,请查看Codalab地址

评测数据

数据来源

所有数据来源于中文维基百科。

数据规模

集合 短文数 问题数 答案数
试验集 256 1,002 1个
训练集 2,403 10,142 1个
开发集 848 3,219 3个
预测试集(隐藏) 470 2,000 3个
测试集(隐藏) 1,248 4,895 3个

说明:

  1. 预测试集是最终测试集的一个子集合

  2. 试验集并未加入到训练集中,故可用来扩充训练数据(由参赛队伍自行决定)

数据格式

篇章:维基百科摘录的篇章,将其切分成若干短文
问题:人工标注的问题
答案:篇章中的某一个连续文本片段
举例(JSON文件片段):

[
    {
        "title": "傻钱策略"
        "context_id": "TRIAL_0"
        "context_text": "工商协进会报告,12月消费者信心上升到78.1,明显高于11月的72。另据《华尔街日报》报道,2013年是1995年以来美国股市表现最好的一年。这一年里,投资美国股市的明智做法是追着“傻钱”跑。所谓的“傻钱”策略,其实就是买入并持有美国股票这样的普通组合。这个策略要比对冲基金和其它专业投资者使用的更为复杂的投资方法效果好得多。"
        "qas":[
                {
                "query_id": "TRIAL_0_QUERY_0",
                "query_text": "什么是傻钱策略?",
                "answers": [
                     "所谓的“傻钱”策略,其实就是买入并持有美国股票这样的普通组合",
                     "其实就是买入并持有美国股票这样的普通组合",
                     "买入并持有美国股票这样的普通组合"
                    ]
                },
                {
                "query_id": "TRIAL_0_QUERY_1",
                "query_text": "12月的消费者信心指数是多少?",
                "answers": [
                    "78.1",
                    "78.1",
                    "78.1"
                    ]
                },
                {
                "query_id": "TRIAL_0_QUERY_2",
                "query_text": "消费者信心指数由什么机构发布?",
                "answers": [
                    "工商协进会",
                    "工商协进会",
                    "工商协进会"
                    ]
                }
            ]
    }
]

评价指标

基本评价指标

  1. 精准匹配度(Exact Match,EM):计算预测结果与标准答案是否完全匹配。
  2. 模糊匹配度(F1):计算预测结果与标准答案之间字级别的匹配程度。

最终排名依据

大会按照如下方式确定最终排名,当出现某一级结果相同时,则继续比较次优先排名标准。

  1. 精准匹配度EM和模糊匹配度F1的平均值(四舍五入至小数点后3位):(EM+F1)/2
  2. 模糊匹配度F1
  3. 精准匹配度EM