写在前面

数据比赛一般抽象于真实场景，举办方会拟定赛题，提供比赛数据，明确评分标准，选手们则各显神通，使出浑身解数，提交满足赛题要求的结果，在排行榜上力争上游。举办这类比赛的平台繁多，CompHub 是个能够实时聚合多个数据比赛平台的工具，本文主要介绍CompHub目前支持的比赛平台，他们同时也是当前最为活跃的平台。

平台上比赛的类型

不同平台由于定位不同，平台上支持的比赛类型也不同。CompHub根据所需的关键技能点的不同，将比赛分为数据科学赛、程序设计赛、创新应用赛和数据分析赛四种类型，它们之间并非完全独立，其实存在着很大的共通之处，比如数据科学赛中建模能力在数据分析赛中也是需要的。下面从比赛赛题、比赛数据、提交形式、评分标准这四个方面介绍这四种比赛类型。

1. 数据科学赛

赛题要求：一般与人工智能领域相关，主要来源于“学术上的研究任务”或“工业界的业务需求”，选手需要追踪最新的学术界研究成果或工业界落地方案，探索如何有效地应用在比赛的场景中，以获得很好的效果。

“学术上的研究任务”由于是对实际场景的高度抽象，输入输出清晰明确，所给的数据集较为干净，所以选手所要考虑的情况相对较少，主要精力会花在模型优化上。比如：第二届“讯飞杯”中文机器阅读理解评测 (CMRC 2018)针对“基于篇章⽚段抽取的阅读理解”这一细分的学术研究任务，提供人工标注数据，要求选手对给定的篇章进⾏建模，抽取出准确的篇章片段。
“工业界的业务需求”与实际场景的关系则更为紧密，也更为复杂，有些业务场景甚至会包含多个学术上的研究任务，数据量也可能会更大，考验选手多方面的综合能力。比如：“阿里灵杰”问天引擎电商搜索算法赛基于电商搜索场景，提供来源于业务场景的有标注数据和大量无标注数据，要求选手完成召回和排序两阶段的任务。

比赛数据：主办方一般会提供数据给选手训练模型，有些比赛会允许使用外部数据。

提交形式：选手需要针对主办方提供的测试数据集，提交预测结果。

评分标准：主要参考客观的评价指标，如：F1、NDCG等，决赛答辩时会考虑一定权重的评委打分。

2. 程序设计赛

赛题要求：一般来自于具体的工程应用场景，选手需要具备系统设计、工程实现和性能优化等多方面的能力，以产出满足真实应用需求的优秀方案。比如：阿里举办的中间件性能挑战赛、华为举办的软件精英挑战赛。

比赛数据：程序设计赛对数据依赖低，主办方一般会给定具体工程场景和要求，考验选手的系统设计和实现能力。

提交形式：选手需要提交满足要求的工程代码和相关文档

评分标准：主要考虑机器资源消耗、运行速度、结果准确性等客观因素，决赛答辩时会考虑一定权重的评委打分。

3. 创新应用赛

比赛赛题：一般来自于各行业真实的业务需求，选手需要对相关的行业有深入的认识，通过行业调研、数据收集、数据分析、数据建模和数据展示，以提交符合主办方要求的优秀作品。比如：深圳市环境水务集团举办智慧水务创新应用方案征集。

比赛数据：主办方给定具体业务场景，一般会提供业务数据，也有比赛需要选手自行收集数据