数据比赛一般抽象于真实场景,举办方会拟定赛题,提供比赛数据,明确评分标准,选手们则各显神通,使出浑身解数,提交满足赛题要求的结果,在排行榜上力争上游。举办这类比赛的平台繁多,CompHub 是个能够实时聚合多个数据比赛平台的工具,本文主要介绍CompHub目前支持的比赛平台,他们同时也是当前最为活跃的平台。
不同平台由于定位不同,平台上支持的比赛类型也不同。CompHub根据所需的关键技能点的不同,将比赛分为数据科学赛、程序设计赛、创新应用赛和数据分析赛四种类型,它们之间并非完全独立,其实存在着很大的共通之处,比如数据科学赛中建模能力在数据分析赛中也是需要的。下面从比赛赛题、比赛数据、提交形式、评分标准这四个方面介绍这四种比赛类型。
赛题要求:一般与人工智能领域相关,主要来源于“学术上的研究任务”或“工业界的业务需求”,选手需要追踪最新的学术界研究成果或工业界落地方案,探索如何有效地应用在比赛的场景中,以获得很好的效果。
比赛数据:主办方一般会提供数据给选手训练模型,有些比赛会允许使用外部数据。
提交形式:选手需要针对主办方提供的测试数据集,提交预测结果。
评分标准:主要参考客观的评价指标,如:F1、NDCG等,决赛答辩时会考虑一定权重的评委打分。
赛题要求:一般来自于具体的工程应用场景,选手需要具备系统设计、工程实现和性能优化等多方面的能力,以产出满足真实应用需求的优秀方案。比如:阿里举办的中间件性能挑战赛、华为举办的软件精英挑战赛。
比赛数据:程序设计赛对数据依赖低,主办方一般会给定具体工程场景和要求,考验选手的系统设计和实现能力。
提交形式:选手需要提交满足要求的工程代码和相关文档
评分标准:主要考虑机器资源消耗、运行速度、结果准确性等客观因素,决赛答辩时会考虑一定权重的评委打分。
比赛赛题:一般来自于各行业真实的业务需求,选手需要对相关的行业有深入的认识,通过行业调研、数据收集、数据分析、数据建模和数据展示,以提交符合主办方要求的优秀作品。比如:深圳市环境水务集团举办智慧水务创新应用方案征集。
比赛数据:主办方给定具体业务场景,一般会提供业务数据,也有比赛需要选手自行收集数据