OpenBench
通用陆面模式评估系统 | A Universal Land Surface Model Evaluation System
OpenBench的基本原理与架构蓝图
陆面过程模型(Land Surface Models, LSMs)作为连接地球系统各圈层(大气、海洋、陆地)的关键纽带,其复杂性和分辨率在近几十年中经历了飞速发展。模型已从简单的”水桶”模型演变为包含生物地球化学过程、地球物理过程乃至人类活动的多模块复杂系统,空间分辨率也从传统的几十公里提升至公里甚至亚公里级别。这种复杂性的急剧增加,对模型评估和验证工具提出了前所未有的高要求。然而,现有的评估框架在应对新一代LSMs时,逐渐暴露出其固有的局限性。

这些局限性体现在多个层面。首先,许多评估工具是为特定模型定制开发的,例如为CLASSIC模型开发的AMBER和为CABLE模型开发的benchcab,这导致研究人员在尝试新模型时必须投入大量时间学习特定的使用方法和数据格式,极大地限制了模型间的横向比较和科学进展的速度。其次,一些通用平台,如国际陆面模型基准测试计划(ILAMB),虽然功能强大,但要求将模型输出转换为严格的CMIP(耦合模式比较计划)标准,这一过程不仅耗时耗力,还可能引入错误,影响评估的可靠性。
然而,一个更为根本的缺口在于,几乎所有现存的评估系统都未能全面地、系统地评估人类活动对陆面过程的影响。在人类世(Anthropocene)背景下,农业灌溉、城市化、水库调度等人类活动已成为地表过程的主导驱动力。这些活动的数据通常尺度小、来源多样且不确定性高,对其进行有效评估是当前LSMs发展面临的核心挑战之一。
模块化、高性能且易于访问的设计架构
为了应对上述挑战,OpenBench被设计为一个开源、跨平台、高性能的通用LSM评估系统。其架构选择体现了对未来适应性、社区协作和计算效率的深思熟虑,而不仅仅是技术实现的便利。
OpenBench的系统架构基于六个核心的模块化组件,这种设计是其灵活性和可扩展性的基石:
-
配置管理模块(Configuration Management):支持YAML、JSON和Fortran namelist三种配置格式,允许用户以熟悉的方式定义评估参数、数据源和模型输出,极大地简化了评估场景的定制。
-
数据处理模块(Data Processing):负责对参考数据和模型模拟数据进行预处理,包括时空重采样、坐标变换、单位转换等,确保不同来源、不同分辨率的数据在统一的标准下进行比较。
-
评估模块(Evaluation):实现核心的评估逻辑,应用海量的评估指标和评分体系来量化模型性能。该模块支持对站点数据和网格数据的评估,并能根据数据类型自动调整方法。
-
比较处理模块(Comparison Processing):支持多模型、多参数化方案、多情景的对比分析,是理解模型间差异和不确定性的关键。
-
统计分析模块(Statistical Analysis):集成高级统计技术,提供对模型行为和性能模式的更深层次洞察。
-
可视化模块(Visualization):能够生成高质量、可定制的图表,用于直观地解释和传达复杂的评估结果。
为了处理日益增长的数据量和高分辨率模拟带来的计算压力,OpenBench在设计上充分利用了并行处理技术。它巧妙地结合了两个成熟的Python库:针对站点评估中涉及大量独立文件读写的I/O密集型任务,系统使用Joblib库进行高效的任务分发和并行处理;对于大规模网格数据的处理,则采用Dask库的惰性计算(lazy execution)和分块数组处理机制,有效管理内存的同时保证了极高的处理速度。 _
多维度的评估与比较方法学
为了避免依赖单一”拟合优度”指标而产生的片面结论,OpenBench采用了一种多指标的评估策略,旨在从不同维度提供对模型性能的整体、细致的审视。系统集成的指标库非常广泛,根据其评估的侧重点,可以系统地归纳为以下几类:

-
偏差指标(Bias Metrics):用于量化模型输出与观测值之间的系统性偏差。包括基础的偏差(BIAS)和百分比偏差(PBIAS),以及针对特定流量情景的指标,如年高峰流量百分比偏差(APFB)和低流量百分比偏差(PBIAS_LF)。
-
误差指标(Error Metrics):用于衡量模型预测误差的绝对大小。核心指标包括均方根误差(RMSE)及其无偏版本(ubRMSE),以及对异常值不敏感的平均绝对误差(MAE)。
-
相关性指标(Correlation Metrics):用于评估模型捕捉观测数据变化趋势的能力。包括经典的皮尔逊相关系数(R)和决定系数(R2),以及衡量单调关系的斯皮尔曼等级相关系数(rSpearman)。
-
效率指标(Efficiency Metrics):将模型性能与一个基准(通常是观测平均值)进行比较,提供一个相对的性能度量。其中最著名的是纳什效率系数(NSE)和克林-古普塔效率(KGE),后者进一步分解为相关性、偏差和变率三个部分,提供了更具诊断性的信息。
-
源自ILAMB的评分系统(ILAMB scoring system): 在多指标评估的基础上,为了便于模型间的横向比较和结果的综合展示,OpenBench采用了一套源自ILAMB框架的标准化评分指数。这些指数将不同的评估指标值归一化到0到1的区间,其中1代表模型与观测完全一致。尽管OpenBench借鉴了ILAMB的评分体系,但其在具体实施上做出了两项关键的、具有哲学意义的调整。第一个关键区别在于全球平均分的计算方式。与ILAMB强制采用质量加权法不同,OpenBench赋予了用户选择的权力。用户可以根据其研究问题,灵活选择面积加权(确保各区域地理面积的平等贡献)、质量加权(与ILAMB保持一致)或不加权(简单空间平均)。第二个更具根本性的区别在于对多参考数据集的处理。OpenBench采取了截然不同的路径:它允许用户选择一个或多个他们认为可靠的参考数据集,然后独立地报告模型相对于每一个参考数据集的评估结果,而不进行任何形式的融合或加权。
陆面建模的新前沿:评估人为影响
与以往的评估系统将人类活动视为次要因素或完全忽略不同,OpenBench将系统性地评估人类活动影响作为其核心设计原则和基础性目标。这并非一个附加功能,而是项目构思的出发点。为了实现这一目标,系统集成了一个规模庞大、种类繁多的基准数据集集合,这些数据集经过精心筛选,专门用于评估各种人为过程。

这些数据集可分为三大类,全面覆盖了人类活动对陆地表层系统最主要的影响方面:
-
农业系统:为了评估农业活动对水、能量和碳循环的影响,OpenBench整合了关于作物产量(如GDHY, SPAM)、农业用水(如GIWUED)、作物物候、种植面积和生产力的数据集。这些数据使得对模型中农业管理(如灌溉、施肥)和作物生长过程的模拟进行验证成为可能。
-
城市环境:城市化是地表最剧烈的改变形式之一。OpenBench通过整合城市范围(如UEHNL)、地表温度、反照率等数据集来评估城市物理效应。尤为关键的是,它首次系统性地引入了多个人为热通量(Anthropogenic Heat Flux, AHF)数据集(如AH4GUC, DONG_AHE),使得对城市热岛效应这一核心问题的直接评估成为现实。
-
水资源管理:人类通过修建水库、跨流域调水等工程深刻地改变了全球水文循环。OpenBench集成了关于水库运行(如ResOpsUS)、河流径流(如GRDC)和大规模淹没区(如GIEMS_v2)的观测数据,用以评估模型在人类管理的流域中的水文模拟能力。
开放研究课题
OpenBench作为一个开放、可扩展的科研平台,为研究生和合作者提供了丰富的研究机会。以下是我们当前重点关注的研究课题:
欢迎对以上任何课题感兴趣的研究生和合作者联系我们,共同推进陆面建模科学的发展!
部分相关发表文献(#为通讯作者):
-
Wei, Z.#,, Xu, Q., Bai, F., Xu, X., Wei, Z., Dong, W., Liang, H., Wei, N., Lu, X., Li, L., et al. (2025). OpenBench: a land models evaluation system. Geoscientific Model Development, 2025, 1-37.
-
更多相关研究成果陆续发表中…