OpenBench | Zhongwang Wei

OpenBench的基本原理与架构蓝图

陆面过程模型（Land Surface Models, LSMs）作为连接地球系统各圈层（大气、海洋、陆地）的关键纽带，其复杂性和分辨率在近几十年中经历了飞速发展。模型已从简单的”水桶”模型演变为包含生物地球化学过程、地球物理过程乃至人类活动的多模块复杂系统，空间分辨率也从传统的几十公里提升至公里甚至亚公里级别。这种复杂性的急剧增加，对模型评估和验证工具提出了前所未有的高要求。然而，现有的评估框架在应对新一代LSMs时，逐渐暴露出其固有的局限性。

OpenBench的模块化架构示意图，展示了系统如何应对现代陆面模式评估的复杂需求

这些局限性体现在多个层面。首先，许多评估工具是为特定模型定制开发的，例如为CLASSIC模型开发的AMBER和为CABLE模型开发的benchcab，这导致研究人员在尝试新模型时必须投入大量时间学习特定的使用方法和数据格式，极大地限制了模型间的横向比较和科学进展的速度。其次，一些通用平台，如国际陆面模型基准测试计划（ILAMB），虽然功能强大，但要求将模型输出转换为严格的CMIP（耦合模式比较计划）标准，这一过程不仅耗时耗力，还可能引入错误，影响评估的可靠性。

然而，一个更为根本的缺口在于，几乎所有现存的评估系统都未能全面地、系统地评估人类活动对陆面过程的影响。在人类世（Anthropocene）背景下，农业灌溉、城市化、水库调度等人类活动已成为地表过程的主导驱动力。这些活动的数据通常尺度小、来源多样且不确定性高，对其进行有效评估是当前LSMs发展面临的核心挑战之一。

模块化、高性能且易于访问的设计架构

为了应对上述挑战，OpenBench被设计为一个开源、跨平台、高性能的通用LSM评估系统。其架构选择体现了对未来适应性、社区协作和计算效率的深思熟虑，而不仅仅是技术实现的便利。

OpenBench的系统架构基于六个核心的模块化组件，这种设计是其灵活性和可扩展性的基石：

配置管理模块（Configuration Management）：支持YAML、JSON和Fortran namelist三种配置格式，允许用户以熟悉的方式定义评估参数、数据源和模型输出，极大地简化了评估场景的定制。
数据处理模块（Data Processing）：负责对参考数据和模型模拟数据进行预处理，包括时空重采样、坐标变换、单位转换等，确保不同来源、不同分辨率的数据在统一的标准下进行比较。
评估模块（Evaluation）：实现核心的评估逻辑，应用海量的评估指标和评分体系来量化模型性能。该模块支持对站点数据和网格数据的评估，并能根据数据类型自动调整方法。
比较处理模块（Comparison Processing）：支持多模型、多参数化方案、多情景的对比分析，是理解模型间差异和不确定性的关键。
统计分析模块（Statistical Analysis）：集成高级统计技术，提供对模型行为和性能模式的更深层次洞察。
可视化模块（Visualization）：能够生成高质量、可定制的图表，用于直观地解释和传达复杂的评估结果。

为了处理日益增长的数据量和高分辨率模拟带来的计算压力，OpenBench在设计上充分利用了并行处理技术。它巧妙地结合了两个成熟的Python库：针对站点评估中涉及大量独立文件读写的I/O密集型任务，系统使用Joblib库进行高效的任务分发和并行处理；对于大规模网格数据的处理，则采用Dask库的惰性计算（lazy execution）和分块数组处理机制，有效管理内存的同时保证了极高的处理速度。 _

多维度的评估与比较方法学

为了避免依赖单一”拟合优度”指标而产生的片面结论，OpenBench采用了一种多指标的评估策略，旨在从不同维度提供对模型性能的整体、细致的审视。系统集成的指标库非常广泛，根据其评估的侧重点，可以系统地归纳为以下几类：

OpenBench实现的多模型比较功能，展示了不同评估指标下的模型性能对比

偏差指标（Bias Metrics）：用于量化模型输出与观测值之间的系统性偏差。包括基础的偏差（BIAS）和百分比偏差（PBIAS），以及针对特定流量情景的指标，如年高峰流量百分比偏差（APFB）和低流量百分比偏差（PBIAS_LF）。
误差指标（Error Metrics）：用于衡量模型预测误差的绝对大小。核心指标包括均方根误差（RMSE）及其无偏版本（ubRMSE），以及对异常值不敏感的平均绝对误差（MAE）。
相关性指标（Correlation Metrics）：用于评估模型捕捉观测数据变化趋势的能力。包括经典的皮尔逊相关系数（R）和决定系数（R2），以及衡量单调关系的斯皮尔曼等级相关系数（rSpearman）。
效率指标（Efficiency Metrics）：将模型性能与一个基准（通常是观测平均值）进行比较，提供一个相对的性能度量。其中最著名的是纳什效率系数（NSE）和克林-古普塔效率（KGE），后者进一步分解为相关性、偏差和变率三个部分，提供了更具诊断性的信息。
源自ILAMB的评分系统(ILAMB scoring system): 在多指标评估的基础上，为了便于模型间的横向比较和结果的综合展示，OpenBench采用了一套源自ILAMB框架的标准化评分指数。这些指数将不同的评估指标值归一化到0到1的区间，其中1代表模型与观测完全一致。尽管OpenBench借鉴了ILAMB的评分体系，但其在具体实施上做出了两项关键的、具有哲学意义的调整。第一个关键区别在于全球平均分的计算方式。与ILAMB强制采用质量加权法不同，OpenBench赋予了用户选择的权力。用户可以根据其研究问题，灵活选择面积加权（确保各区域地理面积的平等贡献）、质量加权（与ILAMB保持一致）或不加权（简单空间平均）。第二个更具根本性的区别在于对多参考数据集的处理。OpenBench采取了截然不同的路径：它允许用户选择一个或多个他们认为可靠的参考数据集，然后独立地报告模型相对于每一个参考数据集的评估结果，而不进行任何形式的融合或加权。

陆面建模的新前沿：评估人为影响

与以往的评估系统将人类活动视为次要因素或完全忽略不同，OpenBench将系统性地评估人类活动影响作为其核心设计原则和基础性目标。这并非一个附加功能，而是项目构思的出发点。为了实现这一目标，系统集成了一个规模庞大、种类繁多的基准数据集集合，这些数据集经过精心筛选，专门用于评估各种人为过程。

OpenBench在东南亚地区城市人为热通量的评估案例，展示了系统对人类活动影响的全面评估能力

这些数据集可分为三大类，全面覆盖了人类活动对陆地表层系统最主要的影响方面：

农业系统：为了评估农业活动对水、能量和碳循环的影响，OpenBench整合了关于作物产量（如GDHY, SPAM）、农业用水（如GIWUED）、作物物候、种植面积和生产力的数据集。这些数据使得对模型中农业管理（如灌溉、施肥）和作物生长过程的模拟进行验证成为可能。
城市环境：城市化是地表最剧烈的改变形式之一。OpenBench通过整合城市范围（如UEHNL）、地表温度、反照率等数据集来评估城市物理效应。尤为关键的是，它首次系统性地引入了多个人为热通量（Anthropogenic Heat Flux, AHF）数据集（如AH4GUC, DONG_AHE），使得对城市热岛效应这一核心问题的直接评估成为现实。
水资源管理：人类通过修建水库、跨流域调水等工程深刻地改变了全球水文循环。OpenBench集成了关于水库运行（如ResOpsUS）、河流径流（如GRDC）和大规模淹没区（如GIEMS_v2）的观测数据，用以评估模型在人类管理的流域中的水文模拟能力。

开放研究课题

OpenBench作为一个开放、可扩展的科研平台，为研究生和合作者提供了丰富的研究机会。以下是我们当前重点关注的研究课题：

人工智能驱动的模型评估方法：结合机器学习技术重新定义传统模型评估范式。该课题将探索如何利用深度学习算法自动识别模型在不同气候区域和季节的系统性偏差模式，开发基于神经网络的模型性能预测框架，并构建能够自主学习和优化的评估指标体系。研究内容包括：利用卷积神经网络识别模型输出的空间偏差模式；开发基于循环神经网络的时间序列评估方法；构建多模态深度学习框架，同时处理气象、水文、生态等多源观测数据；建立可解释的AI评估系统，为模型改进提供具体的物理过程层面的建议。

极端气候事件的模型评估框架：面对日益频发的极端气候事件，传统的模型评估方法往往关注平均状态而忽略极值表现。该课题致力于开发专门针对极端事件的评估方法学，包括：建立极端干旱事件的多维度评估体系，从干旱强度、持续时间、影响范围等方面全面评估模型表现；开发洪涝事件的动态评估方法，重点关注模型对径流峰值时间、洪峰流量和淹没范围的预测能力；构建热浪事件的复合评估指标，综合考虑温度极值、持续时间和空间连续性；研究模型在复合极端事件（如干热复合事件）中的表现，为气候风险评估提供科学依据。

城市陆面过程的精细化评估：随着全球城市化进程加速，城市陆面过程成为影响区域乃至全球气候的重要因子。该课题将深入研究城市环境下的能量平衡、水循环和碳循环过程，开发城市专用的模型评估体系。研究重点包括：利用高分辨率卫星数据和地面观测网络，构建城市热岛效应的多尺度评估方法；开发城市人为热排放的时空变化评估框架，结合交通流量、建筑能耗等社会经济数据；建立城市雨洪管理效果的模型评估体系，评估绿色基础设施对城市水文循环的影响；研究城市植被对区域气候的调节作用，为城市生态规划提供量化依据。

高分辨率模型的大数据评估技术：随着计算能力提升，陆面模式的分辨率不断提高，传统评估方法面临计算效率和存储容量的双重挑战。该课题将开发适用于公里级甚至更高分辨率模型的评估技术，包括：设计基于云计算和分布式存储的评估架构，实现对TB级模型输出数据的高效处理；开发智能采样和数据压缩算法，在保证评估精度的前提下显著减少计算量；构建流式数据处理管道，实现模型评估的实时化和自动化；建立多尺度嵌套评估方法，从全球到区域再到局地，实现跨尺度的一致性评估。

陆面模式的不确定性量化与溯源：模型不确定性是影响预测可信度的关键因素，但传统评估往往只关注模型与观测的差异而忽略不确定性来源。该课题将建立系统性的不确定性量化框架，包括：开发基于贝叶斯方法的参数不确定性量化技术，识别对模型性能影响最大的关键参数；构建模型结构不确定性的定量评估方法，比较不同物理过程参数化方案的影响；建立驱动数据不确定性的传播分析框架，研究气象强迫数据误差对模型输出的影响；开发集合评估方法，利用多模型、多参数化的集合预测来量化总体不确定性，为决策者提供更可靠的风险评估信息。

社会-生态耦合系统的综合评估：人类活动已成为地球系统变化的主导驱动力，传统的自然科学模型难以全面刻画社会-生态系统的复杂相互作用。该课题将开发集成社会经济因素的模型评估框架，包括：建立农业管理决策的建模与评估体系，考虑农民行为、市场价格、政策激励等因素对作物种植和灌溉的影响；开发水资源管理的多主体评估模型，模拟不同利益相关者（农业、工业、城市、生态）之间的水资源竞争和协调；构建土地利用变化的驱动机制评估框架，结合经济发展、人口增长、政策导向等社会因素；研究气候变化适应措施的有效性评估，为政策制定提供科学支撑。

欢迎对以上任何课题感兴趣的研究生和合作者联系我们，共同推进陆面建模科学的发展！

部分相关发表文献(#为通讯作者)：

Wei, Z.#,, Xu, Q., Bai, F., Xu, X., Wei, Z., Dong, W., Liang, H., Wei, N., Lu, X., Li, L., et al. (2025). OpenBench: a land models evaluation system. Geoscientific Model Development, 2025, 1-37.
更多相关研究成果陆续发表中…