剑桥大学、阿尔托大学、布里斯托大学的联合研究团队基于巴洛双子算法构建了一种新的时序特征学习范式,能够让模型自主学习地表稳定的时空变化规律,形成具有时序采样不变性的遥感特征表示。在此基础上,研究团队进一步提出了面向哨兵一号/哨兵二号多模态时序数据的像素级遥感基础模型 TESSERA。
对地观测卫星能大范围、长周期监测地球,已成为农业生产、森林管护、生态监测、国土治理等领域的关键工具。利用卫星获取的长时序遥感数据,研究人员可以追踪地表动态变化。但真实的卫星观测数据远非完美:云层遮挡、轨道重访周期不规则、传感器分辨率不匹配、设备噪声等干扰,导致原始数据残缺、异构、无序,难以直接用于高精度智能分析。尤其在农业物候、短时生态扰动等精细场景中,云层会直接掩盖关键的变化过程。
目前行业普遍采用影像合成技术来「去云」和降噪,生成标准化无云影像。这确实提升了数据质量和可用性,但也带来了明显的信息损耗——物候动态、短时突变等精细时序特征往往在合成过程中被弱化甚至抹除,导致部分关键信息流失。
近年来,遥感基础模型通过大规模预训练取得了很大进展,但多数模型仍依赖经过深度过滤、规整后的理想数据,训练时只用无云合成影像或时序均值。这种做法实际上舍弃了大量虽受云层影响、却仍包含真实变化规律的观测数据,导致模型在实际业务中面对稀疏、残缺、云量复杂的时序数据时,特征提取不稳,泛化能力大打折扣。
为打破这一瓶颈,剑桥大学、阿尔托大学、布里斯托大学的联合研究团队基于巴洛双子(Barlow Twins)算法构建了一种新的时序特征学习范式,不再过滤含云数据,而是约束同一位置不同观测子集之间的特征一致性,让模型自主学习地表稳定的时空变化规律,形成具有时序采样不变性的遥感特征表示。在此基础上,研究团队进一步提出了面向哨兵一号/哨兵二号多模态时序数据的像素级遥感基础模型 TESSERA。
相关研究成果以「TESSERA: Temporal Embeddings of Surface Spectra for Earth Representation and Analysis」为题,已发表于预印本平台 arXiv。
* 构建全球尺度、像素级、高标签利用率的特征嵌入,设计全新自监督架构,训练出融合哨兵一号/二号多模态数据的像素级遥感基础模型。
* 推出符合 FAIR 准则的数据即嵌入方案,发布全球年度 10 米分辨率像素级 8 位整型特征嵌入数据集,提供可直接部署的合规遥感资源。
* 实验发现,在多样化的分类、分割和回归任务中,TESSERA 能以极高的标签效率达到 SOTA 精度,通常仅需一个轻量任务头和极少的计算量。
查看论文:https://hyper.ai/papers/2506.20380
该研究构建了覆盖全球的大规模时序遥感数据体系,既用于模型预训练,也用于系统评估模型的泛化能力。整个数据体系由预训练数据集和下游评测数据集组成,均基于哨兵一号雷达数据和哨兵二号光学数据构建,充分发挥雷达与光学观测的互补优势。
TESSERA 优化了对地观测领域的数据嵌入方案
预训练阶段,研究团队构建了一个全球尺度的大规模时序数据集,时间跨度覆盖 2017 年至 2024 年,空间范围涵盖全球三千余个网格瓦片,总计约 8 亿个 d-pixel 样本。与许多经过严格筛选和规整的数据集不同,该数据集尽可能保留了真实观测的原始特性,包括数据缺失、不规则采样和云层遮挡等情况。同时,每个时间步均配套二值掩码,用于标记观测有效状态,使模型能够显式感知数据缺失与观测质量差异。
下游评测阶段,研究团队选取了 6 项公开基准数据集,覆盖分类、分割和回归三类主流任务,评测区域涵盖德国、法国、奥地利、芬兰、马来西亚等多个国家和地区,覆盖农业、森林等典型应用场景。每类任务均同时包含大尺度区域数据集和精细化局部数据集,分别评估模型的跨区域迁移能力和细粒度特征建模能力。
此外,针对当前高分辨率、多时相哨兵一号/二号多模态标注数据稀缺的问题,研究团队还自主构建了两个新的评测基准:一是奥地利地块级作物制图数据集,用于评估精细农业场景下的分类与分割能力;二是基于激光雷达校正构建的东南亚森林林冠高度数据集,用于验证森林结构参数反演任务中的表现。
TESSERA 的设计目标是在尽可能保留原始观测信息的前提下,让模型直接从复杂、不完整的时序数据中学习稳定表征,减少对数据规整、补全和修复流程的依赖。
为此,该研究首先提出了一种新的时序数据组织方式——d-pixel。传统分析通常以单景影像或固定时间序列为输入,而 d-pixel 以单个空间位置为核心,将同一像素在不同时间获取的多源观测按时间顺序组织成观测序列。每个 d-pixel 不仅包含哨兵二号光学信息和哨兵一号雷达信息,还通过掩码向量标识哪些时间步存在云遮挡或数据缺失。这种表示方式完整保留了地表变化的时序特征,无论是植被生长带来的缓慢变化,还是灾害、扰动等引发的短时突变都能够被保留下来,从根本上避免了传统规整过程中的信息损失。
TESSERA 整体处理流程
模型架构上,TESSERA 采用双分支编码器,分别处理光学和雷达数据。两类数据的成像机制和物理属性存在明显差异,独立编码能够充分挖掘各自特征,再通过融合实现多模态互补。对每种模态,模型首先对有效观测进行嵌入表示,并加入可学习的年内日位置编码引入时间信息,然后通过 Transformer 编码器建模长时序依赖关系,最后利用门控循环单元聚合整条时间序列,生成固定维度的单模态表征。光学与雷达特征融合后,形成 128 维多模态地表表征。研究还引入量化感知训练,将最终特征压缩为 8 位整型,在几乎不损失精度的情况下将存储规模缩减约 75%。
预训练策略是 TESSERA 的核心创新。基于巴洛双子自监督学习框架,对同一个 d-pixel,系统从其完整时间序列中随机抽取两组观测子集,构建两种不同的「视角」。尽管两组观测包含的时间点不同,甚至部分时间步存在缺失,但描述的是同一地表对象。
训练过程中,模型被要求将这两组观测映射到尽可能一致的特征空间。通过这种方式,模型学习到的不再是某一次具体观测的瞬时特征,而是隐藏在不同观测背后的稳定地表规律,从而获得对时间采样方式具有鲁棒性的特征表示。此外,研究还引入混合正则化与全局打乱策略,进一步提升模型对观测扰动和空间自相关性的鲁棒性。
为全面评估 TESSERA 的性能,该研究围绕遥感领域的典型应用场景设计了系统化实验,从分类、分割和回归三类任务出发,验证模型在不同数据规模、标注条件和区域场景下的表现。实验选取了多种主流遥感基础模型和经典视觉模型作为基线,统一设置 1%、30% 和 100% 三种标注比例,重点考察标签稀缺场景下的学习能力。为保证比较公平,不同任务均采用轻量化适配器进行下游推理。
分类任务中,TESSERA 展现出显著的时序特征学习优势。无论是在国家尺度树种分类任务还是精细化作物分类任务中,模型均取得领先表现。尤其在仅使用 1% 标注数据的极低样本场景下,TESSERA 仍保持稳定性能,分类精度较最优基线提升约 8 个百分点。这一优势主要源于模型对地表长期变化规律的有效建模。通过利用完整时序观测捕捉植被生长周期和物候特征,即便标注极少,也能形成具有较强区分度的类别表示。
分割任务中,TESSERA 同样表现出优秀的空间细节刻画能力。面对大尺度农田地块分割任务,模型在全量标注条件下达到行业领先水平;在低标注场景下,性能进一步超越所有对照模型。值得注意的是,TESSERA 仅依靠轻量化解码器便能够有效学习空间上下文信息,在保持精度的同时兼顾部署效率。在奥地利作物语义分割数据集上,模型生成的地块边界更清晰,不同作物之间的混淆显著减少,整体语义一致性更强。
回归任务重点考察模型对连续地表参数的表征能力。在地上生物量估算任务中,TESSERA 在不同标注比例下均取得最佳结果,预测误差更低,空间分布更连续。在森林林冠高度反演任务中,模型进一步展现出对三维森林结构信息的捕捉能力,估算结果与激光雷达实测数据吻合度最高,能够有效恢复森林垂直结构特征。
综合所有实验结果,TESSERA 在分类、分割和回归三类任务中均保持稳定优势,尤其在低标注、数据稀疏和观测缺失等复杂条件下优势更为明显。相比许多依赖高质量训练数据的模型,TESSERA 在真实遥感场景中的性能下降更加平缓,展现出更强的鲁棒性和泛化能力。
遥感基础模型真的非「理想数据」不可吗?TESSERA 的尝试给出了不同的答案:让模型直接面对真实世界中残缺、不规则、云层干扰频繁的观测序列,在自监督框架下学习具有时序采样不变性的特征表示。这并不意味着数据清洗不再重要,而是提示研究人员或许可以将更多精力从「把数据变干净」转向「让模型学会处理不干净的数据」。毕竟,卫星拍下的每一张含云影像,都是地球真实观测的一部分。相比不断追求更「完美」的数据,让模型学会理解真实世界的复杂性,或许才是遥感基础模型走向通用化的重要方向。
本文来自微信公众号“HyperAI超神经”,,36氪经授权发布。