文章详情

基于集成学习的无人机高光谱遥感估算**叶片氮含量研究

日期:2025-12-23 15:28
浏览次数:0
摘要:快速、准确且实时地检测**叶片的氮含量对烟叶品质监测具有重要意义。无人机搭载的高光谱遥感技术可在大尺度上获取农田作物的精细光谱信息。结合多种机器学习算法,可建立高效的叶片氮含量(LNC)评估模型。本研究旨在利用无人机高光谱影像数据构建高性能**LNC估算模型。为解决单模型性能差异(异质性)问题,引入集成学习策略,将多元线性回归(MLR)、决策树回归(DTR)、随机森林(RF)、自适应提升(Adaboost)及堆叠(Stacking)等多种算法进行融合,以挖掘更多有效数据特征。模型性能通过决定系数(R²)、均方根误差(RMSE)和平均**百分比误差(MAPE)评估,并以偏*小二乘回归(PLSR)作为基准

应用方向

快速、准确且实时地检测**叶片的氮含量对烟叶品质监测具有重要意义。无人机搭载的高光谱遥感技术可在大尺度上获取农田作物的精细光谱信息。结合多种机器学习算法,可建立高效的叶片氮含量(LNC)评估模型。本研究旨在利用无人机高光谱影像数据构建高性能**LNC估算模型。为解决单模型性能差异(异质性)问题,引入集成学习策略,将多元线性回归(MLR)、决策树回归(DTR)、随机森林(RF)、自适应提升(Adaboost)及堆叠(Stacking)等多种算法进行融合,以挖掘更多有效数据特征。模型性能通过决定系数(R²)、均方根误差(RMSE)和平均**百分比误差(MAPE)评估,并以偏*小二乘回归(PLSR)作为基准。结果表明,所有集成学习模型均优于PLSR(R²=0.680,RMSE=5.402 mg/g,MAPE=19.72%),其中基于堆叠策略的模型表现*佳(R²=0.745,RMSE=4.825 mg/g,MAPE=17.98%)。研究为利用无人机高光谱技术实现高效、无损的作物养分与植被表型特征检测提供了参考。

背景

**是中国重要的经济作物,其生产质量直接影响农民收益与区域经济发展。叶片氮含量(LNC)是影响烟叶品质的关键指标,但传统检测方法(人工经验或实验室分析)存在操作繁琐、成本高、时效差的问题。无人机(UAV)结合高光谱遥感技术为实现作物氮含量的快速、无损检测提供了可能,并在水稻、玉米、棉花等作物的叶氮含量估算中取得了成功,但在**领域的应用仍然较为有限。尽管高光谱数据能够反映作物的表型特征,但其与叶氮含量之间的关系需要通过**的建模加以揭示,现有的回归模型在不同作物和环境条件下表现异质,影响预测的稳定性和精度。本研究采用三种集成学习方法——随机森林(RF)、Adaboost回归和堆叠回归(stacking),以解决单一模型的局限性,并与传统的部分*小二乘回归(PLSR)进行了对比。本研究**系统评估UAV‑HRS用于**LNC反演的潜力,并以集成学习缓解不同模型在不同地块、品种和环境下的性能异质性。

图1 研究技术路线

实验与数据采集

(1)实验设置

本研究于2022年在中国云南省大理白族自治州祥云县和弥渡县开展,实验地点位于六个**研究农田(S1~S6),采用随机区组设计,分为三次重复(R1–R3)。每个实验地块面积约1000 m²,均为平坦地形,且没有高压电线、树木、建筑物等阻碍无人机飞行的障碍物。**苗于四月下旬移栽,随后每个地块根据施肥量(0%、25%、50%、75%、100%、125%、150%)分配了七种肥料处理。

图2 研究区域与实验地块分布(XZ:夏庄;XJ:新街;HY:洪岩)

(2)数据采集

无人机搭载的高光谱成像平台包括DJI Matrice 600 Pro无人机和江苏双利合谱科技有限公司的GaiaSky-mini2-VN推扫高光谱成像仪,后者在400–1000纳米范围内采集了176个波段的高光谱图像,光谱分辨率为3.5纳米。高光谱图像采集周期为每隔20天(±3天),从移栽后35天开始,持续到收获。采集时间段选择在晴天的10:00到15:00之间,飞行高度为80米,空间分辨率为0.032米。在每次测量前,进行了光谱校准。**样品的采集与高光谱图像采集同步进行。在每个处理地块中,从两株代表性**植株的上中部叶片上各采集两片叶子。样品被放入标识的纸袋中,并转送至化学实验室进行分析。

研究结果

(1)预处理高光谱数据

本研究通过使用数据处理软件,提取纯烟株像元的平均反射率;采用ExG(过量绿色指数)掩膜剔除土壤、阴影与杂草(优于NDVI)见图3。

(a)Raw    (b)ExG    (c)NDVI

图3 纯**像素提取中ExG与NDVI的对比分析。

(2)特征构建:连续投影算法(SPA)处理

利用SPA(Successive Projection Algorithm)筛选氮敏感波段,该算法不仅能压缩光谱数据,还能根据波长对LNC的贡献度筛选出有效波段,剔除无意义波长,从而降低模型复杂度,共选出15个关键波段(405~959 nm)。

(3)基于Bagging策略的集成学习框架

图4展示了基于Bagging策略(Bootstrap Aggregating)的集成学习原理。该方法通过对原始训练集进行多次自助抽样(Bootstrap sampling),生成若干个随机子集,在每个子集上分别训练独立的弱学习器,*终通过平均或投票融合得到整体预测结果。研究结果表明,RF模型在测试集上获得R²=0.711、RMSE=5.137 mg/g,显著优于传统的PLSR模型,验证了Bagging策略在复杂农田环境下的稳健性与抗噪声能力。

图4 袋装法与提升法基本策略比较

(4)主成分分析(PCA)提取主成分贡献度

研究对400~1000 nm全波段反射率数据进行PCA分析后发现,前七个主成分即可累计解释超过99.9%的光谱信息,如图5所示。这说明**冠层的主要光谱变异可由少量主成分表示,为后续PLSR建模显著降低了维度与共线性问题。PCA的引入有效压缩了数据冗余,提升了模型训练的计算效率和稳定性,为构建偏*小二乘回归(PLSR)及多元线性回归(MLR)模型提供了优化输入。

图5 前7个主成分贡献超过99.9%的信息量

(4)连续投影算法(SPA)波段特征

使用连续投影算法(SPA)通过逐步投影和*小化波段间共线性,筛选出*具代表性的光谱特征变量。横轴为选择波段数量,纵轴为模型的RMSE值。结果显示,当选取波段数量达到15个时,RMSE下降至约5.1 mg/g,达到*优解。进一步增加波段数量并未显著降低误差,表明SPA有效找到了信息量丰富且冗余度低的波段组合。论文指出,SPA能够在保持主要氮敏感特征的同时减少噪声干扰,为后续建模提供更高信噪比的输入变量,从而提升模型的泛化性能。

图6 SPA*终筛选的条带数量

(5)连续投影算法(SPA)波段特征选择

图7展示了通过SPA算法筛选出的15个关键氮敏感波段在400~1000 nm范围内的分布情况。这些波段主要集中于三个关键光谱区间:蓝光区(405–466 nm):对应叶绿素强吸收区,与植被含氮水平密切相关;红边区(662–721 nm):对叶片氮、叶绿素及生理状态*敏感;近红外区(763–959 nm):反映叶片内部结构与水分含量变化。

波段分布均匀且物理意义明确,表明这些波段能**表征**冠层的光谱响应特征。论文指出,该结果验证了光谱特征与叶片氮含量之间存在稳定的函数关系,为建立稳健的高光谱反演模型提供了物理依据。

图7 所选15个频带的分布表

(6)模型在训练集与测试集上的预测对比分析

本文比较了不同建模方法在训练集与测试集上的预测性能,包括PLSR、MLR、DTR、RF、Adaboost以及三种堆叠模型(Stacking-1/2/3),如图8所示。结果显示,所有集成学习模型均显著优于基线PLSR模型(R²=0.680)。其中,Stacking-3模型在测试集上表现*佳(R²=0.745,RMSE=4.824 mg/g,MAPE=17.98%),兼具高精度与高稳定性。Adaboost模型在MAPE上表现*优(17.56%),说明其通过动态调整弱学习器权重有效降低了偏差。整体趋势表明,Stacking策略可整合不同模型的优点,提取更多潜在特征信息,从而提高对**叶片氮含量的预测能力。这一结果证实了集成学习框架在应对高维非线性农业遥感数据时的优势。

图8 不同模型下训练集与测试集的**烟雾密度(mg/g),𝑅2与RMSE的对比分析

(7)讨论模型在不同数据集和堆叠层级下的表现差异

不同子集达到AVCR>99.9%所需的主成分数不同——S1~S3:5;S4:8;S5:6;S6:6。这表明各子集的“有效信息维度”并不一致,反映了品种、环境与背景噪声导致的谱—氮关系复杂度差异。复杂度越高(如S4需8个PC),越难以用统一线性子集**刻画。

图9 子集S1~S3、S4、S5和S6的AVCR值

横向对比各个子集:S6(*佳):测试集 R²=0.703,RMSE=5.315 mg/g,MAPE=16.30%;S4(*差):测试集 R²=0.462,RMSE=6.122 mg/g,MAPE=17.86%。

在样本量较小的子集(S4、S5、S6),PLSR的过拟合倾向更明显,而样本量相对较大的S1~S3稳定性更好,指出样本量与参数充分训练对稳定性的关键作用。

图10 PLSR在各子集的泛化差异比较

结论

本文基于UAV搭载高光谱(400~1000 nm)与田间实测数据,采用PCA+SPA两级降维并系统比较PLSR与多种集成学习策略,结论表明:在跨地区、跨品种、跨环境的混合数据下,集成学习整体显著优于PLSR,其中堆叠(Stacking)在精度与稳健性上*优;*佳模型SPA‑Stacking‑3在测试集达到R²≈0.745、RMSE≈4.82 mg/g、MAPE≈17.98%,而且基学习器应“准确且异质”,二层元学习器宜取简单线性模型以抑制过拟合;SPA能有效降低光谱冗余、基本不损失关键信息。尽管UAV‑HRS的定量精度尚低于近地观测,但其提供连续空间信息、适于规模化表型监测,具备用于**氮素与相关性状快速、无损监测的应用潜力;后续应进一步提升影像与预处理质量、拓展基学习器谱系,并开展分生育期/分区建模以增强普适性与可靠性。

来源

Mingzheng Z ,Tian’en C ,Xiaohe G , et al.UAV-borne hyperspectral estimation of nitrogen content in tobacco leaves based on ensemble learning methods[J].Computers and Electronics in Agriculture,2023,211DOI:10.1016/J.COMPAG.2023.108008.

川公网安备 51011202000202号