文章详情

基于双利合谱高光谱暗箱实现酱香型白酒的香气成分分析

日期:2026-01-12 17:15
浏览次数:0
摘要:高光谱成像技术在酱香型白酒等液体食品质量检测领域展现出重要的应用价值。通过该研究表明,高光谱能够同时获取样品的光谱信息与空间特征,对酒体中醇类、酯类等关键香气物质的含量变化具有敏感响应,从而可用于实现对白酒香气成分的快速、无损、定量化分析。基于此,高光谱技术可用于风味质量监控、原料与发酵过程管理、成品香气评估及在线质量控制等环节,从而助力标准化检测和智能化品控。

研究内容

本研究以酱油香型白酒(SSAB)中的醇类与酯类香气成分为研究对象,旨在探索高光谱成像(HSI)结合机器学习模型实现香气成分的无损、快速、定量检测的可行性。研究首先对 900–1700 nm 近红外光谱数据进行了多种算法的预处理。随后,基于全谱与特征波长光谱数据分别构建了粒子群优化-支持向量回归(PSO-SVR)模型和随机森林(RF)模型。此外,通过 Spearman 相关性分析筛选与目标指标显著相关的化学成分,将相关变量与特征波长组合输入模型,以提升预测性能。本研究*终通过模型对比评估了不同比较策略在醇类与酯类含量预测中的效果,旨在建立一种高精度、无损、高效的白酒香气成分检测方法,为酱油香型白酒的质量控制与香气评价提供技术支持。

实验设计

本实验所用的SSAB样品由四川某酱香型白酒厂提供,所采集的白酒样品来自酿造车间的三个发酵窖池,共取样四批,每批从一个发酵窖池中抽取20个样品,代表窖池内的五个不同位置,每个位置取样四次,总计,获得240个样品(3个坑× 4个采样× 20个样品=总共240个样品)。根据取样的发酵坑,将每个批次中收集的样品分别密封在样品瓶中,并储存在4 ℃下。采用GC-MS(7890 A/5975 B,USA)分析SSAB样品中的挥发性化合物。

在这项研究中采用的HSI系统包括一个高光谱相机(GaiaField-N17 E-HR),高光谱成像系统的集成支架,四个55 W卤素灯和一台配备数据采集软件SpecVIEW的计算机。HSI系统的组成图见图1。本研究选用的高光谱相机来自江苏双利谱成像科技有限公司,可在近红外(NIR)900–1700 nm 波段范围内采集图像。该相机的光谱分辨率为 5 nm,像素维度为640*512(空间维度 × 光谱维度),共生成 512 个光谱通道。为保证采集到的高光谱数据具有较高准确性,系统参数设置如下:电机起始位置为 0.55 cm,运动距离为 1 cm,前进速度为 0.075 cm/s,后退速度为 0.2 cm/s,相机增益设为 2,曝光时间设为 2 ms。样本图像的 R、G、B 值分别调整至 954.15、927.55 和 904.28,且样本与相机镜头之间的距离保持为 40 cm。


图1 HSI系统的组成

在从样品的高光谱图像中提取高光谱数据之前,需要对采集的图像进行黑白白色校正,以减少采集过程中相机波动和环境因素的影响,从而获得相对稳定的光谱反射率值。HSI系统采集的图像除了包含相关的感兴趣目标外,还包含不相关的背景信息,因此,有必要为所有图像进行感兴趣区域(ROI)提取。为获得一致且代表性的光谱区域,本研究将样品置于高度 1 cm、直径 12 cm 的培养皿中,并将 ROI 定义为培养皿中心位置、半径为 255 像素的圆形区域。对 ROI 内所有像素的光谱反射率取平均值,可有效减少单个像素光谱波动的影响,提升整体光谱数据的信噪比。

研究方法

本研究采用四种预处理方法:乘性散射校正(MSC),标准正态变量(SNV),Savizky-Golay滤波器(SG)和EPO对提取的光谱数据进行预处理,其中在EPO中,主要参数是nlv,其用于限制保留向量的数量,在该研究中,nlv的值被设置为1-4,表示为EPO 1-EPO 4,以研究nlv值对光谱数据和模型的影响。在预处理之后,使用SPXY算法将240个SSAB样品的光谱数据以3:1的比例分离成校准集(180)和预测集(60)。在样本的全波段信息中存在大量冗余光谱数据,其中包括大量干扰和不必要的信息,这将对预测模型的性能产生不利影响。因此,采用了三个特征提取方法,即随机森林(RF),无信息变量消除(UVE),竞争自适应加权采样(CARS)被用来从预处理后的光谱数据中提取与酯和醇的化学信息*相关的特征波长。

机器学习在食品工业中得到了广泛的应用,该研究在对比分析现有研究的基础上,选择PSO-SVR和RF两种机器学习模型对SSAB中的醇类和酯类含量进行准确检测。在PSO-SVR模型中,通过PSO对几组参数进行比较分析后,*终确定c1和c2值均为2,初始种群规模为30是*佳的。RF算法中,经过比较决策树数量设置为100,叶子数量设置为5。

在这项研究中,采用六个参数评估预测芳香酯和醇含量模型的性能:校准组确定系数(Rc2)、预测组确定系数(Rp2)、校准均方根误差(RMCEC)、预测均方根误差(RMSEP)、预测组的剩余预测偏差(RPD),RMCEC与RMSEP的**差值(AB_RMSE)。

本研究采用Spearman计算各香气成分含量与总醇、酯含量的相关性。相关性的稳健性基于它们的相关系数(r)和P值。r值越接近−1或1,两个变量之间的线性相关性越强。p值可作为确定观察到的相关系数显著性的指标。通常,较小的p值表明观察到的相关系数不太可能是由于随机因素,从而表明更显著的相关性。

结果

图2(a) 给出了 900–1700 nm 区内,从高光谱图像 ROI 提取的白酒原始近红外光谱。整体曲线平滑,在约 1700 nm 处反射率急剧上升。不同波段反射率的起伏源于特定化学键在对应波长吸收能量所引起的分子偶极矩变化。900–1400 nm 范围内,1100 nm 与 1300 nm 附近出现两个明显反射峰,1200 nm 处可见微弱吸收,对应 C–H 伸缩振动的**倍频;1400–1700 nm 区段各样品反射率基本相当,差异不显著。图2(b)–(h) 依次展示了原始光谱经 MSC、SNV、SG 及 EPO 算法预处理后的曲线。MSC 与 SNV 均使两处反射峰出现不同程度的强度变化,并显著放大了 1400–1700 nm 区间的反射率差异;SG 仅对 1670 nm 附近的反射强度略有提升,整体变动微小。EPO 则突出了 1700 nm 附近的反射与吸收区域,且随 nlv 增大,曲线逐渐趋于平稳。各方法对反射强度的影响程度不一,但是否能真正提升模型精度仍需进一步验证。


图2 原始及预处理后的光谱曲线

本研究以原始光谱和经预处理的光谱作为输入,分别建立 PSO-SVR 与 RF 模型。在基于原始光谱的两种模型中,PSO-SVR 预测性能更佳,其对醇类和酯类的 R_p² 分别为 0.772 与 0.685,RMSEP 分别为 1.135 mg L⁻¹ 和 0.128 mg L⁻¹。比较各类预处理后的建模效果,对于醇类预测,EPO3 表现*优:PSO-SVR 的 R_p² 达 0.894,RMSEP 降至 0.653 mg L⁻¹;RF 的 R_p² 为 0.775,RMSEP 为 0.953 mg L⁻¹。对于酯类预测,PSO-SVR 仍以 EPO3 *佳(R_p² = 0.855,RMSEP = 0.097 mg L⁻¹),而 RF 则优选 MSC(R_p² = 0.842,RMSEP = 0.099 mg L⁻¹)。总体而言,EPO 可显著提升模型预测精度,其原理在于将外部参数与光谱数据正交化,剔除外部扰动,使建模聚焦于光谱本身的主要特征与规律,从而增强建模效果与预测性能。优化程度与 nlv 值密切相关:适度增大 nlv 可提高精度,但过高 nlv 会引入冗余信息,反而导致精度下降。

为降低计算复杂度并提升模型精度,本研究采用 RF、UVE 与 CARS 三种特征提取算法,从光谱中筛选与醇、酯相关的特征波长。图3 给出了各方法的选取标准及波段分布:RF 以“重要性 > 0.15”为阈值;UVE 通过统计特征与目标变量的相关性,保留位于上下边界线之外的变量;CARS 则以采样过程中 RMSECV 先降后升的*低点对应的变量数作为*优波长。三种方法均将 1700 nm 附近视为关键区,1400–1600 nm 区间入选波段较少。细节差异方面,RF 为醇类选出的波段更分散,在 1350 nm 与 1650 nm 处明显多于酯类;UVE 在 1000–1300 nm 范围内为醇类保留的波段少于酯类;CARS 则为醇类额外挑出了 1300–1500 nm 段及更多 1650 nm 附近的波长。


图3 基于RF、UVE与CARS的特征波长提取结果

利用 RF、UVE、CARS 三种方法所得特征波长分别建立 PSO-SVR 与 RF 预测模型。对于醇、酯两类指标,RF-PSO-SVR 表现*佳:醇的 R_p² = 0.850,RMSEP = 0.777 mg L⁻¹;酯的 R_p² = 0.850,RMSEP = 0.099 mg L⁻¹,表明 RF 所选波段更能刻画白酒香气化学信息。然而,全谱模型的精度仍普遍高于特征波长模型。原因在于特征提取在剔除冗余与弱信息的同时,也不可避免地舍弃了部分含有效化学信号的波长。尽管如此,基于特征波长的 PSO-SVR 模型 RPD 均大于 2.0,证实其仍可胜任醇、酯的可靠预测。

白酒整体风味并非由单一香气成分决定,各香气组分间存在协同效应,并进一步共同塑造白酒风味。为提升基于特征波长模型的预测精度,本研究对单个香气化合物与醇类、酯类分别进行了相关性分析。图4的相关热图以颜色深浅表示相关强度;以 p ≤ 0.01 且 |r| ≥ 0.8 为筛选标准,发现样品中乙醇含量与醇类总量呈显著正相关(r = 0.93)。乙酸乙酯、乳酸乙酯分别与其它酯类总量显著正相关,r 依次为 0.87 与 0.88。这表明乙醇浓度升高会带动醇类总量增加,而乙酸乙酯与乳酸乙酯的增量同样显著推高整体酯含量。


图4 单体香气化合物与醇类、酯类的相关性分析(* 表示 p ≤ 0.01 且 |r| ≥ 0.8)

本研究将实测得到的白酒乙醇含量作为新特征,与醇类特征波长拼接,形成含 43 个变量的融合数据,用于建立 RF-PSO-SVR 醇类预测模型;同理,把乙酸乙酯与乳酸乙酯实测值并入酯类特征波长,共 50 个变量,构建酯类预测模型。模型精度显著提升:醇类 R_p² 达 0.997,RMSEP 降至 0.118 mg L⁻¹;酯类 R_p² 达 0.996,RMSEP 仅 0.017 mg L⁻¹。与融合前相比,醇、酯 R_p² 分别提高 0.147 与 0.146,RMSEP 分别下降 0.659 mg L⁻¹ 和 0.082 mg L⁻¹。结果表明,通过 Spearman 相关筛选引入单体香气变量,并与特征波长联合输入,可显著提升基于特征波长的预测精度。

结论

该研究提出了一种基于高光谱成像(HSI)与机器学习的 SSAB 香气定量预测方法,系统论证了醇类与酯类无损检测的可行性。预处理对比表明:醇类*优预处理为 EPO(nlv = 3);酯类在 PSO-SVR 框架下优选 EPO(nlv = 3),在 RF 框架下则优选 MSC。就模型精度而言,醇、酯的*佳统一模型均为 EPO3-FULL-PSO-SVR(醇:R p² = 0.855,RMSEP = 0.653 mg/L;酯:R p² = 0.894,RMSEP = 0.097 mg/L)。进一步将 RF、UVE、CARS 等特征提取与 PSO-SVR/RF 耦合,发现 RF 结果虽优于其他组合,但仍不及全谱模型;而 EPO3-RF-PSO-SVR 再引入 Spearman 相关筛选后,精度显著提升(醇:R p² = 0.997,RMSEP = 0.118 mg/L;酯:R p² = 0.996,RMSEP = 0.017 mg/L)。单一香气组分预测时,EPO3-PSO-SVR 表现受该组分占总含量比例影响而波动。总体而言,HSI 联合机器学习可实现 SSAB 香气的无损、精准检测;特征波长亦揭示了 SSAB 香气成分的关键信息。研究结果为深化 SSAB 香气研究、优化酿造工艺及强化生产过程控制提供了新思路,可确保产品一致性及品质稳定,开辟了 SSAB 质量检测的新方向。


川公网安备 51011202000202号