DOI:10.12301/spxb202500296
中图分类号:TP181;|TS252.7
程文序1, 宋晓东2, 丁浩晗1,3, 崔晓晖3,4, 董冠军2, 乌日娜2
| 【作者机构】 | 1江南大学人工智能与计算机学院; 2国家市场监督管理总局重点实验室(乳品质量数智监控技术); 3江南大学未来食品科学中心; 4武汉大学国家网络安全学院 |
| 【分 类 号】 | TP181;TS252.7 |
| 【基 金】 | “十四五”国家重点研发计划重点专项项目(2024YFE0199500、2022YFF1101100)。 |
原奶作为乳制品生产的关键原材料,其质量安全直接影响消费者健康。现代畜牧业中,抗生素等兽药的使用是保障奶牛健康[1]和提升养殖效率[2]的重要手段,但其残留问题已成为全球乳品安全的严重隐患。过量的兽药残留可能导致耐药菌株产生、过敏反应[3]和细胞致癌性[4]等健康问题。另外,残留的兽药可能干扰乳酸菌的活性,导致发酵延迟[5]、酸奶凝固受阻及奶酪成熟不良[6],从而影响乳制品的加工效率和感官特性。
准确可靠的兽药残留检测是保障乳品质量安全和维护公众健康的关键环节。传统兽药残留检测方法主要包括微生物法、免疫分析法、液相色谱-质谱联用法(high performance liquid chromatography-mass spectrometry,HPLC-MS)等,虽然各有特点,但普遍存在检测周期较长[7]、试剂成本较高[8]、样品前处理流程复杂、对操作人员高度依赖[9-10]等问题。人工智能(artificial intelligence, AI)技术,如机器学习(machine learning, ML)与深度学习(deep learning, DL),为兽药残留检测提供了新的视角,并已在一些研究中得到应用[11-17]。虽然这类方法依旧存在依赖昂贵专用设备(如传感器、光色谱技术等)、样本规模有限以及泛化能力不足等问题,但AI技术在数据分析和模式识别与预测等方面的优势为解决现有问题带来了新的契机。面对日益增长的乳品产量和对安全性的更高要求,亟须一种能够突破现有瓶颈、快速且低成本地对原奶兽药残留风险进行初步评估的辅助手段,通过快速识别高风险样本,实现靶向送检,优化现有监控体系、实现早期预警。
一个更为棘手且根本性的挑战在于我国奶业生产的显著区域异质性。我国地域辽阔,奶牛养殖具有显著的地域差异:气候、饲养条件、品种及管理水平各不相同,导致原奶品质和兽药残留特征呈现明显的区域性[18];区域化防控策略又进一步加剧了兽药使用频次与类别的差异。由此产生的“模型偏见”使得单一区域训练的模型难以在异地推广,这为建立统一高效的检测标准带来了挑战。要构建高精度、广覆盖的全国性预警模型,必须整合多区域数据,但现实中存在三大壁垒:(1)商业竞争层面,乳企质检数据属核心机密;(2)合法合规层面,数据跨主体流转受《数据安全法》等严格限制;(3)技术实施层面,集中式汇集数据成本高且易形成单点故障。由此形成的“数据孤岛”现象使传统集中式机器学习方案难以落地。相比之下,联邦学习作为新兴的分布式机器学习范式,其运行机制为各数据持有方在本地完成模型训练,仅共享参数更新,能够在保护数据隐私的前提下实现多源数据的协同建模,能够有效缓解区域模型偏见并逼近集中式学习的性能上限,特别适合处理地区差异显著的应用场景[19]。
本研究将机器学习技术引入原奶兽药残留检测场景,基于百万级真实质检数据验证方法可靠性。针对食品安全数据固有的极端类别不平衡性,系统探索SMOTE上采样与随机下采样相结合的策略,并通过对比评估和精细的超参数优化构建高效的本地预测模型。为突破区域数据孤岛带来的泛化瓶颈,通过引入联邦学习框架,设计适应地理差异的分布式协同方案,在实现数据隐私保护的基础上保持预测的准确率。该技术体系旨在为养殖场和乳制品企业提供低成本、快速的风险预警工具,同时为食品安全领域的跨主体智能协作监管提供兼顾隐私合规、成本可控与广泛适用性的系统性解决方案。
2022年1月1日至2024年12月31日大型乳品企业提供的全国范围近100万个原奶检验样本,每条样本包括:样本状态(合格与否及不合格原因)、蛋白质含量等11项检测指标和样本地区、检验时间等共14项特征。出于数据保密及商业敏感性考虑,原始数据已按企业内部定义的收样地理大区(华南大区、中部大区、新疆地区、西部大区、东北大区、基地大区、南部大区、华北大区等)进行了初步汇总和匿名化处理。后续内容均基于这些已定义的大区进行。
数据集的检测指标分布见表1。其中约300条兽药含量检测不合格,不合格原因涉及β-激动剂、β-内酰胺类抗生素等6种主要兽药残留类型,具体不合格样本分布见表2。出于数据敏感性和商业保密协议,样本具体来源和采集细节不予详细披露。数据已经过脱敏处理,仅用于学术研究目的。
表1 原奶检测指标
Tab.1 Testing indicators of raw milk
w(蛋白质)/(g/100g)3.35±0.14w(乳糖)/(g/100g)4.95±0.09w(脂肪)/(g/100g)4.50±1.64w(总固形物)/(g/100g)12.77±0.36理化特征w(非乳脂固体)/(g/100g)8.28±1.63相对密度(20℃/4℃)1.03±0.03酸度/°T13.64±0.51t(奶)/℃4.07±0.92t(冰点)/℃-0.53±0.01微生物特征体细胞数/(104 cells/mL)16.96±5.37菌落总数/(104 CFU/mL)2.04±3.33
表2 不合格样本兽药残留分布
Tab.2 Distribution of veterinary drug residue among non-compliant samples
兽药残留类型占比/%β-内酰胺类46.69四环素类16.89β-激动剂10.26氯霉素类9.27氟喹诺酮类9.93安乃近6.95
为了解决实际生产中兽药残留阳性样本远少于阴性样本导致的数据严重不平衡问题,从而避免模型向多数类偏移、提高对阳性样本的识别能力,采用SMOTE上采样与随机下采样相结合的方法进行处理。
采用SMOTE算法对不合格样本进行上采样至1 000条。为了确定SMOTE参数k的最优取值,在不同k值(k=3、5、7、10)时生成相应的数据集,以确定最优参数配置。为全面评估不同k值下SMOTE的数据生成质量,选用3个互补性指标,分别从数据质量、分布保真度和聚类效果进行评估。(1)孤立森林质量异常比例。从异常检测角度识别不符合原始数据分布模式的异常合成样本。(2)平均KL散度。从分布相似性角度量化合成数据与原始数据分布的统计差异。(3)平均轮廓系数。从类别可分性角度评估不同类别间的分离程度。SMOTE数据生成质量评估指标对比见表3。当k=7时,平均轮廓系数达到最优值(0.171 8),且平均KL散度(0.845 8)也处于最低水平。最终选取k=7时的数据集作为机器学习模型的训练基准。图1为上采样前后数据分布对比。
图1 兽药残留不合格原奶样本SMOTE上采样前后各指标数据分布对比
Fig.1 Comparison of data distribution of each index before and after SMOTE oversampling of veterinary drug residue non-compliant raw milk samples
表3 不同k值时SMOTE数据生成质量评估指标对比
Tab.3 Comparison of quality assessment metrics for SMOTE data generation with different k values
k值孤立森林异常比例平均KL散度平均轮廓系数30.06260.88930.167150.06030.85310.164370.06260.84580.1718100.05560.89560.1599
考虑到食品安全监测领域中不合格样本天然低占比特征,本研究选择机器学习场景中常用的1∶3的类别比例而非1∶1的完全平衡策略[20]。这一选择既能通过适度增加少数类样本来提升模型对不合格样本的学习能力,又能较好保持数据的原始分布特征,实现采样充分性和数据真实性的优化平衡。
对合格样本进行随机下采样至3 000条后(数据分布对比见图2),统计分析显示大部分指标的P值大于0.05,表明采样总体上未引入显著统计偏差。具体表现为:营养成分指标中,蛋白质(P=0.416)、总固形物(P=0.392)、脂肪(P=0.632)、乳糖(P=0.552)等关键营养指标的核心区域(25%~75%分位数区间)保持高度一致;物理化学指标中,非脂乳固体(P=0.694)、酸度(P=0.388)、冰点(P=0.428)、相对密度(P=0.592)的分布形态和离散特征得到良好保持。
图2 合格原奶样本随机下采样前后各指标数据分布对比
Fig.2 Comparison of data distribution of each index before and after random undersampling of compliant raw milk samples
这种SMOTE的上采样结合随机下采样的策略,在显著降低数据规模的同时,有效保持了原始数据的统计特征和分布模式,解决了食品安全领域中典型的数据不平衡问题。
1.2.1 机器学习算法的选择
为满足不同任务和数据分布场景的需求,研究结合多种主流机器学习技术构建原奶兽药残留检测模型。
1.2.1.1 随机森林算法
随机森林(Random Forest, RF)算法是一种集成学习算法,能够通过构建多个决策树来提高预测的稳定性与准确性。这一特性使其在处理复杂的高维度原奶数据特征有良好的分类识别能力,有效降低了单一树模型可能带来的过拟合风险。
1.2.1.2 决策树算法
决策树(Decision Tree, DT)算法依靠特征的递归划分形成简单的“若…则…”规则来完成样本分类[21]。在本研究中,决策树的预测能力可能受到样本数量和特征复杂性的限制,但其易于解释的特性依然对预测兽药残留有帮助。
1.2.1.3 贝叶斯网络算法
贝叶斯网络(Bayesian Network, BN)算法是一种基于概率图的分类算法,用有向无环图表示变量之间的条件依赖关系。通过结合领域知识,贝叶斯网络适合处理因果关系明确且存在不确定性特征的数据[22]。
1.2.1.4 极限梯度提升算法
极限梯度提升(eXtreme Gradient Boosting,XGBoost)算法是一种基于梯度提升树(GBDT)的增强型集成学习算法。该算法通过迭代构建一系列弱学习器,逐步优化误差[23],适用于原奶残留检测中不合格数据稀缺和样本类型严重不平衡的情况。
1.2.1.5 支持向量机算法
支持向量机(Support Vector Machine, SVM)算法是通过寻找最大化样本间隔的超平面实现分类的一种算法,能通过核函数将数据映射到更高维的空间[24],找到更适合的分界线以处理非线性问题[25]。由于其在高维数据上的优越分类效果,这种算法在兽药残留的分类识别中也展现出良好的应用前景。
除SVM的“probability”参数(用于控制是否启用概率估计,为计算 ROC 曲线而设定为 True)外,其余超参数均采用各算法在 Scikit-learn/XGBoost 官方实现中的默认值,如此设置可借助已有研究验证的通用基线,保证模型比较的公平性与可复现性,主要超参数见表4。
表4 不同机器学习算法主要超参数设置
Tab.4 Key hyper-parameter settings of machine learning algorithms
模型参数名称默认值含义对模型性能影响n_estimators100决策树数量增加可提升稳定性,但边际收益递减,过多易过拟合max_depthnone树的最大深度过小导致欠拟合,过大增加过拟合风险RFmin_samples_split2内部节点最小分割样本数最小值确保充分学习;增大可防止过拟合但可能欠拟合min_samples_leaf1叶节点最小样本数增大可提升泛化能力但降低拟合精度max_features“sqrt”分割时考虑的特征数过大会提高计算成本,过低会影响预测能力criterion“gini”分割标准“gini”相比于“entropy”有更高的计算效率和相近的分割效果DTmax_depthnone树的最大深度过深易过拟合,过浅导致欠拟合min_samples_split2内部节点最小分割样本数增大可控制过拟合,但损失拟合精度min_samples_leaf1叶节点最小样本数增大可平滑决策边界,但降低精度BNvar_smoothing1×10-9方差平滑参数过大导致过度平滑,过小可能数值溢出n_estimators100提升轮数增加可提升精度但增加过拟合和计算成本XGBoostmax_depth6树的最大深度过深易过拟合,过浅限制表达能力learning_rate0.3学习率过大可能不收敛,过小收敛慢且易陷入局部最优subsample1.0样本采样比例1.0为全样本训练;降低可防过拟合但可能学习不充分C1.0正则化参数增大提升拟合能力但易过拟合,过小导致欠拟合SVMkernel“rbf”核函数类型“rbf”核为通用首选;相比线性核(“linear”)能处理非线性关系,比多项式核(“poly”)参数少且不易过拟合gamma“scale”核函数系数过大导致过拟合,过小模型过于简单probabilityTrue启用概率估计Ture时增加计算开销但提供置信度信息
1.2.2 联邦学习模型的设定
联邦学习是一种在保护数据隐私前提下进行分布式机器学习的方法,其核心思想是让各参与方在不共享原始数据的情况下,通过协同训练构建共享模型[26]。本研究模拟多个客户端,利用多地区的原奶数据集分别训练模型,并上传模型参数到中心服务器。中心服务器将客户端上传的模型参数进行聚合后,更新并下发新的全局模型进行下一轮训练。这种方式适合区域差异显著性和样本分布不均衡问题,同时支持模型的动态优化和持续学习。
1.2.3 评价指标的计算
使用基于混淆矩阵的指标来评估模型的性能。预测为阳性且实际也为阳性的样本(true positive,TP)、预测为阴性且实际也为阴性的样本(true negative,TN),均为预测正确的情况。在食品安全应用中,不同类型的错误分类会带来截然不同的后果。假阳性(false positive,FP)在实际合格的情况下预测为不合格,即误报,会导致合格产品被错误标记为缺陷品,增加不必要的检验和处置成本,但不会带来安全风险。而实际不合格却被预测为合格的假阴性情况,即漏报(false negative, FN)尤其关键,因为它们可能导致问题产品流入市场,后果更为严重。
本研究选用5种指标,这些指标适用于安全考虑大于经济考虑的不平衡数据集。
准确率(accuracy):衡量模型总体正确分类样本的能力,计算方法见式(1)。
准确率![]()
(1)
精确率(precision):用于衡量预测为正类的样本中,实际正类的比例,计算方法见式(2)。
精确率![]()
(2)
召回率(recall):通常也被称为真阳性率(true positive rate,TPR),表示正类样本中被正确预测的比例,计算方法见式(3)。
召回率![]()
(3)
F1-score:精确率和召回率的调和平均,用于综合衡量两者的平衡性能,特别适合处理类别不平衡问题,计算方法见式(4)。
(4)
ROC/AUC(受试者工作特征曲线/曲线下面积):ROC曲线是用于评估二元分类模型性能的图形,它通过绘制TPR与假阳性率(False Positive Rate,FPR)的关系来展示分类器在不同阈值下的表现。AUC是衡量分类器性能的常用指标,AUC值越高,分类器性能越好。其中,FPR是指在所有实际为合格的样本中,模型错误地预测为不合格的样本所占比例,计算方法见式(5)。
(5)
本研究在处理后的训练-验证集上实施了RF、DT、BN、XGBoost和SVM这5种机器学习算法,模型性能通过十折交叉验证进行全面评估。十折交叉验证指将数据集平均分成10份,每次使用9份训练、1份验证,重复10次,取平均结果。在数据规模有限时,该方法对算法性能评估仍有良好的效果。模型训练效果见图3。
图3 不同机器学习训练效果对比
Fig.3 Comparison of training effects of different machine learning algorithms
2.1.1 训练效果对比分析
由图3(a)可知,在各项模型性能评估中,XGBoost模型均展现出显著优势。XGBoost模型不仅在整体上能够准确区分原奶样本是否含有兽药残留,而且在有效识别实际含有残留的不合格样本方面,表现出优异的平衡性(如精确率与召回率的平衡)与结果的可靠性。RF模型各项评估指标也显示出良好的预测稳健性,同样适合处理复杂的原奶数据。相比之下, BN模型难以有效胜任基于原奶常规检测多维特征的兽药残留状况分类任务。
ROC曲线[图3(b)]可以更直观地看出不同模型在区分能力上的差异。XGBoost和RF模型,得益于集成学习的特性,能够更有效地捕捉原奶各理化指标及微生物指标间复杂的非线性关系,以及不同兽药残留模式的数据特征,因此在预测的准确性和结果稳定性上表现更为出色。其中,XGBoost模型的AUC最大且曲线最贴近左上角,这表明其在区分合格与不合格样本时,能更好地平衡TP样本与FP样本之间的关系,这对于防止问题乳品流入市场、保障消费者健康至关重要。相比之下, DT和BN模型的ROC曲线则更趋近于对角线(即随机猜测水平),表明它们的预测效果不佳,难以有效区分合格与不合格样本。
在预测性能的稳定性方面,XGBoost模型和RF模型同样展现出优异的稳定性,这意味着它们的预测结果具有良好的一致性和可重复性。这种稳定的预测性能对于开发可用于乳品企业日常监测或监管部门风险预警的实用工具而言至关重要,该性能能够确保分析结果的可靠性。而DT模型和SVM模型则表现出较大的性能波动,说明其预测结果可能更容易受到抽样数据分布差异的影响,这在实际应用中可能导致模型输出结果的不确定性增加。BN模型则同时存在预测准确率低和结果不稳定的双重问题,进一步印证其不适合应用于基于常规指标预测原奶兽药残留的复杂任务场景。
2.1.2 XGBoost超参数优化与SMOTE-k参数验证分析
采用网格搜索(GridSearch)对XGBoost的关键超参数进行优化,搜索空间设定为:n_estimators∈{50,100,200},max_depth∈{4,6,8},learning_rate∈{0.01,0.1,0.3},subsample∈{0.6,0.8,1.0},共计81种参数组合。通过十折交叉验证评估每种组合的性能,最终确定的优化超参数组合见表5。
表5 经GridSearch参数寻优后XGBoost模型的优化参数
Tab.5 Optimized parameters of XGBoost model after GridSearch parameter optimization
n_estimatorsmax_depthlearning_ratesubsample20080.31.0
随后,将这组固定的优化超参数依次作用于4种SMOTE模型近邻参数(k=3、5、7、10)并评估结果,见图4。由图4可知,随着k的增大,模型各项评估指标整体呈下降趋势;其中k=3时达到最佳分类性能。
图4 SMOTE算法中k值对模型性能指标的影响
Fig.4 Impact of k value in SMOTE on model performance metrics
这一实验结果揭示了数据增强策略与分类器性能之间的复杂关系。SMOTE模型中较小的k值(如k=3)使得合成样本更多地依赖于近邻的少数类样本,生成的数据在局部空间内保持了较好的类内一致性(样本分布更紧凑),有利于XGBoost模型构建更精确的决策边界。相比之下,较大的k值虽然在整体数据分布上可能表现出更好的统计特性,但引入了更多的变异性(如决策边界上的噪声),反而干扰了已高度优化的XGBoost模型的判断。
本研究发现,用于评估数据生成质量的无监督指标与最终的有监督分类任务性能并不完全一致。这一结果表明,用于评估数据生成质量的无监督指标(如轮廓系数)与最终的有监督分类任务性能并非完全正相关。对于以分类性能为最终目标的任务,数据增强策略及其参数应以下游模型的实际表现为准,而非仅依赖中间质量指标。考虑到计算成本与研究重点,本研究采用“先定模型、再调 k值” 的分阶段方案,实验结果证明该优化模型配置在 k=3 条件下依然保持较优性能;后续所有测试结果的比较均基于 k=3 的数据集建模得到的结果完成。
2.2.1 二分类任务性能评估分析
在实际原奶检测中,准确识别出真正含有兽药残留的样本(低漏报),同时避免将合格样本误判(低误报)是关键挑战。在原奶兽药残留的合格与否二分类预测中(图5),各模型展示了其在真实、复杂数据环境下的应用潜力。
颜色条可以表示模型预测为某个类别的概率。颜色越深,表示模型预测为该类别的概率越高。
图5 训练模型基于原始样本的二分类测试结果
Fig.5 Binary classification test results of trained machine learning model based on original dataset
XGBoost模型在二分类测试中综合表现最为稳健。XGBoost模型不仅能够高度准确地识别出合格原奶,避免了对合格产品的错误剔除,同时,在有效检出含有兽药残留的不合格原奶方面也达到了74.8%的召回率。这意味着XGBoost模型在最大程度上防止了问题乳品流入市场,同时兼顾了生产效益,显示出作为乳品安全初步筛查工具的优异潜力。
DT模型在识别不合格样本方面表现出较高的敏感性,其召回率达到了75.7%,略高于XGBoost模型。这表明DT模型在捕捉某些指示样本不合格状态的特征上具有优势。然而,其在判断合格样本时的准确率(约87.5%)较XGBoost有明显差距,更容易将合格原奶误判为不合格。这种特性在某些以初步风险排查为主且允许较高复检率的场景下,可能作为一种快速、低成本的预警手段。
RF模型在准确识别合格原奶方面与XGBoost模型表现相当,但在关键的不合格样本检出能力上则不及XGBoost模型和DT模型,这可能限制其在对漏检容忍度极低的场景中的首选地位。
SVM模型虽然对合格样本的误判率极低,能有效避免合格产品的浪费,但其对不合格样本的检出能力严重不足(召回率仅6.6%)。这意味着依赖SVM模型进行安全监控,将有极大概率放过真正存在兽药残留的问题牛奶,不适合作为可靠的风险控制工具。
BN模型在二分类测试集上的整体表现未能达到实际应用要求,其对合格样本的判断准确率过低(仅29.6%),即使对不合格样本有一定检出能力,也因过高的误报而缺乏实用价值。
与模型训练阶段的性能排序相比,原始测试集上的评估结果揭示了模型对真实世界复杂数据的适应能力。训练效果更优的模型并不总能完美迁移到包含较多噪声、批次差异和未见模式的实际原奶样本检测场景中。XGBoost模型和RF模型作为集成模型,通常表现出较好的泛化能力,但DT模型有时会因为其独特的规则生成方式,在某些测试集上表现出意料之外的性能波动。这种性能差异强调了在真实、多样化的样本上进行严格评估对于模型筛选和实际部署的重要性。
为构建高效、可靠的原奶兽药残留智能监控体系,未来可探索多模型融合或分层应用策略。例如,可将表现最优的XGBoost模型作为关键控制点(如原奶进厂验收)的初筛工具,以最大限度识别潜在风险批次;再结合其他模型的特性,平衡检测效率与准确性。针对不同风险等级的原奶或特定风险因子进行分析,根据不同来源、风险等级及质量控制目标灵活配置和优化模型组合,以期达到最佳的兽药残留风险识别与控制效果,从而构建更全面、可靠的乳品安全预警系统。
2.2.2 多分类任务性能评估
为进一步探究模型对原奶中具体兽药残留种类的区分能力,本研究将模型应用于原始测试数据集,进行多分类(是否有兽药残留及具体残留类别)验证,结果如图6。
颜色越深,表示模型预测为该类别的概率越高。类别0,合格;类别1,β-激动剂;类别2,β-内酰胺类抗生素;类别3,安乃近;类别4,氟喹诺酮类;类别5,氯霉素类;类别6,四环素类。
图6 训练模型基于原始样本的多分类测试结果
Fig.6 Multi classification test results of trained machine learning model based on original dataset
在对各类兽药残留的识别中,XGBoost模型再次展现了其全面的优势和最高的综合准确率。尤其是在原奶中常见的,也是重点监控的β-内酰胺类抗生素(类别2)以及四环素类药物(类别6)的检测上,XGBoost模型均实现了最可靠的识别,将它们与其他类别或合格样本有效区分开。这对于针对性地监控这些常用抗生素的合规使用至关重要。DT模型在多分类任务中的表现也较为突出,尤其在识别β-内酰胺类和四环素类这2种主要残留类别时,其准确率仅次于XGBoost模型。这表明DT模型在捕捉特定兽药残留模式的特征方面具备一定潜力。
当涉及数据集中占比较低但法规严格管控或潜在健康风险较高的兽药残留时,例如β-激动剂(类别1,常因其“瘦肉精”效应被关注)、氯霉素类(类别5,因潜在严重不良反应而被广泛禁用),以及氟喹诺酮类(类别4,主要合成抗菌药),XGBoost模型依然能够保持相对优异的识别能力和稳定性。DT模型在这些低比例类别上的表现也优于RF及其他模型。这种在实际生产中有效识别偶发存在、低浓度但高风险的残留物的能力,是评价模型实用价值的关键指标。
RF模型在此多分类测试中的表现位于DT模型之后,尤其在β-内酰胺类等关键类别的识别准确率上与XGBoost模型存在一定差距,这可能影响其在需要精确区分多种残留物时的应用效果。
SVM模型和BN模型在这项复杂的多类别、不平衡数据测试中,性能局限性较为明显,难以准确识别大多数兽药类别,不适合用于实际生产中对多种兽药残留的精细化监控。
总体而言,在针对原奶中多种兽药残留类别的复杂识别任务中,XGBoost模型在准确性、稳定性以及对不同含量水平残留物的综合识别能力方面均表现较优。这使其成为构建能够精确识别并区分不同兽药种类的智能化乳品安全监控系统的核心技术支撑,为后续的风险溯源、针对性干预以及消费者对特定过敏原(如某些抗生素)的回避提供了可能。DT模型亦可作为有益补充,特别是在需要快速理解特定残留类别判别逻辑的场景。
2.2.3 特征重要性分析
为了进一步理解模型做出预测的内部机制,深入挖掘影响预测结果的核心特征,本研究对XGBoost模型进行特征重要性分析,结果见图7。在数据预处理阶段,采用标签编码(label encoding)将“地区”这一分类特征转换为数值特征,即将不同地区名称映射为唯一连续整数。选择此方法而非常见的独热编码(one-hot encoding),主要基于2点考虑。首先,XGBoost这类树模型能够通过节点分裂有效学习地区间的非线性模式,而不会错误地将数值大小解读为序数关系;其次,标签编码后的单一特征便于直接计算和展示其重要度,避免了独热编码可能产生的维度灾难(即特征维度急剧增加)所导致的特征重要性分散与数据高维稀疏问题。由图7可知,“地区”因素是影响原奶兽药残留预测最为关键的因素。
图7 XGBoost模型的特征重要性分析
Fig.7 Analysis of feature importance of XGBoost algorithm
本研究数据集中,不同地理大区主要兽药残留的实际构成与占比差异见图8。这一结果与国内外多项研究的结果一致,即兽药残留在地理空间上并非均匀分布,而是呈现显著的区域特异性。例如,针对我国全脂牛奶的调查已明确指出,多种抗生素和驱虫药的残留存在空间分布差异,直接反映了药物应用的区域性特点[27]。类似地,针对河北省等特定区域的研究也揭示,省内不同地区、不同养殖模式(如规模化养殖与散养)下的兽药残留检出率和种类均存在显著差异[28]。这种显著的区域差异性,其形成原因错综复杂,普遍认为与各地区特有的气候条件、主要饲养的奶牛品种、养殖规模与管理水平、地方性动物疫病的流行情况(如奶牛子宫内膜炎的病原谱和耐药性可能存在差异,进而影响治疗性抗生素的选择与使用[29]),以及由此衍生的兽药使用习惯和地方监管强度等因素密切相关。
图8 各大区主要兽药残留构成
Fig.8 Proportion of major veterinary drug residue types in different regions
2.2.4 区域模型偏见分析
特征重要性分析揭示了“地区”因素的关键作用,有必要进一步量化验证区域差异对模型泛化能力的影响。本研究选择样本量最大的4个大区(华北、东北、西部、中部)分别构建严格隔离的本地模型,采用1.1节的优化数据处理方案(分层抽样、SMOTE上采样、随机下采样)和XGBoost模型参数配置。每个模型仅使用对应区域数据训练,然后在4个大区测试集上进行交叉验证,以F1-score作为评价指标,结果见表6。这一设计旨在真实模拟各区域“数据孤岛”的实际情况,量化跨区域应用时的性能损失。
表6 各区域本地模型交叉测试性能对比
Tab.6 Cross-testing performance comparison of local models across regions
类别华北大区东北大区西部大区中部大区本地模型-华北大区 0.7010.5650.6160.619本地模型-东北大区 0.6930.7330.6930.658本地模型-西部大区 0.0270.0230.8550.013本地模型-中部大区 0.5730.5430.5430.676
由表6可知,除在本地区保持相对可用的F1-score外,各模型在外部区域均出现10%~80%不等的性能衰减,尤其西部模型在异地几乎失效。这一结果充分证明了“区域”数据孤岛导致的模型偏见问题,若继续依赖传统本地模型,跨区域监测将难以满足食品安全监管需求。
鉴于模型存在的显著偏见,引入联邦学习框架,通过参数聚合而非数据共享的方式协同各区域知识,以期在保障数据隐私的前提下提升模型跨区泛化能力。
2.3.1 联邦学习在原奶兽药残留检测中的性能分析
考虑到质量监管的实际需求,本研究聚焦于最核心的二分类任务——判定原奶样本是否含有兽药残留,该判定结果直接关系到原奶能否进入后续生产环节。虽然识别具体的兽药种类(多分类任务)在追溯污染源和制定针对性管控措施方面具有价值,但在实际监管中,首要任务是快速、准确地筛查出存在兽药残留风险的批次。另外,部分区域或特定兽药类别的数据可能较为稀疏,直接在联邦学习框架下构建稳健的多分类模型面临较大挑战。
基于地理位置特征,将原有8个地区重组为5个客户端:Client-1(华北大区)、Client-2(东北大区)、Client-3(中部及基地大区)、Client-4(西北、西部及新疆大区)、Client-5(南部及华南大区)。每个客户端数据分布占比见图9。
图9 联邦客户端数据分布占比
Fig.9 Percentage of federated learning client data distribution
为验证联邦学习能否缓解2.2.4节中提到的区域模型偏见,研究比较了其与传统 XGBoost 模型(均基于全局数据训练的模型)分别在4个大区测试集上的性能,结果见表7。
表7 联邦学习框架与传统XGBoost模型兽药残留检测的性能对比
Tab.7 Performance comparison between FL framework and traditional XGBoost model in veterinary drug residue detection
类别华北大区东北大区西部大区中部大区XGBoost+FL0.9710.9640.9570.960XGBoost0.9780.9690.9760.972
结果显示,联邦学习框架在各区域的F1-score与传统XGBoost模型相比略有下降,但4区域波动更小,说明该框架的区域间表现更加均衡,具备跨区域应用的稳定性优势。
为进一步从整体性能角度评估联邦学习的综合表现,本研究对各参与方及中心聚合模型进行了完整性能测试,结果如表8。
表8 兽药检测合格性判定
Tab. 8 Judgment results of veterinary drug detection qualification
客户端准确率精确率召回率F1-score195.09±1.7093.56±5.5688.05±4.2590.58±3.44296.39±2.1092.98±5.4689.01±9.0590.57±4.89390.47±3.2485.23±7.8980.50±10.4282.12±5.38492.52±2.5390.02±9.9578.86±9.1483.17±4.37594.30±3.0191.79±8.6188.96±13.7889.32±7.60中心客户端95.88±0.3994.01±1.7889.22±2.3891.51±0.88
数据均衡且充足的客户端节点Client-1,拥有最大规模的原奶质量数据集且类别分布也相对较平衡,使其模型在多个指标中的表现接近中央模型。对于那些能够提供丰富且具有代表性质量数据的区域,其本地模型本身就具备了较强的风险识别与泛化能力,能够为联邦体系贡献高质量的基准模型。
合格样本占绝对主导的节点(如Client-2)数据中,合格样本占比高达80.4%。这种严重的类别不平衡导致其本地模型在训练时过度关注合格样本,从而显著削弱了对实际存在的不合格样本的识别灵敏度和准确性。值得注意的是,在实际应用中,若某一区域的监测数据长期维持良好水平,该区域的本地模型可能存在对偶发性污染事件的识别盲区。
对于数据特征相似但模型表现波动的节点(Client-3和Client-4),尽管这2个节点的数据在宏观分布上较为接近,但其本地模型的预测性能显示出一定的波动性。这可能意味着模型未能充分学习和捕捉各自区域原奶中兽药残留模式的细微但关键的特征,其原因可能与样本量的相对不足或样本内部特征的复杂性有关。在联邦体系中,需要关注这类节点的模型稳定性。
Client-5中虽然不合格样品比例为各节点中最高(32.1%),但其整体样本规模非常有限。这直接导致其本地模型在识别不合格样本方面的学习不充分,泛化能力受到显著制约,难以形成对该区域高风险特征的稳定有效监测。 这种情况恰恰凸显了联邦学习的价值——即便是高风险区域,若数据量不足,也可借助其他节点的数据来强化模型。
通过有效学习并整合各参与节点的异构数据特征,中央模型在兽药残留预测的各项性能指标上均实现了显著提升,尤其是在对不合格样本的召回率和F1-score方面,改善尤为突出。 这充分证明,联邦学习能够有效突破单一数据源由类别不平衡或数据量不足带来的局限,显著增强和提高整个监测体系对潜在污染风险的识别能力和预警准确性,为保障乳品质量安全提供了更可靠的技术支撑。
2.3.2 联邦学习框架与传统方法对比分析
为进一步评估模型的应用效果,本研究同时对比分析了基于XGBoost模型的联邦学习框架(XGBoost+FL)与传统XGBoost模型的表现,结果见表9。
表9 联邦学习框架与传统XGBoost模型的兽药残留检测性能对比
Tab.9 Performance comparison between FL and traditional XGBoost in veterinary drug residue detection %
模型准确率精确率召回率F1-scoreXGBoost+FL95.88±0.3994.01±1.7889.22±2.3891.51±0.88XGBoost96.20±0.8695.51±1.8089.04±2.6392.13±1.63
从检测性能来看,二分类任务中2种方法均表现优异,联邦学习框架的各项指标与集中式方法基本持平,性能差异普遍小于1%,表明分布式协同训练并未对模型的整体检测精度造成显著影响。值得关注的是,联邦学习框架显著提升了模型稳定性。准确率标准差降低54.7%(0.86%降低至0.39%),F1-score标准差降低46.0%(1.63%降低至0.88%)。这种稳定性的提升对于食品安全监管具有重要实际意义,在日常检测工作中,稳定可靠的检测结果是保障消费者健康、维护市场秩序的关键基础。
从食品安全风险防控角度,结合联邦学习框架的XGBoost模型在召回率方面表现更佳,这意味着该模型能够更有效地识别出含有兽药残留的问题样本,降低漏检风险。虽然精确率略有下降(<1.5%),但考虑到食品安全“宁枉勿纵”的风险管理原则,这种权衡在可接受的范围之内,且换来了更好的检测稳定性。
结果表明,在引入联邦学习框架后,各参与节点的模型性能相较于它们独立训练时均有显著提升。这主要归功于联邦学习的协同机制。联邦学习框架允许各节点在不直接共享原始敏感数据的前提下,通过交换和聚合模型参数,间接学习并融合来自其他节点数据中的多样化特征和知识。这一机制有助于突破单一检测机构因样本量不足或数据分布偏态可能导致的模型泛化能力瓶颈,同时提升对复杂兽药残留模式的识别准确率,从而使每个参与节点的最终模型都能从集体的智慧中受益,达到超越个体独立训练的效果。此外,联邦学习框架不仅能在保持分类性能的同时提供更稳定的预测结果,而且在数据隐私保护和分布式学习方面具有显著优势。特别是在实际检测场景中,联邦学习框架的更高稳定性和更可靠的召回率对于确保食品安全具有重要意义。
虽然本研究主要专注于二分类任务,但兽药残留的具体类别识别(多分类任务)对于精准溯源和制定针对性干预措施同样具有重要意义。将联邦学习扩展应用于多分类场景,并解决其中可能出现的挑战(如稀有类别学习),将是未来研究的方向。
本研究以我国大型乳品企业2022—2024年间不同区域的原奶检验数据为基础,提出了基于多种主流机器学习模型的兽药残留智能检测方法。在效果较优的XGBoost模型中引入联邦学习框架,在保持分类准确率几乎不变的同时,实现了数据隐私保护与检测性能的双重提升。该模型能够辅助监管部门和乳品企业快速识别高风险区域和批次,为原奶中兽药残留检测提供快速、低成本、数据驱动的风险识别范式和预警机制,以及为靶向抽检和精准干预提供数据支持,从而优化资源配置,提高监管效能,并可以作为化学检测技术的有效补充和食品安全保障的新方案。然而,本研究也存在一定的局限性。尽管通过SMOTE上采样和随机下采样方法初步解决了数据不平衡问题,但因极端分布数据的复杂性,仍可能存在潜在噪声引入和部分样本特征被稀释的情况,对模型性能带来一定影响。此外,当前模型主要基于单一企业数据构建,在推广至不同规模和管理水平的乳品企业时,可能需要进行模型校准。未来可进一步研究将本模型与现有的快速检测试剂盒或在线传感数据相结合,构建多层级的兽药残留风险预警系统,并将联邦学习框架推广应用于农药残留、重金属污染、致病菌检测等其他食品安全检测场景,构建更加完善的智能化食品安全监管技术体系。
[1] VIRTO M, SANTAMARINA-GARC
A G, AMORES G, et al. Antibiotics in dairy production: where is the problem?[J].Dairy,2022, 3(3): 541-564.
[2] MENKEM Z O E, NGANGOM B L, TAMUNJOH S S A, et al.Antibiotic residues in food animals: public health concern[J].Acta Ecologica Sinica,2019, 39(5): 411-415.
[3] BERRUGA M I, MOLINA A, ALTHAUS R L, et al.Control and prevention of antibiotic residues and contaminants in sheep and goat’s milk[J].Small Ruminant Research,2016, 142: 38-43.
[4] SACHI S, FERDOUS J, SIKDER M H, et al.Antibiotic residues in milk: past, present, and future[J].Journal of Advanced Veterinary and Animal Research,2019, 6: 315-332.
[5] BELTR
N M C, SANNA A, QUINTANILLA P, et al.Quinolones in goats’ milk: effect on the cheese-making process, chemical and microbial characteristics of acid-coagulated cheeses[J].International Dairy Journal,2023, 138: 105538.
[6] CHIESA L M, DECASTELLI L, NOBILE M, et al.Analysis of antibiotic residues in raw bovine milk and their impact toward food safety and on milk starter cultures in cheese-making process[J].LWT-Food Science and Technology,2020, 131: 109783.
[7] TUMINI M, NAGEL O G, ALTHAUS R L.Five-assay microbiological system for the screening of antibiotic residues[J].Revista Argentina de Microbiología,2019, 51(4): 345-353.
[8] AHMED S I, NING J, PENG D, et al.Current advances in immunoassays for the detection of antibiotics residues: a review[J].Food and Agricultural Immunology,2020, 31: 268-290.
[9] KUMAR A, PANDA A K, SHARMA N.Determination of antibiotic residues in bovine milk by HPLC-DAD and assessment of human health risks in Northwestern Himalayan region, India[J].Journal of Food Science and Technology,2022, 59(1): 95-104.
[10] IGUALADA C, GIRALDO J, FONT G, et al.Validation of a multi-residue UHPLC-HRMS method for antibiotics screening in milk, fresh cheese, and whey[J].Journal of Food Composition and Analysis,2022,106:104265.
[11] GUTIÉRREZ P, GODOY S E, TORRES S, et al. Improved antibiotic detection in raw milk using machine learning tools over the absorption spectra of a problem-specific nanobiosensor[]. Sensors,2020.
[12] ALIEV T A, BELYAEV V E, POMYTKINA A V, et al. Electrochemical sensor to detect antibiotics in milk based on machine learning algorithms[J].ACS Applied Materials &Interfaces,2023, 15 (44): 52010-52020.
[13] ZHOU C, HUANG C, ZHANG H, et al.Machine-lear-ning-driven optical immunosensor based on microspheres-encoded signal transduction for the rapid and multiplexed detection of antibiotics in milk[J].Food Chemistry,2024, 437: 137740.
[14] WANG Y, LI C, YANG Y, et al. A surface-enhanced raman spectroscopy platform integrating dual signal enhancement and machine learning for rapid detection of veterinary drug residues in meat products[J].ACS Applied Materials &Interfaces,2025, 17(10): 16202-16212.
[15] DONG F, MA Z, XU Y, et al.Monitoring of veterinary drug residues in mutton based on hyperspectral combined with explainable AI: a case study of OFX[J].Food Chemistry,2025, 474: 143087.
[16] GOMES MARQUES DE FREITAS A, ALMIR CAVALCANTE MINHO L, ELIZABETH ALVES DE MAGALH
ES B, et al.Infrared spectroscopy combined with random forest to determine tylosin residues in powdered milk[J].Food Chemistry,2021, 365: 130477.
[17] BARNABÉ A, DELCOURT V, LOUP B, et al.Convolutional neural networks assisted peak classification in targeted LC-HRMS/MS for equine doping control screening analyses[J].Analytical Chemistry,2025, 97(6): 3236-3241.
[18] LU G, CHEN Q, LI Y, et al.Status of antibiotic residues and detection techniques used in Chinese milk: a systematic review based on cross-sectional surveillance data[J].Food Research International,2021, 147: 110450.
[19] VIMALAJEEWA D, KULATUNGA C, BERRY D P, et al. A service-based joint model used for distributed learning: application for smart agriculture[J].IEEE Transactions on Emerging Topics in Computing,2022, 10(2): 838-854.
[20] LUGNER M, RAWSHANI A, HELLERYD E, et al. Identifying top ten predictors of type 2 diabetes through machine learning analysis of UK Biobank data[J].Scientific Reports,2024, 14 (1): 2102.
[21] VARR
M O, HUS
KOV
L, PATO
KA J, et al.Classification of transformed anchovy products based on the use of element patterns and decision trees to assess traceability and country of origin labelling[J].Food Chemistry,2021, 360: 129790.
[22] BOUZEMBRAK Y, LIU N, MU W, et al.Data driven food fraud vulnerability assessment using Bayesian Network: spices supply chain[J].Food Control,2024, 164: 110616.
[23] CHEN T Q, GUESTRIN C. XGBoost: a scalable tree boosting system[C]∥Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco: ACM, 2016: 785-794.
[24] 李文, 李民赞, 孙明.基于比色光谱和SVM快速检测白菜中氧乐果农残方法[J].食品科学技术学报, 2015,33(5): 74-78.
LI W,LI M Z,SUN M. Rapid detection of omethoate pesticide residues in Chinese cabbage based on colorimetric spectroscopy and SVM[J].Journal of Food Science and Technology,2015,33(5):74-78.
[25] LI Q, LEI T, CHENG Y, et al.Predicting wheat gluten concentrations in potato starch using GPR and SVM models built by terahertz time-domain spectroscopy[J].Food Chemistry,2024, 432: 137235.
[26] LI Q, WEN Z, WU Z, et al.A survey on federated learning systems: vision, hype and reality for data privacy and protection[J].IEEE Transactions on Knowledge and Data Engineering,2023, 35(4): 3347-3366.
[27] CHANG L, DU S, WU X, et al. Analysis, occurrence and exposure evaluation of antibiotic and anthelmintic residues in whole cow milk from China[J]. Antibiotics,2023,12(7):1125.
[28] HAN R W, YU Z N, ZHEN T Y, et al. Survey of veterinary drug residues in raw milk in Hebei Province, China[J].Journal of Food Protection,2017, 80 (11): 1890-1896.
[29] 曹玥, 宋世豪, 倪婉仪, 等.我国奶牛子宫内膜炎发生率、病原谱和主要病原菌耐药特征[J].中国兽医杂志,2024, 60(10): 88-97.
CAO Y, SONG S H, NI W Y, et al. Prevalence, pathogenic spectrum and antibiotic resistance characteristics of major pathogens isolated from bovine endometritis in Chinese dairy herds[J]. Chinese Journal of Veterinary Medicine, 2024, 60(10): 88-97.
X