基于BP神经网络建立初烤烟叶主流烟气中氢氰酸释放量的预测模型
Establishment of Predicting Model of Hydrogen Cyanide Contents in Flue-cured Tobacco Mainstream Smoke Based on BP Neural Network
-
随着控烟力度和消费者对健康关注度的不断增强,“减害降焦”已成为烟草行业的发展趋势[1]。卷烟烟气中的氢氰酸(HCN)主要由氨基酸及相关化合物在700~1 000 ℃下裂解产生[2],HCN虽在烟气中的含量很低[3],但却是烟气中最具纤毛毒性的物质,是几种呼吸酶中非常活跃的抑制剂,对人体极为有害[4]。随着中国加入《国际烟草控制框架公约》,HCN已成为“Hoffmann 44种有害成分”和“Health Canada 46种有害成分”[5]名单中的重要成员,也是最具代表性的7种卷烟烟气有害成分之一[6]。降低卷烟烟气中HCN含量显得越来越重要,卷烟主流烟气中氢氰酸的测定尤为重要。目前行业内主要采用YC/T 253—2008[7]推荐的方法,通过捕集卷烟主流烟气测定氢氰酸,比较耗时。
卷烟中70%以上原料由烟叶构成,原料的组成很大程度上决定了卷烟有害成分的释放情况。目前,已有较多研究开始关注烟叶与烟气成分之间的关系[8]。但是,这些研究主要集中在烟叶物理、化学参数,或是物理、化学参数与部分常规主流烟气(如CO、焦油、烟碱、水分、总粒相物)的相关性[9-11]。针对常规化学成分与HCN的研究报道[12-14]相对较少。根据烟叶常规成分对烟气中氢氰酸含量进行预测的研究则未见报道。
反向传播人工神经网络(BP-ANN)是一种非线性统计性数据建模工具,常用来对输入和输出间复杂的关系进行建模,网络自身通常都是对自然界某种算法或者函数的逼近。本研究通过进行烟草、烟气成分的分析测试,应用人工神经网络,预测烤烟主流烟气中氢氰酸的释放量。研究成果对简化或省略卷烟主流烟气成分的测试、低危害烟草制品的设计生产、提高烟草的吸食安全性等具有重要意义。
1. 材料与方法
1.1 材料
47个产地9个品种的上、中、下3个部位烟叶共182个2009年初烤烟叶样品。初烤烟叶原料统一加工、统一编码,单一原料分别切丝并卷制成单料烟支,不加料加香。
1.2 主流烟气氢氰酸释放量及初烤烟叶化学成分测定方法
选取25种初烤烟叶化学成分(总糖、还原糖、氯、钾、总氮、烟碱、挥发碱、水分、蛋白质、挥发酸、纤维素、绿原酸、莨菪亭、芸香苷、总多酚、草酸、丙二酸、丁二酸、苹果酸、柠檬酸、棕榈酸、亚油酸、油酸、亚麻酸、硬脂酸)作为研究指标。其依据是:(1)研究报告[15],部分烟草化学成分是生成烟气成分的前体化合物(如碳水化合物、含氮化合物、有机酸、酚类等),其含量对烟气氢氰酸释放量影响较大;(2)选取的25种成分的定量检测分析方法均通过云南省计量测试技术研究院实验室认证,其分析检测结果可靠。
采用流动法测定主流烟气中氢氰酸释放量[7],测定出的烟气氢氰酸释放量换算为每克烟丝的烟气氢氰酸释放量,单位:μg/g;光度法测定烟碱[16];返滴定法测定挥发碱[17];烘箱法测定水分[18];克达尔法测定蛋白质[19];高效液相色谱法测定多酚化合物(绿原酸、莨菪亭、芸香苷、总多酚)[20];采用文献[21]的方法测定挥发酸,文献[22]的方法测定纤维素,文献[23]的方法测定非挥发性有机酸(草酸、丙二酸、丁二酸、苹果酸、柠檬酸、棕榈酸、亚油酸、油酸、亚麻酸、硬脂酸)。
1.3 变量筛选
变量筛选一方面可以简化模型,另一方面是把对烟气成分影响较小的变量剔除,使模型的预测能力更强、稳健性更好。采用文献[24]所介绍的方法,分析所选取的25个初烤烟叶化学成分对氢氰酸的贡献度。遗传算法参数设置为:遗传代数200,种群大小50,交叉率0.7,变异率0.001,回归方法:NIPALS,PLS成分数3,变量选择率0.5。
1.4 离阈值筛选
离阈值的检验方法采用文献[25]中介绍的样本蒙特卡洛采样法,经1 000次运算后,通过样本在较大误差组出现的频率除以样本在较小误差组出现的频率获得。
1.5 统计分析
试验数据的统计分析采用R-2.15.3和Matlab 2012软件进行。
2. 结果与分析
2.1 变量筛选与异常样品筛选
图1是遗传算法的变量选择结果。其中,成分所对应的棒越长,表明其对氢氰酸的贡献程度越大。由图1所示:成分丙二酸、挥发酸、水分、氯、总糖和钾的含量对氢氰酸的含量解释信息较大,可用来作为神经网络建模的变量组成。
异常样品是远离模型整体的样品,对模型的回归分析影响明显,图2是经重复运算得到的样本离域程度,选择阈值为1.2,最终确定的进入建模的样本有137个。
2.2 建模参数优化
选择烟丝水分、氯、丙二酸、挥发酸、钾、总氮6个化学成分指标作为网络输入,建立主流烟气中氢氰酸释放量的网络预测模型。网络的输入层单元数为6,输出层单元数为1。隐层单元数利用重复抽样方法对权衰减系数和隐含层节点数进行优化选择,最终参数确定为表1~3。
表 1 模型参数、权重数及网络结构Table 1. Model parameter, number of weights and network structure模型参数
model parameters权衰减系数
weight attenuation factor隐含层节点数
number of hidden layer nodes初始化权重种子数
initialize the weight of the seed0.0001 11 32 网络权重数
number of network weights89 网络结构
network structure6-11-1 表 2 输入层到隐含层各节点系数值Table 2. Input layer to hidden layer value coefficient of each mode系数名称
coefficient name节点1
node 1节点2
node 2节点3
node 3节点4
node 4节点5
node 5节点6
node 6节点7
node 7节点8
node 8节点9
node 9节点10
node 10节点11
node 11W水分 2.575 6 0.727 5 −0.275 4 29.545 6 −44.723 5 −11.219 8 −8.448 1 19.727 −3.258 8 10.559 6 −2.245 7 W氯 0.336 6 0.010 3 0.414 −10.947 8 −105.746 8 −1.084 5 −0.378 6 −28.167 −0.113 6 1.045 7 −0.188 4 W丙二酸 0.893 2 0.040 2 1.374 9 18.541 2 −166.864 7 −3.074 6 −2.668 2 −61.814 9 −0.81 3.464 4 −0.905 8 W挥发酸 −0.088 2 −0.290 2 −1.261 6 3.731 5 82.094 1 −0.098 −0.180 7 −185.263 4 0.017 0.140 7 −0.244 2 W钾 1.040 8 1.196 8 −0.419 5 16.281 3 110.032 8 −3.746 1 −2.466 7 −16.346 6 −1.547 4 3.900 8 −0.85 W总氮 0.839 6 −1.404 8 0.313 5 8.616 5 386.279 8 −2.881 8 −2.179 120.381 4 −0.837 4 2.989 1 −0.510 8 W输入偏置 0.417 −1.180 4 −0.387 5 6.737 6 −112.558 9 −1.700 1 −1.539 7 −82.535 4 −0.471 4 1.648 2 −0.233 1 表 3 输出层系数值Table 3. Output formation value系数名称
coefficient name系数符号
coefficient symbol输出层系数值
output layer coefficient values隐含层1节点
hidden layer 1 nodeW1 18.128 4 隐含层2节点
hidden layer 2 nodeW2 18.116 1 隐含层3节点
hidden layer 3 nodeW3 155.990 1 隐含层4节点
hidden layer 4 nodeW4 10.664 9 隐含层5节点
hidden layer 5 nodeW5 −19.352 隐含层6节点
hidden layer 6 nodeW6 14.235 8 隐含层7节点
hidden layer 7 nodeW7 13.636 8 隐含层8节点
hidden layer 8 nodeW8 22.329 5 隐含层9节点
hidden layer 9 nodeW9 −0.223 隐含层10节点
hidden layer 10 nodeW10 6.935 1 隐含层11节点
hidden layer 11 nodeW11 0.518 2 隐含层偏置
hidden layer biasW0 18.715 9 隐含层网络值按式(1)计算。
${x_j} = Z{W_{{\text{输入}}}}\;\;\;j = 1,2, \ldots ,11$
(1) This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
隐含层第j个节点处的网络值。
${O_j} = \frac{1}{{1 + {{\rm{e}}^{ - {x_j}}}}}\;\;\;\;j = 1,2, \cdots ,11$
(2) 式中,e为自然对数的底数。Oj为隐含层第j个节点输出值。若xj值大于15时,Oj按1计,若xj值小于–15时,Oj按0计。
输出层输出值按式(3)计算。
${Y_{{\text{氢氰酸}}}} = {O_j}{W_{{\text{输出}}}}$
(3) 式中,Oj表示隐含层输出值向量(O1,O2,O3,O4,O5,O6,O7,O8,O9,O10,O11,b),其中b为输出层偏置值,其值为1。W输出为输出层系数向量(W1,W2,W3,W4,W5,W6,W7,W8,W9,W10,W11,W0),详见表3。Y氢氰酸为输出层输出值,即烟气氢氰酸的释放量预测值。
2.3 模型内部性能评价
采用预测模型的决定系数(R2)和预测标准偏差(SEC)评价预测模型内部性能,决定系数(R2)越大,预测标准偏差(SEC)越小,则模型越好。本研究建立的预测模型,其校正标准误差SEC的值为12.505 7,决定系数R2为0.774 8。
由图3可知:构建的神经网络模型其预测值与实测值的线性相关线斜率为0.992,R2为0.774 8,说明神经网络模型预测值与实测值吻合度较好。由图4可知:预测值与实测值之间的误差大多分布在±30 μg/g范围内,且没有任何趋势,模型误差范围适中。因此,所建立的神经网络预测模型具有一定的泛化能力及适用性。
2.4 模型外部验证
采用28个外部验证样品对模型的预测能力进行验证,通过SEP/SEC、RPD、配对t检验、平均预测相对偏差4种参数来对模型的泛化能力和适用性进行验证。由表4可知:SEP与SEC的比值小于1.2,不存在过拟合现象,模型稳定性好。验证集R2值较高,RPD>2,表明模型的预测结果可以接受且准确度适中。配对t检验显著性水平大于0.05,测量值与预测值之间没有显著性差异。
表 4 模型外部验证情况汇总Table 4. Collect model external validation status指标
index平均预测相对偏差/%
average predicted relative deviationSEP/SEC 验证集R2
verification set R2RPD 配对t检验显著性水平
paired t test significance level氢氰酸 hydrocyanic acid 7.88 1.182 3 0.780 2 2.13 0.406 7 由图5和表5可知:模型平均预测相对偏差为7.88%,大部分样品预测偏差小于10%,个别在10%~20%之间。验证结果表明:该预测模型预测精度良好,对于不同的烤烟样品具有广泛的适用性。
表 5 HCN神经网络模型28个验证样品预测相对偏差统计表Table 5. The statistics of the prediction relative deviation of 28 validation samples using this neural network model of HCN项目
item<10% ≥10%~20% ≥20%~30% ≥30% 平均预测相对偏差/%
average predicted relative deviation/%数量 quantities 21 6 1 0 7.88 3. 讨论
行业内目前采用的是连续流动分析法测定卷烟主流烟气中的氢氰酸[26-27],由于氢氰酸的剧毒性,会对环境造成较大危害[28],同时,在实际操作过程中也容易形成对人员的安全隐患。但是氢氰酸作为卷烟主流烟气7项危害性指标之一,其含量测定对于表征卷烟主流烟气的危害性起着至关重要的作用[29]。因此,如何通过一种相对环保和绿色的方式来测定是烟草行业从业人员值得深入研究和探讨的领域。
本研究采用初烤烟叶中的6个化学成分(烟丝水分、氯、丙二酸、挥发酸、钾、总氮)均属于无毒无害,环境友好的化学指标,避免了直接操作氢氰酸带来的危险。同时这些指标属于常量化学指标,可以通过仪器分析的方式较为准确的定量。基于BP神经网络建立了初烤烟叶主流烟气中氢氰酸释放量的预测模型,外部验证结果表明该预测模型预测精度良好,对于不同的初烤烟叶原料具有广泛的适用性。本研究应用所构建的神经网络预测模型,通过对6个化学成分的分析实现对氢氰酸的预测,可实现通过初烟原料本身化学成分特点和含量组成,指导生产过程中的原料选择。对提高卷烟产品质量安全具有重要的现实意义。
-
表 1 模型参数、权重数及网络结构
Table 1 Model parameter, number of weights and network structure
模型参数
model parameters权衰减系数
weight attenuation factor隐含层节点数
number of hidden layer nodes初始化权重种子数
initialize the weight of the seed0.0001 11 32 网络权重数
number of network weights89 网络结构
network structure6-11-1 表 2 输入层到隐含层各节点系数值
Table 2 Input layer to hidden layer value coefficient of each mode
系数名称
coefficient name节点1
node 1节点2
node 2节点3
node 3节点4
node 4节点5
node 5节点6
node 6节点7
node 7节点8
node 8节点9
node 9节点10
node 10节点11
node 11W水分 2.575 6 0.727 5 −0.275 4 29.545 6 −44.723 5 −11.219 8 −8.448 1 19.727 −3.258 8 10.559 6 −2.245 7 W氯 0.336 6 0.010 3 0.414 −10.947 8 −105.746 8 −1.084 5 −0.378 6 −28.167 −0.113 6 1.045 7 −0.188 4 W丙二酸 0.893 2 0.040 2 1.374 9 18.541 2 −166.864 7 −3.074 6 −2.668 2 −61.814 9 −0.81 3.464 4 −0.905 8 W挥发酸 −0.088 2 −0.290 2 −1.261 6 3.731 5 82.094 1 −0.098 −0.180 7 −185.263 4 0.017 0.140 7 −0.244 2 W钾 1.040 8 1.196 8 −0.419 5 16.281 3 110.032 8 −3.746 1 −2.466 7 −16.346 6 −1.547 4 3.900 8 −0.85 W总氮 0.839 6 −1.404 8 0.313 5 8.616 5 386.279 8 −2.881 8 −2.179 120.381 4 −0.837 4 2.989 1 −0.510 8 W输入偏置 0.417 −1.180 4 −0.387 5 6.737 6 −112.558 9 −1.700 1 −1.539 7 −82.535 4 −0.471 4 1.648 2 −0.233 1 表 3 输出层系数值
Table 3 Output formation value
系数名称
coefficient name系数符号
coefficient symbol输出层系数值
output layer coefficient values隐含层1节点
hidden layer 1 nodeW1 18.128 4 隐含层2节点
hidden layer 2 nodeW2 18.116 1 隐含层3节点
hidden layer 3 nodeW3 155.990 1 隐含层4节点
hidden layer 4 nodeW4 10.664 9 隐含层5节点
hidden layer 5 nodeW5 −19.352 隐含层6节点
hidden layer 6 nodeW6 14.235 8 隐含层7节点
hidden layer 7 nodeW7 13.636 8 隐含层8节点
hidden layer 8 nodeW8 22.329 5 隐含层9节点
hidden layer 9 nodeW9 −0.223 隐含层10节点
hidden layer 10 nodeW10 6.935 1 隐含层11节点
hidden layer 11 nodeW11 0.518 2 隐含层偏置
hidden layer biasW0 18.715 9 表 4 模型外部验证情况汇总
Table 4 Collect model external validation status
指标
index平均预测相对偏差/%
average predicted relative deviationSEP/SEC 验证集R2
verification set R2RPD 配对t检验显著性水平
paired t test significance level氢氰酸 hydrocyanic acid 7.88 1.182 3 0.780 2 2.13 0.406 7 表 5 HCN神经网络模型28个验证样品预测相对偏差统计表
Table 5 The statistics of the prediction relative deviation of 28 validation samples using this neural network model of HCN
项目
item<10% ≥10%~20% ≥20%~30% ≥30% 平均预测相对偏差/%
average predicted relative deviation/%数量 quantities 21 6 1 0 7.88 -
[1] 刘立全, 周雅宁, 龚安达, 等.烟草工业减害研究进展[J]. 烟草科技, 2011 (2): 25. DOI: 10.3969/j.issn.1002-0861.2011.02.007. [2] OHNSON W R, KANG J C. Mechanism of hydrogen cyanide formation from the pyrolysis of amino acids and related compounds[J]. Journal of Organic Chemistry, 1971, 36 (1): 189.
[3] OOTAKE M. Preparation of prussic acid: JP59227718 [P]. 1984-12-21.
[4] 杜兴旗.氰化物的毒性及其解毒方法[J]. 渭南师范学院学报, 2005, 20(14): 55. DOI: 10.3969/j.issn.1009-5128.2005.z2.026. [5] Tobacco Control Programme Health Canada Backgrounder on Constituents and Emissions Reported for Cigarettes Sold in Canada-2004[EB/OL]. (2008-06-13)[2017-01-20]. http://www.hc-sc.gc.ca/hl-vs/tobac-tobac/legisla-tion/reg/indust/index-f.h.
[6] 谢剑平, 刘惠民, 朱茂祥, 等.卷烟烟气危害性指数研究[J]. 烟草科技, 2009(2): 5. DOI: 10.3969/j.issn.1002-0861.2009.02.001. [7] 湖南中烟工业有限责任公司. 卷烟主流烟气中氰化氢的测定: 连续流动法: YC/T 253—2008[S]. 北京: 中国标准出版社, 2008. [8] 张强, 王浩雅, 马剑雄, 等.云南烤烟的烟气成分与烟叶化学成分的相关分析[J]. 中国烟草科学, 2011, 32 (1): 75. DOI: 10.3969/j.issn.1007-5119.2011.01.017. [9] 汪修奇, 邓小华, 李晓忠, 等.湖南烤烟化学成分与焦油的相关、通径及回归分析[J]. 作物杂志, 2010(2): 32. DOI: 10.3969/j.issn.1001-7283.2010.02.008. [10] 历昌坤, 周显升, 王允白, 等.烤烟烟叶焦油释放量与部分化学成分的关系研究[J]. 中国烟草科学, 2004(2): 25. DOI: 10.3969/j.issn.1007-5119.2004.02.008. [11] 李国栋, 于建军, 董顺德, 等.河南烤烟化学成分与烟气成分的相关分析[J]. 烟草科技, 2004(2): 25. DOI: 10.3969/j.issn.1002-0861.2001.08.011. [12] 黄朝章, 蔡国华, 赵艺强, 等.单料烟主流烟气HCN与烟叶常规化学成分的相关性[J]. 烟草科技, 2013 (2): 46. DOI: 10.3969/j.issn.1002-0861.2013.02.014. [13] 颜克亮, 周博, 朱东来, 等.烟叶常规化学成分与7项有害成分释放量的相关性分析[J]. 西南农业学报, 2015, 28 (3): 1306. DOI: 10.16213/j.cnki.scjas.2015.03.072. [14] 李振华, 佘世科, 郭东锋, 等.烤烟常规化学成分与氢氰酸关系研究[J]. 河南农业科学, 2016, 45(4): 58. DOI: 10.15933/j.cnki.1004-3268.2016.04.013. [15] 朱大恒, 李彩霞, 张爱忠, 等.烟气有害成分与烟叶化学成分的关系[J]. 烟草科技, 2009(9): 53. [16] 国家烟草质量监督检验中心.烟草及烟草制品总植物碱的测定光度法: GB/T 23225—2008[S].北京: 中国标准出版社, 2008. [17] 国家烟草质量监督检测中心. 烟草及烟草制品总挥发碱的测定: YC/T 35—1996 [S]. 北京: 中国标准出版社, 1997. [18] 国家烟草质量监督检测中心. 烟草及烟草制品试样的制备和水分测定烘箱法: YC/T 31—1996[S]. 北京: 中国标准出版社, 1996: 427. [19] 国家烟草质量监督检测中心. 烟草和烟草制品总蛋白质含量的测定: YC/T 166—2003 [S]. 北京: 中国标准出版社, 2003. [20] 中国烟草总公司郑州烟草研究院, 中国烟草标准化研究中心. 烟草及烟草制品多酚化合物—绿原酸、莨菪亭和芸香苷的测定: YC/T 202—2006 [S]. 北京: 中国标准出版社, 2006. [21] 施红林, 李忠, 杨光宇, 等.水蒸气蒸馏返滴定法测定烟草及其制品中总挥发有机酸[J]. 理化检验: 化学分册, 2004, 40(2): 53. DOI: 10.3321/j.issn:1001-4020.2004.02.022. [22] 张槐苓.烟草分析与检验[M].郑州: 河南科学技术出版社, 1994: 103. [23] 蒋次清, 胡守毅, 李忠, 等.微波辅助衍生化-气相色谱法测定烟草中非挥发性有机酸[J]. 理化检验: 化学分册, 2011, 47(4): 392. [24] YANG Q X, WANG M, XIAO H B, et al. Feature selection using a combination of genetic algorithm and selection frequency curve analysis[J]. Chemometrics & Intelligent Laboratory Systems, 2015, 148: 106.
[25] YANG L, YANG Q X, YANG S H, et al. Application of near infrared spectroscopy to detect mould contamination in tobacco[J]. Journal of Near Infrared Spectroscopy, 2016, 23(6): 391-400. DOI: 10.1255/jnirs.1190.
[26] 李超, 张承明, 李颖, 等. 烟丝结构对主流烟气中NNK逐口释放量的影响[J]. 云南农业大学学报(自然科学), 2016, 31(4): 700-706. DOI: 10.16211/j.issn.1004-390X(n). 2016.04.018 [27] 张健, 李超, 陶鹰, 等. 离子色谱研究深度抽吸模式下卷烟主流烟气中氨的逐口释放量[J]. 云南农业大学学报(自然科学), 2016, 31(05): 856-861. DOI: 10.16211/j.issn.1004-390X(n).2016.05.013. [28] 肖祖菊. 含氰化工废渣的毒性研究及健康风险评价[D]. 重庆: 重庆大学, 2010. [29] 李超, 张健, 姜黎, 等. 卷烟主流烟气中6种化学成分的逐口释放量分析[J]. 烟草科技, 2015, 48(3): 39-46. DOI: 10.16135/j.issn1002-0861.20150308. -
期刊类型引用(3)
1. 吴宏,孔泽栋,王若方,马松. 基于PCA-BP神经网络的烟叶含水率预测研究. 安徽农业科学. 2024(14): 219-222+241 . 百度学术
2. 张崇崇,黄亚宇. GA-BP神经网络对片烟结构的预测研究. 电子科技. 2022(06): 35-42 . 百度学术
3. 吴利,柳德江. 基于GA-BP神经网络的玉溪市耕地生态安全评价. 云南农业大学学报(自然科学). 2019(05): 874-883 . 百度学术
其他类型引用(0)