基于小波包变换的云芝蛋白和多糖的近红外光谱分析
【摘要】目的采用小波包变换(WPT)提取云芝样品近红外漫反射光谱的特征信息,结合偏最小二乘法(PLS)建立测定药用真菌云芝中蛋白和多糖含量定量分析模型。方法所建立的模型经过小波包变换尺度分析的选择,PLS模型参数的优选,在WPT变换尺度为6时,可以得到最优的分析模型。结果最优蛋白含量分析模型校正集的交互验证均方根误差(RMSECV)为0.01263,(Rv)为0.94742;应用此模型对预测集样品中蛋白含量进行预测,得到预测均方根误差(RMSEP)为0.01041,预测集的相关系数(Rp)为0.95856。多糖最优分析模型校正集的交互验证均方根误差(RMSECV)为0.01688,(Rv)为0.91962;应用此模型对预测集样品中的多糖含量进行预测,得到预测均方根误差(RMSEP)为0.01043,预测集的相关系数(Rp)为0.97428。结论该方法预测精度能满足云芝蛋白定量和多糖含量分析的要求,且方便快捷,无破坏性,可实现在线检测,对替代原有繁琐的云芝蛋白多糖含量测定方法具有重要的意义。
【关键词】近红外光谱技术;偏最小二乘法;小波包变换;云芝蛋白;云芝多糖
担子菌云芝Coriolusversicolor(L.)Fr也称为杂色云芝、彩绒革盖菌,是一种野生的药用真菌。野生云芝主要分布在我国东北三省、内蒙、新疆、河北等地,用于治疗气管炎,肝炎,肿瘤,妇科病[1]等。现代医药学研究表明,从云芝子实体、菌丝体、发酵液中提取的云芝糖肽具有广泛的药理作用,如增强正常机体的免疫功能;拮抗动物因负瘤而引起的免疫抑制[2];抑制动物和人癌细胞的生长;拮抗化疗药物引起的免疫抑制;抗溃疡活性及抗病毒、抗肝炎活性[3];显著减轻小鼠由热板法醋酸腹腔注射及电刺激引起的痛反应等。并在日本成为一种抗恶性肿瘤的药物。我国已研制出“云芝肝肽”等制剂,用于临床。对焦虑、忙碌、生活品质日益恶化的现代人而言“云芝”堪称为人们的“体内环保大师”。云芝中的蛋白含量高低对云芝糖肽含量和云芝的品质有很重要的影响。传统的蛋白含量和多糖含量鉴定和分析方法存在着一定的缺陷。测定方法相当繁琐费时,难以实现大批量的快速定量检测。如采用蒽酮硫酸法测定松茸中多糖含量和采用凯氏定氮法测定蛋白含量均会对样品有一定损耗,不适用于对大规模样品做无损分析使用。通过测定样品的近红外光谱,并与其蛋白和多糖含量间建立模型(偏最小二乘法),可以进行样品含量的无损分析,且测量费用较低。
1材料
1.1材料云芝菌种(中国科学院微生物所,编号:5.0161)。训练集和预测集样本的制备:由本项目组发酵、收集51个不同批次的菌体、冻干粉碎过60目筛,制备云芝菌粉备用。
1.2试剂浓硫酸(AR级);碳酸钠;氢氧化钠;混合催化剂:K2SO4∶CuSO4·5H2O=5∶1;盐酸;硼酸;混合指示剂:取200ml0.1%甲基红-无水乙醇溶液和50ml0.1%甲烯蓝-无水乙醇溶液混合,贮于棕色瓶中备用。
1.3仪器日本岛津UV-3150型紫外可见近红外分光光度计;德国赛多利斯BP211D型十万之一电子天平;玛瑙研钵;日本岛津ISR-3100积分球附件;全自动凯氏定氮仪2300;联想家悦E3030微型计算机。
2方法
2.1原理与算法
2.1.1小波包算法原理[4,5]小波包分析对逼近系数和细节系数都做了分解,使信号在全频带内进行分解同时可以进行频带的选择,是比小波变换更精细的分析方法(图1)。S-为原始信号;A-为信号分解的低频系数;D-为信号分解的高频系数图1小波包分解信号的示意图分解后的信号的系数可以按照公式①dj,nl=?kg0(l-2k)dj 2nk ?kg1(1-2k)dkj 1,2n 1①进行重构。其中dkj 1,2n=?lhk(2l-1)dlj,n,dkj 1,2n 1=?lgk(2l-1)dlj,n
2.1.2小波包的最优分解方式小波包可以组成许多不同的正交基分解结果,形成小波包基,对于所有的小波包基选取信号代价函数值最小者为最优小波包分解。所谓代价函数的最小,即使?(s)=?isi最小,其中s代表信号,si代表信号s在一个正交小波包基上的投影系数。通常使用的代价函数要求有加和性,即M(0)=0,M({xi})=?iM(xi)。则M为一具有加和性的代价函数。本文选用Shannons为代价函数,分解方式参见文献[6]。
2.1.3偏最小二乘法偏最小二乘法(PartialLeastSquare,PLS)是目前化学计量学中最有效的分析方法之一[7]。本文应用近红外光谱法结合PLS(NIR-PLS)建立云芝中蛋白和多糖含量的定量分析模型,并用所建模型对预测集样品进行预测,得到较好的结果。该方法有望成为一种代替现行真菌活性成分测定的快速绿色分析方法。
2.2云芝蛋白含量的测定应用凯氏定氮法[8],对建立模型的云芝菌粉样品进行蛋白测定。具体步骤如下。
2.2.1HCl溶液的标定Na2CO3烘干至衡重,准确称取0.75g,定容溶解到250ml的容量瓶,进行HCl的标定。
2.2.2样品的蒸馏过程本实验应用全自动凯氏定氮仪测量不同批次云芝菌粉的蛋白含量。经过条件摸索,采用0.25g菌、8g催化剂和浓硫酸12ml进行实验,全自动凯氏定氮仪的参数设定为:低温2档15min,中温6档30min,高温8档2h。直到溶液澄清,冷却15min。
2.2.3含量计算用已经标定好的HCl溶液滴定蒸馏好的云芝菌粉样品。计算云芝蛋白的含量。
2.3云芝多糖含量的测定采用合理的条件进行多糖的热水浸提,多糖的测定过程采用蒽酮硫酸法。
2.4测量条件应用积分球,光谱通带宽度为12nm,扫描波长范围800~2500nm,每个样品进行近红外光谱扫描3次,取平均值作为该样品的近红外光谱。
2.5数据处理方法采用小波包变换对近红外光谱进行预处理,运用ThermoNicolet公司Omnic软件的TQAnalyst部分建立云芝菌中蛋白含量定量分析模型。以校正集样品的交叉验证均方根误差(RootMeanSquareErrorofCross-Validation,RMSECV)及模型的回归系数(Regressioncoefficient,R)为优化模型的参数。选择最有效的光谱预处理方法,通过留一交叉验证法[9,10],以预测均方根误差(RootMeanSquareErrorofPrediction,RMSEP)和预测残差平方和(PredictedResidualErrorSumofSquares,PRESS)为参数,选择最适主因子数。模型的预测能力以模型对预测集样品的预测浓度值与其真实值间的回归系数(Regressioncoefficient,R)和RMSEP来考核,RMSECV、RMSEP、PRESS和R的计算方法见文献[11]。
3结果
3.1云芝菌粉蛋白和多糖含量测定的结果51个云芝样品的蛋白的测定结果见表1。表151个云芝样品中的蛋白和多糖含量测定结果由表1进行统计,51个云芝菌粉样品蛋白含量的范围为15.153%~27.738%,平均含量为21.576%,51个云芝菌粉的多糖含量范围为5.483%~20.094%,平均含量为21.387%。
3.2云芝菌粉的近红外光谱图图2为51个云芝菌粉在800~2500nm波段的扫描光谱,从图中可以看出在短波近红外区(800~1100nm)样品吸收较弱,峰数少,在此波段主要是X-H的二、三级倍频。在近红外长波区(1100~2500nm)主要是X-H的基频和一级倍频,吸收相对比较强[12],峰数多。图251个云芝样品的近红外原始图谱图
3.3最优分解尺度和PLS模型参数的确定分别以7个低频系数矩阵代替原始光谱,对云芝的蛋白和多糖含量进行偏最小二乘留一交互法验证(LOO)。结果如表2和表3所示。可以看出,当分解层为6时,校正模型最好,较使用原始光谱,使用小波包低频系数进行PLS建模,蛋白和多糖含量的相关系数(Rv)分别从0.34087,0.35188提高到0.94742,0.91962;交互验证均方根误差RMSECV分别从0.03869,0.04136减小到0.01263,0.01688。表明使用合适层的小波包低频系数代替原始光谱矩阵参与PLS建模,可以去除原始光谱的噪声,从而改善PLS建模效果,提高模型的预测能力。表2不同尺度提取的信息光谱PLS法建立的云芝蛋白定量分析模型参数的比较表3不同尺度提取的信息光谱PLS法建立的云芝多糖定量分析模型参数的比较
3.4模型检验模型的校正能力是稳定模型很重要的一个方面,同时预测能力在实际应用中是很重要的。使用建好的PLS分析模型,分别对预测集12个云芝样品进行预测检验,结果见表2和表3所示。云芝蛋白和多糖含量的预测均方根误差RMSEP分别从0.0289,0.0378减小到0.0104,0.0104;而预测集预测值与真实值的相关系数(Rp)分别由0.49663,0.38812提高到0.95856,0.97428。
4结论
本文采用正交小波包多尺度变换提取云芝菌粉的近红外光谱信息,并直接利用小波变换的重构信息,分别建立云芝蛋白和多糖含量的定量分析模型,结果表明该方法中正交小波包多尺度分析对近红外光谱具有较强的去噪和压缩能力,从而使PLS模型更具有代表性和稳健性,同时也提高了建模效率和模型的预测精度。预测精度能满足云芝蛋白和多糖定量分析的要求,且方便快捷、无污染、无破坏性,可实现在线检测,对替代原有繁琐的云芝蛋白多糖含量测定方法具有重要的意义。
(来源:现代科学仪器|http://www.ms17.cn
【关键词】近红外光谱技术;偏最小二乘法;小波包变换;云芝蛋白;云芝多糖
担子菌云芝Coriolusversicolor(L.)Fr也称为杂色云芝、彩绒革盖菌,是一种野生的药用真菌。野生云芝主要分布在我国东北三省、内蒙、新疆、河北等地,用于治疗气管炎,肝炎,肿瘤,妇科病[1]等。现代医药学研究表明,从云芝子实体、菌丝体、发酵液中提取的云芝糖肽具有广泛的药理作用,如增强正常机体的免疫功能;拮抗动物因负瘤而引起的免疫抑制[2];抑制动物和人癌细胞的生长;拮抗化疗药物引起的免疫抑制;抗溃疡活性及抗病毒、抗肝炎活性[3];显著减轻小鼠由热板法醋酸腹腔注射及电刺激引起的痛反应等。并在日本成为一种抗恶性肿瘤的药物。我国已研制出“云芝肝肽”等制剂,用于临床。对焦虑、忙碌、生活品质日益恶化的现代人而言“云芝”堪称为人们的“体内环保大师”。云芝中的蛋白含量高低对云芝糖肽含量和云芝的品质有很重要的影响。传统的蛋白含量和多糖含量鉴定和分析方法存在着一定的缺陷。测定方法相当繁琐费时,难以实现大批量的快速定量检测。如采用蒽酮硫酸法测定松茸中多糖含量和采用凯氏定氮法测定蛋白含量均会对样品有一定损耗,不适用于对大规模样品做无损分析使用。通过测定样品的近红外光谱,并与其蛋白和多糖含量间建立模型(偏最小二乘法),可以进行样品含量的无损分析,且测量费用较低。
1材料
1.1材料云芝菌种(中国科学院微生物所,编号:5.0161)。训练集和预测集样本的制备:由本项目组发酵、收集51个不同批次的菌体、冻干粉碎过60目筛,制备云芝菌粉备用。
1.2试剂浓硫酸(AR级);碳酸钠;氢氧化钠;混合催化剂:K2SO4∶CuSO4·5H2O=5∶1;盐酸;硼酸;混合指示剂:取200ml0.1%甲基红-无水乙醇溶液和50ml0.1%甲烯蓝-无水乙醇溶液混合,贮于棕色瓶中备用。
1.3仪器日本岛津UV-3150型紫外可见近红外分光光度计;德国赛多利斯BP211D型十万之一电子天平;玛瑙研钵;日本岛津ISR-3100积分球附件;全自动凯氏定氮仪2300;联想家悦E3030微型计算机。
2方法
2.1原理与算法
2.1.1小波包算法原理[4,5]小波包分析对逼近系数和细节系数都做了分解,使信号在全频带内进行分解同时可以进行频带的选择,是比小波变换更精细的分析方法(图1)。S-为原始信号;A-为信号分解的低频系数;D-为信号分解的高频系数图1小波包分解信号的示意图分解后的信号的系数可以按照公式①dj,nl=?kg0(l-2k)dj 2nk ?kg1(1-2k)dkj 1,2n 1①进行重构。其中dkj 1,2n=?lhk(2l-1)dlj,n,dkj 1,2n 1=?lgk(2l-1)dlj,n
2.1.2小波包的最优分解方式小波包可以组成许多不同的正交基分解结果,形成小波包基,对于所有的小波包基选取信号代价函数值最小者为最优小波包分解。所谓代价函数的最小,即使?(s)=?isi最小,其中s代表信号,si代表信号s在一个正交小波包基上的投影系数。通常使用的代价函数要求有加和性,即M(0)=0,M({xi})=?iM(xi)。则M为一具有加和性的代价函数。本文选用Shannons为代价函数,分解方式参见文献[6]。
2.1.3偏最小二乘法偏最小二乘法(PartialLeastSquare,PLS)是目前化学计量学中最有效的分析方法之一[7]。本文应用近红外光谱法结合PLS(NIR-PLS)建立云芝中蛋白和多糖含量的定量分析模型,并用所建模型对预测集样品进行预测,得到较好的结果。该方法有望成为一种代替现行真菌活性成分测定的快速绿色分析方法。
2.2云芝蛋白含量的测定应用凯氏定氮法[8],对建立模型的云芝菌粉样品进行蛋白测定。具体步骤如下。
2.2.1HCl溶液的标定Na2CO3烘干至衡重,准确称取0.75g,定容溶解到250ml的容量瓶,进行HCl的标定。
2.2.2样品的蒸馏过程本实验应用全自动凯氏定氮仪测量不同批次云芝菌粉的蛋白含量。经过条件摸索,采用0.25g菌、8g催化剂和浓硫酸12ml进行实验,全自动凯氏定氮仪的参数设定为:低温2档15min,中温6档30min,高温8档2h。直到溶液澄清,冷却15min。
2.2.3含量计算用已经标定好的HCl溶液滴定蒸馏好的云芝菌粉样品。计算云芝蛋白的含量。
2.3云芝多糖含量的测定采用合理的条件进行多糖的热水浸提,多糖的测定过程采用蒽酮硫酸法。
2.4测量条件应用积分球,光谱通带宽度为12nm,扫描波长范围800~2500nm,每个样品进行近红外光谱扫描3次,取平均值作为该样品的近红外光谱。
2.5数据处理方法采用小波包变换对近红外光谱进行预处理,运用ThermoNicolet公司Omnic软件的TQAnalyst部分建立云芝菌中蛋白含量定量分析模型。以校正集样品的交叉验证均方根误差(RootMeanSquareErrorofCross-Validation,RMSECV)及模型的回归系数(Regressioncoefficient,R)为优化模型的参数。选择最有效的光谱预处理方法,通过留一交叉验证法[9,10],以预测均方根误差(RootMeanSquareErrorofPrediction,RMSEP)和预测残差平方和(PredictedResidualErrorSumofSquares,PRESS)为参数,选择最适主因子数。模型的预测能力以模型对预测集样品的预测浓度值与其真实值间的回归系数(Regressioncoefficient,R)和RMSEP来考核,RMSECV、RMSEP、PRESS和R的计算方法见文献[11]。
3结果
3.1云芝菌粉蛋白和多糖含量测定的结果51个云芝样品的蛋白的测定结果见表1。表151个云芝样品中的蛋白和多糖含量测定结果由表1进行统计,51个云芝菌粉样品蛋白含量的范围为15.153%~27.738%,平均含量为21.576%,51个云芝菌粉的多糖含量范围为5.483%~20.094%,平均含量为21.387%。
3.2云芝菌粉的近红外光谱图图2为51个云芝菌粉在800~2500nm波段的扫描光谱,从图中可以看出在短波近红外区(800~1100nm)样品吸收较弱,峰数少,在此波段主要是X-H的二、三级倍频。在近红外长波区(1100~2500nm)主要是X-H的基频和一级倍频,吸收相对比较强[12],峰数多。图251个云芝样品的近红外原始图谱图
3.3最优分解尺度和PLS模型参数的确定分别以7个低频系数矩阵代替原始光谱,对云芝的蛋白和多糖含量进行偏最小二乘留一交互法验证(LOO)。结果如表2和表3所示。可以看出,当分解层为6时,校正模型最好,较使用原始光谱,使用小波包低频系数进行PLS建模,蛋白和多糖含量的相关系数(Rv)分别从0.34087,0.35188提高到0.94742,0.91962;交互验证均方根误差RMSECV分别从0.03869,0.04136减小到0.01263,0.01688。表明使用合适层的小波包低频系数代替原始光谱矩阵参与PLS建模,可以去除原始光谱的噪声,从而改善PLS建模效果,提高模型的预测能力。表2不同尺度提取的信息光谱PLS法建立的云芝蛋白定量分析模型参数的比较表3不同尺度提取的信息光谱PLS法建立的云芝多糖定量分析模型参数的比较
3.4模型检验模型的校正能力是稳定模型很重要的一个方面,同时预测能力在实际应用中是很重要的。使用建好的PLS分析模型,分别对预测集12个云芝样品进行预测检验,结果见表2和表3所示。云芝蛋白和多糖含量的预测均方根误差RMSEP分别从0.0289,0.0378减小到0.0104,0.0104;而预测集预测值与真实值的相关系数(Rp)分别由0.49663,0.38812提高到0.95856,0.97428。
4结论
本文采用正交小波包多尺度变换提取云芝菌粉的近红外光谱信息,并直接利用小波变换的重构信息,分别建立云芝蛋白和多糖含量的定量分析模型,结果表明该方法中正交小波包多尺度分析对近红外光谱具有较强的去噪和压缩能力,从而使PLS模型更具有代表性和稳健性,同时也提高了建模效率和模型的预测精度。预测精度能满足云芝蛋白和多糖定量分析的要求,且方便快捷、无污染、无破坏性,可实现在线检测,对替代原有繁琐的云芝蛋白多糖含量测定方法具有重要的意义。

关注本网官方微信 随时阅权威资讯