1、材料與方法
1.1試驗材料
試驗研究對象為正常膠囊和重金屬鉻嚴重超標的膠囊殼。各類樣本用密封的容器保存。根據目前的資料,沒有發現顏色與重金屬之間的相關性分析,因此暫不考慮顏色對光譜之間的影響。
1.2高光譜成像系統
高光譜可采用杭州彩譜科技有限公司產品FS13進行相關研究。光譜范圍在400-1000nm,波長分辨率優于2.5nm,可達1200個光譜通道。采集速度全譜段可達128FPS,波段選擇后最高3300Hz(支持多區域波段選擇)。為了避免周圍環境光源的干擾,視覺系統置于表面為黑漆的密閉柜中。
2、高光譜圖像主成分分析
由于高光譜數據由多個波段圖像組成,可把每一幅圖像看作一個特征,若對高光譜數據進行降維,將會使得原始數據變化到一個新的坐標系統,以使圖像數據的差異達到最大,所得到的結果將會與原來圖像相差很大。這一技術對于增強信息含量,隔離噪聲及減少數據維數非常有效。對高光譜圖像進行PCA降維后所得到的前4個主成分見圖1。
經過PCA變換后的高光譜數據,雖然第1主成分的圖像包含的信息最多,第2主成分信息量次之,但2種膠囊之間的對比并不明顯,反而第3主成分更能凸顯兩種不同的膠囊。但這種方法所表現出來的特征有可能是基于膠囊不同顏色所得的結果,因為只有膠囊帽在PC3(principalcomponent 3)中比較明顯。因此,通過PCA方法對“毒膠囊”和正常膠囊進行檢測可作為參考,要對高光譜數據進行全面分析還需考慮光譜數據,這也是高光譜的優勢所在。
3、光譜分析
高光譜圖像的優勢之處在于不但有圖像信息,而且有光譜信息。要得到光譜信息,先對每個樣本選擇感興趣區域,每個感興趣區域有其光譜響應曲線。由于膠囊帽和膠囊體二者之間的顏色不同,為了消除顏色對結果的影響,每個膠囊選擇2個感興趣區域(膠囊帽和膠囊體上各選擇一個感興趣區域),感興趣區域可在膠囊的高光譜圖像上隨機選取,每個區域的像素數范圍為2~6,最終感興趣區域的光譜數據計算區域內所有像素的平均值。4種不同區域(分別為正常膠囊和“毒膠囊”的膠囊體和膠囊帽)的光譜曲線見圖2。
從圖2中可以看出,“毒膠囊”的膠囊帽和正常膠囊的膠囊體在光譜曲線走向上比較雜亂,正常膠囊和“毒膠囊”的膠囊帽光譜曲線差異比較大,在620 nm左右時有交叉;兩種膠囊的膠囊體光譜曲線在550 nm和700 nm左右有交叉。但僅通過光譜曲線難以正確區分出“毒膠囊”和正常膠囊,須對光譜區間進行綜合分析,找出能區分二者之間最有效的光譜特征數據,最終進行判別分析。
由于每個樣本的光譜特征也有大量的數據(該數據個數與高光譜的圖像數一致),要得出光譜內的有效特征,也須通過相應特征提取算法進行處理,本文用PLS對該數據進行降維,可得到每個的PLS算子的貢獻率,從高到低的排序見表1。每個PLS算子又稱決定潛在變量,決定PLS個數的最簡單方法是誤差均方根表示的方法主要有交叉驗證均方根差和矯正均方根差。LV是特征在PLS降維后的組合特征,通常情況下LV對整體特征的貢獻率不斷下降,當前幾個LV作為輸入特征得到的準確率達到要求且滿足一定的推廣性時,選中的LV個數作為最佳特征。
建模時采用60%的樣本作為訓練集,剩余40%的作為測試集。對于“毒膠囊”和正常膠囊的RMSECV和RMSEC的值15與選擇LV個數的關系見圖3。從圖3中可以看出,正常膠囊和“毒膠囊”所得到的RMSECV和RMSEC的值在LV個數為1到6之間時,值的下降趨勢明顯;當LV的個數大于6時,二者的值變化非常緩慢,從該圖的曲線走向可認為選擇6個LV作為輸入特征較為合適。在得到LV的貢獻率、RMSECV和RMSEC的同時,還須考慮測試集中的正確分類準確率、相關系數2等,見表1。
當取4個LV作為輸入特征時,交叉驗證(CV)和預測(Pr)的相關系數r2都能達到0.9以上,這比選取3個LV有顯著的增加,同時分類的錯誤率為0。與此同時,所有的指標參數并沒有顯著的增加,因此,在本文中選擇4個LV是合適的。
4、結語
在450~900 nm的高光譜數據中,通過選擇感興趣區域得到正常膠囊和“毒膠囊”的光譜數據,先對其進行歸一化處理,再通過PLS-DA對數據降維及判別分析,當選擇4個PLS算子作為輸入特征時,正常膠囊和“毒膠囊”的識別率達到100%,特異度和敏感度也為100%;由此可知,可用PLS-DA判別方法對正常膠囊和“毒膠囊”進行區分。利用高光譜圖像技術對“毒膠囊”檢測,可以大大降低傳統方法的復雜度。
除此之外,若要提高可信度,還須用更寬波段的光譜對樣本進行檢測,例如在熒光或者紫外波段。在對“毒膠囊”進行定性的同時,還需要對其進行定量研究,定量時可考慮制作不同含鉻量的明膠模板,找出模板含鉻量與光譜數據的相關模型,并以此模型來預測未知“毒膠囊”的重金屬鉻含量。鑒于“毒膠囊”事件的后續影響,樣本比較難找,但為了提高檢測的有效性,還需要用多種鉻含量的膠囊樣本做試驗。