張量主成份分析算法在腦醫學圖像上的應用

日期:2019年04月11日

摘要:醫學影像中的CT、MRI圖像診斷是目前醫生確診疾病的重要依據。另一方面,大腦作為人類最復雜也是最重要的器官之一,對于腦部圖像的特征提取和分類具有重要意義。傳統上對圖像特征提取習慣從向量的角度出發,這樣忽略了圖像結構特點。為了解決這個問題,本文結合高維空間數據結構,以數據張量化為重點將傳統的PCA算法升級為Tensor-PCA,并選擇當下最流行的Simulated Brain phantom Database 數據集作為本文的仿真對象,經過實驗證明,數據張量化的方法在提取圖像的特征上具有良好的適用性。

 

關鍵字:張量模型;腦部醫學圖像;主成分分析;特征提取

中圖分類號:TP391文獻標識碼:A

 

 

MRI Brain Image via Tensor Principal Component Analysis

LIAO Liang, YE Haichang, WANG Xinqiang

(Zhongyuan University of Technology School of Electric and Information Engineer, Zhengzhou 450007, China)

Abstract: Medical CT, MRI images are an important basis for doctors to diagnose the disease. On the other hand, the brain is one of the most complex and most important organs of human beings,it has very high significance for the feature extraction and classification of brain images. The traditional image feature extraction and classification algorithm research habits from the point of view of the vector, so ignore the structural characteristics of the image.In order to solve this problem, this paper combines high-dimensional spatial data structure, focusing on data quantization, and improves the traditional algorithm of feature extraction of brain medical image data. The traditional PCA is upgraded to Tensor-PCA algorithm, and the most popular Simulated Brain phantom Database (abbreviated as BPD)database is selected as the simulation object of this paper. Through experiments, the method of data quantification is used to extract image features,and has good applicability.

 

Key word: tensor model; brain medical image; principal component analysis; feature extraction

 

 

隨著腦成像技術和計算機的快速發展,使得人們能夠更加深入的探索大腦奧秘。MRI成像技術已成為當代最佳的輔助工具之一,幫助了醫生對病情診斷的同時也提供給學者們作為最佳的實驗選擇對象,從而獲得了相關領域的關注。但由于MRI成像技術復雜,存在著相當大的數據運算量,傳統算法很難解決這一難題,本文以數據張量化的方法來打開突破口[1]。張量是目前能夠解決此類問題的主要方法之一,其最大的特點是能表達高維空間的數據特性,因此,如何將醫學圖像進行數據張量化,并將張量化方法進行有效的推廣,是本文的主旨所在[2]

 

1 張量代數

1.1張量的概念

張量(tensor)是一個多線性函數,其可以被直觀的理解為一個多維數組,它是由標量和向量擴展而來,標量、向量、矩陣是張量的特殊形式。標量可以理解成0階張量,向量是1階張量,而矩陣為2階張量[3]

1.2高維圖像的張量表示

由張量概念可知,二維圖像可以用二階張量進行描述,而高維圖像需要用三階張量來表示。第一階表示了圖像的寬度,第二階表示圖像的長度,而第三階則表示圖像的矢量維數[4]

1.3張量模型

首先要定義張量模型數學框架,為了表達簡潔,以二階張量的代數為例,它很容易拓展到高階張量。

定義1.張量加法:給定尺寸均為的張量,兩者之和是相同尺寸的張量,其中表示二階數組的元素,則代表實數域,滿足:

                      (1)

定義2.張量乘法:給定尺寸均為的張量,兩者乘積是由的二維循環卷積所得到相同尺寸張量,其中(mod)代表取余,滿足

   (2)

給定尺寸相同的張量,可以通過二維快速傅里葉變換及其逆變換來求得計算乘積,因為以下定理成立:

定理1.傅里葉變換:給定張量,以及兩者的乘積分別表示各自的傅里葉變換,則:

                   (3)

通過傅里葉變換,其相乘次數由原來循環卷積的減少到傅里葉域中的[5]。因此,定理1常常被用作循環卷積的快速計算的基礎。

定義3.零張量:零張量是一個所有元素全為0的張量,即

                                (4)

定義4.單位張量:單位張量滿足:

                         (5)

在上述定義及定理構成了一個張量環,張量向量是的元素的列表[5]。張量矩陣是的元素的數組,以下張量矩陣中的張量原子均在張量環上取值。

定義5.張量矩陣的乘法:給定張量矩陣,則它們的乘積為給出,且滿足:

                   (6)

上述定義和公式是張量代數的基本理論和框架。

2張量的主成份分析Tensor-PCA

在傳統運算(PCA)的基礎上,推廣到張量的變體TPCA[6]。給出張量向量,對應的協方差張量矩陣如下所示:

           (7)

然后得到的張量奇異值分解,使得:

                            (8)

最后,給定任意測試張量向量對應得到張量特征向量由下式給出

                           (9)

為了將的維度從D降低到,剩余的項被適當舍去。把稱為張量向量的張量特征向量。整個TPCA過程可以通過在傅里葉域中進行一系列傳統SVD來實現。

3實驗

3.1實驗來源

為了評估TPCA的性能,本文所使用的數據集是關于腦部醫學的開放數據庫:Simulated Brain phantom Database, brainWeb網站提供了模擬數據操控臺可以對腦圖像數據進行仿真,此數據庫是用于對腦部MRI圖像做定量腦部分析所使用的數據集是一個3D立體腦部圖像卷。

對于本實驗來講,數據集包涵有“ground truth”,并且數據集將腦部結構分為10類。 除了實驗背景外,選用剩下的9類進行分類實驗,同時選取數據集中的腦橫斷位上的第90幀圖像作為本實驗的仿真對象。

3.2實驗數據處理

       在圖像的預處理上,首先利用Matlab軟件提取出數據集(BPD)的腦橫斷面第90幀,圖像尺寸大小為,像元大小為,無噪聲,且識別率極高一幀圖像,如下圖2所示。

圖2 預處理圖像

3.2.1PCA

本文選取圖像數據集上的第90幀圖像,其每個位置的體素是一個樣本,每個樣本屬于9類結構中的一種,具體見表1所示。除去圖像背景外,一共有28043個像素點現將圖像的像素點擴展成為鄰域,此時圖像大小為,隨機抽取20%作為訓練集(5607個樣本),其余的作為測試樣本(22436個)。將所分好的數據帶入PCA進行特征提取處理,最后選用KNN(最近鄰)分類器對其分類。

 

表1 大腦結構部分的分類和像素個數

類別

實物描述

像素個數

樣本個數

C1

CSF(腦脊液)

371945

2760

C2

腦白質

674777

7226

C3

腦灰質

902912

9369

C4

腦脂肪

146514

327

C5

腦肌肉

617482

2202

C6

腦皮質

726649

2581

C7

腦頭骨

362561

2202

C8

神經膠質

5987

250

C9

腦膜

298350

1126

 

3.2.2 TPCA

同理,在PCA的基礎上,我們將數據張量化,在每個標量上再找一個的鄰域,經過實驗驗證后的鄰域為最佳,大的鄰域效果并不明顯,反而鄰域過大會出現過飽和現象。擴充出來的位置用0來代替,此時數據集的大小為,這樣就完成了數據張量化,能夠帶入TPCA中進行特征提取。由于TPCA的運算是循環卷積,由于計算量過大,這里將數據帶入快速傅里葉變換(2DFFT)中進行,這樣就大大的降低了運算時間。

3.3實驗結果

首先由于NN分類器的局限性,還處理不了張量數據,這里我們將TPCA所得到結果進行切片操作,這樣就可以用NN分類器進行分類了。表2、表3分別給出了PCATPCANN分類器得到的分類混淆矩陣的對比。從主對角線上黑白程度上對混淆矩陣進行分析可以看出,在采用NN分類器進行分類時,PCA這種算法對于圖像上相似的類別仍有一定的錯分現象[7]。反觀TPCA算法,其主對角線黑色程度較深,說明準確率高,而且在其他分錯的類別上,百分比較低。

 

表2 PCA

0.74

0.01

0.00

0.00

0.03

0.19

0.02

0.02

0.00

0.05

0.92

0.03

0.00

0.14

0.00

0.00

0.26

0.06

0.00

0.02

0.96

0.03

0.00

0.00

0.00

0.07

0.18

0.00

0.00

0.00

0.78

0.00

0.00

0.00

0.00

0.03

0.03

0.05

0.00

0.00

0.75

0.03

0.00

0.30

0.07

0.17

0.00

0.00

0.00

0.05

0.73

0.05

0.03

0.00

0.01

0.00

0.00

0.00

0.00

0.05

0.93

0.00

0.00

0.00

0.00

0.00

0.00

0.02

0.00

0.00

0.32

0.00

0.00

0.00

0.01

0.19

0.01

0.00

0.00

0.00

0.66


表3 TPCA

0.82

0.02

0.00

0.00

0.03

0.09

0.02

0.01

0.00

0.05

0.90

0.05

0.00

0.04

0.00

0.00

0.03

0.06

0.00

0.02

0.92

0.03

0.00

0.00

0.00

0.05

0.03

0.00

0.00

0.00

0.88

0.00

0.00

0.00

0.00

0.03

0.03

0.06

0.00

0.00

0.85

0.03

0.00

0.02

0.02

0.09

0.00

0.00

0.00

0.05

0.83

0.05

0.03

0.00

0.01

0.00

0.00

0.00

0.00

0.05

0.93

0.00

0.00

0.00

0.00

0.00

0.00

0.02

0.00

0.00

0.86

0.00

0.00

0.00

0.03

0.09

0.01

0.00

0.00

0.00

0.86


       最后給出PCA算法和TPCA算法的總體的分類精度曲線,可以看出TPCA的算法一直表現的很穩定,而卻分類精度比傳統的PCA算法要好。如下圖3所示:

 

圖3 NN分類器分類結果

4給出了PCA(紅色)和TPCA(藍色)的算法提取在不同特征維度時的總體分類精度的對比。PCA算法和TPCA算法下都降至到8維。本文分別抽取了2維、4維、6維和8維的圖像進行重建,重建圖像對比的結果與“ground_truth”進行對比后不難發現TPCA的結果都優于傳統PCA的結果[8]。如圖5所示:

     原始      ground_truth

        2        4         6         8

(PCA的分類圖)

    2        4         6         8

(TPCA的分類圖)

圖5 PCA與TPCA圖像重建對比圖

NN分類器下PCA的分類精度為86.32%,TPCA87.59%。如表5所示:

表5 腦部實驗分類精度的比較

分類器

特征提取

NN

PCA

86.32

TPCA

87.59

 

 

 

 

 

4結論

本文的主要工作是將磁共振大腦結構數據通過張量化的方法將其張量化,并利用基于循環卷積的張量模型,將大腦結構圖像進行有監督的分類對比,其主要工作如下:(1)首先BrainWeb在網上提供了一套現實的模擬腦MR的圖像卷,允許受控。(2)本文結合張量模型的優點將主成分分析(PCA)算法進行了全面的升級,傳統的PCA算法在對數據進行壓縮時,必須首先要將數據轉為向量,這對于圖像來說就破壞了數據的內在結構,因此從PCA的基本角度出發,我們將經典的PCA(主成分分析)算法升級為張量變體,稱為TPCA(張量主成分分析)。通過大量的仿真實驗后發現,基于循環卷積的張量代數框架下的TPCA算法具有非常優秀表現,實現了對張量數據的主成份分析,從而可以擴展到高維圖像數據。(3)結合TPCA算法獲得具有張量結構的數據特征,為了兼容已有的分類器,在TPCA的分類過程中還進行了切片操作,使得張量化后的數據能夠被一般分類器接受,這既體現了張量算法的優勢,也能夠擴展其應用范圍。

參考文獻:

[1]     J. M. Biocas-Dias, A. Plaza, G. Camps-Valls, and P. Scheunders, “Hyperspectral remote sensing data analysis and future challenges[J],” IEEE Geoscience &Remote sensing Magazine, vol. 1, no. 2,pp. 6-36,2013.

[2]     P. Bajorski, “statistical inference in pca for hyperspectral image[J],” IEEE Journal of Selected Topics in Signal Processing, vol. 5, no. 3, pp. 438-445,2011.

[3]     T. Gkamas, F. Renard, C.Heinrich, and S. Kremer, ”A fourth order tensor statistical model for diffusion weighted MRI application to population comparision[J],” Frensenius Zeitchrift fur Analytische Chemie, vol. 182, no. 3, pp. 221-222, 2015.

[4]     M. Dalla Mura, A.Villa, J. A. Benedikktsson, J. Chanussot, and L. Bruzzone,”Classification of hyperspectral images by using extended morphological attribute profiles and independent component analysis[J],” IEEE Geoscience & Remote Sensing Letters, vol.8, no. 3,pp. 542-546,2011.

[5]     M. He and S. Mei, ”Dimension reduction by random projection for endmember extraction[C],” in 2010 5th IEEE Conference on Industrial Electronics and Applications (ICIEA), 2010,PP. 2323-2327.

[6]     D. Ai. G. Duan, X. Han, and Y. W. Chen, “Generalized N-dimensional independent component analysis and its application to multiple feature selection and fusion for image classification[J],”Neuro-computing, vol. 130, no. 2,pp. 186-197, 2013.

[7]     H.ZHOU, L. Li, and H. Zhu, “Tensor regression with applications in neuro-imaging data analysis[J],” Journal of the American Statistical Association, vol. 108, no. 502, pp. 540-552,2013.

[8]     G. Camps-valls, D.Tuia, L. Bruzzone, and J. Atli Benediktsson, “Advances in hyperspectral image classification: Earth monitoring with statistical learning methods[J],” IEEE Signal Processing Magazine, vol. 31, no. 1,pp. 45-54, 2013.

    

廣告 ×

在線客服

返回頂部