中文題目:ESA-GCN :基于ENN-SMOTE采樣和注意力機(jī)制的類(lèi)不平衡節(jié)點(diǎn)分類(lèi)方法
論文題目:ESA-GCN: An Enhanced Graph-Based Node Classification Method for Class Imbalance Using ENN-SMOTE Sampling and an Attention Mechanism
發(fā)表期刊:Applied Sciences (JCR Q2)
原文DOI:10.3390/app14010111
作者列表:
1)張麗英 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 軟件工程系教師
2)孫海航 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 計(jì)算機(jī)技術(shù) 碩士 21
重采樣注意力圖卷積網(wǎng)絡(luò)(ESA-GCN)模型結(jié)合ENN-SMOTE重采樣和注意力機(jī)制,解決類(lèi)不平衡圖節(jié)點(diǎn)分類(lèi)問(wèn)題。ENN-SMOTE綜合采樣方法,在減少多數(shù)類(lèi)節(jié)點(diǎn)的同時(shí),增加少數(shù)類(lèi)節(jié)點(diǎn),使得數(shù)據(jù)集更加均衡;并且ENN算法通過(guò)刪除低質(zhì)量、嘈雜的樣本數(shù)據(jù)實(shí)現(xiàn)有效地降低分類(lèi)器的錯(cuò)誤率,提高分類(lèi)器的性能穩(wěn)定性;在為新節(jié)點(diǎn)與原始節(jié)點(diǎn)之間生成邊的階段引入注意力機(jī)制,充分考慮節(jié)點(diǎn)之間的相互關(guān)系,并且只對(duì)一部分關(guān)鍵信息進(jìn)行高權(quán)重的集中處理,實(shí)現(xiàn)提高分類(lèi)準(zhǔn)確率的同時(shí)大大降低模型參數(shù)和計(jì)算量。在三個(gè)公共數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明,ESA-GCN對(duì)于類(lèi)不平衡圖節(jié)點(diǎn)分類(lèi)任務(wù)中取得了顯著的成果。
背景與動(dòng)機(jī):
圖節(jié)點(diǎn)中的類(lèi)別不平衡問(wèn)題在現(xiàn)實(shí)世界的任務(wù)中普遍存在,如欺詐檢測(cè)、假用戶(hù)檢測(cè)、惡意軟件檢測(cè)等。這個(gè)問(wèn)題顯著影響了對(duì)這些少數(shù)類(lèi)別的分類(lèi)器性能,但在這個(gè)領(lǐng)域的研究還相對(duì)有限。因此不平衡節(jié)點(diǎn)分類(lèi)問(wèn)題已成為一個(gè)重要的研究方向。針對(duì)圖數(shù)據(jù)過(guò)采樣時(shí)邊的生成不準(zhǔn)確、少數(shù)類(lèi)表達(dá)能力不足以及存在噪聲樣本等問(wèn)題,本文提出了ESA-GCN模型。
ESA-GCN的主要思想是在基于圖神經(jīng)網(wǎng)絡(luò)(GNN)的特征提取器獲得的表達(dá)性嵌入空間中,采用一系列的采樣和邊生成技術(shù)來(lái)改善不平衡數(shù)據(jù)集上的節(jié)點(diǎn)分類(lèi)性能。ESA-GCN由四個(gè)部分組成:基于GNN的特征提取器、重采樣模塊、邊生成器和基于GNN的節(jié)點(diǎn)分類(lèi)模塊。ESA-GCN模型原理框架如圖1所示。
ESA-GCN能夠充分利用圖神經(jīng)網(wǎng)絡(luò)的特征提取能力和增強(qiáng)樣本均衡的策略,提升在不平衡數(shù)據(jù)集上的節(jié)點(diǎn)分類(lèi)效果。ESA-GCN的創(chuàng)新之處在于綜合運(yùn)用了欠采樣、過(guò)采樣和邊緣生成技術(shù),來(lái)提高不平衡圖數(shù)據(jù)中的節(jié)點(diǎn)分類(lèi)問(wèn)題的解決能力。

圖1 ESA-GCN架構(gòu)圖
本研究選用了三個(gè)公共數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),并選擇了四個(gè)基準(zhǔn)模型進(jìn)行比較,具體實(shí)驗(yàn)結(jié)果如表1所示。
表1 性能對(duì)比表
本文進(jìn)行了消融實(shí)驗(yàn),分別研究了增加ENN欠采樣、注意力機(jī)制以及同時(shí)增加ENN欠采樣和注意力機(jī)制對(duì)模型性能的影響,實(shí)驗(yàn)結(jié)果如表2所示。
表2 消融實(shí)驗(yàn)結(jié)果表
本文分析了不同算法在不同欠采樣鄰居數(shù)下的性能,以評(píng)估欠采樣鄰居數(shù)對(duì)模型性能的影響,結(jié)果見(jiàn)圖2。

圖2 AUC-ROC與F1-Macro隨欠采樣鄰居變化圖
本文對(duì)不同算法在不同不平衡率下的性能進(jìn)行了分析,以評(píng)估它們的魯棒性,實(shí)驗(yàn)結(jié)果如圖3至圖5所示。

圖3 Cora數(shù)據(jù)集調(diào)整不平衡率時(shí)的AUC-ROC與F1-Macro變化
圖4 Citeseer數(shù)據(jù)集調(diào)整不平衡率時(shí)的AUC-ROC與F1-Macro變化

圖5 PubMed數(shù)據(jù)集調(diào)整不平衡率時(shí)的AUC-ROC與F1-Macro變化
本文通過(guò)實(shí)驗(yàn)評(píng)估了不同算法在不同損失權(quán)重λ下的性能變化,并進(jìn)行了相應(yīng)的分析,具體實(shí)驗(yàn)結(jié)果見(jiàn)圖6至圖8。

圖6 Cora數(shù)據(jù)集調(diào)整超參數(shù)時(shí)的AUC-ROC與F1-Macro變化
圖7 Citeseer數(shù)據(jù)集調(diào)整超參數(shù)時(shí)的AUC-ROC與F1-Macro變化

圖8 PubMed數(shù)據(jù)集調(diào)整超參數(shù)時(shí)的AUC-ROC與F1-Macro變化
本文提出了一種新的模型ESA-GCN,旨在解決不平衡節(jié)點(diǎn)分類(lèi)問(wèn)題。具體而言,該模型在圖數(shù)據(jù)中采用ENN-SMOTE采樣方法來(lái)平衡原始圖數(shù)據(jù),并且減少了噪聲樣本對(duì)模型的影響。此外,該模型引入了注意力機(jī)制來(lái)調(diào)整每個(gè)節(jié)點(diǎn)的重要性,并重新生成邊,更準(zhǔn)確的構(gòu)建圖結(jié)構(gòu)。為了驗(yàn)證該模型的有效性,我們?cè)谌齻€(gè)常用的公共數(shù)據(jù)集(Cora、Citeseer、PubMed)上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的GCN算法相比,該模型在AUC-ROC和F1-Macro指標(biāo)方面都取得了顯著的改進(jìn)。
張麗英,講師,中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院碩士導(dǎo)師。主要研究方向:機(jī)器學(xué)習(xí)、時(shí)空數(shù)據(jù)挖掘。主持并參與國(guó)家自然基金、校級(jí)基金和校外開(kāi)放基金、中石油勘探開(kāi)發(fā)課題10多項(xiàng)。發(fā)表論文7余篇,其中被SCI、EI檢索4篇。教學(xué)工作主持教育部產(chǎn)學(xué)合作協(xié)同育人項(xiàng)目、校級(jí)核心課程/重點(diǎn)教改項(xiàng)目等10多項(xiàng),出版教材兩部。
聯(lián)系方式:[email protected]