近日,計(jì)算機(jī)學(xué)院(軟件學(xué)院)、人工智能學(xué)院馬穎東課題組在基于Transformer結(jié)構(gòu)的圖像分割方面取得了新的進(jìn)展,研究成果以 “TFRNet: Semantic Segmentation Network with Token Filtration and Refinement Method”為題,發(fā)表于國(guó)際跨媒體智能領(lǐng)域頂級(jí)期刊IEEE Transactions on Multimedia上,內(nèi)蒙古大學(xué)為唯一完成單位。該刊是中國(guó)人工智能學(xué)會(huì)認(rèn)定的A類期刊,中科院1區(qū)TOP期刊。
圖像分割類應(yīng)用(包括語(yǔ)義分割、實(shí)例分割、顯著物體檢測(cè)等)既要提取圖像細(xì)節(jié)信息計(jì)算高質(zhì)量分割掩碼圖,又依賴于圖像的全局信息以實(shí)現(xiàn)場(chǎng)景識(shí)別。最近提出的基于視覺(jué)Transformer結(jié)構(gòu)方法依靠自注意力機(jī)制的全局建模能力,顯著提高了圖像分割的準(zhǔn)確率。但是視覺(jué)Transformer結(jié)構(gòu)存在計(jì)算復(fù)雜度高、缺少細(xì)節(jié)信息等局限性,難以獲得像素級(jí)分割結(jié)果。
文章針對(duì)基于Transformer結(jié)構(gòu)圖像分割領(lǐng)域存在的上述問(wèn)題,利用特征篩選方法,篩選出重要特征并增強(qiáng)重要特征在網(wǎng)絡(luò)中的權(quán)重,解決了現(xiàn)有Transformer分割方法計(jì)算復(fù)雜,結(jié)果不夠準(zhǔn)確的問(wèn)題。同時(shí)將Transformer特征與卷積神經(jīng)網(wǎng)絡(luò)特征融合,進(jìn)一步精煉分割結(jié)果。實(shí)驗(yàn)結(jié)果表明,此方法在不同的圖像分割數(shù)據(jù)集上都取得了顯著的性能提升。
該研究得到了國(guó)家自然科學(xué)基金的資助,論文鏈接:https://ieeexplore.ieee.org/document/10474206
素材來(lái)源:計(jì)算機(jī)學(xué)院(軟件學(xué)院)、人工智能學(xué)院 編輯:李文娟 審核:劉雪峰