當(dāng)前位置:首頁(yè) > 學(xué)習(xí)資源 > 講師博文 > 不同激活函數(shù)對(duì)神經(jīng)網(wǎng)絡(luò)性能的影響
不同激活函數(shù)對(duì)神經(jīng)網(wǎng)絡(luò)性能的影響
時(shí)間:2024-12-12 來(lái)源:華清遠(yuǎn)見(jiàn)
引言:
在神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)中,激活函數(shù)扮演著至關(guān)重要的角色。它們決定了神經(jīng)元的輸出如何傳遞到網(wǎng)絡(luò)的下一層,進(jìn)而影響到整個(gè)網(wǎng)絡(luò)的表現(xiàn)和性能。選擇合適的激活函數(shù)不僅能提高模型的準(zhǔn)確度,還能加速訓(xùn)練過(guò)程。因此,了解不同激活函數(shù)的特點(diǎn)及其對(duì)神經(jīng)網(wǎng)絡(luò)性能的影響是深度學(xué)習(xí)中的一個(gè)重要課題。
1. 激活函數(shù)的基本概念
激活函數(shù)是神經(jīng)網(wǎng)絡(luò)中的非線性函數(shù),它接受一個(gè)輸入值,并輸出一個(gè)處理過(guò)的值。沒(méi)有激,活函數(shù),神經(jīng)網(wǎng)絡(luò)就相當(dāng)于一個(gè)線性模型,無(wú)法有效地進(jìn)行復(fù)雜的模式學(xué)習(xí)。而激活函數(shù)的非線性特性允許神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到復(fù)雜的模式。
常見(jiàn)的激活函數(shù)包括:Sigmoid、Tanh、ReLU、Leaky ReLU、ELU等,每種激活函數(shù)都有其優(yōu)缺點(diǎn)和適用場(chǎng)景。
2. 常見(jiàn)激活函數(shù)及其特點(diǎn)
2.1 Sigmoid 函數(shù)
Sigmoid 函數(shù)的數(shù)學(xué)表達(dá)式為:

它的輸出范圍是(0,1),使其成為一種概率輸出函數(shù),通常用于二分類問(wèn)題的輸出層。然而,Sigmoid 函數(shù)存在一些缺點(diǎn):
l 梯度消失問(wèn)題:當(dāng)輸入值非常大或非常小時(shí),Sigmoid 的導(dǎo)數(shù)接近于0,這會(huì)導(dǎo)致梯度消失,進(jìn)而使得訓(xùn)練變慢甚至停滯。
l 輸出不是零均值:Sigmoid 輸出的值總是在(0,1)之間,這使得優(yōu)化過(guò)程變得更加困難。
2.2 Tanh 函數(shù)
Tanh 函數(shù)(雙曲正切函數(shù))是 siqmoid 函數(shù)的擴(kuò)展,它的輸出范圍是(-1,1),并且具有更好的梯度性質(zhì)。其數(shù)學(xué)表達(dá)式為:

Tanh 函數(shù)的優(yōu)點(diǎn)包括:
l 零均值輸出:Tanh 的輸出范圍是(-1,1),這使得網(wǎng)絡(luò)的訓(xùn)練更加穩(wěn)定。
l 較少的梯度消失問(wèn)題:相較于 Sigmoid,Tanh 在較大范圍的輸入時(shí)仍能提供較強(qiáng)的梯度,降低了梯度消失的影響。
然而,Tanh 函數(shù)也存在類似的問(wèn)題:它的輸出仍然是飽和的,導(dǎo)致在極端值時(shí)會(huì)發(fā)生梯度消失。
2.3 ReLU 函數(shù)
ReLU(Rectified Linear Unit,修正線性單元)是目前深度學(xué)習(xí)中最常用的激活函數(shù)之-
其數(shù)學(xué)表達(dá)式為:

ReLu 的優(yōu)點(diǎn)包括:
l 計(jì)算簡(jiǎn)單:RelU 函數(shù)非常簡(jiǎn)單,計(jì)算效率高。
l 避免梯度消失:ReLU 在正半軸上具有常數(shù)梯度,避免了梯度消失問(wèn)題,尤其適用于深度神經(jīng)網(wǎng)絡(luò)。
l 稀疏性:由于 ReLU 在負(fù)半軸輸出為0,它具有稀疏性,使得神經(jīng)網(wǎng)絡(luò)更加高效。
然而,ReLU 也有一個(gè)問(wèn)題死神經(jīng)元問(wèn)題。當(dāng)輸入小于零時(shí),ReLU 輸出為0,可能導(dǎo)致一些神經(jīng)元的輸出始終為零,這些神經(jīng)元不再更新,無(wú)法參與訓(xùn)練。
2.4 Leaky ReLU 和 Parametric ReLU
為了緩解 ReLU 的死神經(jīng)元問(wèn)題,Leaky ReLU 被提出。其數(shù)學(xué)形式為:

其中,a是一個(gè)非常小的常數(shù),通常取值如 0.01。Leaky Relu 在負(fù)軸上不會(huì)完全變?yōu)?0,而是給出一個(gè)小的負(fù)值,從而避免了神經(jīng)元"死亡"問(wèn)題Parametric RelU(PReLU)是 Leaky Rel 的一個(gè)擴(kuò)展,其中 α 是可學(xué)習(xí)的參數(shù)。通過(guò)訓(xùn)練,PReLU 可以自適應(yīng)地選擇最合適的負(fù)斜率。
2.5 ELU 函數(shù)
ELU(Exponential Linear Unit)是另一種被提出的激活函數(shù),公式為:

ELU 的優(yōu)點(diǎn)是:
l 避免梯度消失問(wèn)題:與 ReLU 類似,ELU 在正半軸有恒定的梯度,而在負(fù)半軸的輸出通過(guò)指數(shù)函數(shù)進(jìn)行平滑過(guò)渡。
l 改善訓(xùn)練速度:相比于 ReLU,ELU 在負(fù)半軸具有負(fù)值,可以使得網(wǎng)絡(luò)在訓(xùn)練過(guò)程中有更好的收斂性。
ELU 的缺點(diǎn)是計(jì)算復(fù)雜度較高,且當(dāng)。 的選擇不當(dāng)時(shí),可能會(huì)導(dǎo)致訓(xùn)練不穩(wěn)定。
1. 激活函數(shù)的選擇對(duì)性能的影響
不同的激活函數(shù)對(duì)于神經(jīng)網(wǎng)絡(luò)的性能有不同的影響,具體體現(xiàn)在以下幾個(gè)方面:
l 收斂速度:RelU 和其變種(如 Leaky ReLU、PReU、ELU)由于避免了梯度消失問(wèn)題,通常具有更快的收斂速度。而像、sigmoid 和Tanh 可能由于梯度消失或梯度飽和,導(dǎo)致訓(xùn)練變慢。
l 準(zhǔn)確度:在很多任務(wù)中,ReLU 和ELU 的表現(xiàn)往往優(yōu)于 sigmoid和 Tnh,尤其是在處理較深的網(wǎng)絡(luò)時(shí)。Rel 通常能夠提供更高的準(zhǔn)確度和更好的泛化能力。
l 梯度消失向題:sigmoid 和 anh函數(shù)容易在較大的輸入值下出現(xiàn)梯度消失問(wèn)題,這使得它們?cè)谏疃染W(wǎng)絡(luò)中表現(xiàn)較差。ReU 和 ELU 等函數(shù)能夠緩解這一問(wèn)題,特別是在深度網(wǎng)絡(luò)的訓(xùn)練中表現(xiàn)更為穩(wěn)定。
l 非線性與稀疏性:ReL 的稀疏性使得其網(wǎng)絡(luò)在處理某些任務(wù)時(shí)具有優(yōu)勢(shì),尤其是在大規(guī)模數(shù)據(jù)集上,能夠有效減輕計(jì)算負(fù)擔(dān)。
2. 結(jié)論
選擇合適的激活函數(shù)對(duì)于神經(jīng)網(wǎng)絡(luò)的性能至關(guān)重要。對(duì)于大多數(shù)現(xiàn)代深度學(xué)習(xí)模型,RelU 和其變種(LeakyRU、ELU、PReLU)通常是最常用的選擇,因?yàn)樗鼈兡苡行П苊馓荻认?wèn)題,并且訓(xùn)練速度較快。然而,針對(duì)特定任務(wù)和數(shù)據(jù),可能需要進(jìn)行一定的實(shí)驗(yàn)和調(diào)整,選擇最適合的激活函數(shù)。隨著研究的深入,未來(lái)可能會(huì)出現(xiàn)更多新的激活函數(shù),以更好地解決現(xiàn)有方法的缺點(diǎn)和局限性。
在構(gòu)建和訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),理解激活函數(shù)的特性、優(yōu)缺點(diǎn),以及它們?nèi)绾斡绊懩P偷男阅埽敲總(gè)深度學(xué)習(xí)從業(yè)者不可忽視的重要環(huán)節(jié)。
課程分享:華清遠(yuǎn)見(jiàn)聯(lián)合NXP推出i.MX8M Plus開(kāi)發(fā)與實(shí)踐
課程分享:鴻蒙HarmonyOS系統(tǒng)及物聯(lián)網(wǎng)開(kāi)發(fā)實(shí)戰(zhàn)課程(
課程分享:HaaS EDU K1開(kāi)發(fā)教程(附課程視頻及源碼下
新版C語(yǔ)言編程之控制語(yǔ)句視頻教程重磅贈(zèng)送(嵌入式入
價(jià)值2000元的嵌入式精裝教程大禮包免費(fèi)送!(搞懂嵌入
價(jià)值1000元的最新ARM系列視頻完整版教程新鮮出爐(免
【最新】ARM課程課堂實(shí)錄精華版視頻免費(fèi)領(lǐng)取(內(nèi)含源
如何利用機(jī)器學(xué)習(xí)構(gòu)建個(gè)性化推薦系統(tǒng)
嵌入式系統(tǒng)從上電到操作系統(tǒng)運(yùn)行的完整啟動(dòng)流程
如何在不同工作場(chǎng)景下優(yōu)化嵌入式系統(tǒng)的電源消耗
硬件抽象層(HAL)的設(shè)計(jì)如何提高代碼的可移植性
批量歸一化在深度學(xué)習(xí)訓(xùn)練中的作用和實(shí)現(xiàn)方法
物聯(lián)網(wǎng)項(xiàng)目中設(shè)計(jì)嵌入式系統(tǒng)時(shí)的關(guān)鍵技術(shù)和考慮因素
通過(guò)自然語(yǔ)言處理技術(shù)理解文本的深層含義
如何基于RISC-V架構(gòu)設(shè)計(jì)高效能的嵌入式系統(tǒng)
LSTM和GRU在時(shí)間序列預(yù)測(cè)中的應(yīng)用
JTAG和SWD的調(diào)試技術(shù)及應(yīng)用
