首頁  技術文章  梯度消失問題

梯度消失問題

發(fā)布時間:2025-03-05 11:50:56 瀏覽量:174 作者:Paul

正文


梯度消失問題


假設輸入層784個,輸出參數(shù)10個曹体,每一個隱藏層包含30個元素俗扇。


1. 當隱藏層為一層,正確率為96.48%

2. 當隱藏層為二層箕别,正確率為96.90%

3. 當隱藏層為三層铜幽,正確率為96.57%

4. 當隱藏倉為四層,正確率為96.53%


增加隱藏層串稀,并沒有提高正確率除抛,反而有時會減小到忽。


做一個簡單的假設,輸入層只有一個參數(shù)清寇,包含四個隱藏層喘漏,輸出也只有一個。



x表示輸入?yún)⒘浚?img src="/ueditor/image/20250305/1741144180277925.png" title="1741144180277925.png" />表示權重(是一個向量)颗管,b1表示偏置,垦江。每個隱藏層輸出為耙蔑,即每個隱藏層的輸出結果发笔,使用a描述,通常用z小二乘的方式描述評價函數(shù)C,梯度下降的方法不斷修改其中的參數(shù)和參數(shù)b庶喜,令評價函數(shù)C趨向于Min,此時神經(jīng)網(wǎng)絡描述的函數(shù)既是想輸入函數(shù)擬合的過程阐枣。


如果此時去求解評價函數(shù)C對于偏置b1的導數(shù)驳糯,用到導數(shù)的鏈式法則赏表。



一般的導數(shù)如圖所示


如上圖所示检诗,通常的導數(shù),Max值為0.25逢慌。

如果乘以后模值小于1,那么原靠近輸入的層的梯度越小间狂,這就是導致梯度消失的原因

當然也有可能是乘以[MISSING IMAGE: ,  ]后大于1的情況存在攻泼,那么越靠近輸入層的梯度越來越大鉴象,這就是導致梯度爆炸的原因忙菠。

當隱藏層數(shù)量過多的時候,可能會導致梯度消失或者梯度爆炸纺弊,zui終令神經(jīng)網(wǎng)絡變得不穩(wěn)定牛欢。

多一個神經(jīng)元或者多一層隱藏成,都可能會改變極值的位置

假設需要輸入函數(shù)淆游,在區(qū)間之間輸入和輸出如圖所示



此時假設設計一個神經(jīng)網(wǎng)絡,

輸入神經(jīng)元為1個稽犁,輸入數(shù)據(jù)為其橫坐標;

輸出神經(jīng)元為1個已亥,輸出數(shù)據(jù)來自于縱坐標熊赖;

學習率;正則化表達式虑椎;

隱藏層有2個震鹉,每層為2個神經(jīng)元

大致結果如下圖所示



通過梯度下降的方法,計算每一層的權重和偏置



不同初始值會收斂在不同的極值捆姜,雖然已經(jīng)將初始值的位置靠近與真實情況传趾,雖然收斂但是仍舊收斂在附近的位置。



上述紅點表示原始數(shù)據(jù)泥技,藍色是擬合參數(shù)后的結果浆兰,因為擬合穩(wěn)定后只是收斂在附近的位置,所以無法正確的計算正確的結果簸呈。

不同迭代次數(shù)下,不同隱藏層輸出的穩(wěn)定性

每一層輸出的穩(wěn)定性定義:將每一層迭代前的結果蜕便,和迭代后的結果相減劫恒,取2范數(shù)作為穩(wěn)定性的z終評價。以迭代次數(shù)作為橫坐標轿腺,每一層的穩(wěn)定性指標作為縱坐標两嘴,每一層形成一根曲線族壳。仍舊是以上述的結構作為基礎憔辫,觀察第1層隱藏層、第2層隱藏層决侈,輸出層的結果螺垢。取特定位置x=-0.7,隱藏層1和隱藏層2赖歌,以及輸出層的結果如下圖所示


他們的差分結果可以表示其梯度變換



這個恰好對應于當初的公式,不同的輸出層的學習率是不同的庐冯,而且大致保持這一定的關系。正是這種關系展父,有可能導致梯度消失或者梯度爆炸的緣故返劲。


更多詳情請聯(lián)系昊量光電/歡迎直接聯(lián)系昊量光電

關于昊量光電:

上海昊量光電設備有限公司是光電產(chǎn)品專業(yè)代理商,產(chǎn)品包括各類激光器栖茉、光電調(diào)制器篮绿、光學測量設備、光學元件等吕漂,涉及應用涵蓋了材料加工亲配、光通訊、生物醫(yī)療惶凝、科學研究吼虎、國防苍鲜、量子光學思灰、生物顯微、物聯(lián)傳感混滔、激光制造等歹颓;可為客戶提供完整的設備安裝,培訓拳亿,硬件開發(fā)愿伴,軟件開發(fā)肺魁,系統(tǒng)集成等服務。

您可以通過我們昊量光電的官方網(wǎng)站www.wjjzl.com了解更多的產(chǎn)品信息隔节,或直接來電咨詢4006-888-532鹅经。

国产福利姬视频在线观看,国产原创激情在线观看网站,亚洲欧美日韩激色国产精品,日韩精品亚洲国产