梯度消失問題
假設輸入層784個,輸出參數(shù)10個曹体,每一個隱藏層包含30個元素俗扇。
1. 當隱藏層為一層,正確率為96.48%
2. 當隱藏層為二層箕别,正確率為96.90%
3. 當隱藏層為三層铜幽,正確率為96.57%
4. 當隱藏倉為四層,正確率為96.53%
增加隱藏層串稀,并沒有提高正確率除抛,反而有時會減小到忽。
做一個簡單的假設,輸入層只有一個參數(shù)清寇,包含四個隱藏層喘漏,輸出也只有一個。
x表示輸入?yún)⒘浚?img src="/ueditor/image/20250305/1741144180277925.png" title="1741144180277925.png" />表示權重(是一個向量)颗管,b1表示偏置,垦江。每個隱藏層輸出為
耙蔑,即每個隱藏層的輸出結果发笔,使用a描述,通常用z小二乘的方式描述評價函數(shù)C,梯度下降的方法不斷修改其中的參數(shù)
和參數(shù)b庶喜,令評價函數(shù)C趨向于Min,此時神經(jīng)網(wǎng)絡描述的函數(shù)既是想輸入函數(shù)擬合的過程阐枣。
如果此時去求解評價函數(shù)C對于偏置b1的導數(shù)驳糯,用到導數(shù)的鏈式法則赏表。
一般的導數(shù)如圖所示
如上圖所示检诗,通常的導數(shù),Max值為0.25逢慌。
如果乘以后模值小于1,那么原靠近輸入的層的梯度越小间狂,這就是導致梯度消失的原因
當然也有可能是乘以[MISSING IMAGE: , ]后大于1的情況存在攻泼,那么越靠近輸入層的梯度越來越大鉴象,這就是導致梯度爆炸的原因忙菠。
當隱藏層數(shù)量過多的時候,可能會導致梯度消失或者梯度爆炸纺弊,zui終令神經(jīng)網(wǎng)絡變得不穩(wěn)定牛欢。
假設需要輸入函數(shù)淆游,在區(qū)間
之間輸入和輸出如圖所示
此時假設設計一個神經(jīng)網(wǎng)絡,
輸入神經(jīng)元為1個稽犁,輸入數(shù)據(jù)為其橫坐標;
輸出神經(jīng)元為1個已亥,輸出數(shù)據(jù)來自于縱坐標熊赖;
學習率;正則化表達式
虑椎;
隱藏層有2個震鹉,每層為2個神經(jīng)元
大致結果如下圖所示
通過梯度下降的方法,計算每一層的權重和偏置
不同初始值會收斂在不同的極值捆姜,雖然已經(jīng)將初始值的位置靠近與真實情況传趾,雖然收斂但是仍舊收斂在附近的位置。
上述紅點表示原始數(shù)據(jù)泥技,藍色是擬合參數(shù)后的結果浆兰,因為擬合穩(wěn)定后只是收斂在附近的位置,所以無法正確的計算正確的結果簸呈。
每一層輸出的穩(wěn)定性定義:將每一層迭代前的結果蜕便,和迭代后的結果相減劫恒,取2范數(shù)作為穩(wěn)定性的z終評價。以迭代次數(shù)作為橫坐標轿腺,每一層的穩(wěn)定性指標作為縱坐標两嘴,每一層形成一根曲線族壳。仍舊是以上述的結構作為基礎憔辫,觀察第1層隱藏層、第2層隱藏層决侈,輸出層的結果螺垢。取特定位置x=-0.7,隱藏層1和隱藏層2赖歌,以及輸出層的結果如下圖所示
他們的差分結果可以表示其梯度變換
這個恰好對應于當初的公式,不同的輸出層的學習率是不同的庐冯,而且大致保持這一定的關系。正是這種關系展父,有可能導致梯度消失或者梯度爆炸的緣故返劲。
更多詳情請聯(lián)系昊量光電/歡迎直接聯(lián)系昊量光電
關于昊量光電:
上海昊量光電設備有限公司是光電產(chǎn)品專業(yè)代理商,產(chǎn)品包括各類激光器栖茉、光電調(diào)制器篮绿、光學測量設備、光學元件等吕漂,涉及應用涵蓋了材料加工亲配、光通訊、生物醫(yī)療惶凝、科學研究吼虎、國防苍鲜、量子光學思灰、生物顯微、物聯(lián)傳感混滔、激光制造等歹颓;可為客戶提供完整的設備安裝,培訓拳亿,硬件開發(fā)愿伴,軟件開發(fā)肺魁,系統(tǒng)集成等服務。
您可以通過我們昊量光電的官方網(wǎng)站www.wjjzl.com了解更多的產(chǎn)品信息隔节,或直接來電咨詢4006-888-532鹅经。