본문 바로가기
인공지능

4번째 인공지능 - 기울기 소실 문제

by ⁜±µ♪ 2022. 8. 16.

기울기 소실 문제

다층 퍼셉트론은 월드 클래스가 아닙니다

지난번 다층 퍼셉트론 상의 역전파 과정에서 기울기가 맨 처음의 층까지 전달되지 않고 중간에 소실되어 버리는 '기울기 소실' 문제가 발생했다 말씀드렸습니다.

기울기가 사라지게 되면 오차의 책임을 바로 앞단의 레이어에 있는 노드들에게 전가시키기 어렵습니다. 역전파가 어렵게 되는 것이죠.

기울기 소실의 원인은 활성화 함수 중 하나에 있었습니다. 바로 약방의 감초처럼 그냥 묻지도 말고, 따지지도 말고 가져다 쓰던 시그모이드 함수 때문이었죠.

시그모이드 함수 + relu 함수

시그모이드(Sigmoid) 함수는 0과 11 사이의 값만 가질 수 있도록 하는 비선형 함수입니다. x값이 작거나 커질수록 기울기가 완만하게 0으로 수렴되가는 특징이 있습니다. 이러한 특징이 선형의 함수보다 현실을 더 잘 반영한다 여겼기 때문에 과거에는 약방의 감초처럼 주로 많이 썼던 활성화 함수입니다.

시그모이드 함수는 0~1을 표현합니다. 하지만 시그모이드의 미분 값은 0~0.25 사이의 값만 표현가능합니다. 역전파로 결괏값에 대한 가중치 계산 시 전달되는 값이 1/4 감소되는 현상이 발생합니다. 세번 이상 미분 계산 반복 시 0에 가까운 값이 되어 학습되지 않습니다. 따라서, 출력 값과 멀어질수록 학습이 되지 않는 현상이 발생합니다.

시그모이드 함수

이런 시그모이드 함수를 극복하기 위해 나온 활성화 함수들이 하이퍼볼릭 탄젠트,, 렐루 등의 함수였던 것입니다.

이들 중, 현재는 렐루 함수가 가장 주목받고 각광받게 되었습니다.

렐루함수를 쓰니, 기울기가 0이 되는 경우도 거의 없고, 그래서 학습이 더 빠르고 잘됩니다. 딥러닝 4대 천왕인 앤드류 응은 은닉층에서 어떤 활성화 함수를 사용할지 모르겠으면 ReLU를 사용하면 된다고 말했습니다.

다소 두서가 없었지만 이제 딥러닝에서의 기울기가 '학습'에도 왜 중요한지 설명이 이루어진 것 같습니다.

다층 퍼셉트론은 그 자체로 월드 클래스가 아니었습니다만, 오차 역전파 알고리즘과 활성화 함수라는 좋은 날개를 달아주었더니 '딥러닝'이라는 월드 클래스가 되어 가고 있었습니다.

다층 퍼셉트론이 딥러닝이라는 월드 클래스가 되어 갈 즈음에도 모든 것이 순탄한 것만은 아니었습니다.

'딥러닝' 이라는 용어로 갈아타기 이전에는 인공신경망(ANN)이라는 용어를 한 때 갖고 있었습니다.

여하튼 인공신경망(ANN)의 은닉층을 딥(Deep)하게 쌓아 만들었다 해서 탄생한 오늘날의 '딥러닝' 모델(CNN, RNN)들이 하나 둘 세상 밖으로 나오기 시작합니다.

1990년 들어서면서 복잡계의 현실이 갖고 있는 다차원의 문제, 구조의 복잡성 증가 등으로 인해 기술력 부족이라는 난관에 부딪히게 되었습니다.

그 중, 한 문제가 지난번 말씀드린 학습에서의 기울기 소실의 문제였습니다. 또한 기울기가 0인 지점을 찾기는 했더라도, 지역 최저점(Local minimum)에 빠져버리는 문제도 있었죠

다층 퍼셉트론이 딥러닝이라는 월드 클래스가 되어 갈 즈음에도 모든 것이 순탄한 것만은 아니었습니다.

'딥러닝' 이라는 용어로 갈아타기 이전에는 인공신경망(ANN)이라는 용어를 한 때 갖고 있었습니다.

여하튼 인공신경망(ANN)의 은닉층을 딥(Deep)하게 쌓아 만들었다 해서 탄생한 오늘날의 '딥러닝' 모델(CNN, RNN)들이 하나 둘 세상 밖으로 나오기 시작합니다.

1990년 들어서면서 복잡계의 현실이 갖고 있는 다차원의 문제, 구조의 복잡성 증가 등으로 인해 기술력 부족이라는 난관에 부딪히게 되었습니다.

그 중, 한 문제가 지난번 말씀드린 학습에서의 기울기 소실의 문제였습니다. 또한 기울기가 0인 지점을 찾기는 했더라도, 지역 최저점(Local minimum)에 빠져버리는 문제도 있었죠

지역 최저점 문제

또한 모델이 학습데이터에만 최적화되어 테스트 데이터에 대해서 성능이 형편없이 저하되는 과적합(=오버 피팅)(=오버피팅) 문제도 발생했습니다.

여기에 컴퓨팅 파워의 부족으로 은닉층이 딥 해질수록 연산량이 급증해, 1990년대 당시 하드웨어 성능으로 너무 많은 학습시간이 걸린다는 문제도 있었죠.

인공신경망(=ANN) , 뉴럴네트워크 기술은 또 한 번의 암흑기를 맞이합니다.

월드 클래스가 되기 참 어렵습니다.

다시 인공신경망은 움츠러듭니다. 2,000년대 들어서 다양한 머신러닝 알고리즘들이 그 빈자리를 채우며 인공지능의 대세를 이루게 됩니다.

딥러닝이 월드클래스가 되기 전 시대를 풍미한 머신러닝 알고리즘에 대해 알아볼 차례가 된 것 같습니다.

돈까스를 전설의 보검이 아니더라도 먹음직하게 적당히 썰어주던 그 칼들을 말이죠.

댓글