기울기 소실 문제
● 다층 퍼셉트론은 월드 클래스가 아닙니다
● 지난번 다층 퍼셉트론 상의 역전파 과정에서 기울기가 맨 처음의 층까지 전달되지 않고 중간에 소실되어 버리는 '기울기 소실' 문제가 발생했다 말씀드렸습니다.
● 기울기가 사라지게 되면 오차의 책임을 바로 앞단의 레이어에 있는 노드들에게 전가시키기 어렵습니다. 역전파가 어렵게 되는 것이죠.
● 기울기 소실의 원인은 활성화 함수 중 하나에 있었습니다. 바로 약방의 감초처럼 그냥 묻지도 말고, 따지지도 말고 가져다 쓰던 시그모이드 함수 때문이었죠.
● 시그모이드(Sigmoid) 함수는 0과 11 사이의 값만 가질 수 있도록 하는 비선형 함수입니다. x값이 작거나 커질수록 기울기가 완만하게 0으로 수렴되가는 특징이 있습니다. 이러한 특징이 선형의 함수보다 현실을 더 잘 반영한다 여겼기 때문에 과거에는 약방의 감초처럼 주로 많이 썼던 활성화 함수입니다.
● 시그모이드 함수는 0~1을 표현합니다. 하지만 시그모이드의 미분 값은 0~0.25 사이의 값만 표현가능합니다. 역전파로 결괏값에 대한 가중치 계산 시 전달되는 값이 1/4 감소되는 현상이 발생합니다. 세번 이상 미분 계산 반복 시 0에 가까운 값이 되어 학습되지 않습니다. 따라서, 출력 값과 멀어질수록 학습이 되지 않는 현상이 발생합니다.
● 이런 시그모이드 함수를 극복하기 위해 나온 활성화 함수들이 하이퍼볼릭 탄젠트,, 렐루 등의 함수였던 것입니다.
● 이들 중, 현재는 렐루 함수가 가장 주목받고 각광받게 되었습니다.
● 렐루함수를 쓰니, 기울기가 0이 되는 경우도 거의 없고, 그래서 학습이 더 빠르고 잘됩니다. 딥러닝 4대 천왕인 앤드류 응은 은닉층에서 어떤 활성화 함수를 사용할지 모르겠으면 ReLU를 사용하면 된다고 말했습니다.
● 다소 두서가 없었지만 이제 딥러닝에서의 기울기가 '학습'에도 왜 중요한지 설명이 이루어진 것 같습니다.
● 다층 퍼셉트론은 그 자체로 월드 클래스가 아니었습니다만, 오차 역전파 알고리즘과 활성화 함수라는 좋은 날개를 달아주었더니 '딥러닝'이라는 월드 클래스가 되어 가고 있었습니다.
● 다층 퍼셉트론이 딥러닝이라는 월드 클래스가 되어 갈 즈음에도 모든 것이 순탄한 것만은 아니었습니다.
● '딥러닝' 이라는 용어로 갈아타기 이전에는 인공신경망(ANN)이라는 용어를 한 때 갖고 있었습니다.
● 여하튼 인공신경망(ANN)의 은닉층을 딥(Deep)하게 쌓아 만들었다 해서 탄생한 오늘날의 '딥러닝' 모델(CNN, RNN)들이 하나 둘 세상 밖으로 나오기 시작합니다.
● 1990년 들어서면서 복잡계의 현실이 갖고 있는 다차원의 문제, 구조의 복잡성 증가 등으로 인해 기술력 부족이라는 난관에 부딪히게 되었습니다.
● 그 중, 한 문제가 지난번 말씀드린 학습에서의 기울기 소실의 문제였습니다. 또한 기울기가 0인 지점을 찾기는 했더라도, 지역 최저점(Local minimum)에 빠져버리는 문제도 있었죠
● 다층 퍼셉트론이 딥러닝이라는 월드 클래스가 되어 갈 즈음에도 모든 것이 순탄한 것만은 아니었습니다.
● '딥러닝' 이라는 용어로 갈아타기 이전에는 인공신경망(ANN)이라는 용어를 한 때 갖고 있었습니다.
● 여하튼 인공신경망(ANN)의 은닉층을 딥(Deep)하게 쌓아 만들었다 해서 탄생한 오늘날의 '딥러닝' 모델(CNN, RNN)들이 하나 둘 세상 밖으로 나오기 시작합니다.
● 1990년 들어서면서 복잡계의 현실이 갖고 있는 다차원의 문제, 구조의 복잡성 증가 등으로 인해 기술력 부족이라는 난관에 부딪히게 되었습니다.
● 그 중, 한 문제가 지난번 말씀드린 학습에서의 기울기 소실의 문제였습니다. 또한 기울기가 0인 지점을 찾기는 했더라도, 지역 최저점(Local minimum)에 빠져버리는 문제도 있었죠
● 또한 모델이 학습데이터에만 최적화되어 테스트 데이터에 대해서 성능이 형편없이 저하되는 과적합(=오버 피팅)(=오버피팅) 문제도 발생했습니다.
● 여기에 컴퓨팅 파워의 부족으로 은닉층이 딥 해질수록 연산량이 급증해, 1990년대 당시 하드웨어 성능으로 너무 많은 학습시간이 걸린다는 문제도 있었죠.
● 인공신경망(=ANN) 즉, 뉴럴네트워크 기술은 또 한 번의 암흑기를 맞이합니다.
● 월드 클래스가 되기 참 어렵습니다.
● 다시 인공신경망은 움츠러듭니다. 2,000년대 들어서 다양한 머신러닝 알고리즘들이 그 빈자리를 채우며 인공지능의 대세를 이루게 됩니다.
● 딥러닝이 월드클래스가 되기 전 시대를 풍미한 머신러닝 알고리즘에 대해 알아볼 차례가 된 것 같습니다.
● 돈까스를 전설의 보검이 아니더라도 먹음직하게 적당히 썰어주던 그 칼들을 말이죠.
'인공지능' 카테고리의 다른 글
6번째 인공지능 - SVM, 커널, 커널트릭, K-최근접 이웃(KNN) 알고리즘 (0) | 2022.08.16 |
---|---|
5번째 인공지능 - 신경 세포 뉴런, SVM (0) | 2022.08.16 |
3번째 인공지능 - 다층 퍼셉트론 (0) | 2022.08.16 |
2번째 인공지능 - 인공지능의 겨울 (0) | 2022.08.16 |
1번째 인공지능 - 신경망, 은닉층, 딥러닝 모델 (0) | 2022.08.16 |
댓글