본문 바로가기

전체 글10

9번째 인공지능 - 배깅(Bagging), 배깅피쳐(Bagging Feature) 배깅(Bagging), 배깅피쳐(Bagging Feature) ● 500개의 행이 있는 학습 데이터 셋이 있다고 가정해봅시다. 이 중 임의로 50개씩 행을 선택해서 하나의 의사결정트리를 만드는 게 '와꾸''틀'의 골자입니다. ● 이 틀는'배깅(Bagging)'이라고 불립니다. ● 이런 식으로 트리를 만들면 모든 트리들이 다 다를 거라는 것을 추정해볼 수 있습니다. 아하! 정리하면 배경은 학습 데이터의 일부를 각각 다르게 학습시켜 서로 다른 의사결정 트리를 만드는 기법이로군요! ● 배깅의 목적은? 트리의 다양성을 확보하는 데 있습니다. ● 근데 배깅에서 잊지 말아야 할 것이 있습니다. 바로 '중복'을 허용한다는 점이죠. ● 500개의 행이 있는 가방(bag)에서 임의로 50개 뽑아 첫 번째 트리를 만들고 .. 2022. 8. 16.
8번째 인공지능 - 의사결정트리 의사결정 트리 ● 의사결정 트리는 직관적으로 이해하기 쉽고, 분류 및 예측 결과에 대한 이유나 설명이 필요한 경우에 많이 사용합니다. - 예를 들어, 환자가 어떤 병에 걸렸을 때 이러이러한 조건에 부합하기 때문에 어떠한 질병이 의심된다고 설명을 해줄 수 있는 것이죠. 즉 판단에 대한 나름의 설명력이 좋습니다. ● 하지만 정확도를 높이기 위해서 불순도가 낮은 상태를 향해 달려가다 보면 질문이 많아지고, 트리의 깊이가 그만큼 깊어지게 됩니다. 이렇게 되면 과대 적합(오버 피팅)됩니다.(오버 피팅)됩니다. 즉, 학습을 했음에도 되려 성능이 떨어지게 됩니다. - 이럴 땐 어떻게 해야 할까요? 조경을 할 때 중요한 작업이 있습니다. 바로 가지치기입니다 - 사람 관계에도 가지치기가 필요합니다. 정리가 필요한 관계는.. 2022. 8. 16.
7번째 인공지능 - 유클리디안 거리, 맨해튼 거리, 의사결정 트리 유클리디안 거리, 맨해튼 거리, 의사결정 트리 ● 거리를 구할 때, '유클리디안 거리' 말고도 다른 수학적 방법이 있습니다. '맨해튼 거리'라고 불리죠. - 군대 훈련소에서 남자들은 직각 보행을 합니다. - 맨해튼 시내에 빌딩이 많아 격자 모양의 길이 많아 생겨난 말로 x축, Y축을 따라 간 거리입니다. ● 주의할 점이 있습니다. 좌표상의 한 점으로 나타내려면 데이터의 변수(특성)에 따른 값을 숫자로 나타내야겠죠? 이 숫자 데이터의 Scale(범위)은 저마다 다릅니다. 그러므로 0~1 사이의 값으로 변환시키는 정규화 과정을 꼭 거쳐야 합니다. ● KNN은 담백하고, 빠릅니다. 데이터를 수치로 표현할 수 있다면 성능이 우수하므로 사용을 고려해볼 만합니다.. ● 반면 KNN은 K의 개수 설정에 따라 결과가 .. 2022. 8. 16.
6번째 인공지능 - SVM, 커널, 커널트릭, K-최근접 이웃(KNN) 알고리즘 svm, 커널, 커널 트릭 ● SVM 마지막 이야기이네요. ● 커널을 이용해 차원을 높이면 두 개의 클래스를 분류하는 평면을 찾을 수 있다는 얘기였습니다. ● 그런데 말입니다. 이 모든 데이터를 차원 높은 데이터로 다시 맵핑하는 것이 말이 쉬운데, 계산량이 엄청 증가하게 됩니다. 그리고, 차원이라는 것이 사실 끝도 없습니다. 사실 안되면 될 때까지 차원을 늘린다는 건 말도 안 되는 일이기도 합니다. ● 그래서 꼼수를 씁니다. 모든 데이터를 맵핑하지 않고 꼼수를 이용해 비슷한 효과를 내게 만듭니다. ● 이것이 커널을 활용한 트릭이어서 커널트릭(Kernel Trick)이라고 부릅니다. 이 커널 트릭 기법이 있었기 때문에 SVM이 머신러닝의 대세가 될 수 있었습니다. ● 네, 사실 SVM이 성능이 다른 머신러.. 2022. 8. 16.
5번째 인공지능 - 신경 세포 뉴런, SVM 신경 세포 뉴런, SVM ● 지난번 얘기했듯,, 기울기 소실의 문제, 과적합(오버피팅)과적합(오버 피팅)의 문제, 지역 최소점에 머무르는 문제, 컴퓨팅 파워의 부족 문제도 있었지만, 결정적으로 이게 과연 생물학적 신경망과 같냐는 물음이 제기됩니다. ● 사실 신경세포인 뉴런들이 연결되어 전기 자극을 주고받는다는 아이디어만 빌려온 것일 뿐, 뇌의 작동 방식과는 전혀 다르다는 것은 매우 타당한 지적입니다. ● 퍼셉트론은 말초 신경계의 감각 신경계의 아이디어를 본 땄다 할 수 있습니다. 그래서 그런지 몰라도 딥러닝이 이미지 인식 하나는 참 잘합니다. 그러나 그림에서와 같이 진정한 뇌의 작동방식인 중추 신경계의 작동 방식과 원리를 인류는 아직도 알지 못합니다. ● 이렇게 인공신경망이 주춤하던 사이 머신러닝 알고리.. 2022. 8. 16.
4번째 인공지능 - 기울기 소실 문제 기울기 소실 문제 ● 다층 퍼셉트론은 월드 클래스가 아닙니다 ● 지난번 다층 퍼셉트론 상의 역전파 과정에서 기울기가 맨 처음의 층까지 전달되지 않고 중간에 소실되어 버리는 '기울기 소실' 문제가 발생했다 말씀드렸습니다. ● 기울기가 사라지게 되면 오차의 책임을 바로 앞단의 레이어에 있는 노드들에게 전가시키기 어렵습니다. 역전파가 어렵게 되는 것이죠. ● 기울기 소실의 원인은 활성화 함수 중 하나에 있었습니다. 바로 약방의 감초처럼 그냥 묻지도 말고, 따지지도 말고 가져다 쓰던 시그모이드 함수 때문이었죠. ● 시그모이드(Sigmoid) 함수는 0과 11 사이의 값만 가질 수 있도록 하는 비선형 함수입니다. x값이 작거나 커질수록 기울기가 완만하게 0으로 수렴되가는 특징이 있습니다. 이러한 특징이 선형의 함.. 2022. 8. 16.