인공지능 과학 기술은 다음과 같은 프로세스를 통해서 발달하기 시작했다. 데이터를 수집하고 모델을 정립한 뒤 예측을 해보고 만약 내가 원하는만큼 나오지 않는다면 더 많은 데이터를 수집하고, 모델을 수정한 뒤 다시 예측한다.
즉 방대한 데이터는 단순한 수학 공식으로 표현하는 것이 불가능하기 때문에, 자동으로 모델을 찾아내는 과정은 필수이다.
데이터 모델으로 학습하기 떄문에 주어진 응용에 맞는 충분한 다양한 데이터를 충분한 양만큼 수집해야한다. 예로 들어 정면 얼굴만 데이터만 수집할 때 옆 면이나, 약간 잘린 사진을 준다면 매우 낮은 성능을 내지만, 정면 얼굴에 있어 높은 값을 줄 것이다. 즉 추정 정확도가 높아진다. 즉 주어진 응용 환경을 자세히 볼 필요가 존재한다.
하지만 MNIST를 예시로 들자면 2^784만큼의 공간이 있지만 그 공간 안에 겨우 6만개의 데이터만 존재한다. 사실 저 큰 공간 안에 불 필요한 공간도 많다.
다음과 같은 왜곡된 샘플은 많이 나오지 않기 때문에 사실 불필요한 데이터라 볼 수 있기 떄문이다.
이제 이런 데이터를 가시화 한다고 가정하면 고차원으로 갈수록 데이터는 가시화하기 힘들다.
'Deep Learning' 카테고리의 다른 글
[딥러닝, 수학] 확률과 통계 (0) | 2021.10.17 |
---|---|
[딥러닝, 수학]선형대수와 퍼셉트론 (0) | 2021.10.17 |
[딥러닝] 간단한 기계학습 (0) | 2021.10.12 |
[인공지능] 특징 공간 (0) | 2021.10.12 |
[인공지능] 기계학습이란 (0) | 2021.10.12 |