꿈이 너무 많은 한 대학생의 공간

Gradient Descent Intuition (경사하강법 개념) 본문

Coursera 문서 번역/Machine Learning

Gradient Descent Intuition (경사하강법 개념)

청울울청 2020. 10. 26. 21:37

저번 강의에서 우리가 h(x) = ax + b에서 b가 0일때, a값만 정하는 비용 함수에 대해서 알아봤습니다.

또, a를 구하는 경사하강법 공식은 아래와 같습니다.

전에 설명한 학습 빈도 α를 제외하고, 뒤에 붙어있는 이상한 ∂ 등이 붙어있는 부분이 있습니다.

만약 미적분을 공부해보신 분은 알겠지만(저는 중학생이라 잘 모릅니다) 이 부분은 미분계수라고 합니다.

근데 이 미분계수와는 관계없이, a(세타1)은 언젠가는 최소값에 다다르게 됩니다. 아래의 그림처럼, 만약 기울기가 음수라면 a(세타1)의 값은 증가하고 기울기가 양수라면 a(세타1)의 값은 감소합니다. 그래야 비용함수 J의 최소값에 다다를 수 있기 때문이죠.

 

또한, 우리는 경사하강법을 제대로 진행시키기 위해 α 값을 조정해야 합니다. 만약 α값이 너무 크다면 최소값을 찾기는 커녕 오히려 그래프를 벗어나게 됩니다. (2번째 그림) 반대로, 너무 작다면 최소값에 다다르는 시간이 너무 길어집니다.

도대체 어떻게 α를 고정한 상태에서 경사하강법이 실행될까요?

경사하강법을 수행하면 수행할수록, 미분계수는 점점 작아지게 됩니다. 즉, 미분계수가 끝내 0에 다다르는 순간, a(세타1) = a - α * 0 이 되며, 즉 a = a, a의 최소값을 찾음으로써 a가 변화하지 않게 됩니다. 

Comments