2.2 오버 피팅 검출

  • 머신러닝이라는 것은 주어진 트레이닝 셋 데이터를 가지고 최적의 파리미터를 결정하는 것 이상의 의미는 없습니다.(63)

2.2.2 트레이닝 셋으로 검증한 결과

  • 이 예에서는 M=4를 넘어가면 테스트 셋에 대한 오차는 감소하지 않고 트레이닝 셋에 대한 오차만 감소합니다. 이것은 트레이닝 셋만이 갖는 특징과 함께 과잉으로 튜닝이 가해졌기 때문이라고 생각할 수 있습니다. 이처럼 트레이닝 셋에 특화된 튜닝이 가해지는 상황은 오버 피팅(과적합)이라고 부릅니다.(66)
    • (이해) 즉, 트레이닝 셋의 오차는 감소하지만 실제 세계의 예측을 위한 데이터 즉, 테스트 셋은 오차가 증가하는 경향. 훈련과 실제 예측과의 괴리를 오버 피팅이라고 부르는 것으로 보임.

2.2.3 교차 검증을 통해 일반화 능력을 검증한다

  • 여기서 주의할 점이 있습니다. 트레이닝 셋에 포함되어 머신러닝에 사용되는 데이터를 테스트 셋에 섞어서 사용하면 안됩니다. 테스트 셋을 사용하는 목적은 어디까지나 미지의 데이터를 예측하는 능력, 즉 모델의 일반화 능력을 검증하기 위한 것입니다.
  • 일반적으로 트레이닝 셋에 대한 정답률을 가지고 모델의 유용성을 판단할 수는 없는 것입니다.
  • 지금 테스트 셋으로 검증을 실시하는 목적은 오버 피팅이 발생하지 않는 최적의 차수 M을 찾는 것이기 때문에 일단 5종류의 검증 결과를 토대로 오버 피팅이 발생하는 차수 M을 결정할 것입니다.(68)

2.2.4 데이터 개수에 따른 오버 피팅 변화

  • 역으로 얘기하면 데이터 개수가 충분히 많다면 다항식의 차수도 커져서 모든 데이터를 재현할 수 없고 오버 피팅은 그다지 발생하지 않게 될 것이라고 상상해볼 수 있을 것입니다.
  • 데이터의 개수가 적을 경우 분석 대상의 본질적인 특징보다는 취득한 데이터가 우연히 가지고 있는 특징이 더 눈에 띄게 되고 그 데이터에 특화된 결과가 나오기 쉽다는 것입니다. 이것이 오버 피팅의 성질입니다. 분석 대상이 되는 데이터 개수가 많으면 그만큼 본질적인 특징을 알아보기 쉬워진다고 말할 수 있습니다.(71)

2.3 부록 – 헤세행렬의 성질

03 최우추정법 : 확률을 사용한 추정 이론

3.1 확률 모델을 이용한다

  • 파라메트릭의 3단계 (1) 파라미터를 포함한 모델(수식)을 설정한다 (2) 파라미터를 평가할 기준을 정한다 (3) 가장 적합하다고 평가할 수 있는 파라미터를 결정한다

3.1.1 데이터 발생 확률 설정

  • 일반적인 회귀분석에서는 데이터의 배후에 있는 함수관계를 추정하는데 최소제곱법에서 본 것처럼 모든 점을 정확히 지나는 함수를 발견하더라도 미래를 예측하는데에는 도움이 되지 않았습니다. 왜냐하면 이 데이터에 특화된 오버 피팅이 발생하기 때문입니다.(76)
  • 어느 정도의 범위에서 예측이 빗나갈 것인가에 대한 것도 사업적인 관점에서는 매우 중요한 정보가 됩니다.
  • ‘이 데이터의 배경에는 M차 다항식 관계가 존재하고 표준편차 ‘시그마’만큼의 오차가 포함되어 있다’라고 가정해 보겠습니다. – M차 다항식 관계를 가정한다는 점은 최소제곱법에서와 동일하지만 최우추정법에서는 이처럼 오차에 관한 가정이 하나 더 추가됩니다.(77)