회귀모형 선택기준 (AIC, BIC)

티스토리 뷰

자격증/빅데이터분석기사

hujoo 2022. 7. 22. 17:42

모형의 복잡도에 벌점(Penalty)을 주는 방법으로 AIC방법과 BIC 방법을 사용

모든 후보 모형들에 대해서 AIC, BIC를 계산하고 그 값이 최소가 되는 모형을 선택함.

AIC는 실제 데이터의 분포와 모형이 예측하는 분포 사이의 차이를 나타낸 지표

AIC 값이 낮을수록 모형의 적합도가 높다.

In(L) : 모형의 적합도
L : 우도 함수 (Likelihood Function)
p : 매개변수 개수

AIC의 단점은 표본이 커질수록 부정확해진다는 점인데, 이를 보완한 지표가 BIC이다.

In(L) : 모형의 적합도
L : 우도 함수 (Likelihood Function)
p : 매개변수 개수
n : 데이터 개수

AIC는 벌점을 모형의 추정된 매개변수의 개수에 곱하기 2로, BIC는 모형의 추정된 매개변수의 개수에 곱하기 In(n)으로 되어있다.

AIC의 벌점은 표본 크기에 상관없이 일정(2p)하지만, BIC의 벌점은 표본 크기가 커질수록 pLog(n) 만큼씩 함께 커진다.

BIC는 표본의 크기가 커질수록 복잡한 모형을 더 강하게 처벌한다.

상기 그림의 변수 갯수에 따른 bias와 variance 관계는 최적 모델 선택을 위한 균형점을 제시한다.

공지사항

최근에 올라온 글

최근에 달린 댓글

링크

글 보관함