티스토리 뷰

INTRO

회귀분석(Regression Analysis)

1. 회귀분석 종류

2. 단순회귀분석 / 다중회귀분석(중회귀분석)

3. 최적회귀방정식 선택 : 설명변수 선택

 

1. 회귀분석 종류

 

 

2. 단순회귀분석 / 다중회귀분석

회귀분석 : 하나 또는 그 이상의 변수들이 또 다른 변수에 미치는 영향에 대한 추론을 위한 통계기법

영향을 받는 변수를 종속변수(반응변수) y로 표기하며 영향을 주는 변수를 독립변수(설명변수) x, x1, x2 형태로 표기 

 

단순선형회귀모형 : 1개의 독립변수와 1개의 종속변수로 이루어져 있으며 오차항을 포함하는 선형관계식으로 나타냄

 

 

다중선형회귀모형 : 단순선형회귀모형에서 종속변수의 변동을 설명하는데 충분하지 않을 때,

2개 이상의 독립변수를 사용하여 종속변수의 변화를 설명하며 선형관계식으로 표현하면 다음과 같다

 

 

 

적합한 모형을 찾은 후 모형의 적절성 체크사항

모형이 통계적으로 유의미한가? F통계량 확인
유의수준 5% 하에서 F통계량의 p-value가 0.05보다 작으면 추정된 회귀식은 통계적으로 유의
회귀계수들이 유의미한가? 해당 계수의 t통계량과 p-value 또는 신뢰구간 확인
모형이 얼마나 설명력을 갖는가? 결정계수 확인
결정계수는 0~1값을 가지며, 높은 값을 가질 수록 추정된 회귀식 설명력이 높음
모형이 데이터를 잘 적합하고 있는가? 잔차를 그래프로 그리고 회귀진단을 한다.
데이터가 모형 가정을 만족시키는가? - 선형성 : 독립변수의 변화에 따라 종속변수도 일정크기로 변화
- 독립성 : 잔차와 독립변수의 값이 관련되지 않음
- 등분산성 : 독립변수의 모든 값에 대해 오차들의 분산이 일정
- 비상관성 : 관측치들의 잔차들끼리 상관이 없어야 함
- 정상성 : 잔차항이 정규분포를 이뤄야 함

 

 

3. 최적 회귀방정식의 선택 : 독립변수(설명변수)의 선택

종속변수(반응변수) y에 영향을 미칠 수 있는 가능한 모든 독립변수(설명변수)를 갖고 있다고 하면, y의 변화를 회귀방정식으로 표현하고 설명하기 위해 필요한 독립변수(설명변수) 선택을 고려해야한다.

- y에 영향을 미칠 수 있는 모든 독립변수(설명변수) x들을 y의 값을 예측하는데 참여 시킴

- 데이터에 독립변수(설명변수) x들의 수가 많아지면 관리에 많은 노력이 요구되므로, 가능한 적은 수의 독립변수(설명변수) 선택이 필요

 

1) 모든 가능한 조합의 회귀분석(All Possible Regression)

모든 가능한 독립변수들의 조합에 대한 회귀모형을 고려해 AIC(Akaike Information Criterion)나 BIC(Bayesian Information Criterion)의 기준으로 적합한 회귀모형을 선택

 

 

 

 

2) 단계적 변수선택(Stepwise Variable Selections)

전진 선택법(Forward Selection) 절편만 존재하는 상수모형을 시작으로 중요하다고 생각하는 독립변수(설명변수) 부터 차례로 모형에 추가. 추가할 수 있는 후보가되는 독립변수(설명변수) 중 모형에 추가했을 때 제곱합의 기준으로 유의하면 추가하고 그렇지 않은 경우는 추가를 멈추는 방법
후진 제거법(Backward Elimination) 독립변수(설명변수) 후보 모두를 포함하여 출발해 가장 적은 영향을 주는 변수부터 제거하면서 더 이상 유의하지 않은 변수가 없을 때 까지 제거하는 방법
단계별 방법(Stepwise Method) 전진 선택법에 의해 추가된 변수에 기인해 기존 변수가 그 중요도가 약화되면 해당변수를 제거하는 등 단계별로 추가 또는 제거되는 변수의 유의성을 검토하며 진행하는 방법

 

 

 

반응형
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/07   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31
글 보관함